[논문 리뷰] Precise Zero-Shot Dense Retrieval without Relevance Labels

By BugokPotato Posted 2024. 7. 12. 00:48
ACL 2023 [paper]
Luyu et al.
20 Dec 2022

 

Introduction

Dense Retrieval은 embedding similarity를 통해 문서를 검색하는 방법으로, 다양한 task에 대해 성공적으로 활용되고 있습니다. 반면에, Zero-Shot Dense Retrieval은 아직 어려운 점이 많습니다. 이를 해결하기 위한 최근 연구흐름을 보면 dense retriever를 고품질 데이터셋에 대해 학습하고, 새로운 task의 query에 대해 평가되는 alternative transfer learning 설정을 고려하고 있습니다. 많이 사용되는 대규모 데이터셋인 MS-MARCO는 judged query-document 쌍으로 구성되어 있습니다. 하지만 이러한 대규모 데이터셋은 항상 있다고 가정할 수 없을 뿐만 아니라, 이는 상업적 사용을 제한하고 실제 검색 시나리오에 활용될 수 없습니다.

 

그래서 이를 해결하기 위해 Hypothetical Document Embeddings(HyDE)를 제안했습니다. 이름에서 알 수 있듯 가상문서를 생성하고 임베딩한 다음, 이를 활용하여 query와 관련있는 문서를 검색하는 방법입니다. 본 논문에서는 relevance supervision이 필요없는 완전한 Zero-Shot Dense Retrieval 시스템을 구축함으로써, 즉시 사용가능하며 다양한 task에 일반화하는 것을 목표로 합니다. HyDE 방법에서는 생성 모델이나 contrastive encoder 둘 다 그대로 유지되며 어떤 모델도 학습이 필요없다는 장점이 있습니다.

 

HyDE

HyDE의 과정은 다음과 같이 진행됩니다.

 

먼저 InstructGPT에 query q와 텍스트 명령어 INST( “write a paragraph that answers the question” )를 전달하면 query를 가상 문서로 매핑합니다. 생성된 문서는 실제 문서가 아니며, 오직 relevance 패턴을 포착하는 것이 목적입니다.

 

생성된 문서는 unsupervised contrastive encoder 모델인 Contriever를 사용해서 embedding vector로 인코딩합니다. 문서로부터 만들어진 가상 vector는 실제 말뭉치 embedding space에 있는 실제 문서와의 vector similarity를 계산함으로써 가장 유사한 실제 문서를 검색합니다. 여기서 검색은 contrastive learning 동안 내적으로 인코딩된 문서 간 유사도를 활용합니다. 또한 encoder's dense bottleneck는 hallucination 같은 문제들을 embedding 과정에서 필터링해주는 lossy compressor 역할을 하기를 기대합니다.

 

아래 그림은 전체 HyDE 시스템을 보여줍니다.

 

 

Experiments

Setup

Implementation

InstructGPT, Contriever 모델을 사용하여 HyDE를 실행합니다. 영어 검색 task에는 영어전용 Contriever 모델을 사용하고 비영어 검색 task에는 mContriever 다국어 모델을 사용합니다.

 

Datasets

Web search query sets인 TREC DL19, DL20을 고려하며, 이들은 MS-MARCO 데이터셋을 기반으로 합니다. 또한, BEIR 데이터셋으로부터 6개의 리소스가 부족한 데이터 모음을 사용합니다. 비영어 검색에 대해서는 Mr.Tydi 데이터셋으로부터 스와힐리어, 한국어, 일본어, 벵골어를 고려합니다. 각 데이터셋에 대해서 다른 instructions을 사용했으며, 이들은 비슷한 구조지만 생성되는 가상 문서들의 정확한 형태를 제어하기 위해서 서로 다른 quentifiers를 가지고 있습니다.

 

Web Search

아래 표 1은 TREC DL19와 TREC DL20에 대한 검색 결과를 나타냅니다. 여기서 HyDE는 precision이나 recall 지표 모든 관점에서 일반적으로 Contriever에 비해 상당한 성능 향상을 확인할 수 있습니다. unsupervised Contriever는 BM25보다 성능이 떨어지지만, HyDE는 BM25에 비해 큰 폭의 성능 향상을 보여줍니다.

 

HyDE는 미세조정된 모델과 비교하더라도 여전히 경쟁력이 있습니다. TREC DL19/20은 MS-MARCO에서 정의된 검색 태스크이며, 모든 미세조정된 모델은 supervised를 풍부하게 합니다. TREC DL19에서 HyDE는 Contriever와 비교할만한 map과 ndcg@10을 보여주고 가장 좋은 recall@1k를 보여줍니다. DL20에서는 HyDE가 Contriever보다 낮은 map과 ncdg@10을 보여주고 recall@1k는 비슷합니다. ANCE 모델은 HyDE보다 더 나은 ncdg@10을 보여주지만 recall은 낮으며, 이는 query와 relevant documents의 subset에 대한 편향을 나타낸다고 추측할 수 있습니다.

 

표 1. DL19/20에 대한 web search 결과

 

Low Resource Retrieval

아래 표 2는 BEIR로부터 리소스가 부족한 task에 대한 검색 결과를 나타냅니다. Web search와 유사하게 HyDE는 ndcg와 recall 모든 관점에서 전반적으로 Contriever에 비해 상당한 성능 향상을 보여줍니다. HyDE는 BM25보다 성능이 뛰어나지만 Trec-Covid에서 0.2%의 근소한 차이로 성능이 떨어집니다. 반면에 기본 모델인 Contriever는 성능이 많이 떨어집니다.

 

여기서도 HyDE가 미세조정된 모델에 비교해봐도 강력한 성능을 보이는 것을 확인할 수 있습니다. ANCE나 DPR이 MS-MARCO에서 미세조정되고 특히나 ANCE는 몇몇의 섬세하고 어려운 기술이 포함되어 있음에도 불구하고, HyDE는 이들에 비해 일반적으로 더 나은 성능을 보여줍니다. 

 

표 2. BEIR에 대한 리소스 부족 task

 

Multilingual Retrieval

다국어 설정은 HyDE에 몇 가지의 어려움을 부여합니다. 작은 크기의 contrastive encoder는 언어 수가 확장됨에 따라 포화 상태가 됩니다. 반면에 본 논문에서의 생성 LLM은 반대되는 문제에 직면해 있습니다. 영어나 프랑스어처럼 리소스가 많지 않은 언어에서는 용량이 큰 LLM의 학습이 부족할 수 있습니다.

 

그럼에도 불구하고 아래 표 3에서는 여전히 HyDE가 mContriever 모델을 개선할 수 있음을 확인했습니다. MS-MARCO에서 미세조정되고 transfer된 non-Contriever 모델보다 성능이 뛰어날 수 있습니다. 반면에 HyDE와 미세조정된 mContriever 사이에서 약간의 폭을 관찰할 수 있습니다. HyDE는 mContriever가 유사한 contrastive encoder를 사용하기 때문에, 여기서 고려한 비영어권 언어가 사전학습과 instruction-learning 단계 모두에서 훈련이 부족하기 떄문이라고 판단했습니다.

 

표 3. Mr.Tydi에 대한 MRR@100

 

Analysis

HyDE는 생성 LLM과 contrastive encoder로 구성됩니다. 여기서는 이러한 구현들을 변경해보며 실험합니다. 특히 소형 언어모델과 fine-tuning encoder를 고려합니다.

 

Effects of Different Generative Models

아래 표 4에서는 다른 insturction을 따르는 언어모델을 사용한 HyDE를 보여줍니다. 일반적으로 모든 모델이 unsupervised Contriever에 대한 성능 향상을 보여주고, 모델이 클 수록 더 큰 향상을 보여줍니다. 따라서 훈련 기술도 성능 차이에 어느정도 역할을 했다고 가정할 수도 있습니다.

 

표 4. TREC DL19/20에 대한 NDCG@10

 

HyDE with Fine-tuned Encoder

실험에 앞서, HyDE에 Fine-tuned Encoder를 사용하는 것은 의도와는 거리가 멉니다. HyDE는 relevance labels가 없어도 강점을 보이는 방법입니다. 단지 여기서는 HyDE embedding이 fine-tuned encoder에 영향을 미칠 수 있는 지에 대한 여부와 방법을 찾고자 했습니다. 표 4에서는 덜 강력한 instruction LMs가 fine-tuned retriever의 전반적인 성능에 부정적인 영향을 미칠 수 있음을 확인할 수 있습니다. 반면, InstructGPT 모델이 특히 DL19에서 성능을 더욱 높일 수 있는 것도 관찰했습니다. 이는 fine-tuned Encoder가 아니라 생성 모델에만 포착된 특정 요인이 존재할 지도 모름을 나타냅니다.

 

Conclusion

이 논문에서는 LLM과 dense encoder / retriever 간의 새로운 상호작용 패러다임을 제시했습니다. 결과적으로 relevance labels의 필요성을 제거했습니다. 이러한 장점들을 활용해서 multi-hop retrieval/QA나 대화형 검색 등과 같은 정교한 tasks에서 더 일반화되어 발전될 수 있습니다.

 

또한 본 논문에서는 애매모호한 쿼리를 가정하지 않고 간단하게 문제를 정의했습니다. 애매하거나 다양한 쿼리에 대한 연구도 향후에 진행되기를 기대합니다.

 

 

 

728x90