'NLP/RAG' 카테고리의 글 목록

[논문 리뷰] RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval

ICLR 2024 [paper]Sarthi et al.31 Jan 2024 IntroductionBackground예시(NarrativeQA dataset)"신데렐라는 어떻게 행복한 결말을 맞이했는가?"기존의 retrieval-augmented 방법들은 연속적인 짧은 청크만 검색하기 때문에 전체 문서 컨텍스트에 대한 이해가 제한된다. 즉, 텍스트의 여러 부분에서 지식을 통합해야 하는 주제와 관련된 질문(위 예시)은 top-k개의 짧고 연속적인 텍스트를 이용하여 질문에 답하기에는 충분한 컨텍스트가 포함되지 않는다.기술의 발전에 따라 모델이 처리할 수 있는 컨텍스트 길이가 확장되면서, "모델에 많은 양의 컨텍스트를 입력해주면 되지 않을까"라는 의문이 제기되었다.그러나 Liu et al. (2023) 과 Su..

NLP/RAG 2024.07.27

[논문 리뷰] Complex Claim Verification with Evidence Retrieved in the Wild

NAACL 2024 [paper]Chen et al.15 Jun 2024 IntroductionClaim에 대해 fact-checking(e.g. true, mostly false, false)하기 위해 지지하거나 반박하는 증거를 찾는 것은 중요합니다. 기존 연구들은 1) claim이 생성된 시점보다 더 늦게 생성된 증거에도 접근합니다. 또는 2) claim이 단순히 포함되어 있는 문서를 검색하거나 3) claim에 대해 fact-checker가 작성한 글을 검색하도록 하는 제약이 없는 검색을 수행합니다. 본 논문에서는 claim이 생성되기 이전 시점의 문서들만 검색하도록 제한을 둠으로써, 웹사이트로부터 날것의 증거를 검색하여 claim을 검증하는 파이프라인을 제안합니다. 파이프라인은 claim deco..

NLP/RAG 2024.07.23

[논문 리뷰] Corrective Retrieval Augmented Generation

Shi-Qi et al.16 Feb 2024 Introduction기존의 RAG 프레임워크에서는 retriever에서 검색된 문서의 정확도에 따라서 generation의 퀄리티가 심하게 의존적이라는 위험한 문제가 있었습니다. 저퀄리티의 retriever가 질문과 관련이 없는 정보를 넘겨주면, generator의 퀄리티와 뛰어나더라도 hallucination과 같은 문제들을 일으켜 불만족스러운 response를 출력할 수 있습니다. 따라서 Corrective Retrieval Augmented Generation(CRAG)은 retriever의 출력을 스스로 수정하여 검색되는 문서들의 퀄리티를 향상시킴으로써, generation의 robustness를 강화하고자 합니다. 또한 검색된 문서들이 모두 잘못되었..

NLP/RAG 2024.07.18

[논문 리뷰] Precise Zero-Shot Dense Retrieval without Relevance Labels

ACL 2023 [paper]Luyu et al.20 Dec 2022 IntroductionDense Retrieval은 embedding similarity를 통해 문서를 검색하는 방법으로, 다양한 task에 대해 성공적으로 활용되고 있습니다. 반면에, Zero-Shot Dense Retrieval은 아직 어려운 점이 많습니다. 이를 해결하기 위한 최근 연구흐름을 보면 dense retriever를 고품질 데이터셋에 대해 학습하고, 새로운 task의 query에 대해 평가되는 alternative transfer learning 설정을 고려하고 있습니다. 많이 사용되는 대규모 데이터셋인 MS-MARCO는 judged query-document 쌍으로 구성되어 있습니다. 하지만 이러한 대규모 데이터셋은 ..

NLP/RAG 2024.07.12

부곡감자

NLP/RAG 4

티스토리툴바