Anthropic 通过“上下文检索”新方法提高 RAG 准确性

在人工智能领域，如何准确地从知识数据库中获取信息一直是个大难题。近日，人工智能公司 Anthropic 宣布推出了一种名为 “上下文检索” 的新方法，旨在提高知识检索的精确度。该方法通过在检索时添加更多的上下文信息，帮助 AI 系统提供更准确的答案。

现有的检索增强生成（RAG）系统通常将文档分割成小块进行索引，这样一来，重要的上下文信息可能会被忽略。Anthropic 的解决方案是在每个小块之前加上简短的文档摘要，这些摘要通常不超过100个字。例如，原本的文本片段 “该公司的收入比上一季度增长了3%”，经过上下文处理后变为:“这一片段来自 ACME 公司2023年第二季度的 SEC 文件;上一季度的收入为3.14亿美元，该公司的收入比上一季度增长了3%。” 通过这种方式，Anthropic 表示其新方法可以将信息检索的错误率降低多达49%。如果再结合结果重排序，准确率的提升甚至可以达到67%。

更有趣的是，Cornell 大学的研究也支持了这种上下文检索的方法。研究人员提出了一种类似的技术，称为 “上下文文档嵌入”（CDE）。他们的方法通过重新组织训练数据，让每个批次都包含相似但难以区分的文档，从而促使模型学习更细微的差别。此外，研究者们还开发了一种双阶段编码器，将邻近文档的信息直接融入嵌入中，这样模型就能够考虑到相对词频和其他上下文线索。

在 “巨量文本嵌入基准”（MTEB）的测试中，CDE 模型在其尺寸类别中取得了最佳成绩。实验还显示，CDE 在金融或医学等领域的小型特定数据集上特别有优势，并在分类、聚类和语义相似性等任务上表现出色。不过，研究者们也指出，目前尚不清楚 CDE 对拥有数十亿文档的大型知识库的影响，关于最佳上下文大小和选择的研究也还有待深入。

划重点:
🌟 Anthropic 的 “上下文检索” 方法能降低信息检索错误率多达49%，并可与其他技术结合进一步提升准确性。
📊 Cornell 大学的 “上下文文档嵌入” 方法显示出在特定领域中的强大优势，能有效改善分类和聚类任务。
🔍 未来仍需深入研究如何将这些方法应用于大规模知识库，寻找最佳上下文处理策略。