在人工智能领域,如何准确地从知识数据库中获取信息一直是个大难题。近日,人工智能公司 Anthropic 宣布推出了一种名为 “上下文检索” 的新方法,旨在提高知识检索的精确度。该方法通过在检索时添加更多的上下文信息,帮助 AI 系统提供更准确的答案。

现有的检索增强生成(RAG)系统通常将文档分割成小块进行索引,这样一来,重要的上下文信息可能会被忽略。Anthropic 的解决方案是在每个小块之前加上简短的文档摘要,这些摘要通常不超过100个字。例如,原本的文本片段 “该公司的收入比上一季度增长了3%”,经过上下文处理后变为:“这一片段来自 ACME 公司2023年第二季度的 SEC 文件;上一季度的收入为3.14亿美元,该公司的收入比上一季度增长了3%。” 通过这种方式,Anthropic 表示其新方法可以将信息检索的错误率降低多达49%。如果再结合结果重排序,准确率的提升甚至可以达到67%。

更有趣的是,Cornell 大学的研究也支持了这种上下文检索的方法。研究人员提出了一种类似的技术,称为 “上下文文档嵌入”(CDE)。他们的方法通过重新组织训练数据,让每个批次都包含相似但难以区分的文档,从而促使模型学习更细微的差别。此外,研究者们还开发了一种双阶段编码器,将邻近文档的信息直接融入嵌入中,这样模型就能够考虑到相对词频和其他上下文线索。

在 “巨量文本嵌入基准”(MTEB)的测试中,CDE 模型在其尺寸类别中取得了最佳成绩。实验还显示,CDE 在金融或医学等领域的小型特定数据集上特别有优势,并在分类、聚类和语义相似性等任务上表现出色。不过,研究者们也指出,目前尚不清楚 CDE 对拥有数十亿文档的大型知识库的影响,关于最佳上下文大小和选择的研究也还有待深入。

划重点:

🌟 Anthropic 的 “上下文检索” 方法能降低信息检索错误率多达49%,并可与其他技术结合进一步提升准确性。

📊 Cornell 大学的 “上下文文档嵌入” 方法显示出在特定领域中的强大优势,能有效改善分类和聚类任务。

🔍 未来仍需深入研究如何将这些方法应用于大规模知识库,寻找最佳上下文处理策略。