RAG(Retrieval-Augmented Generation,检索增强生成)是为大语言模型 (LLMs) 提供了从数据源检索的信息,以此为基础生成回答。简而言之,RAG结合了搜索技术和大语言模型的提示功能,即模型根据搜索算法找到的信息作为上下文来回答查询问题。无论是查询还是检索的上下文,都会被整合到发给大语言模型的提示中,然后让大语言模型根据召回的事实内容进行润色输出。 在2023年,大语言模型(LLM)逐渐火热之后,基于RAG架构的大语言模型系统成为最受欢迎的技术。许多产品几乎全依赖RAG架构,这包括结合网络搜索引擎和大语言模型的问答服务,以及数以百计的数据交互应用程序。
RAG的优点
RAG结合大语言模型使用,可以有效解决大语言模型本身存在的三个主要问题:
数据时效性问题:RAG可以根据用户上传的最新知识,将系统的知识时效性快速提升,而传统LLMs则需要进行成本高昂的大模型全(或增)量训练或微调; 幻觉问题:LLMs对于用户行业知识匮乏的时候,会出现常见的幻觉问题。使用RAG可以基于给定内容进行检索,降低最终输出的幻觉。鹰准智界提供系统级参数控制,甚至可以设置在检索召回内容质量不高的情况下,不让LLMs介入,而是直接回复“不知道”; 数据安全问题:对于数据安全要求极高的企业用户,如果不想使用在线大语言模型(如智谱、通义千问、百川、文心一言等),那么可以采用完全本地化部署。采用RAG可极大降低LLMs要求,配合百亿级别参数的可本地部署大模型即可提供绝大多数AI服务,还让企业数据保不出内网。
RAG的缺点
相比于Long-Context(长上下文)类型的大语言模型,RAG在上下文注意力(可以理解我记忆)方面的能力稍弱。比如理解一本10万字的小说,具备长上下文的大模型在理论上可以做到结合整本小说的角色和情节进行综合推理,而RAG受限于召回率(recall)与精准度(precsion)的抉择,会有缺失。
目前的主流做法是使用RAG结合Long-Context大语言模型来补充各自缺点,如TorchV AI就采用了月之暗面Moonshot-v1-128k的大语言模型。
评论