标签：ChatGPT - 技术文章—

上篇文件介绍了RAG优化与评估的基本概念，以及使用TruLens-Eval在没有Ground-truth的情况下评估RAG应用。本篇文件主要是使用Ragas对RAG应用进行评估；使用了Gagas生成合成测试数据集，在只有知识库文档并没有Ground-truth（真实

在开发基于LLM的RAG应用并准备将其上线应用时，都会比较关注RAG的性能、质量、可靠性其回答的结果准确性到底如何，甚至可以说RAG的质量可靠性其重要性要大于性能，RAG“调好了”看上去效果不错，有没有什么方法去量化度量RAG应用的质量也至关重要，下图为RAG应用度量质量指标分布图。何为

大语言模型也只是将用户提供的大规模数据集训练而来，也并非万能的什么都知道，特别是一些小众知识、内部数据或私密的个人数据等，此时ChatGLM3肯定会胡乱回答就是ChatGPT4也不一定能给出满意回答；不少公司、个人都有自己的知识库或日志等此时如有可将这些数据以某种方式挂在大模型上此时在知识库存在

本篇主要内容为介绍ChatGLM3的安装使用，后续才会涉及到使用LangChain实现本地知识库的内容； ChatGLM为智谱与清华大学开源的一个大语言模型，支持多轮对话、内容创作等，ChatGLM3-6B为ChatGLM3系列中门槛相对较低的一个，本地部署提供兼容OpenAI的API；

2026-03-23

RAG知识库的可靠性评估（二）