易迟的博客 | Bryan Blog

NVIDIA 结构化报告生成方案详解

Detailed explanation of NVIDIA's structured report generation solution

背景介绍最近被 2024 年底的大量 RAG 总结的论文列表轰炸了一番，密集阅读大量论文时，真切感受到深入了解一个领域论文对精力的消耗是巨大的。刚好注意到来自 NVIDIA 的结构化报告生成方案，如果真的可行，是否可以使用大模型一次性阅读大量的论文，并生成脉络清晰的报告，基于报告选择合适的论文进行阅读，是否可以大大减少阅读论文的时间。因此深入研究了 NVIDIA 的方案，希望后续在...

Posted by Bryan on January 19, 2025

来自工业界的知识库 RAG 方案（一）：多轮会话优化

RAG solution from industry (1): multi-round session optimization

背景介绍在 RAG 最佳实践中，我介绍了 RAG 的各个核心模块的最佳实践方案，包括文件解析、分片、向量化、检索、重排序等。据此已经得到一个具备良好效果的 RAG 应用，但是如果想生成一个具体良好体验的 RAG 服务，还有一些问题需要优化。从目前客户的反馈来看，多轮会话的优化是用户最关心的点之一。我们人类进行交流时，往往都是你来我往的多轮沟通，因此对大模型应用的用户而言，很自然会带入...

Posted by Bryan on December 10, 2024

RAG 最佳实践

RAG best practices

背景介绍最近刚刚结束 CCF 的基于运营商文本数据的知识库检索，截止目前成绩还算不错，A榜和B榜排名都比较靠前。因为在比赛中实际是从 0 迭代最终的策略，因此耗时较长。最近在考虑 RAG 是否存在一些最佳实践，在不同的数据集或通用场景下都能取得不错的效果，这样就可以避免从头开始构建策略。刚好注意到近期有一些相对靠谱的行业进展，AutoRAG 就尝试基于数据集构造 QA 问答对，之后利...

Posted by Bryan on November 24, 2024

AIOps RAG 比赛获奖项目 EasyRAG 深度解读

In-depth interpretation of AIOps RAG competition winning project EasyRAG

背景介绍最近抽空参与 CCF 的 RAG 比赛，系统性对 RAG 检索中多种多样的检索优化方案进行了测试和对比，也发现了不少之前没有注意到的优化细节。从目前的实践来看，比赛确实是一个绝佳策略测试场所，很公平地对不同的优化方案进行了客观比较。实践中不时会发现直观感觉很有效的策略不生效，有些看起来平平无奇的策略反而效果绝佳。根据结果反向分析策略，更容易理解不同策略背后的适用场景和优劣，也可以帮...

Posted by Bryan on October 28, 2024

RAG 分块长距离信息缺失，Late Chunking 值得试试

Long distance contextual information is missing in RAG, you can try Late Chunking

背景介绍实际线上部署使用过 RAG （Retrieval Augmented Generation）服务的研发同学或多或少都会发现，按照常规的 RAG 方案进行文本切片并向量化之后，部分文本切片可能难以检索命中。这个往往是因为对应的分片缺失可供检索的信息。以医疗领域的病例检索为例，单个病例文件中病情描述（现病史）一般在文档最上面，相关的诊断结论在文档最下面，而病例的诊断结论中一般没有任...

Posted by Bryan on October 9, 2024

No Code 的大模型应用跟踪与批量测试方案

No Code's large model application tracking and batch testing solution

背景介绍最近抽空参加了一个讯飞的 RAG 比赛，耗时两周终于在最后一天冲上了榜首。整体的框架是基于 RAG 能力有点弱弱的 Dify 实现。在比赛调优的过程中，经常需要批量提交几百个问题至 Dify 获取回答，并需要跟踪多轮调优的效果差异。借助 Langfuse 可以通过网页跟踪结果，相对比较方便了很多。但是现有版本的 Langfuse 不支持提交文件构建数据集，私有化部署的版本...

Posted by Bryan on September 27, 2024

你的大模型应用表现真的好吗？借助 Dify + Langfuse 一探究竟

Is your large model application really performing well? Find out with Dify + Langfuse

背景介绍众所周知，大模型应用的输出存在着一些不确定性，往往需要迭代多轮才能得到较为稳定的输出结果，因此开发者往往需要关注大模型应用的实际表现，并进行有针对性的优化。然而常规 Web 服务的监控机制往往无法满足大模型应用的监控需求，因为大模型应用往往关注的不仅仅是响应延迟、吞吐量等基础指标，而是需要关注大模型应用输出的语义正确性。因此，本文将介绍如何借助 Dify 和 Langfuse ...

Posted by Bryan on September 14, 2024

给大模型加上记忆，深入探索 Mem0 项目

Adding memory to large models, exploring the Mem0 project

背景介绍在之前的软件应用中，我们总会在应用中保留大量的用户历史操作记录，方便用户下次使用时可以快速查看和复用，甚至基于这些用户记录可以为用户提供个性化的服务。而这些记录往往都保存在传统的结构化或非结构化数据库中。在大模型的应用，特别是助手类的大模型应用中，我们往往需要处理大量语义化的文本或多模态的信息，方便后续快速匹配，从而提供个性化的服务。为了支持这种语义检索的需求，往往会将数据保...

Posted by Bryan on September 3, 2024

来自工业界的知识库 RAG（六），独特的 RAG 框架 dsRAG 核心亮点解读

RAG services from industry (6)，an Interpretation of the Core Highlights of the RAG Framework dsRAG

背景介绍在前面介绍了较多的开源 RAG 框架，比如主打 Rerank 的 QAnything, 主打精细文件解析的 RagFlow, 主打模块化灵活组合的 GoMate。这些库的设计除了少量的独特之处外，相似的部分很多。最近有注意到一款另类的 RAG 框架 dsRAG，使用了较多独特的 RAG 优化方案，因此花了一些时间对其核心亮点进行了考察，整理相关内容在这边。核心亮点官方对 ...

Posted by Bryan on August 28, 2024

深入源码，洞察迭代 8 年的 html 文本转换库

Dive into the source code and gain insights into the html text conversion library that has been iterating for 8 years

背景介绍在前面 RAG 项目结构化文件解析方案比较文章中对常见的 html 解析方案进行了比较，发现 html_text + python-readability 可以实现高质量的 html 内容提取。在前一篇文章迭代 14 年的高质量 html 提取方案中对 python-readability 库进行了介绍，这篇文章就对剩下的 html_text 库进行介绍。 html_t...

Posted by Bryan on August 25, 2024

Bryan Blog