Bryan Blog

个人分享 但愿各位看官喜欢

为 AI 应用打造安全屏障:基于 Dify 的完整实践

Building a security barrier for AI applications: a complete practice based on Dify

背景介绍 2025 年是大模型应用爆发的一年。从年初的 DeepSeek 吸引大量开发者部署大模型产品,到 Manus 和 MCP 等 Agent 方案持续引发关注,行业内掀起了一股打造爆款大模型应用的热潮。 然而,在这股热潮中,大模型的安全性问题往往被忽视。事实上,AI 应用的安全性是实现完整大模型应用的关键环节。2024 年的一篇文章 Building A Generative AI ...

祛魅 Manus ,从 0 到 1 开源实现

Demystify Manus, from 0 to 1 open source implementation

背景介绍 Manus 是最近一个现象级的大模型 Agent 工具,自从发布以来,被传出各种神乎其神的故事,自媒体又开始炒作人类大量失业的鬼故事,Manus 体验码也被炒作为 10w 的高价。 之后又出现反转,被爆出实际体验效果不佳,存在造假的问题,Manus在X平台的账号被冻结。沟通之后,3月8日,Manus官方X账号又被解冻。 Manus 的故事一波三折,开源社区也没有闲着,MetaG...

$200 劝退,无缘 Deep Research,可以试试 AutoSurvey

Because $200 is too expensive to use Deep Research, you can try AutoSurvey

背景介绍 最近各种新的大模型辅助科研工具持续出现,在之前的文章中就介绍过 NVIDIA 的结构化报告生成方案,最近 OpenAI 也推出了类似的产品,叫做 Deep Research。Deep Research 可以根据需要进行深度的调研与信息整理,但是只有 Pro 用户才能享受到,$200 的价格直接劝退。在调研后发现了开源项目 AutoSurvey,相对之前的 NVIDIA 的方案更加...

NVIDIA 结构化报告生成方案详解

Detailed explanation of NVIDIA's structured report generation solution

背景介绍 最近被 2024 年底的大量 RAG 总结的论文列表轰炸了一番,密集阅读大量论文时,真切感受到深入了解一个领域论文对精力的消耗是巨大的。 刚好注意到来自 NVIDIA 的结构化报告生成方案,如果真的可行,是否可以使用大模型一次性阅读大量的论文,并生成脉络清晰的报告,基于报告选择合适的论文进行阅读,是否可以大大减少阅读论文的时间。 因此深入研究了 NVIDIA 的方案,希望后续在...

来自工业界的知识库 RAG 方案(一):多轮会话优化

RAG solution from industry (1): multi-round session optimization

背景介绍 在 RAG 最佳实践 中,我介绍了 RAG 的各个核心模块的最佳实践方案,包括文件解析、分片、向量化、检索、重排序等。据此已经得到一个具备良好效果的 RAG 应用,但是如果想生成一个具体良好体验的 RAG 服务,还有一些问题需要优化。 从目前客户的反馈来看,多轮会话的优化是用户最关心的点之一。我们人类进行交流时,往往都是你来我往的多轮沟通,因此对大模型应用的用户而言,很自然会带入...

RAG 最佳实践

RAG best practices

背景介绍 最近刚刚结束 CCF 的基于运营商文本数据的知识库检索,截止目前成绩还算不错,A榜和B榜排名都比较靠前。因为在比赛中实际是从 0 迭代最终的策略,因此耗时较长。最近在考虑 RAG 是否存在一些最佳实践,在不同的数据集或通用场景下都能取得不错的效果,这样就可以避免从头开始构建策略。 刚好注意到近期有一些相对靠谱的行业进展,AutoRAG 就尝试基于数据集构造 QA 问答对,之后利...

AIOps RAG 比赛获奖项目 EasyRAG 深度解读

In-depth interpretation of AIOps RAG competition winning project EasyRAG

背景介绍 最近抽空参与 CCF 的 RAG 比赛,系统性对 RAG 检索中多种多样的检索优化方案进行了测试和对比,也发现了不少之前没有注意到的优化细节。从目前的实践来看,比赛确实是一个绝佳策略测试场所,很公平地对不同的优化方案进行了客观比较。实践中不时会发现直观感觉很有效的策略不生效,有些看起来平平无奇的策略反而效果绝佳。根据结果反向分析策略,更容易理解不同策略背后的适用场景和优劣,也可以帮...

RAG 分块长距离信息缺失,Late Chunking 值得试试

Long distance contextual information is missing in RAG, you can try Late Chunking

背景介绍 实际线上部署使用过 RAG (Retrieval Augmented Generation)服务的研发同学或多或少都会发现,按照常规的 RAG 方案进行文本切片并向量化之后,部分文本切片可能难以检索命中。这个往往是因为对应的分片缺失可供检索的信息。 以医疗领域的病例检索为例,单个病例文件中病情描述(现病史)一般在文档最上面,相关的诊断结论在文档最下面,而病例的诊断结论中一般没有任...

No Code 的大模型应用跟踪与批量测试方案

No Code's large model application tracking and batch testing solution

背景介绍 最近抽空参加了一个讯飞的 RAG 比赛,耗时两周终于在最后一天冲上了榜首。 整体的框架是基于 RAG 能力有点弱弱的 Dify 实现。在比赛调优的过程中,经常需要批量提交几百个问题至 Dify 获取回答,并需要跟踪多轮调优的效果差异。借助 Langfuse 可以通过网页跟踪结果,相对比较方便了很多。但是现有版本的 Langfuse 不支持提交文件构建数据集,私有化部署的版本...

你的大模型应用表现真的好吗?借助 Dify + Langfuse 一探究竟

Is your large model application really performing well? Find out with Dify + Langfuse

背景介绍 众所周知,大模型应用的输出存在着一些不确定性,往往需要迭代多轮才能得到较为稳定的输出结果,因此开发者往往需要关注大模型应用的实际表现,并进行有针对性的优化。 然而常规 Web 服务的监控机制往往无法满足大模型应用的监控需求,因为大模型应用往往关注的不仅仅是响应延迟、吞吐量等基础指标,而是需要关注大模型应用输出的语义正确性。因此,本文将介绍如何借助 Dify 和 Langfuse ...