Bryan Blog

个人分享 但愿各位看官喜欢

迈出解决 Agent 不确定性的第一步:结构化解析

Taking the First Step to Solving Agent Uncertainty: Structured Parsing

背景介绍 在之前的文章 Agent 落地分享一 和 Agent 落地分享二 中,深入探讨了 Agent 无法落地的诸多问题以及相应的解决方案。其中反复强调的核心问题是如何提升大模型产品的确定性——毕竟,没有人会为一个偶尔超常发挥但时不时”抽风”的产品买单。 如何提升大模型产品的确定性,是每一个大模型产品研发团队都需要面对的核心挑战。提升大模型产品的确定性涉及多个维度,本文将从结构化解析这...

为什么大模型 Agent 产品总是无法落地?来自实战派的经验分享(二)

Why do large-scale agent products always fail to land? Experience sharing from practical people(2)

背景介绍 在之前的文章 Agent 落地经验分享(一) 中,介绍了 Agent 落地中存在的问题,并给出了一些初步的解决方案。 在这篇文章中,针对 Agent 落地中的关键问题,给出更进一步的实战经验,希望对大家的 Agent 产品落地有所帮助。本文主要参考自 12-factor-agents。 方案选择 在构建 Agent 的路径上,存在两种差异明显的方案:Agentic 方案与 ...

为什么大模型 Agent 产品总是无法落地?来自实战派的经验分享(一)

Why do large-scale agent products always fail to land? Experience sharing from practical people(1)

背景介绍 自 2024 年底以来,行业不断有人喊出”2025 年 Agent 元年”的口号,不少大模型公司也开始调整战略方向,纷纷布局 Agent 领域。然而,大半年过去了,Agent 仅在有限领域实现了落地,在更多严肃的应用场景下,Agent 产品的落地效果并不理想。 在新项目中持续进行 Agent 相关产品的开发落地,在探索过程中发现了 Agent 落地的一些关键障碍。结合最近解决问...

来自工业界的多 Agent 框架最全细节对比

The most complete comparison of multi-agent frameworks from the industry

背景介绍 过去的项目涉及 RAG 比较多,在 2024 年整理过 来自工业界的开源知识库 RAG 项目最全细节对比,得到了不少工程师比较好的反馈。最近新项目使用的多 Agent 的技术方案,实际对多 Agent 框架进行了详细了调研,结合最近的项目的具体实践,整理相关内容分享在这边,期望对其他人的框架选型有一些帮助。 在这篇文章中主要对比目前相对成熟或好评较多的多 Agent 框架,主要对...

从医学视角深度解析微软医学 Agent 服务 MAI-DxO

In-depth analysis of Microsoft Medical Agent service MAI-DxO from a medical perspective

背景介绍 作为医学大模型应用领域的从业者,我持续关注行业最新进展。近期,微软发布的一篇论文 Sequential Diagnosis with Language Models 在医学大模型领域引起了广泛关注。微软在该论文中构建了一个名为 MAI-DxO 的 Agent 应用,在复杂病例诊断方面取得了显著突破。 根据论文数据,MAI-DxO 的诊断准确性达到 85.5%,而人类全科医生的诊...

大模型应用落地反思:突破RAG幻想,以场景为锚,用评估导航

Reflections on the application of LLM: Break through RAG fantasy, anchor with scenarios, and navigate with evaluation

背景介绍 过去几年,持续在医疗领域的大模型应用进行实践探索,个人在大模型技术专栏 中持续积累了近 60 篇相关技术博客。过往的实践中,尝试了RAG、Agent、模型微调、知识图谱等多种技术路线,医学通用场景下 RAG 的准确率已由最初的不足 50% 提升至 90% 左右。然而,医学作为高度严谨的应用场景,90% 的准确性依旧无法完全满足生产需求。 2025 年以来,进一步聚焦医学细分场景...

跟着企业 RAG 竞赛冠军学习 RAG 最佳实践

Learn RAG best practices from the enterprise RAG competition champion

背景介绍 我一直认为,大模型竞赛是检验方案有效性的宝贵试验场。以 RAG 实践为例,相关论文层出不穷,但真正落地且有效的策略却相对有限。竞赛则为各类方案提供了客观、公正的比拼环境,在合适的验证集下,方案优劣一目了然。 在之前的文章 RAG 最佳实践 中,我结合过往实践与相关研究,总结了经过实际验证的最佳策略组合。近期注意到 Ilya Rice 分享了其在企业 RAG 竞赛中获奖的方案,本文...

Vibe Coding 真能干掉程序员吗?一个父亲节特别项目

Can Vibe Coding really replace programmers? A special project for Father's Day

背景介绍 今年以来,关于 Vibe Coding 的内容就持续出现,甚至经常会还有程序员会被完全替代的说法。从我之前的经验来看,出现的这种新现象主要来自于两种情况: 大模型的特定领域的能力逐渐成熟,考虑到大模型一次性解决所有行业变得不那么现实的情况下,当前的大模型会有意识在特定领域进行明显的强化,比如编程,数学等。 行业工具的成熟,随着 Cursor,W...

求职季,用大模型给 HR 减减负

In the job hunting season, use llm to reduce the burden on HR

背景介绍 最近因为岗位扩张,经历了密集的简历轰炸。在短短一周内抽空筛查了接近 100+ 的前后端的简历筛选,和 HR 沟通之后,她反馈她那边已经做过一轮简历筛选,过滤掉接近 90% 的简历了,预期 HR 在短期内需要处理 1000+ 的简历筛选。考虑到这个工作的重复性,而且简历内容的筛查还存在一些明显的技术门槛,没有相关的技术背景容易误判,似乎有自动化的必要性。 我们当前有一台测试服务器,...

RAG 远远不够,外部数据增强的多维策略探索

RAG is far from enough, exploring different solutions for external data augmentation

背景介绍 随着大模型技术的发展,RAG(检索增强生成)已成为提升AI应用能力的标配方案。在过去两年中,我从最初的 langchain Demo 实践,到 langchain chatchat、QAnything 和 RagFlow 等项目的探索,见证了检索技术从简单的向量检索发展到知识图谱和 Agentic RAG 的过程。 然而随着实践深入,RAG 方案的局限性逐渐显现。在处理复杂的现...