2026 年 05 月 28 日

周四·

一、今日最重要的 5 条

1. 智谱AI发布新一代旗舰模型GLM-5.1及系列模型更新

  • 来源:智谱AI开放文档
  • 链接:https://docs.bigmodel.cn/cn/update/new-releases#2025-08-11
  • 类型:model_update
  • 总分:8.85
  • 一句话摘要:智谱AI在官方文档中公告了一系列模型和产品更新,最引人注目的是2026年4月7日发布的GLM-5.1旗舰模型,其Coding能力大幅增强,支持长达8小时的长程自主任务,综合能力全面对齐Claude Opus 4.6,并成为首个实现此对齐的中国模型。同时发布的还有多模态Coding基座GLM-5V-Turbo、优化Agent场景的GLM-5-Turbo、以及GLM-5等模型。这些更新显著提升了模型的Agent能力、工具调用、多模态理解和成本效率。
  • 为什么重要:智谱AI作为国内重要大模型厂商,GLM-5.1在长程Agent任务和Coding能力上达到国际一流水平,对齐Claude Opus 4.6,这表明国产模型在Agent自主执行、工具使用等关键方向取得重大突破。同时,多模态模型的升级和免费版本推出,降低了应用门槛,对Agent开发、企业级AI应用落地具有直接参考价值。
  • 对我的工作启发:官方源,信息完整,GLM-5.1在长程Agent和Coding能力上有显著提升,对齐国际先进模型,与Agent、skill、大模型应用前景高度相关,work_relevance和importance评分高。confidence高,因为信息来源可靠且细节丰富。
  • 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
  • 建议动作:值得细看

2. Remote agents in Vibe. Powered by Mistral Medium 3.5.

  • 来源:Mistral AI
  • 链接:https://mistral.ai/news/vibe-remote-agents-mistral-medium-3-5
  • 类型:model_update
  • 总分:8.65
  • 一句话摘要:Mistral AI 发布 Mistral Medium 3.5 模型(128B参数,256k上下文,开源),基于该模型推出远程编码代理(Mistral Vibe)和 Le Chat 的 Work 模式,支持异步云运行、多步骤复杂任务及工具调用。
  • 为什么重要:该新闻涉及新模型能力提升、Agent 产品落地(远程编码代理、Work模式)、开源模型以及推理成本优化,与我关注的 Agent、工具调用、模型能力、应用前景和工程实践高度相关。
  • 对我的工作启发:信息来源为官方博客,内容详实,涉及新模型、Agent产品(远程代理、Work模式)及开源,与重点方向强相关,重要性高,因此评分高并建议细看。
  • 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
  • 建议动作:值得细看

3. GLM-5.1 新一代旗舰模型上线

  • 来源:智谱AI开放文档
  • 链接:https://docs.bigmodel.cn/cn/update/new-releases#2025-12-08
  • 类型:model_update
  • 总分:8.65
  • 一句话摘要:GLM-5.1 旗舰模型上线,Coding 能力增强,支持独立持续工作8小时的长程任务,综合能力全面对齐 Claude Opus 4.6,并通过多轮 SFT、RL 等强化 tool use 能力。
  • 为什么重要:这是国内首个在综合能力上全面对齐 Claude Opus 4.6 的中国模型,长程 Agent 任务能力显著提升,对 Agent 落地和模型竞争力有重大影响。
  • 对我的工作启发:官方文档发布,信息完整,核心内容与 Agent、Coding、模型能力强相关,对工作和投资均有高参考价值。
  • 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
  • 建议动作:值得细看

4. 2025-07-28

  • 来源:智谱AI开放文档
  • 链接:https://docs.bigmodel.cn/cn/update/new-releases#2025-07-28
  • 类型:model_update
  • 总分:8.65
  • 一句话摘要:智谱AI发布GLM-4.5系列基座模型,该模型为SOTA级原生智能体大模型,参数效率翻倍,API价格仅为Claude的1/10,极速版速度超100 tokens/秒,在Agentic Coding方面表现优异,支持一键兼容Claude Code框架。
  • 为什么重要:GLM-4.5在参数效率和成本上大幅优化,且Agentic Coding能力突出,对Agent应用和开发者工具链有直接推动作用,同时价格优势可能影响模型市场竞争格局。
  • 对我的工作启发:官方文档发布,信息可靠;GLM-4.5在Agent、Coding、成本方面高度契合关注重点,且价格对标Claude,具有商业竞争力,对工作和投资均有较高价值。
  • 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
  • 建议动作:值得细看

5. GLM-5.1 新一代旗舰模型上线

  • 来源:智谱 AI 新品发布
  • 链接:https://docs.bigmodel.cn/cn/update/new-releases#2026-04-07
  • 类型:model_update
  • 总分:8.60
  • 一句话摘要:智谱AI发布GLM-5.1旗舰模型,Coding能力大幅增强,支持单次任务持续8小时的长程任务,综合能力全面对齐Claude Opus 4.6,通过multi-turn SFT和RL强化tool use与稳定性。
  • 为什么重要:该模型直接对标国际前沿Claude Opus 4.6,且长程Agent能力(8小时闭环)是重要进展,对于Agent落地、复杂工程任务有重大参考价值。
  • 对我的工作启发:官方发布,信息可靠;与Agent、coding、应用落地强相关;综合能力对齐Claude,影响竞争格局。
  • 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
  • 建议动作:值得细看

二、今日最值得看的 Agent / Skill

  • 名称:CrewAI Discovery
  • 类型:tool
  • 来源:CrewAI Blog
  • 链接:https://www.crewai.com/blog/crewai-discovery
  • 推荐理由:直接切入 B 端流程自动化的核心痛点:知道“自动化什么”比“如何构建”更重要。结合新闻中 agent 应用加速的趋势,Discovery 能帮助算法负责人快速定位高价值场景,减少试错成本。
  • 对我的工作启发:作为电商 B 端算法负责人,你经常需要评估哪些流程(如商品图审核、结构化抽取)适合用 agent 自动化。Discovery 的方法论和理念可以启发你建立自己的用例筛选机制,提升自动化项目成功率。
  • 建议动作:阅读 CrewAI Discovery 的详细博客,了解其用例发现逻辑;思考如何将其思路应用到你的业务中,例如通过分析商品审核流程中的重复人工环节,优先用 agent 实现。
  • 置信度:0.85

三、模型更新

公司 更新 影响 分数 链接
智谱AI 智谱AI发布新一代旗舰模型GLM-5.1及系列模型更新 智谱AI作为国内重要大模型厂商,GLM-5.1在长程Agent任务和Coding能力上达到国际一流水平,对齐Claude Opus 4.6,这表明国产模型在Agent自主执行、工具使用等关键方向取得重大突破。同时,多模态模型的升级和免费版本推出,降低了应用门槛,对Agent开发、企业级AI应用落地具有直接参考价值。 8.85 原文
Mistral AI Remote agents in Vibe. Powered by Mistral Medium 3.5. 该新闻涉及新模型能力提升、Agent 产品落地(远程编码代理、Work模式)、开源模型以及推理成本优化,与我关注的 Agent、工具调用、模型能力、应用前景和工程实践高度相关。 8.65 原文
智谱AI GLM-5.1 新一代旗舰模型上线 这是国内首个在综合能力上全面对齐 Claude Opus 4.6 的中国模型,长程 Agent 任务能力显著提升,对 Agent 落地和模型竞争力有重大影响。 8.65 原文
智谱AI 2025-07-28 GLM-4.5在参数效率和成本上大幅优化,且Agentic Coding能力突出,对Agent应用和开发者工具链有直接推动作用,同时价格优势可能影响模型市场竞争格局。 8.65 原文
智谱AI GLM-5.1 新一代旗舰模型上线 该模型直接对标国际前沿Claude Opus 4.6,且长程Agent能力(8小时闭环)是重要进展,对于Agent落地、复杂工程任务有重大参考价值。 8.60 原文
智谱AI GLM-5 新一代旗舰模型上线 GLM-5聚焦Agent和系统工程,且采用Sparse Attention优化推理效率,对Agent长程任务和基础设施优化有直接参考。 8.60 原文
Moonshot AI Kimi K2 Thinking 模型发布并开源,全面提升 Agent 和推理能力 该模型将思考与工具使用原生结合,直接推动 Agent 能力边界,且开源策略可能影响行业竞争格局,对 Agent 应用落地和开发者生态有重要意义。 8.55 原文
DeepSeek DeepSeek-R1 Release DeepSeek-R1 是首个性能对标 OpenAI o1 且完全开源的推理模型,MIT 许可允许自由商用和蒸馏,极大推动了开源推理能力生态,对模型能力、应用落地和商业竞争格局有重大影响。 8.50 原文

四、新应用场景

场景 产品/公司 价值 可复制性 链接
product_launch Google DeepMind Google DeepMind发布了AlphaEvolve,一个基于Gemini模型的编码代理,通过进化框架自动发现和优化算法,已在谷歌数据中心调度、芯片设计(TPU)和AI训练中应用,显著提升效率(例如回收0.7%计算资源)。 原文来自官方博客,信息可靠,与Agent、工具调用、实际应用高度相关,提供了具体效果数据(0.7%资源回收、TPU改进),对Agent工程化和AI基础设施优化有明确参考意义,因此给予高分和'值得细看'行动。 原文
product_launch DeepSeek DeepSeek API推出了磁盘上下文缓存功能,缓存命中时每百万tokens收费仅0.014美元,成本降低高达90%,并显著降低延迟。 官方文档,信息完整。该功能大幅降低API成本,对Agent和AI应用开发有重要参考价值。与成本优化、应用落地高度相关,且DeepSeek在磁盘缓存上具有首创性。 原文
product_launch 智谱AI 智谱AI发布一系列新品,包括2026年4月的GLM-5.1旗舰模型(长程Agent任务能力提升、对齐Claude Opus 4.6)、GLM-5V-Turbo多模态编码模型、GLM-5-Turbo龙虾增强模型等,以及2025年以来的多个模型和功能更新,如GLM-4.7、AutoGLM-Phone、GLM-OCR等,全面强化Coding、Agent、多模态和工具调用能力。 基于官方文档,信息可靠;GLM-5.1等模型在Agent长程任务、工具调用等方向有重要进展,与关注重点(Agent、Coding、应用落地)高度相关,工作相关性高;模型能力对齐Claude Opus 4.6且成本优化,投资参考价值大;新颖度高,但部分模型为迭代更新,所以扣1分。 原文
product_launch Anthropic Anthropic推出Claude for Small Business,包含连接器和预建工作流,集成QuickBooks、PayPal、HubSpot等工具,可自动执行工资计算、月结、发票催收等任务。 官方产品发布,信息详实,涉及Agent工作流、工具集成和中小企业应用,与重点方向强相关。 原文
product_launch 智谱AI 智谱AI发布AutoGLM-Phone,一个AI手机智能助理框架,支持用自然语言自动完成App操作任务,已适配50+主流中文应用场景。 智谱AI官方发布的Agent框架,聚焦手机自动化,与Agent应用落地高度相关,信息来自官方文档,可靠且新颖。 原文
product_launch 美团 美团发布行业首个AI全域解决方案“牵牛花Claw”,针对即时零售商家多门店管理、精细化运营、营策略等痛点,提供AI服务和系统的整体方案。 该新闻涉及AI在即时零售商业场景中的产品化落地,与Agent、应用方向强相关,提供了具体的解决方案和行业痛点,值得深入研究。 原文
product_launch Anthropic Anthropic推出Claude Design新产品,基于Claude Opus 4.7模型,用户可与Claude协作创建设计、原型、幻灯片等视觉作品,支持导入设计系统、协作编辑、导出至Canva等,面向Pro/Max/Team/Enterprise用户。 新产品发布,直接涉及AI在设计协作中的应用,与Agent、工具调用、应用落地强相关;信息来自官方,内容详实。评分较高,建议细看。 原文
application Anthropic Anthropic 启动 Project Glasswing,使用 Claude Mythos Preview 与约 50 个合作伙伴在关键软件中发现超过一万个高危漏洞,显著提升了漏洞发现效率。 官方公告,信息可靠,展示了模型能力的突破性应用,与 agent 及企业安全应用相关,但安全并非核心关注点,故工作相关性评分中等偏上。 原文

五、论文/技术趋势

论文/技术 方向 结论 对业务启发 链接
ForestHG-Trace: Traceable Long-Horizon Ecological Reasoning over Large-Scale Forest Scenes agent、application、research 提出了ForestHG-Trace框架,通过生态超图表示和LLM引导的Agent调用确定性工具(读取、过滤、扩展、聚合、比较、审计),实现可追溯的长程生态推理,并构建了ForestTraceQA基准。 与Agent、工具调用、长程推理方向直接相关,框架设计清晰,有具体实现和基准,对实际Agent系统开发有重要借鉴意义。 原文
Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems agent、application、infrastructure、research 提出一种多Agent架构,用于实时数据流上的自主洞察发现。系统包含连续发现循环:Agent生成假设、编译为可执行分析、验证结果并生成可视化和可部署应用。基于Apache Kafka和Flink,采用合约驱动设计,支持模块化、可观测性和安全执行。在零售、金融和公共数据用例中展示了从查询驱动到主动发现的转变。 与Agent、应用落地、数据分析自动化强相关,架构设计和用例直接可借鉴。虽然仍是论文,但细节充分,可信度高。重要性高,值得深入研究。 原文
OralAgent: Integrating Reasoning, Tools, and Knowledge for Interactive Dental Image Analysis agent、multimodal、application、research 提出OralAgent,首个牙科专用AI agent,集成22种视觉分析工具和368本牙科教科书,实现多模态推理、工具使用、知识检索和多步骤工作流执行;同时发布OralCorpus语料和OralQA-ZH基准,在多个基准上达到SOTA。 首个牙科专用AI agent,集成了工具使用、知识检索和工作流,完全契合Agent和工具应用方向;论文提供代码和模型,信息充分。 原文
StoryMI: Steerable Multi-Agent Therapeutic Dialogue Generation agent、application、research 提出StoryMI多智能体框架,通过情境化故事和交互代理控制实现可引导的心理治疗对话生成,在12种MI代码和13个症状域上验证有效性。 多Agent框架与可控生成是重点关注方向,且论文提供了可复现代码和数据,实用性强,重要性评分达到7,故推荐细看。 原文
介绍一下 MoBA:面向长文本大模型的混合块注意力机制 model_capability、research、infrastructure Moonshot AI 提出 MoBA(混合块注意力),将 MoE 思想与稀疏注意力结合,通过块划分和动态路由实现长文本高效处理,在 100 万上下文时速度提升 6.5 倍,1000 万上下文时提升 16 倍,并保持与全注意力相当的性能。 信息来自官方博客并附有论文和代码,内容详实。长文本效率提升对模型能力影响大,但非 Agent 直接相关。published_at 缺失降低 confidence。 原文
Hierarchical Prompt-Domain Control and Learning for Resource-Constrained Agentic Language Models agent、cost、application、research 提出一种分层控制与学习框架,针对资源受限的Agent语言模型,通过蒸馏、在线监督和提示域控制,在成本、可靠性上优于基线方案。 与Agent、成本、应用落地强相关,提出了实用的分层控制框架,对Agent系统可靠性有参考价值,值得深入研究。 原文
$E^3$-Agent: An Executable and Evolving Agent for Resource Management of Edge Generative Inference agent、infrastructure、cost、application 提出 $E^3$-Agent,一个用于边缘生成式推理资源管理的可执行和进化智能体。它将毫秒级快速路径路由器与事件驱动的 LLM 元控制器分离,通过工具接口暴露风险门控、路由配置、性能校准等控制面,从执行反馈中在线学习以适应动态变化。在模拟实验中相较于静态基线降低平均延迟 65%-73%。 信息完整、来源可靠(arXiv),与 Agent、工具接口、工程化强相关,评分主要基于其创新性和应用潜力。 原文
技术报告:Muon 优化器的首次大规模训练实践 model_capability、cost、research、infrastructure、application Moonshot AI 发布技术报告,提出两项改进使 Muon 优化器可高效扩展至大规模语言模型训练,相比 AdamW 计算效率提升约 2 倍;同时开源基于 Muon 训练的 3B/16B MoE 模型 Moonlight 及其分布式实现。 来源官方博客,信息完整;改进训练效率2倍,对模型训练基础设施有重要参考价值;与用户关注的模型能力、成本优化方向相关,且开源模型可借鉴。 原文

六、产业和投资观察

  • 算力:Remote agents in Vibe. Powered by Mistral Medium 3.5.;GLM-5 新一代旗舰模型上线;清程极智:Token成为AI时代的 “水电煤”,中国AI产业从能用迈向好用
  • 模型公司:智谱AI发布新一代旗舰模型GLM-5.1及系列模型更新;Remote agents in Vibe. Powered by Mistral Medium 3.5.;GLM-5.1 新一代旗舰模型上线
  • 应用层:智谱AI发布新一代旗舰模型GLM-5.1及系列模型更新;Remote agents in Vibe. Powered by Mistral Medium 3.5.;GLM-5.1 新一代旗舰模型上线
  • 云厂商:GLM-5.1 新一代旗舰模型上线;GLM-5 新一代旗舰模型上线;Introducing Claude for Small Business
  • 开源生态:智谱AI发布新一代旗舰模型GLM-5.1及系列模型更新;Kimi K2 Thinking 模型发布并开源,全面提升 Agent 和推理能力;DeepSeek-R1 Release
  • 监管:Voluntary Collusion with Secret Tools in Competing LLM Agents;Announcing our updated Responsible Scaling Policy;RULER: Representation-Level Verification of Machine Unlearning

七、对我工作的启发

  • 关注多模态商品理解和图文审核场景中可复用的新模型能力,优先评估是否能降低人工审核和标注成本。
  • 跟踪 agent/workflow agent 在 B 端流程中的稳定性进展,适合先从内部运营、质检和数据处理流程试点。
  • 价格、推理效率和基础设施变化可能影响小模型/大模型路由策略,需要沉淀成本基准。
  • 论文趋势可用于更新 OCR、结构化抽取、弱监督和 synthetic data 的候选技术池。

八、建议动作

值得细看

值得收藏

值得转给团队

可以忽略