2026 年 05 月 28 日

周四·

‹ 2026 年 05 月 27 日 2026 年 05 月 29 日 ›

一、今日最重要的 5 条

1. 智谱AI发布新一代旗舰模型GLM-5.1及系列模型更新

来源：智谱AI开放文档
链接：https://docs.bigmodel.cn/cn/update/new-releases#2025-08-11
类型：model_update
总分：8.85
一句话摘要：智谱AI在官方文档中公告了一系列模型和产品更新，最引人注目的是2026年4月7日发布的GLM-5.1旗舰模型，其Coding能力大幅增强，支持长达8小时的长程自主任务，综合能力全面对齐Claude Opus 4.6，并成为首个实现此对齐的中国模型。同时发布的还有多模态Coding基座GLM-5V-Turbo、优化Agent场景的GLM-5-Turbo、以及GLM-5等模型。这些更新显著提升了模型的Agent能力、工具调用、多模态理解和成本效率。
为什么重要：智谱AI作为国内重要大模型厂商，GLM-5.1在长程Agent任务和Coding能力上达到国际一流水平，对齐Claude Opus 4.6，这表明国产模型在Agent自主执行、工具使用等关键方向取得重大突破。同时，多模态模型的升级和免费版本推出，降低了应用门槛，对Agent开发、企业级AI应用落地具有直接参考价值。
对我的工作启发：官方源，信息完整，GLM-5.1在长程Agent和Coding能力上有显著提升，对齐国际先进模型，与Agent、skill、大模型应用前景高度相关，work_relevance和importance评分高。confidence高，因为信息来源可靠且细节丰富。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

2. Remote agents in Vibe. Powered by Mistral Medium 3.5.

来源：Mistral AI
链接：https://mistral.ai/news/vibe-remote-agents-mistral-medium-3-5
类型：model_update
总分：8.65
一句话摘要：Mistral AI 发布 Mistral Medium 3.5 模型（128B参数，256k上下文，开源），基于该模型推出远程编码代理（Mistral Vibe）和 Le Chat 的 Work 模式，支持异步云运行、多步骤复杂任务及工具调用。
为什么重要：该新闻涉及新模型能力提升、Agent 产品落地（远程编码代理、Work模式）、开源模型以及推理成本优化，与我关注的 Agent、工具调用、模型能力、应用前景和工程实践高度相关。
对我的工作启发：信息来源为官方博客，内容详实，涉及新模型、Agent产品（远程代理、Work模式）及开源，与重点方向强相关，重要性高，因此评分高并建议细看。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

3. GLM-5.1 新一代旗舰模型上线

来源：智谱AI开放文档
链接：https://docs.bigmodel.cn/cn/update/new-releases#2025-12-08
类型：model_update
总分：8.65
一句话摘要：GLM-5.1 旗舰模型上线，Coding 能力增强，支持独立持续工作8小时的长程任务，综合能力全面对齐 Claude Opus 4.6，并通过多轮 SFT、RL 等强化 tool use 能力。
为什么重要：这是国内首个在综合能力上全面对齐 Claude Opus 4.6 的中国模型，长程 Agent 任务能力显著提升，对 Agent 落地和模型竞争力有重大影响。
对我的工作启发：官方文档发布，信息完整，核心内容与 Agent、Coding、模型能力强相关，对工作和投资均有高参考价值。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

4. 2025-07-28

来源：智谱AI开放文档
链接：https://docs.bigmodel.cn/cn/update/new-releases#2025-07-28
类型：model_update
总分：8.65
一句话摘要：智谱AI发布GLM-4.5系列基座模型，该模型为SOTA级原生智能体大模型，参数效率翻倍，API价格仅为Claude的1/10，极速版速度超100 tokens/秒，在Agentic Coding方面表现优异，支持一键兼容Claude Code框架。
为什么重要：GLM-4.5在参数效率和成本上大幅优化，且Agentic Coding能力突出，对Agent应用和开发者工具链有直接推动作用，同时价格优势可能影响模型市场竞争格局。
对我的工作启发：官方文档发布，信息可靠；GLM-4.5在Agent、Coding、成本方面高度契合关注重点，且价格对标Claude，具有商业竞争力，对工作和投资均有较高价值。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

5. GLM-5.1 新一代旗舰模型上线

来源：智谱 AI 新品发布
链接：https://docs.bigmodel.cn/cn/update/new-releases#2026-04-07
类型：model_update
总分：8.60
一句话摘要：智谱AI发布GLM-5.1旗舰模型，Coding能力大幅增强，支持单次任务持续8小时的长程任务，综合能力全面对齐Claude Opus 4.6，通过multi-turn SFT和RL强化tool use与稳定性。
为什么重要：该模型直接对标国际前沿Claude Opus 4.6，且长程Agent能力（8小时闭环）是重要进展，对于Agent落地、复杂工程任务有重大参考价值。
对我的工作启发：官方发布，信息可靠；与Agent、coding、应用落地强相关；综合能力对齐Claude，影响竞争格局。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

二、今日最值得看的 Agent / Skill

名称：CrewAI Discovery
类型：tool
来源：CrewAI Blog
链接：https://www.crewai.com/blog/crewai-discovery
推荐理由：直接切入 B 端流程自动化的核心痛点：知道“自动化什么”比“如何构建”更重要。结合新闻中 agent 应用加速的趋势，Discovery 能帮助算法负责人快速定位高价值场景，减少试错成本。
对我的工作启发：作为电商 B 端算法负责人，你经常需要评估哪些流程（如商品图审核、结构化抽取）适合用 agent 自动化。Discovery 的方法论和理念可以启发你建立自己的用例筛选机制，提升自动化项目成功率。
建议动作：阅读 CrewAI Discovery 的详细博客，了解其用例发现逻辑；思考如何将其思路应用到你的业务中，例如通过分析商品审核流程中的重复人工环节，优先用 agent 实现。
置信度：0.85

三、模型更新

公司	更新	影响	分数	链接
智谱AI	智谱AI发布新一代旗舰模型GLM-5.1及系列模型更新	智谱AI作为国内重要大模型厂商，GLM-5.1在长程Agent任务和Coding能力上达到国际一流水平，对齐Claude Opus 4.6，这表明国产模型在Agent自主执行、工具使用等关键方向取得重大突破。同时，多模态模型的升级和免费版本推出，降低了应用门槛，对Agent开发、企业级AI应用落地具有直接参考价值。	8.85	原文
Mistral AI	Remote agents in Vibe. Powered by Mistral Medium 3.5.	该新闻涉及新模型能力提升、Agent 产品落地（远程编码代理、Work模式）、开源模型以及推理成本优化，与我关注的 Agent、工具调用、模型能力、应用前景和工程实践高度相关。	8.65	原文
智谱AI	GLM-5.1 新一代旗舰模型上线	这是国内首个在综合能力上全面对齐 Claude Opus 4.6 的中国模型，长程 Agent 任务能力显著提升，对 Agent 落地和模型竞争力有重大影响。	8.65	原文
智谱AI	2025-07-28	GLM-4.5在参数效率和成本上大幅优化，且Agentic Coding能力突出，对Agent应用和开发者工具链有直接推动作用，同时价格优势可能影响模型市场竞争格局。	8.65	原文
智谱AI	GLM-5.1 新一代旗舰模型上线	该模型直接对标国际前沿Claude Opus 4.6，且长程Agent能力（8小时闭环）是重要进展，对于Agent落地、复杂工程任务有重大参考价值。	8.60	原文
智谱AI	GLM-5 新一代旗舰模型上线	GLM-5聚焦Agent和系统工程，且采用Sparse Attention优化推理效率，对Agent长程任务和基础设施优化有直接参考。	8.60	原文
Moonshot AI	Kimi K2 Thinking 模型发布并开源，全面提升 Agent 和推理能力	该模型将思考与工具使用原生结合，直接推动 Agent 能力边界，且开源策略可能影响行业竞争格局，对 Agent 应用落地和开发者生态有重要意义。	8.55	原文
DeepSeek	DeepSeek-R1 Release	DeepSeek-R1 是首个性能对标 OpenAI o1 且完全开源的推理模型，MIT 许可允许自由商用和蒸馏，极大推动了开源推理能力生态，对模型能力、应用落地和商业竞争格局有重大影响。	8.50	原文

四、新应用场景

场景	产品/公司	价值	可复制性	链接
product_launch	Google DeepMind	Google DeepMind发布了AlphaEvolve，一个基于Gemini模型的编码代理，通过进化框架自动发现和优化算法，已在谷歌数据中心调度、芯片设计（TPU）和AI训练中应用，显著提升效率（例如回收0.7%计算资源）。	原文来自官方博客，信息可靠，与Agent、工具调用、实际应用高度相关，提供了具体效果数据（0.7%资源回收、TPU改进），对Agent工程化和AI基础设施优化有明确参考意义，因此给予高分和'值得细看'行动。	原文
product_launch	DeepSeek	DeepSeek API推出了磁盘上下文缓存功能，缓存命中时每百万tokens收费仅0.014美元，成本降低高达90%，并显著降低延迟。	官方文档，信息完整。该功能大幅降低API成本，对Agent和AI应用开发有重要参考价值。与成本优化、应用落地高度相关，且DeepSeek在磁盘缓存上具有首创性。	原文
product_launch	智谱AI	智谱AI发布一系列新品，包括2026年4月的GLM-5.1旗舰模型（长程Agent任务能力提升、对齐Claude Opus 4.6）、GLM-5V-Turbo多模态编码模型、GLM-5-Turbo龙虾增强模型等，以及2025年以来的多个模型和功能更新，如GLM-4.7、AutoGLM-Phone、GLM-OCR等，全面强化Coding、Agent、多模态和工具调用能力。	基于官方文档，信息可靠；GLM-5.1等模型在Agent长程任务、工具调用等方向有重要进展，与关注重点（Agent、Coding、应用落地）高度相关，工作相关性高；模型能力对齐Claude Opus 4.6且成本优化，投资参考价值大；新颖度高，但部分模型为迭代更新，所以扣1分。	原文
product_launch	Anthropic	Anthropic推出Claude for Small Business，包含连接器和预建工作流，集成QuickBooks、PayPal、HubSpot等工具，可自动执行工资计算、月结、发票催收等任务。	官方产品发布，信息详实，涉及Agent工作流、工具集成和中小企业应用，与重点方向强相关。	原文
product_launch	智谱AI	智谱AI发布AutoGLM-Phone，一个AI手机智能助理框架，支持用自然语言自动完成App操作任务，已适配50+主流中文应用场景。	智谱AI官方发布的Agent框架，聚焦手机自动化，与Agent应用落地高度相关，信息来自官方文档，可靠且新颖。	原文
product_launch	美团	美团发布行业首个AI全域解决方案“牵牛花Claw”，针对即时零售商家多门店管理、精细化运营、营策略等痛点，提供AI服务和系统的整体方案。	该新闻涉及AI在即时零售商业场景中的产品化落地，与Agent、应用方向强相关，提供了具体的解决方案和行业痛点，值得深入研究。	原文
product_launch	Anthropic	Anthropic推出Claude Design新产品，基于Claude Opus 4.7模型，用户可与Claude协作创建设计、原型、幻灯片等视觉作品，支持导入设计系统、协作编辑、导出至Canva等，面向Pro/Max/Team/Enterprise用户。	新产品发布，直接涉及AI在设计协作中的应用，与Agent、工具调用、应用落地强相关；信息来自官方，内容详实。评分较高，建议细看。	原文
application	Anthropic	Anthropic 启动 Project Glasswing，使用 Claude Mythos Preview 与约 50 个合作伙伴在关键软件中发现超过一万个高危漏洞，显著提升了漏洞发现效率。	官方公告，信息可靠，展示了模型能力的突破性应用，与 agent 及企业安全应用相关，但安全并非核心关注点，故工作相关性评分中等偏上。	原文

五、论文/技术趋势

论文/技术	方向	结论	对业务启发	链接
ForestHG-Trace: Traceable Long-Horizon Ecological Reasoning over Large-Scale Forest Scenes	agent、application、research	提出了ForestHG-Trace框架，通过生态超图表示和LLM引导的Agent调用确定性工具（读取、过滤、扩展、聚合、比较、审计），实现可追溯的长程生态推理，并构建了ForestTraceQA基准。	与Agent、工具调用、长程推理方向直接相关，框架设计清晰，有具体实现和基准，对实际Agent系统开发有重要借鉴意义。	原文
Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems	agent、application、infrastructure、research	提出一种多Agent架构，用于实时数据流上的自主洞察发现。系统包含连续发现循环：Agent生成假设、编译为可执行分析、验证结果并生成可视化和可部署应用。基于Apache Kafka和Flink，采用合约驱动设计，支持模块化、可观测性和安全执行。在零售、金融和公共数据用例中展示了从查询驱动到主动发现的转变。	与Agent、应用落地、数据分析自动化强相关，架构设计和用例直接可借鉴。虽然仍是论文，但细节充分，可信度高。重要性高，值得深入研究。	原文
OralAgent: Integrating Reasoning, Tools, and Knowledge for Interactive Dental Image Analysis	agent、multimodal、application、research	提出OralAgent，首个牙科专用AI agent，集成22种视觉分析工具和368本牙科教科书，实现多模态推理、工具使用、知识检索和多步骤工作流执行；同时发布OralCorpus语料和OralQA-ZH基准，在多个基准上达到SOTA。	首个牙科专用AI agent，集成了工具使用、知识检索和工作流，完全契合Agent和工具应用方向；论文提供代码和模型，信息充分。	原文
StoryMI: Steerable Multi-Agent Therapeutic Dialogue Generation	agent、application、research	提出StoryMI多智能体框架，通过情境化故事和交互代理控制实现可引导的心理治疗对话生成，在12种MI代码和13个症状域上验证有效性。	多Agent框架与可控生成是重点关注方向，且论文提供了可复现代码和数据，实用性强，重要性评分达到7，故推荐细看。	原文
介绍一下 MoBA：面向长文本大模型的混合块注意力机制	model_capability、research、infrastructure	Moonshot AI 提出 MoBA（混合块注意力），将 MoE 思想与稀疏注意力结合，通过块划分和动态路由实现长文本高效处理，在 100 万上下文时速度提升 6.5 倍，1000 万上下文时提升 16 倍，并保持与全注意力相当的性能。	信息来自官方博客并附有论文和代码，内容详实。长文本效率提升对模型能力影响大，但非 Agent 直接相关。published_at 缺失降低 confidence。	原文
Hierarchical Prompt-Domain Control and Learning for Resource-Constrained Agentic Language Models	agent、cost、application、research	提出一种分层控制与学习框架，针对资源受限的Agent语言模型，通过蒸馏、在线监督和提示域控制，在成本、可靠性上优于基线方案。	与Agent、成本、应用落地强相关，提出了实用的分层控制框架，对Agent系统可靠性有参考价值，值得深入研究。	原文
$E^3$-Agent: An Executable and Evolving Agent for Resource Management of Edge Generative Inference	agent、infrastructure、cost、application	提出 $E^3$-Agent，一个用于边缘生成式推理资源管理的可执行和进化智能体。它将毫秒级快速路径路由器与事件驱动的 LLM 元控制器分离，通过工具接口暴露风险门控、路由配置、性能校准等控制面，从执行反馈中在线学习以适应动态变化。在模拟实验中相较于静态基线降低平均延迟 65%-73%。	信息完整、来源可靠（arXiv），与 Agent、工具接口、工程化强相关，评分主要基于其创新性和应用潜力。	原文
技术报告：Muon 优化器的首次大规模训练实践	model_capability、cost、research、infrastructure、application	Moonshot AI 发布技术报告，提出两项改进使 Muon 优化器可高效扩展至大规模语言模型训练，相比 AdamW 计算效率提升约 2 倍；同时开源基于 Muon 训练的 3B/16B MoE 模型 Moonlight 及其分布式实现。	来源官方博客，信息完整；改进训练效率2倍，对模型训练基础设施有重要参考价值；与用户关注的模型能力、成本优化方向相关，且开源模型可借鉴。	原文

六、产业和投资观察

算力：Remote agents in Vibe. Powered by Mistral Medium 3.5.；GLM-5 新一代旗舰模型上线；清程极智：Token成为AI时代的 “水电煤”，中国AI产业从能用迈向好用
模型公司：智谱AI发布新一代旗舰模型GLM-5.1及系列模型更新；Remote agents in Vibe. Powered by Mistral Medium 3.5.；GLM-5.1 新一代旗舰模型上线
应用层：智谱AI发布新一代旗舰模型GLM-5.1及系列模型更新；Remote agents in Vibe. Powered by Mistral Medium 3.5.；GLM-5.1 新一代旗舰模型上线
云厂商：GLM-5.1 新一代旗舰模型上线；GLM-5 新一代旗舰模型上线；Introducing Claude for Small Business
开源生态：智谱AI发布新一代旗舰模型GLM-5.1及系列模型更新；Kimi K2 Thinking 模型发布并开源，全面提升 Agent 和推理能力；DeepSeek-R1 Release
监管：Voluntary Collusion with Secret Tools in Competing LLM Agents；Announcing our updated Responsible Scaling Policy；RULER: Representation-Level Verification of Machine Unlearning

七、对我工作的启发

关注多模态商品理解和图文审核场景中可复用的新模型能力，优先评估是否能降低人工审核和标注成本。
跟踪 agent/workflow agent 在 B 端流程中的稳定性进展，适合先从内部运营、质检和数据处理流程试点。
价格、推理效率和基础设施变化可能影响小模型/大模型路由策略，需要沉淀成本基准。
论文趋势可用于更新 OCR、结构化抽取、弱监督和 synthetic data 的候选技术池。

八、建议动作

2026 年 05 月 28 日

一、今日最重要的 5 条

1. 智谱AI发布新一代旗舰模型GLM-5.1及系列模型更新

2. Remote agents in Vibe. Powered by Mistral Medium 3.5.

3. GLM-5.1 新一代旗舰模型上线

4. 2025-07-28

5. GLM-5.1 新一代旗舰模型上线

二、今日最值得看的 Agent / Skill

三、模型更新

四、新应用场景

五、论文/技术趋势

六、产业和投资观察

七、对我工作的启发

八、建议动作

值得细看

值得收藏

值得转给团队

可以忽略