2026 年 05 月 27 日

周三·

‹ 2026 年 05 月 26 日 2026 年 05 月 28 日 ›

一、今日最重要的 5 条

1. DeepSeek V4 Preview Release

来源：DeepSeek API Updates
链接：https://api-docs.deepseek.com/news/news260424
类型：model_update
总分：9.00
一句话摘要：DeepSeek发布V4预览版，包括V4-Pro（1.6T/49B激活）和V4-Flash（284B/13B激活），默认支持1M上下文，强化Agent能力（编码SOTA），开源权重。
为什么重要：新模型大幅提升Agent和编码能力，具有1M长上下文，且开源，对AI模型竞争和Agent应用有重要影响。
对我的工作启发：官方详细发布，模型能力、Agent、长上下文、开源全面覆盖，对工作和投资均有重大参考价值。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

2. 2026-04-07

来源：智谱 AI 新品发布
链接：https://docs.bigmodel.cn/cn/update/new-releases#2026-04-07
类型：model_update
总分：8.85
一句话摘要：智谱AI发布GLM-5.1旗舰模型，Coding能力增强，支持一次任务持续工作8小时，实现从规划到执行闭环，综合能力对齐Claude Opus 4.6，开源。
为什么重要：该模型在长程Agent任务上有显著突破，且综合能力对齐世界顶级模型，对中国AI竞争格局和开源生态有重要影响。
对我的工作启发：官方发布，模型能力大幅提升，Agent和长任务特性突出，极具参考价值。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

3. 2026-02-12: GLM-5 新一代旗舰模型上线

来源：智谱AI开放文档
链接：https://docs.bigmodel.cn/cn/update/new-releases#2026-02-12
类型：model_update
总分：8.85
一句话摘要：智谱AI于2026年2月12日发布GLM-5旗舰模型，专为复杂系统工程与长程Agent任务设计，在代码逻辑密度和系统工程能力上对标Claude Opus 4.5，并首次集成DeepSeek Sparse Attention以提升Token效率。
为什么重要：GLM-5是智谱AI新一代旗舰模型，显著强化了长程Agent任务和系统工程能力，对标国际最强模型，并引入稀疏注意力技术优化效率，对Agent应用和模型能力提升具有重要参考价值。
对我的工作启发：官方渠道发布，信息完整可信；GLM-5专注于长程Agent和代码能力，与Agent、coding方向高度相关，且首次集成稀疏注意力，影响模型效率，重要性高。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

4. GLM-5.1 新一代旗舰模型上线

来源：智谱AI开放文档
链接：https://docs.bigmodel.cn/cn/update/new-releases#2025-07-15
类型：model_update
总分：8.75
一句话摘要：智谱AI发布新一代旗舰模型GLM-5.1，Coding能力显著增强，支持长达8小时的长程任务（Long Horizon Task），实现从规划、执行到交付的完整闭环，综合能力全面对齐Claude Opus 4.6，并通过multi-turn SFT、RL与过程质量评估体系强化长任务稳定性、一致性与tool use能力。
为什么重要：GLM-5.1是智谱AI的最新一代模型，重点提升了Agent长程任务能力和工具调用能力，这对Agent方向的技术演进和实际应用具有重要参考价值。其综合能力对齐前沿模型，表明中国模型在Agent能力上取得重大突破，可能影响企业AI应用的选型和技术路线。
对我的工作启发：原文为智谱AI官方文档，信息来源可靠；GLM-5.1在Agent长程任务、Coding和tool use上均有显著提升，与用户关注的Agent方向高度相关；综合能力对齐Claude Opus 4.6，具有商业和投资参考价值；发布时间缺失但内容明确，confidence设为0.8。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

5. Kimi K2 Thinking 模型发布并开源，全面提升 Agent 和推理能力

来源：Moonshot AI Blogs
链接：https://platform.kimi.com/blog/posts/k2-think
类型：model_update
总分：8.70
一句话摘要：Kimi 发布并开源了其最强思考模型 K2 Thinking，该模型原生具备边思考边使用工具的能力，在多个基准测试中达到 SOTA，全面提升了 Agentic 搜索、编程、写作和推理能力。
为什么重要：该模型基于'模型即 Agent'理念，原生支持工具调用，在 Agent 相关评测中表现领先，且已开源，对 Agent 技术路线、应用落地和开源生态有重要参考价值。
对我的工作启发：官方博客发布，信息明确可靠；模型原生支持工具调用，Agent 能力显著提升，开源降低使用门槛，对 Agent 研究、应用和产业竞争均有重要影响，高度符合关注重点。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

二、今日最值得看的 Agent / Skill

名称：CrewAI Discovery
类型：tool
来源：CrewAI Blog
链接：https://www.crewai.com/blog/crewai-discovery
推荐理由：该工具直接解决 B 端流程自动化的关键问题：知道自动化什么以及如何构建生产级 Agent。这与本日新闻中多模型 Agent 能力增强（DeepSeek、GLM）的趋势高度相关，可帮助企业落地 Agent 并获得实际价值。
对我的工作启发：作为电商 B 端算法负责人，你可以使用 Discovery 来识别哪些商品理解、审核、标注流程最适合自动化，从而优化成本并加速模型落地。
建议动作：建议阅读 CrewAI Discovery 博客文章，了解其如何分析业务流程并推荐自动化场景；可考虑引入团队进行小规模验证。
置信度：0.85

三、模型更新

公司	更新	影响	分数	链接
DeepSeek	DeepSeek V4 Preview Release	新模型大幅提升Agent和编码能力，具有1M长上下文，且开源，对AI模型竞争和Agent应用有重要影响。	9.00	原文
智谱AI	2026-04-07	该模型在长程Agent任务上有显著突破，且综合能力对齐世界顶级模型，对中国AI竞争格局和开源生态有重要影响。	8.85	原文
智谱AI	2026-02-12: GLM-5 新一代旗舰模型上线	GLM-5是智谱AI新一代旗舰模型，显著强化了长程Agent任务和系统工程能力，对标国际最强模型，并引入稀疏注意力技术优化效率，对Agent应用和模型能力提升具有重要参考价值。	8.85	原文
智谱AI	GLM-5.1 新一代旗舰模型上线	GLM-5.1是智谱AI的最新一代模型，重点提升了Agent长程任务能力和工具调用能力，这对Agent方向的技术演进和实际应用具有重要参考价值。其综合能力对齐前沿模型，表明中国模型在Agent能力上取得重大突破，可能影响企业AI应用的选型和技术路线。	8.75	原文
Moonshot AI	Kimi K2 Thinking 模型发布并开源，全面提升 Agent 和推理能力	该模型基于'模型即 Agent'理念，原生支持工具调用，在 Agent 相关评测中表现领先，且已开源，对 Agent 技术路线、应用落地和开源生态有重要参考价值。	8.70	原文
DeepSeek	introducing DeepSeek-V3	该模型性能大幅提升，开源且定价极具竞争力，对开源社区和AI应用部署有重要影响，直接降低大模型使用门槛。	8.65	原文
智谱AI	智谱AI发布GLM-5.1新一代旗舰模型及多项更新	GLM-5.1首次实现中国模型在综合能力上全面对齐Claude Opus 4.6，其长程Agent能力（8小时自主工作）和tool use强化直接指向Agent落地关键痛点；AutoGLM-Phone框架则拓展了手机端Agent应用场景，对Agent、编码和模型能力方向有重要参考价值。	8.60	原文
智谱AI	智谱AI发布GLM-4.5系列基座模型	该模型作为原生智能体大模型，在参数效率、成本、编码能力上均有显著提升，且兼容Claude Code框架，对Agent和编码方向具有重要参考价值。	8.30	原文

四、新应用场景

场景	产品/公司	价值	可复制性	链接
application	Anthropic	PwC扩展与Anthropic的战略联盟，在美国团队中部署Claude Code和Cowork，计划培训3万名专业人员，并建立联合卓越中心。重点在三个领域：Agent技术构建、AI原生交易、企业功能重塑，已在保险核保（10周缩至10天）、主框架现代化等场景投产。	官方来源，信息丰富；直接展示Agent在编码、交易、企业功能中的实际成效，与Agent/应用/编码方向高度相关；大规模培训和投产计划具有行业示范效应。	原文
product_launch	Mistral AI	Mistral发布Mistral Medium 3.5模型（128B参数、256k上下文、开源），推出Vibe远程异步编码Agent和Le Chat的Work模式，支持多步复杂任务。	官方详细公告，信息完整，与Agent、工具调用、编码工作流高度相关，且包含新模型和产品模式。	原文
product_launch	智谱AI	智谱AI于2025年12月11日发布三款产品：AutoGLM-Phone（手机智能助理框架，支持自然语言自动操作App）、GLM-TTS-Clone（3秒语音克隆）、GLM-TTS（低延迟语音合成）。	官方发布；AutoGLM-Phone是Agent在手机端的典型应用，与Agent方向高度相关，TTS产品也有实际应用场景，整体新颖且重要。	原文
product_launch	Anthropic	Anthropic推出Claude for Small Business，为小企业提供集成QuickBooks、PayPal、HubSpot、Canva等工具的预置Agent工作流（如工资核算、月结、发票催收等），基于Claude Cowork，强调安全审批和现有权限继承。	官方发布，信息详细；高度关注Agent落地，且小企业场景工具体现了Agent在真实业务流程中的价值，工作流设计有借鉴意义；拓展了新市场，有商业潜力。	原文
product_launch	Anthropic	Anthropic 发布新产品 Claude Design，基于 Claude Opus 4.7 视觉模型，支持用户通过对话协作创建设计、原型、幻灯片、营销材料等，并自动应用团队设计系统，可导出为多种格式或直接交接给 Claude Code 进行开发。	官方发布，信息完整；产品涉及 Agent 协作、设计自动化、代码生成，与重点关注方向高度相关；但发布时间由抓取时间代替，且部分细节（如 Claude Opus 4.7 能力）需进一步验证，略有减分。	原文
product_launch	DeepSeek	DeepSeek API升级，新增JSON输出、Function Calling、Chat前缀补全、FIM补全和8K max_tokens，兼容OpenAI API。	官方发布，直接涉及Agent核心能力（Function Calling），对开发和集成有直接参考价值。	原文
product_launch	Moonshot AI	Moonshot AI 发布 Kimi Playground，一个在线平台让开发者直观体验 Kimi K2 的工具调用能力，支持预置工具和第三方 MCP server 集成，可进行旅游规划、数据分析等任务。	聚焦工具调用能力，官方推出便捷调试平台，强相关于 Agent 和工具集成，值得深入研究。	原文
product_launch	Google DeepMind	Google DeepMind 发布 AlphaEvolve，基于 Gemini 模型的进化编码智能体，可自动设计并优化高级算法。已在 Google 数据中心调度、TPU 芯片设计和 AI 训练中部署，平均回收 0.7% 的全球计算资源，并加速矩阵乘法等运算。	官方博客详细披露技术细节与生产部署效果，与 Agent、自动化、基础设施优化强相关，信息完整可靠。	原文

五、论文/技术趋势

论文/技术	方向	结论	对业务启发	链接
SIMA 2 An agent that plays, reasons, and learns with you	agent、model_capability、research	Google DeepMind发布SIMA 2，基于Gemini模型的3D虚拟世界智能体，能理解指令、推理规划、与用户对话，并在未见过的游戏中实现自我改进，显著提升泛化能力。	与Agent方向强相关，展示了Gemini集成的推理和对话能力，信息完整且来源可靠。	原文
Context: Proactive Goal-Directed Intelligence via Composable Sandboxed Programs, Declarative Wiring, and Structured Interaction	agent、application、infrastructure、cost	提出Context架构，用主动目标导向Agent取代反应式聊天机器人。架构包括写入时上下文组装（实现KV-cache重用）、可组合沙盒智慧程序（无额外LM调用）和主动目标流状态机。有开源实现。	提出主动目标导向Agent架构，包含可组合程序、KV-cache重用等，与Agent/工作流高度相关，有开源实现，信息完整，值得深入研究。	原文
MGVQ: Synergizing Multi-dimensional Sensitivity-Aware and Gradient-Hessian Fusion for Vector Quantization	model_capability、cost、multimodal、infrastructure	提出MGVQ向量量化框架，融合多维敏感度感知和梯度-海森矩阵，在2-bit量化下使InternVL2-26B精度提升4.9个点，显著降低VLM部署成本。	高质量论文，来源可靠；量化压缩技术直接影响模型部署成本与效率，与核心关注方向中的基础设施和成本优化高度相关。	原文
How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning	cost、model_capability、research、infrastructure	大规模量化了LLM推理中的冗余程度，发现61%-93%的推理步骤是冗余的，且中位数关键前缀仅为一个步骤。理论证明这种冗余是长度无关结果奖励的结构性结果，而非模型特性。	量化推理冗余，证明结构性问题，对降低推理成本和延迟有直接指导意义，与Agent和基础设施优化高度相关，信息来源可靠。	原文
DRIVE: Modeling Skills at the Reasoning and Interaction Levels for Web Agents under Continual Learning	agent、application、coding、research	提出DRIVE框架，将Web agent的经验分离为可迁移的推理技能（自然语言）和页面特定的交互技能（编程操作），通过场景感知协调实现持续学习，在WebArena上任务成功率提升7.3个百分点。	强相关于Agent和技能工程，提出了可复用的双层级技能建模，实验结果支撑强。	原文
ActQuant: Sub-4-bit Action-Guided Quantization for Vision-Language-Action Models	model_capability、cost、agent、infrastructure	提出ActQuant量化框架，结合行动感知的混合精度分配和块级尺度优化，将VLA模型压缩至3比特以下，在LIBERO基准和实际UR3机械臂上验证了精度保持和2.5倍内存压缩。	Agent模型量化部署与用户重点关注的Agent落地、成本优化直接相关，信息完整，novelty高，重要性高。	原文
机器人启蒙，需要一所能“犯错”的幼儿园	agent、research、application	图灵奖得主理查德·萨顿与他山科技签约合作，共同推进“机器人幼儿园”项目，通过触觉传感器和强化学习，让机器人在真实物理环境中从试错中学习，目标是形成持续学习的经验流。	内容与Agent（智能体从经验中学习）高度相关，信息详实，来源可靠，有明确合作事实和工程方案，对理解和推动Agent自主学习有重要价值。	原文
Toward Reliable Design of LLM-Enabled Agentic Workflows: Optimizing Latency-Reliability-Cost Tradeoffs	agent、cost、application	分析LLM驱动Agent工作流中延迟、可靠性和成本之间的基本权衡，引入性能模型，并提出水填充令牌分配策略，表征了最优工作流可靠性。	直接研究LLM驱动Agent工作流的延迟-可靠-成本权衡，提出优化策略，对Agent工程化落地有重要参考价值。	原文

六、产业和投资观察

算力：DeepSeek V4 Preview Release；2026-02-12: GLM-5 新一代旗舰模型上线；Context: Proactive Goal-Directed Intelligence via Composable Sandboxed Programs, Declarative Wiring, and Structured Interaction
模型公司：DeepSeek V4 Preview Release；2026-04-07；2026-02-12: GLM-5 新一代旗舰模型上线
应用层：DeepSeek V4 Preview Release；智谱AI发布GLM-5.1新一代旗舰模型及多项更新；PwC is deploying Claude to build technology, execute deals, and reinvent enterprise functions for clients
云厂商：2026-04-07；introducing DeepSeek-V3；PwC is deploying Claude to build technology, execute deals, and reinvent enterprise functions for clients
开源生态：Kimi K2 Thinking 模型发布并开源，全面提升 Agent 和推理能力；SIMA 2 An agent that plays, reasons, and learns with you；How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning
监管：硅谷AI一线观察：一人花掉50万美金Token背后的大厂焦虑；国家发改委：指导国产大模型加大力度适配国产算力芯片；5月26日新闻联播速览22条

七、对我工作的启发

关注多模态商品理解和图文审核场景中可复用的新模型能力，优先评估是否能降低人工审核和标注成本。
跟踪 agent/workflow agent 在 B 端流程中的稳定性进展，适合先从内部运营、质检和数据处理流程试点。
价格、推理效率和基础设施变化可能影响小模型/大模型路由策略，需要沉淀成本基准。
论文趋势可用于更新 OCR、结构化抽取、弱监督和 synthetic data 的候选技术池。

八、建议动作

2026 年 05 月 27 日

一、今日最重要的 5 条

1. DeepSeek V4 Preview Release

2. 2026-04-07

3. 2026-02-12: GLM-5 新一代旗舰模型上线

4. GLM-5.1 新一代旗舰模型上线

5. Kimi K2 Thinking 模型发布并开源，全面提升 Agent 和推理能力

二、今日最值得看的 Agent / Skill

三、模型更新

四、新应用场景

五、论文/技术趋势

六、产业和投资观察

七、对我工作的启发

八、建议动作

值得细看

值得收藏

值得转给团队

可以忽略