2026 年 05 月 27 日

周三·

一、今日最重要的 5 条

1. DeepSeek V4 Preview Release

  • 来源:DeepSeek API Updates
  • 链接:https://api-docs.deepseek.com/news/news260424
  • 类型:model_update
  • 总分:9.00
  • 一句话摘要:DeepSeek发布V4预览版,包括V4-Pro(1.6T/49B激活)和V4-Flash(284B/13B激活),默认支持1M上下文,强化Agent能力(编码SOTA),开源权重。
  • 为什么重要:新模型大幅提升Agent和编码能力,具有1M长上下文,且开源,对AI模型竞争和Agent应用有重要影响。
  • 对我的工作启发:官方详细发布,模型能力、Agent、长上下文、开源全面覆盖,对工作和投资均有重大参考价值。
  • 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
  • 建议动作:值得细看

2. 2026-04-07

  • 来源:智谱 AI 新品发布
  • 链接:https://docs.bigmodel.cn/cn/update/new-releases#2026-04-07
  • 类型:model_update
  • 总分:8.85
  • 一句话摘要:智谱AI发布GLM-5.1旗舰模型,Coding能力增强,支持一次任务持续工作8小时,实现从规划到执行闭环,综合能力对齐Claude Opus 4.6,开源。
  • 为什么重要:该模型在长程Agent任务上有显著突破,且综合能力对齐世界顶级模型,对中国AI竞争格局和开源生态有重要影响。
  • 对我的工作启发:官方发布,模型能力大幅提升,Agent和长任务特性突出,极具参考价值。
  • 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
  • 建议动作:值得细看

3. 2026-02-12: GLM-5 新一代旗舰模型上线

  • 来源:智谱AI开放文档
  • 链接:https://docs.bigmodel.cn/cn/update/new-releases#2026-02-12
  • 类型:model_update
  • 总分:8.85
  • 一句话摘要:智谱AI于2026年2月12日发布GLM-5旗舰模型,专为复杂系统工程与长程Agent任务设计,在代码逻辑密度和系统工程能力上对标Claude Opus 4.5,并首次集成DeepSeek Sparse Attention以提升Token效率。
  • 为什么重要:GLM-5是智谱AI新一代旗舰模型,显著强化了长程Agent任务和系统工程能力,对标国际最强模型,并引入稀疏注意力技术优化效率,对Agent应用和模型能力提升具有重要参考价值。
  • 对我的工作启发:官方渠道发布,信息完整可信;GLM-5专注于长程Agent和代码能力,与Agent、coding方向高度相关,且首次集成稀疏注意力,影响模型效率,重要性高。
  • 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
  • 建议动作:值得细看

4. GLM-5.1 新一代旗舰模型上线

  • 来源:智谱AI开放文档
  • 链接:https://docs.bigmodel.cn/cn/update/new-releases#2025-07-15
  • 类型:model_update
  • 总分:8.75
  • 一句话摘要:智谱AI发布新一代旗舰模型GLM-5.1,Coding能力显著增强,支持长达8小时的长程任务(Long Horizon Task),实现从规划、执行到交付的完整闭环,综合能力全面对齐Claude Opus 4.6,并通过multi-turn SFT、RL与过程质量评估体系强化长任务稳定性、一致性与tool use能力。
  • 为什么重要:GLM-5.1是智谱AI的最新一代模型,重点提升了Agent长程任务能力和工具调用能力,这对Agent方向的技术演进和实际应用具有重要参考价值。其综合能力对齐前沿模型,表明中国模型在Agent能力上取得重大突破,可能影响企业AI应用的选型和技术路线。
  • 对我的工作启发:原文为智谱AI官方文档,信息来源可靠;GLM-5.1在Agent长程任务、Coding和tool use上均有显著提升,与用户关注的Agent方向高度相关;综合能力对齐Claude Opus 4.6,具有商业和投资参考价值;发布时间缺失但内容明确,confidence设为0.8。
  • 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
  • 建议动作:值得细看

5. Kimi K2 Thinking 模型发布并开源,全面提升 Agent 和推理能力

  • 来源:Moonshot AI Blogs
  • 链接:https://platform.kimi.com/blog/posts/k2-think
  • 类型:model_update
  • 总分:8.70
  • 一句话摘要:Kimi 发布并开源了其最强思考模型 K2 Thinking,该模型原生具备边思考边使用工具的能力,在多个基准测试中达到 SOTA,全面提升了 Agentic 搜索、编程、写作和推理能力。
  • 为什么重要:该模型基于'模型即 Agent'理念,原生支持工具调用,在 Agent 相关评测中表现领先,且已开源,对 Agent 技术路线、应用落地和开源生态有重要参考价值。
  • 对我的工作启发:官方博客发布,信息明确可靠;模型原生支持工具调用,Agent 能力显著提升,开源降低使用门槛,对 Agent 研究、应用和产业竞争均有重要影响,高度符合关注重点。
  • 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
  • 建议动作:值得细看

二、今日最值得看的 Agent / Skill

  • 名称:CrewAI Discovery
  • 类型:tool
  • 来源:CrewAI Blog
  • 链接:https://www.crewai.com/blog/crewai-discovery
  • 推荐理由:该工具直接解决 B 端流程自动化的关键问题:知道自动化什么以及如何构建生产级 Agent。这与本日新闻中多模型 Agent 能力增强(DeepSeek、GLM)的趋势高度相关,可帮助企业落地 Agent 并获得实际价值。
  • 对我的工作启发:作为电商 B 端算法负责人,你可以使用 Discovery 来识别哪些商品理解、审核、标注流程最适合自动化,从而优化成本并加速模型落地。
  • 建议动作:建议阅读 CrewAI Discovery 博客文章,了解其如何分析业务流程并推荐自动化场景;可考虑引入团队进行小规模验证。
  • 置信度:0.85

三、模型更新

公司 更新 影响 分数 链接
DeepSeek DeepSeek V4 Preview Release 新模型大幅提升Agent和编码能力,具有1M长上下文,且开源,对AI模型竞争和Agent应用有重要影响。 9.00 原文
智谱AI 2026-04-07 该模型在长程Agent任务上有显著突破,且综合能力对齐世界顶级模型,对中国AI竞争格局和开源生态有重要影响。 8.85 原文
智谱AI 2026-02-12: GLM-5 新一代旗舰模型上线 GLM-5是智谱AI新一代旗舰模型,显著强化了长程Agent任务和系统工程能力,对标国际最强模型,并引入稀疏注意力技术优化效率,对Agent应用和模型能力提升具有重要参考价值。 8.85 原文
智谱AI GLM-5.1 新一代旗舰模型上线 GLM-5.1是智谱AI的最新一代模型,重点提升了Agent长程任务能力和工具调用能力,这对Agent方向的技术演进和实际应用具有重要参考价值。其综合能力对齐前沿模型,表明中国模型在Agent能力上取得重大突破,可能影响企业AI应用的选型和技术路线。 8.75 原文
Moonshot AI Kimi K2 Thinking 模型发布并开源,全面提升 Agent 和推理能力 该模型基于'模型即 Agent'理念,原生支持工具调用,在 Agent 相关评测中表现领先,且已开源,对 Agent 技术路线、应用落地和开源生态有重要参考价值。 8.70 原文
DeepSeek introducing DeepSeek-V3 该模型性能大幅提升,开源且定价极具竞争力,对开源社区和AI应用部署有重要影响,直接降低大模型使用门槛。 8.65 原文
智谱AI 智谱AI发布GLM-5.1新一代旗舰模型及多项更新 GLM-5.1首次实现中国模型在综合能力上全面对齐Claude Opus 4.6,其长程Agent能力(8小时自主工作)和tool use强化直接指向Agent落地关键痛点;AutoGLM-Phone框架则拓展了手机端Agent应用场景,对Agent、编码和模型能力方向有重要参考价值。 8.60 原文
智谱AI 智谱AI发布GLM-4.5系列基座模型 该模型作为原生智能体大模型,在参数效率、成本、编码能力上均有显著提升,且兼容Claude Code框架,对Agent和编码方向具有重要参考价值。 8.30 原文

四、新应用场景

场景 产品/公司 价值 可复制性 链接
application Anthropic PwC扩展与Anthropic的战略联盟,在美国团队中部署Claude Code和Cowork,计划培训3万名专业人员,并建立联合卓越中心。重点在三个领域:Agent技术构建、AI原生交易、企业功能重塑,已在保险核保(10周缩至10天)、主框架现代化等场景投产。 官方来源,信息丰富;直接展示Agent在编码、交易、企业功能中的实际成效,与Agent/应用/编码方向高度相关;大规模培训和投产计划具有行业示范效应。 原文
product_launch Mistral AI Mistral发布Mistral Medium 3.5模型(128B参数、256k上下文、开源),推出Vibe远程异步编码Agent和Le Chat的Work模式,支持多步复杂任务。 官方详细公告,信息完整,与Agent、工具调用、编码工作流高度相关,且包含新模型和产品模式。 原文
product_launch 智谱AI 智谱AI于2025年12月11日发布三款产品:AutoGLM-Phone(手机智能助理框架,支持自然语言自动操作App)、GLM-TTS-Clone(3秒语音克隆)、GLM-TTS(低延迟语音合成)。 官方发布;AutoGLM-Phone是Agent在手机端的典型应用,与Agent方向高度相关,TTS产品也有实际应用场景,整体新颖且重要。 原文
product_launch Anthropic Anthropic推出Claude for Small Business,为小企业提供集成QuickBooks、PayPal、HubSpot、Canva等工具的预置Agent工作流(如工资核算、月结、发票催收等),基于Claude Cowork,强调安全审批和现有权限继承。 官方发布,信息详细;高度关注Agent落地,且小企业场景工具体现了Agent在真实业务流程中的价值,工作流设计有借鉴意义;拓展了新市场,有商业潜力。 原文
product_launch Anthropic Anthropic 发布新产品 Claude Design,基于 Claude Opus 4.7 视觉模型,支持用户通过对话协作创建设计、原型、幻灯片、营销材料等,并自动应用团队设计系统,可导出为多种格式或直接交接给 Claude Code 进行开发。 官方发布,信息完整;产品涉及 Agent 协作、设计自动化、代码生成,与重点关注方向高度相关;但发布时间由抓取时间代替,且部分细节(如 Claude Opus 4.7 能力)需进一步验证,略有减分。 原文
product_launch DeepSeek DeepSeek API升级,新增JSON输出、Function Calling、Chat前缀补全、FIM补全和8K max_tokens,兼容OpenAI API。 官方发布,直接涉及Agent核心能力(Function Calling),对开发和集成有直接参考价值。 原文
product_launch Moonshot AI Moonshot AI 发布 Kimi Playground,一个在线平台让开发者直观体验 Kimi K2 的工具调用能力,支持预置工具和第三方 MCP server 集成,可进行旅游规划、数据分析等任务。 聚焦工具调用能力,官方推出便捷调试平台,强相关于 Agent 和工具集成,值得深入研究。 原文
product_launch Google DeepMind Google DeepMind 发布 AlphaEvolve,基于 Gemini 模型的进化编码智能体,可自动设计并优化高级算法。已在 Google 数据中心调度、TPU 芯片设计和 AI 训练中部署,平均回收 0.7% 的全球计算资源,并加速矩阵乘法等运算。 官方博客详细披露技术细节与生产部署效果,与 Agent、自动化、基础设施优化强相关,信息完整可靠。 原文

五、论文/技术趋势

论文/技术 方向 结论 对业务启发 链接
SIMA 2 An agent that plays, reasons, and learns with you agent、model_capability、research Google DeepMind发布SIMA 2,基于Gemini模型的3D虚拟世界智能体,能理解指令、推理规划、与用户对话,并在未见过的游戏中实现自我改进,显著提升泛化能力。 与Agent方向强相关,展示了Gemini集成的推理和对话能力,信息完整且来源可靠。 原文
Context: Proactive Goal-Directed Intelligence via Composable Sandboxed Programs, Declarative Wiring, and Structured Interaction agent、application、infrastructure、cost 提出Context架构,用主动目标导向Agent取代反应式聊天机器人。架构包括写入时上下文组装(实现KV-cache重用)、可组合沙盒智慧程序(无额外LM调用)和主动目标流状态机。有开源实现。 提出主动目标导向Agent架构,包含可组合程序、KV-cache重用等,与Agent/工作流高度相关,有开源实现,信息完整,值得深入研究。 原文
MGVQ: Synergizing Multi-dimensional Sensitivity-Aware and Gradient-Hessian Fusion for Vector Quantization model_capability、cost、multimodal、infrastructure 提出MGVQ向量量化框架,融合多维敏感度感知和梯度-海森矩阵,在2-bit量化下使InternVL2-26B精度提升4.9个点,显著降低VLM部署成本。 高质量论文,来源可靠;量化压缩技术直接影响模型部署成本与效率,与核心关注方向中的基础设施和成本优化高度相关。 原文
How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning cost、model_capability、research、infrastructure 大规模量化了LLM推理中的冗余程度,发现61%-93%的推理步骤是冗余的,且中位数关键前缀仅为一个步骤。理论证明这种冗余是长度无关结果奖励的结构性结果,而非模型特性。 量化推理冗余,证明结构性问题,对降低推理成本和延迟有直接指导意义,与Agent和基础设施优化高度相关,信息来源可靠。 原文
DRIVE: Modeling Skills at the Reasoning and Interaction Levels for Web Agents under Continual Learning agent、application、coding、research 提出DRIVE框架,将Web agent的经验分离为可迁移的推理技能(自然语言)和页面特定的交互技能(编程操作),通过场景感知协调实现持续学习,在WebArena上任务成功率提升7.3个百分点。 强相关于Agent和技能工程,提出了可复用的双层级技能建模,实验结果支撑强。 原文
ActQuant: Sub-4-bit Action-Guided Quantization for Vision-Language-Action Models model_capability、cost、agent、infrastructure 提出ActQuant量化框架,结合行动感知的混合精度分配和块级尺度优化,将VLA模型压缩至3比特以下,在LIBERO基准和实际UR3机械臂上验证了精度保持和2.5倍内存压缩。 Agent模型量化部署与用户重点关注的Agent落地、成本优化直接相关,信息完整,novelty高,重要性高。 原文
机器人启蒙,需要一所能“犯错”的幼儿园 agent、research、application 图灵奖得主理查德·萨顿与他山科技签约合作,共同推进“机器人幼儿园”项目,通过触觉传感器和强化学习,让机器人在真实物理环境中从试错中学习,目标是形成持续学习的经验流。 内容与Agent(智能体从经验中学习)高度相关,信息详实,来源可靠,有明确合作事实和工程方案,对理解和推动Agent自主学习有重要价值。 原文
Toward Reliable Design of LLM-Enabled Agentic Workflows: Optimizing Latency-Reliability-Cost Tradeoffs agent、cost、application 分析LLM驱动Agent工作流中延迟、可靠性和成本之间的基本权衡,引入性能模型,并提出水填充令牌分配策略,表征了最优工作流可靠性。 直接研究LLM驱动Agent工作流的延迟-可靠-成本权衡,提出优化策略,对Agent工程化落地有重要参考价值。 原文

六、产业和投资观察

  • 算力:DeepSeek V4 Preview Release;2026-02-12: GLM-5 新一代旗舰模型上线;Context: Proactive Goal-Directed Intelligence via Composable Sandboxed Programs, Declarative Wiring, and Structured Interaction
  • 模型公司:DeepSeek V4 Preview Release;2026-04-07;2026-02-12: GLM-5 新一代旗舰模型上线
  • 应用层:DeepSeek V4 Preview Release;智谱AI发布GLM-5.1新一代旗舰模型及多项更新;PwC is deploying Claude to build technology, execute deals, and reinvent enterprise functions for clients
  • 云厂商:2026-04-07;introducing DeepSeek-V3;PwC is deploying Claude to build technology, execute deals, and reinvent enterprise functions for clients
  • 开源生态:Kimi K2 Thinking 模型发布并开源,全面提升 Agent 和推理能力;SIMA 2 An agent that plays, reasons, and learns with you;How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning
  • 监管:硅谷AI一线观察:一人花掉50万美金Token背后的大厂焦虑;国家发改委:指导国产大模型加大力度适配国产算力芯片;5月26日新闻联播速览22条

七、对我工作的启发

  • 关注多模态商品理解和图文审核场景中可复用的新模型能力,优先评估是否能降低人工审核和标注成本。
  • 跟踪 agent/workflow agent 在 B 端流程中的稳定性进展,适合先从内部运营、质检和数据处理流程试点。
  • 价格、推理效率和基础设施变化可能影响小模型/大模型路由策略,需要沉淀成本基准。
  • 论文趋势可用于更新 OCR、结构化抽取、弱监督和 synthetic data 的候选技术池。

八、建议动作

值得细看

值得收藏

值得转给团队

可以忽略