2026 年 05 月 26 日

周二·

‹ 2026 年 05 月 25 日 2026 年 05 月 27 日 ›

一、今日最重要的 5 条

1. DeepSeek-V4 Preview 发布：开源、1M上下文、Agent能力增强

来源：DeepSeek API Updates
链接：https://api-docs.deepseek.com/news/news260424
类型：model_update
总分：9.00
一句话摘要：DeepSeek 正式发布 V4 Preview 版本，包含 V4-Pro（1.6T总参/49B激活）和 V4-Flash（284B总参/13B激活）两个模型，均开源并支持 1M 上下文长度。新模型采用了 Token-wise 压缩和 DSA（DeepSeek Sparse Attention）等结构创新，并在 Agentic Coding 基准上达到开源 SOTA，同时 API 已可用，旧模型 deepseek-chat 和 deepseek-reasoner 将于 2026 年 7 月 24 日退役。
为什么重要：DeepSeek-V4 在模型能力、上下文长度、Agent 性能、开源策略上均有重大提升，直接对标闭源顶级模型，且开源权重和 API 立即可用，将对大模型竞争格局和 Agent 应用落地产生深远影响。
对我的工作启发：官方发布，信息完整可靠；新模型能力显著提升，尤其是 Agent 和长上下文优化，直接相关 Agent 方向；开源和 API 更新影响应用落地和成本；符合重点关注的模型更新、Agent、开源等方向。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

2. GLM-5.1新一代旗舰模型上线

来源：智谱AI开放文档
链接：https://docs.bigmodel.cn/cn/update/new-releases#2026-04-07
类型：model_update
总分：8.85
一句话摘要：智谱AI发布新一代旗舰模型GLM-5.1，Coding能力大幅增强，支持长达8小时的长程独立工作，实现从规划到交付的闭环，综合能力全面对齐Claude Opus 4.6，成为首个全面对齐的中国模型，并跻身全球开源模型前列。
为什么重要：GLM-5.1在Agent长程任务和Coding能力上有显著突破，且首次实现中国模型全面对齐国际顶级模型，对Agent落地和开源生态有重要推动，同时多模态模型GLM-5V-Turbo等更新也强化了视觉Agent能力。
对我的工作启发：原文来自官方文档，信息完整可靠。GLM-5.1的长程Agent能力和Coding能力与我的关注重点高度相关，且全面对齐Claude Opus 4.6具有重要战略意义，因此评分较高，建议重点关注。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

3. AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms

来源：Google DeepMind
链接：https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
类型：product_launch
总分：8.55
一句话摘要：Google DeepMind 发布 AlphaEvolve，这是一个基于 Gemini 模型的进化编码智能体，能够自动发现和优化数学与计算领域的算法，已在谷歌数据中心调度、TPU 芯片设计和 AI 训练中部署，平均回收 0.7% 的计算资源并加速矩阵乘法。
为什么重要：该新闻直接展示了 Agent 在复杂算法设计、基础设施优化中的实际落地，且已有明确的效率提升案例（数据中心、芯片、AI 训练），与 Agent、skill、workflow 及企业级应用方向高度相关，对 AI 自动化工程化有重要参考价值。
对我的工作启发：信息来源可靠（官方博客），内容明确：Agent 驱动的算法发现与优化，已在 Google 内部产生实际效益，与重点关注的 Agent、工具调用、基础设施优化强相关，重要性高，因此建议值得细看。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

4. Google DeepMind 发布 Gemini Omni 模型

来源：Google DeepMind
链接：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
类型：model_update
总分：8.45
一句话摘要：Google DeepMind 推出 Gemini Omni Flash 模型，支持视频输入并生成高质量视频，可用自然语言进行多轮编辑，融合世界知识和物理理解。
为什么重要：Gemini Omni 是 Google 在多模态视频生成上的重要进阶，结合推理与创作能力，可能重塑视频内容生产流程，对 AI 应用场景（如视频编辑、创意工具）有深远影响。
对我的工作启发：官方博客明确发布新模型，信息可靠；虽未直接涉及 Agent 或工具调用，但多模态视频生成能力及其应用前景与重点关注方向强相关，评分较高。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

5. 智谱AI发布新一代旗舰模型GLM-5，专为长程Agent任务设计

来源：智谱AI开放文档
链接：https://docs.bigmodel.cn/cn/update/new-releases#2026-02-12
类型：model_update
总分：8.35
一句话摘要：2026年2月12日，智谱AI发布新一代旗舰模型GLM-5，专为复杂系统工程与长程Agent任务设计，在代码逻辑密度和系统工程能力上对标Claude Opus 4.5，并首次集成DeepSeek Sparse Attention以提升Token效率。
为什么重要：GLM-5聚焦长程Agent任务和复杂系统工程能力，直接对标国际顶尖模型，且集成了稀疏注意力技术提升效率，对Agent应用和模型能力提升具有重要参考价值，与重点关注方向高度相关。
对我的工作启发：官方文档来源，信息可靠；模型能力针对Agent和编码场景，与重点关注方向高度相关；创新点明确（集成稀疏注意力），重要性高。
投资/产业观察：可能包含产业或投资强信号，建议结合公司、供应链和竞品动态继续跟踪。
建议动作：值得细看

二、今日最值得看的 Agent / Skill

名称：Introducing Discovery - The Engine that Surfaces What to Automate
类型：tool
来源：CrewAI Blog
链接：https://www.crewai.com/blog/crewai-discovery
推荐理由：今日新闻中多个模型发布（DeepSeek-V4、GLM-5.1）均强调 Agent 能力增强，模型门槛降低；而 Discovery 引擎直击 B 端流程自动化的核心痛点——识别哪些流程值得自动化。对于电商 B 端算法负责人，可借助此思路发现商品审核、数据标注、订单处理等环节的自动化机会，推动成本优化与效率提升。
对我的工作启发：电商 B 端算法负责人常面临大量重复性审核、标注和质检流程，Discovery 提供了一种系统化方法来自动识别高价值自动化场景，有助于将今日模型能力落地到实际业务中，减少人工干预，优化成本。
建议动作：阅读原文了解 Discovery 的工作方式和适用场景，尝试将其方法论映射到电商商品图审核、结构化抽取等流程中，评估是否需要类似方案或工具。
置信度：0.70

三、模型更新

公司	更新	影响	分数	链接
DeepSeek	DeepSeek-V4 Preview 发布：开源、1M上下文、Agent能力增强	DeepSeek-V4 在模型能力、上下文长度、Agent 性能、开源策略上均有重大提升，直接对标闭源顶级模型，且开源权重和 API 立即可用，将对大模型竞争格局和 Agent 应用落地产生深远影响。	9.00	原文
智谱AI	GLM-5.1新一代旗舰模型上线	GLM-5.1在Agent长程任务和Coding能力上有显著突破，且首次实现中国模型全面对齐国际顶级模型，对Agent落地和开源生态有重要推动，同时多模态模型GLM-5V-Turbo等更新也强化了视觉Agent能力。	8.85	原文
Google	Google DeepMind 发布 Gemini Omni 模型	Gemini Omni 是 Google 在多模态视频生成上的重要进阶，结合推理与创作能力，可能重塑视频内容生产流程，对 AI 应用场景（如视频编辑、创意工具）有深远影响。	8.45	原文
智谱AI	智谱AI发布新一代旗舰模型GLM-5，专为长程Agent任务设计	GLM-5聚焦长程Agent任务和复杂系统工程能力，直接对标国际顶尖模型，且集成了稀疏注意力技术提升效率，对Agent应用和模型能力提升具有重要参考价值，与重点关注方向高度相关。	8.35	原文
阿里云	阿里云百炼模型更新：新上架Qwen3.7、Qwen3.6、DeepSeek-v4等多款模型	此次更新集中展示了阿里云在模型能力上的快速迭代，特别是Agent和编程能力的提升，对AI应用开发和平台生态有重要影响，直接关联Agent、工具调用和自动化落地等关注方向。	8.30	原文
DeepSeek	Introducing DeepSeek-V3	DeepSeek-V3 是开源大模型领域的重大进步，性能与速度大幅提升，同时保持极具竞争力的定价，对模型能力、部署成本和开源生态都有显著影响，是关注大模型应用和 Agent 开发的重要参考。	8.25	原文
智谱AI	智谱AI发布GLM-5.1旗舰模型，支持8小时自主长程任务	该模型在自主规划、持续执行和工具使用能力上有显著提升，对Agent长程任务、Code Agent等场景具有重要参考价值，标志着中国模型在综合能力上首次全面对齐国际顶尖模型。	8.10	原文
智谱AI	GLM-4.5 系列基座模型上线	该模型是原生智能体大模型，在Agent方向（长程任务、工具调用、自主规划）有显著进展，同时成本大幅降低（API价格为Claude的1/10），有利于推动Agent的规模化应用和商业化落地。	8.10	原文

四、新应用场景

场景	产品/公司	价值	可复制性	链接
product_launch	Google DeepMind	Google DeepMind 发布 AlphaEvolve，这是一个基于 Gemini 模型的进化编码智能体，能够自动发现和优化数学与计算领域的算法，已在谷歌数据中心调度、TPU 芯片设计和 AI 训练中部署，平均回收 0.7% 的计算资源并加速矩阵乘法。	信息来源可靠（官方博客），内容明确：Agent 驱动的算法发现与优化，已在 Google 内部产生实际效益，与重点关注的 Agent、工具调用、基础设施优化强相关，重要性高，因此建议值得细看。	原文
product_launch	DeepSeek	DeepSeek API推出磁盘上下文缓存（Context Caching on Disk）技术，将重复输入的缓存命中价格降至每百万token 0.014美元，成本最高降低90%，并且无需代码改动即可自动生效。	信息来自DeepSeek官方API文档，来源可靠。该功能直接降低推理成本，对Agent和长上下文应用有显著价值，且技术新颖（磁盘缓存），与重点方向高度相关。	原文
product_launch	智谱AI	智谱AI于2025年12月11日发布AutoGLM-Phone，支持用自然语言自动完成App操作任务，具备界面识别、意图规划与设备执行的端到端能力，已适配50+主流中文应用场景。	官方文档发布，信息明确；Agent落地产品，与关注重点强相关；界面识别涉及多模态，功能新颖；但发布时间由抓取代替，部分细节有限，confidence 0.8。	原文
application	Anthropic	PwC宣布将大规模部署Anthropic的Claude，包括Claude Code和Cowork，覆盖全球数十万员工，并建立联合卓越中心，培训3万名专业人员。重点聚焦三大领域：Agentic技术构建、AI原生交易执行和企业职能再造。已有多个生产部署（保险核保、网络安全等），交付时间缩短高达70%。	官方公告，信息可靠。涉及Agent、tool use、企业应用落地，与重点方向高度相关。明确的生产案例和规模扩展，具有重要参考价值。published_at_missing略降confidence。	原文
product_launch	Anthropic	Anthropic发布十个面向金融服务的AI Agent模板，支持Claude Cowork、Claude Code和Claude Managed Agents，并集成Microsoft 365（Excel、PowerPoint、Word、Outlook），新增Dun & Bradstreet、Moody's等数据连接器和MCP应用。	原文为官方发布，信息完整可靠；内容直接涉及Agent模板、工具调用、MCP、企业级应用，与重点关注方向高度相关；评分高，action为值得细看。	原文
product_launch	Anthropic	Anthropic 推出 Claude Design，一个基于 Claude Opus 4.7 的视觉协作产品，支持用户通过对话创建设计、原型、幻灯片等视觉作品，并提供团队设计系统自动应用、多格式导出及 Claude Code 交付功能。	官方博客发布，信息详实可靠；产品直接涉及 Agent 协作和视觉应用落地，与关注重点高度相关；重要性高，值得深入研究。	原文
product_launch	Anthropic	Anthropic推出Claude for Small Business，为小企业提供连接器和即用工作流，集成QuickBooks、PayPal、HubSpot等工具，涵盖财务、营销、销售等15个Agent工作流，支持一键安装和审批机制。	官方博客详细介绍了产品功能和合作生态，信息可靠。产品聚焦Agent工作流和工具集成，与Agent、应用落地强相关，具有较高参考价值；同时影响小企业AI市场格局和商业化前景，投资价值较高。新颖度中等，因类似概念已有但具体方案有新意。	原文
product_launch	Moonshot AI	Moonshot AI 发布 Kimi Playground，为开发者提供直观的工具调用体验平台，支持内置官方工具和第三方 MCP server 工具，并展示 Kimi K2 在多工具协同调用下的旅游规划和数据分析案例。	官方博客发布，信息可靠；内容与 Agent、Tool Use、MCP 直接相关，符合重点关注方向，且包含实际案例演示，对工作有高参考价值。	原文

五、论文/技术趋势

论文/技术	方向	结论	对业务启发	链接
Context: Proactive Goal-Directed Intelligence via Composable Sandboxed Programs, Declarative Wiring, and Structured Interaction	model_capability、cost、agent、research	提出Context架构，将被动问答聊天机器人替换为主动目标驱动Agent，通过写时上下文组装（近100%KV缓存重用）、可组合沙箱程序（无需额外LM调用）和主动状态机驱动对话，并证明了六个形式化定理，实现确定性、低成本的Agent交互。	论文内容与Agent、成本优化、工程化高度相关，信息完整且来自arXiv，理论严谨，具备较高新颖性和重要性，符合重点关注方向。	原文
SIMA 2: An Agent that Plays, Reasons, and Learns with You in Virtual 3D Worlds	agent、model_capability、research	Google DeepMind发布SIMA 2，基于Gemini的AI代理，能在3D虚拟世界中执行指令、推理、对话并自我改进，从指令跟随者进化为游戏伴侣。	官方来源、内容详实，与Agent方向强相关，体现了大模型在具身智能中的应用，值得深入研究。	原文
介绍一下 MoBA：面向长文本大模型的混合块注意力机制	model_capability、cost、research	Moonshot AI 提出了 MoBA（混合块注意力），将专家混合（MoE）与稀疏注意力结合，通过动态块选择和高效实现，在长上下文任务中实现与全注意力相当的性能，同时显著降低计算成本（百万上下文加速6.5倍，千万上下文加速16倍）。	原文来自官方博客，附有论文和开源代码，信息完整可信。MoBA 结合 MoE 和稀疏注意力，显著提升长上下文效率，直接关联 Agent、长文档处理等应用，对模型能力和成本均有积极影响，故评分高，建议细看。	原文
QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks	agent、research、model_capability、application	提出QUEST系列开源模型（2B-35B），作为通用深度研究Agent，采用全合成任务训练（中训练、监督微调、强化学习），在8个基准上接近或超越闭源前沿Agent，并开源模型、数据和训练脚本。	论文提出用合成数据训练通用深度研究Agent，方法创新且有效，开源模型和数据对Agent方向具有重要参考价值，信息来源为arXiv论文，可信度高。	原文
Claude 通过率不到4%，SaaS-Bench评测显示AI全自动办公远未落地	agent、application、model_capability	UniPat AI 发布 SaaS-Bench 评测，测试 Claude 等主流大模型在真实办公任务中的表现，完全通过率最高仅 3.8%，表明 AI 全自动办公远未落地。	原文提供了具体评测结果（完全通过率3.8%），信息较完整，来源可靠。该新闻与 Agent 自动化办公能力评估强相关，对判断 AI 应用落地现状有直接参考价值，因此工作相关性高，重要性高。	原文
技术报告：Muon 优化器的首次大规模训练实践	model_capability、cost、infrastructure、research	Moonshot AI 发布技术报告，验证Muon优化器在大规模LLM训练中的可扩展性，相比AdamW实现约2倍计算效率提升，并开源了基于Muon训练的3B/16B MoE模型Moonlight及其分布式实现。	官方博客发布，信息完整可信；Muon优化器实现2倍计算效率提升对LLM训练成本有重要影响，且开源了模型和代码，具有研究和工程参考价值。	原文
How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning	cost、model_capability、research	该论文形式化定义了LLM推理轨迹的冗余度，量化发现前沿推理模型在数学问题上的推理步骤冗余度高达61%-93%，并证明这种过度思考是长度无关奖励训练的结构性结果，而非模型特定缺陷。	论文来源可靠（arXiv），定义并量化了推理冗余度，发现高达61%-93%的冗余，并证明是训练结构性结果。对降低推理成本、优化模型推理策略有直接启示，与重点关注的大模型应用成本、Agent效率高度相关，且新颖性高。	原文
ActQuant: Sub-4-bit Action-Guided Quantization for Vision-Language-Action Models	model_capability、cost、multimodal、agent、infrastructure、research	ActQuant 提出了一种面向视觉-语言-动作（VLA）模型的亚4比特动作引导混合精度后训练量化框架，通过跨张量比特分配和块内尺度优化，在LIBERO基准上实现3比特以下权重的量化，保留95%以上性能，并在真实机器人上验证了2.5倍内存压缩。	论文来自可靠学术来源，信息完整。ActQuant 的新方法提高了VLA模型在边缘设备上的可行性，与Agent部署、成本优化强相关，因此工作相关性较高。虽然属于研究论文，但实用性明显，重要性适中，值得进一步参考。	原文

六、产业和投资观察

算力：DeepSeek-V4 Preview 发布：开源、1M上下文、Agent能力增强；AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms；智谱AI发布新一代旗舰模型GLM-5，专为长程Agent任务设计
模型公司：DeepSeek-V4 Preview 发布：开源、1M上下文、Agent能力增强；GLM-5.1新一代旗舰模型上线；AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms
应用层：DeepSeek-V4 Preview 发布：开源、1M上下文、Agent能力增强；GLM-5.1新一代旗舰模型上线；AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms
云厂商：Google DeepMind 发布 Gemini Omni 模型；Introducing DeepSeek-V3；May 6, 2026 Announcements Higher usage limits for Claude and a compute deal with SpaceX
开源生态：DeepSeek-V4 Preview 发布：开源、1M上下文、Agent能力增强；AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms；Introducing DeepSeek-V3
监管：国家发改委：指导国产大模型加大力度适配国产算力芯片；【钛晨报】实名购药、严禁AI替代审方，《处方药网络零售合规指南》发布；华为发表半导体韬定律；6G试验频率正式获批，6G有望在2030年前后正式商用；Anthropic 更新责任扩展政策

七、对我工作的启发

关注多模态商品理解和图文审核场景中可复用的新模型能力，优先评估是否能降低人工审核和标注成本。
跟踪 agent/workflow agent 在 B 端流程中的稳定性进展，适合先从内部运营、质检和数据处理流程试点。
价格、推理效率和基础设施变化可能影响小模型/大模型路由策略，需要沉淀成本基准。
论文趋势可用于更新 OCR、结构化抽取、弱监督和 synthetic data 的候选技术池。

八、建议动作

2026 年 05 月 26 日

一、今日最重要的 5 条

1. DeepSeek-V4 Preview 发布：开源、1M上下文、Agent能力增强

2. GLM-5.1新一代旗舰模型上线

3. AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms

4. Google DeepMind 发布 Gemini Omni 模型

5. 智谱AI发布新一代旗舰模型GLM-5，专为长程Agent任务设计

二、今日最值得看的 Agent / Skill

三、模型更新

四、新应用场景

五、论文/技术趋势

六、产业和投资观察

七、对我工作的启发

八、建议动作

值得细看

值得收藏

值得转给团队

可以忽略