一、今日最重要的 5 条
1. DeepSeek-V4 Preview 发布:开源、1M上下文、Agent能力增强
- 来源:DeepSeek API Updates
- 链接:https://api-docs.deepseek.com/news/news260424
- 类型:model_update
- 总分:9.00
- 一句话摘要:DeepSeek 正式发布 V4 Preview 版本,包含 V4-Pro(1.6T总参/49B激活)和 V4-Flash(284B总参/13B激活)两个模型,均开源并支持 1M 上下文长度。新模型采用了 Token-wise 压缩和 DSA(DeepSeek Sparse Attention)等结构创新,并在 Agentic Coding 基准上达到开源 SOTA,同时 API 已可用,旧模型 deepseek-chat 和 deepseek-reasoner 将于 2026 年 7 月 24 日退役。
- 为什么重要:DeepSeek-V4 在模型能力、上下文长度、Agent 性能、开源策略上均有重大提升,直接对标闭源顶级模型,且开源权重和 API 立即可用,将对大模型竞争格局和 Agent 应用落地产生深远影响。
- 对我的工作启发:官方发布,信息完整可靠;新模型能力显著提升,尤其是 Agent 和长上下文优化,直接相关 Agent 方向;开源和 API 更新影响应用落地和成本;符合重点关注的模型更新、Agent、开源等方向。
- 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
- 建议动作:值得细看
2. GLM-5.1新一代旗舰模型上线
- 来源:智谱AI开放文档
- 链接:https://docs.bigmodel.cn/cn/update/new-releases#2026-04-07
- 类型:model_update
- 总分:8.85
- 一句话摘要:智谱AI发布新一代旗舰模型GLM-5.1,Coding能力大幅增强,支持长达8小时的长程独立工作,实现从规划到交付的闭环,综合能力全面对齐Claude Opus 4.6,成为首个全面对齐的中国模型,并跻身全球开源模型前列。
- 为什么重要:GLM-5.1在Agent长程任务和Coding能力上有显著突破,且首次实现中国模型全面对齐国际顶级模型,对Agent落地和开源生态有重要推动,同时多模态模型GLM-5V-Turbo等更新也强化了视觉Agent能力。
- 对我的工作启发:原文来自官方文档,信息完整可靠。GLM-5.1的长程Agent能力和Coding能力与我的关注重点高度相关,且全面对齐Claude Opus 4.6具有重要战略意义,因此评分较高,建议重点关注。
- 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
- 建议动作:值得细看
3. AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms
- 来源:Google DeepMind
- 链接:https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
- 类型:product_launch
- 总分:8.55
- 一句话摘要:Google DeepMind 发布 AlphaEvolve,这是一个基于 Gemini 模型的进化编码智能体,能够自动发现和优化数学与计算领域的算法,已在谷歌数据中心调度、TPU 芯片设计和 AI 训练中部署,平均回收 0.7% 的计算资源并加速矩阵乘法。
- 为什么重要:该新闻直接展示了 Agent 在复杂算法设计、基础设施优化中的实际落地,且已有明确的效率提升案例(数据中心、芯片、AI 训练),与 Agent、skill、workflow 及企业级应用方向高度相关,对 AI 自动化工程化有重要参考价值。
- 对我的工作启发:信息来源可靠(官方博客),内容明确:Agent 驱动的算法发现与优化,已在 Google 内部产生实际效益,与重点关注的 Agent、工具调用、基础设施优化强相关,重要性高,因此建议值得细看。
- 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
- 建议动作:值得细看
4. Google DeepMind 发布 Gemini Omni 模型
- 来源:Google DeepMind
- 链接:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
- 类型:model_update
- 总分:8.45
- 一句话摘要:Google DeepMind 推出 Gemini Omni Flash 模型,支持视频输入并生成高质量视频,可用自然语言进行多轮编辑,融合世界知识和物理理解。
- 为什么重要:Gemini Omni 是 Google 在多模态视频生成上的重要进阶,结合推理与创作能力,可能重塑视频内容生产流程,对 AI 应用场景(如视频编辑、创意工具)有深远影响。
- 对我的工作启发:官方博客明确发布新模型,信息可靠;虽未直接涉及 Agent 或工具调用,但多模态视频生成能力及其应用前景与重点关注方向强相关,评分较高。
- 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
- 建议动作:值得细看
5. 智谱AI发布新一代旗舰模型GLM-5,专为长程Agent任务设计
- 来源:智谱AI开放文档
- 链接:https://docs.bigmodel.cn/cn/update/new-releases#2026-02-12
- 类型:model_update
- 总分:8.35
- 一句话摘要:2026年2月12日,智谱AI发布新一代旗舰模型GLM-5,专为复杂系统工程与长程Agent任务设计,在代码逻辑密度和系统工程能力上对标Claude Opus 4.5,并首次集成DeepSeek Sparse Attention以提升Token效率。
- 为什么重要:GLM-5聚焦长程Agent任务和复杂系统工程能力,直接对标国际顶尖模型,且集成了稀疏注意力技术提升效率,对Agent应用和模型能力提升具有重要参考价值,与重点关注方向高度相关。
- 对我的工作启发:官方文档来源,信息可靠;模型能力针对Agent和编码场景,与重点关注方向高度相关;创新点明确(集成稀疏注意力),重要性高。
- 投资/产业观察:可能包含产业或投资强信号,建议结合公司、供应链和竞品动态继续跟踪。
- 建议动作:值得细看
二、今日最值得看的 Agent / Skill
- 名称:Introducing Discovery - The Engine that Surfaces What to Automate
- 类型:tool
- 来源:CrewAI Blog
- 链接:https://www.crewai.com/blog/crewai-discovery
- 推荐理由:今日新闻中多个模型发布(DeepSeek-V4、GLM-5.1)均强调 Agent 能力增强,模型门槛降低;而 Discovery 引擎直击 B 端流程自动化的核心痛点——识别哪些流程值得自动化。对于电商 B 端算法负责人,可借助此思路发现商品审核、数据标注、订单处理等环节的自动化机会,推动成本优化与效率提升。
- 对我的工作启发:电商 B 端算法负责人常面临大量重复性审核、标注和质检流程,Discovery 提供了一种系统化方法来自动识别高价值自动化场景,有助于将今日模型能力落地到实际业务中,减少人工干预,优化成本。
- 建议动作:阅读原文了解 Discovery 的工作方式和适用场景,尝试将其方法论映射到电商商品图审核、结构化抽取等流程中,评估是否需要类似方案或工具。
- 置信度:0.70
三、模型更新
| 公司 | 更新 | 影响 | 分数 | 链接 |
|---|---|---|---|---|
| DeepSeek | DeepSeek-V4 Preview 发布:开源、1M上下文、Agent能力增强 | DeepSeek-V4 在模型能力、上下文长度、Agent 性能、开源策略上均有重大提升,直接对标闭源顶级模型,且开源权重和 API 立即可用,将对大模型竞争格局和 Agent 应用落地产生深远影响。 | 9.00 | 原文 |
| 智谱AI | GLM-5.1新一代旗舰模型上线 | GLM-5.1在Agent长程任务和Coding能力上有显著突破,且首次实现中国模型全面对齐国际顶级模型,对Agent落地和开源生态有重要推动,同时多模态模型GLM-5V-Turbo等更新也强化了视觉Agent能力。 | 8.85 | 原文 |
| Google DeepMind 发布 Gemini Omni 模型 | Gemini Omni 是 Google 在多模态视频生成上的重要进阶,结合推理与创作能力,可能重塑视频内容生产流程,对 AI 应用场景(如视频编辑、创意工具)有深远影响。 | 8.45 | 原文 | |
| 智谱AI | 智谱AI发布新一代旗舰模型GLM-5,专为长程Agent任务设计 | GLM-5聚焦长程Agent任务和复杂系统工程能力,直接对标国际顶尖模型,且集成了稀疏注意力技术提升效率,对Agent应用和模型能力提升具有重要参考价值,与重点关注方向高度相关。 | 8.35 | 原文 |
| 阿里云 | 阿里云百炼模型更新:新上架Qwen3.7、Qwen3.6、DeepSeek-v4等多款模型 | 此次更新集中展示了阿里云在模型能力上的快速迭代,特别是Agent和编程能力的提升,对AI应用开发和平台生态有重要影响,直接关联Agent、工具调用和自动化落地等关注方向。 | 8.30 | 原文 |
| DeepSeek | Introducing DeepSeek-V3 | DeepSeek-V3 是开源大模型领域的重大进步,性能与速度大幅提升,同时保持极具竞争力的定价,对模型能力、部署成本和开源生态都有显著影响,是关注大模型应用和 Agent 开发的重要参考。 | 8.25 | 原文 |
| 智谱AI | 智谱AI发布GLM-5.1旗舰模型,支持8小时自主长程任务 | 该模型在自主规划、持续执行和工具使用能力上有显著提升,对Agent长程任务、Code Agent等场景具有重要参考价值,标志着中国模型在综合能力上首次全面对齐国际顶尖模型。 | 8.10 | 原文 |
| 智谱AI | GLM-4.5 系列基座模型上线 | 该模型是原生智能体大模型,在Agent方向(长程任务、工具调用、自主规划)有显著进展,同时成本大幅降低(API价格为Claude的1/10),有利于推动Agent的规模化应用和商业化落地。 | 8.10 | 原文 |
四、新应用场景
| 场景 | 产品/公司 | 价值 | 可复制性 | 链接 |
|---|---|---|---|---|
| product_launch | Google DeepMind | Google DeepMind 发布 AlphaEvolve,这是一个基于 Gemini 模型的进化编码智能体,能够自动发现和优化数学与计算领域的算法,已在谷歌数据中心调度、TPU 芯片设计和 AI 训练中部署,平均回收 0.7% 的计算资源并加速矩阵乘法。 | 信息来源可靠(官方博客),内容明确:Agent 驱动的算法发现与优化,已在 Google 内部产生实际效益,与重点关注的 Agent、工具调用、基础设施优化强相关,重要性高,因此建议值得细看。 | 原文 |
| product_launch | DeepSeek | DeepSeek API推出磁盘上下文缓存(Context Caching on Disk)技术,将重复输入的缓存命中价格降至每百万token 0.014美元,成本最高降低90%,并且无需代码改动即可自动生效。 | 信息来自DeepSeek官方API文档,来源可靠。该功能直接降低推理成本,对Agent和长上下文应用有显著价值,且技术新颖(磁盘缓存),与重点方向高度相关。 | 原文 |
| product_launch | 智谱AI | 智谱AI于2025年12月11日发布AutoGLM-Phone,支持用自然语言自动完成App操作任务,具备界面识别、意图规划与设备执行的端到端能力,已适配50+主流中文应用场景。 | 官方文档发布,信息明确;Agent落地产品,与关注重点强相关;界面识别涉及多模态,功能新颖;但发布时间由抓取代替,部分细节有限,confidence 0.8。 | 原文 |
| application | Anthropic | PwC宣布将大规模部署Anthropic的Claude,包括Claude Code和Cowork,覆盖全球数十万员工,并建立联合卓越中心,培训3万名专业人员。重点聚焦三大领域:Agentic技术构建、AI原生交易执行和企业职能再造。已有多个生产部署(保险核保、网络安全等),交付时间缩短高达70%。 | 官方公告,信息可靠。涉及Agent、tool use、企业应用落地,与重点方向高度相关。明确的生产案例和规模扩展,具有重要参考价值。published_at_missing略降confidence。 | 原文 |
| product_launch | Anthropic | Anthropic发布十个面向金融服务的AI Agent模板,支持Claude Cowork、Claude Code和Claude Managed Agents,并集成Microsoft 365(Excel、PowerPoint、Word、Outlook),新增Dun & Bradstreet、Moody's等数据连接器和MCP应用。 | 原文为官方发布,信息完整可靠;内容直接涉及Agent模板、工具调用、MCP、企业级应用,与重点关注方向高度相关;评分高,action为值得细看。 | 原文 |
| product_launch | Anthropic | Anthropic 推出 Claude Design,一个基于 Claude Opus 4.7 的视觉协作产品,支持用户通过对话创建设计、原型、幻灯片等视觉作品,并提供团队设计系统自动应用、多格式导出及 Claude Code 交付功能。 | 官方博客发布,信息详实可靠;产品直接涉及 Agent 协作和视觉应用落地,与关注重点高度相关;重要性高,值得深入研究。 | 原文 |
| product_launch | Anthropic | Anthropic推出Claude for Small Business,为小企业提供连接器和即用工作流,集成QuickBooks、PayPal、HubSpot等工具,涵盖财务、营销、销售等15个Agent工作流,支持一键安装和审批机制。 | 官方博客详细介绍了产品功能和合作生态,信息可靠。产品聚焦Agent工作流和工具集成,与Agent、应用落地强相关,具有较高参考价值;同时影响小企业AI市场格局和商业化前景,投资价值较高。新颖度中等,因类似概念已有但具体方案有新意。 | 原文 |
| product_launch | Moonshot AI | Moonshot AI 发布 Kimi Playground,为开发者提供直观的工具调用体验平台,支持内置官方工具和第三方 MCP server 工具,并展示 Kimi K2 在多工具协同调用下的旅游规划和数据分析案例。 | 官方博客发布,信息可靠;内容与 Agent、Tool Use、MCP 直接相关,符合重点关注方向,且包含实际案例演示,对工作有高参考价值。 | 原文 |
五、论文/技术趋势
| 论文/技术 | 方向 | 结论 | 对业务启发 | 链接 |
|---|---|---|---|---|
| Context: Proactive Goal-Directed Intelligence via Composable Sandboxed Programs, Declarative Wiring, and Structured Interaction | model_capability、cost、agent、research | 提出Context架构,将被动问答聊天机器人替换为主动目标驱动Agent,通过写时上下文组装(近100%KV缓存重用)、可组合沙箱程序(无需额外LM调用)和主动状态机驱动对话,并证明了六个形式化定理,实现确定性、低成本的Agent交互。 | 论文内容与Agent、成本优化、工程化高度相关,信息完整且来自arXiv,理论严谨,具备较高新颖性和重要性,符合重点关注方向。 | 原文 |
| SIMA 2: An Agent that Plays, Reasons, and Learns with You in Virtual 3D Worlds | agent、model_capability、research | Google DeepMind发布SIMA 2,基于Gemini的AI代理,能在3D虚拟世界中执行指令、推理、对话并自我改进,从指令跟随者进化为游戏伴侣。 | 官方来源、内容详实,与Agent方向强相关,体现了大模型在具身智能中的应用,值得深入研究。 | 原文 |
| 介绍一下 MoBA:面向长文本大模型的混合块注意力机制 | model_capability、cost、research | Moonshot AI 提出了 MoBA(混合块注意力),将专家混合(MoE)与稀疏注意力结合,通过动态块选择和高效实现,在长上下文任务中实现与全注意力相当的性能,同时显著降低计算成本(百万上下文加速6.5倍,千万上下文加速16倍)。 | 原文来自官方博客,附有论文和开源代码,信息完整可信。MoBA 结合 MoE 和稀疏注意力,显著提升长上下文效率,直接关联 Agent、长文档处理等应用,对模型能力和成本均有积极影响,故评分高,建议细看。 | 原文 |
| QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks | agent、research、model_capability、application | 提出QUEST系列开源模型(2B-35B),作为通用深度研究Agent,采用全合成任务训练(中训练、监督微调、强化学习),在8个基准上接近或超越闭源前沿Agent,并开源模型、数据和训练脚本。 | 论文提出用合成数据训练通用深度研究Agent,方法创新且有效,开源模型和数据对Agent方向具有重要参考价值,信息来源为arXiv论文,可信度高。 | 原文 |
| Claude 通过率不到4%,SaaS-Bench评测显示AI全自动办公远未落地 | agent、application、model_capability | UniPat AI 发布 SaaS-Bench 评测,测试 Claude 等主流大模型在真实办公任务中的表现,完全通过率最高仅 3.8%,表明 AI 全自动办公远未落地。 | 原文提供了具体评测结果(完全通过率3.8%),信息较完整,来源可靠。该新闻与 Agent 自动化办公能力评估强相关,对判断 AI 应用落地现状有直接参考价值,因此工作相关性高,重要性高。 | 原文 |
| 技术报告:Muon 优化器的首次大规模训练实践 | model_capability、cost、infrastructure、research | Moonshot AI 发布技术报告,验证Muon优化器在大规模LLM训练中的可扩展性,相比AdamW实现约2倍计算效率提升,并开源了基于Muon训练的3B/16B MoE模型Moonlight及其分布式实现。 | 官方博客发布,信息完整可信;Muon优化器实现2倍计算效率提升对LLM训练成本有重要影响,且开源了模型和代码,具有研究和工程参考价值。 | 原文 |
| How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning | cost、model_capability、research | 该论文形式化定义了LLM推理轨迹的冗余度,量化发现前沿推理模型在数学问题上的推理步骤冗余度高达61%-93%,并证明这种过度思考是长度无关奖励训练的结构性结果,而非模型特定缺陷。 | 论文来源可靠(arXiv),定义并量化了推理冗余度,发现高达61%-93%的冗余,并证明是训练结构性结果。对降低推理成本、优化模型推理策略有直接启示,与重点关注的大模型应用成本、Agent效率高度相关,且新颖性高。 | 原文 |
| ActQuant: Sub-4-bit Action-Guided Quantization for Vision-Language-Action Models | model_capability、cost、multimodal、agent、infrastructure、research | ActQuant 提出了一种面向视觉-语言-动作(VLA)模型的亚4比特动作引导混合精度后训练量化框架,通过跨张量比特分配和块内尺度优化,在LIBERO基准上实现3比特以下权重的量化,保留95%以上性能,并在真实机器人上验证了2.5倍内存压缩。 | 论文来自可靠学术来源,信息完整。ActQuant 的新方法提高了VLA模型在边缘设备上的可行性,与Agent部署、成本优化强相关,因此工作相关性较高。虽然属于研究论文,但实用性明显,重要性适中,值得进一步参考。 | 原文 |
六、产业和投资观察
- 算力:DeepSeek-V4 Preview 发布:开源、1M上下文、Agent能力增强;AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms;智谱AI发布新一代旗舰模型GLM-5,专为长程Agent任务设计
- 模型公司:DeepSeek-V4 Preview 发布:开源、1M上下文、Agent能力增强;GLM-5.1新一代旗舰模型上线;AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms
- 应用层:DeepSeek-V4 Preview 发布:开源、1M上下文、Agent能力增强;GLM-5.1新一代旗舰模型上线;AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms
- 云厂商:Google DeepMind 发布 Gemini Omni 模型;Introducing DeepSeek-V3;May 6, 2026 Announcements Higher usage limits for Claude and a compute deal with SpaceX
- 开源生态:DeepSeek-V4 Preview 发布:开源、1M上下文、Agent能力增强;AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms;Introducing DeepSeek-V3
- 监管:国家发改委:指导国产大模型加大力度适配国产算力芯片;【钛晨报】实名购药、严禁AI替代审方,《处方药网络零售合规指南》发布;华为发表半导体韬定律;6G试验频率正式获批,6G有望在2030年前后正式商用;Anthropic 更新责任扩展政策
七、对我工作的启发
- 关注多模态商品理解和图文审核场景中可复用的新模型能力,优先评估是否能降低人工审核和标注成本。
- 跟踪 agent/workflow agent 在 B 端流程中的稳定性进展,适合先从内部运营、质检和数据处理流程试点。
- 价格、推理效率和基础设施变化可能影响小模型/大模型路由策略,需要沉淀成本基准。
- 论文趋势可用于更新 OCR、结构化抽取、弱监督和 synthetic data 的候选技术池。
八、建议动作
值得细看
- DeepSeek-V4 Preview 发布:开源、1M上下文、Agent能力增强(9.00)
- GLM-5.1新一代旗舰模型上线(8.85)
- AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms(8.55)
- Google DeepMind 发布 Gemini Omni 模型(8.45)
- 智谱AI发布新一代旗舰模型GLM-5,专为长程Agent任务设计(8.35)
- 阿里云百炼模型更新:新上架Qwen3.7、Qwen3.6、DeepSeek-v4等多款模型(8.30)
- Introducing DeepSeek-V3(8.25)
- Context Caching is Available(8.20)
- 智谱AI发布AutoGLM-Phone AI手机智能助理框架(8.20)
- Context: Proactive Goal-Directed Intelligence via Composable Sandboxed Programs, Declarative Wiring, and Structured Interaction(8.15)
- May 6, 2026 Announcements Higher usage limits for Claude and a compute deal with SpaceX(8.10)
- 智谱AI发布GLM-5.1旗舰模型,支持8小时自主长程任务(8.10)
- GLM-4.5 系列基座模型上线(8.10)
- May 14, 2026 Announcements PwC is deploying Claude to build technology, execute deals, and reinvent enterprise functions for clients(8.05)
- SIMA 2: An Agent that Plays, Reasons, and Learns with You in Virtual 3D Worlds(8.05)
- Remote agents in Vibe. Powered by Mistral Medium 3.5.(7.95)
- Kimi K2 模型更新,带来更强的代码能力、更快的 API(7.95)
- May 5, 2026 Announcements Agents for financial services(7.90)
- Kimi K2 Thinking 模型发布并开源,全面提升 Agent 和推理能力(7.90)
- Introducing Claude Opus 4.7(7.85)
- Anthropic 发布 Claude Opus 4.7 模型(7.85)
- Introducing Claude Design by Anthropic Labs(7.80)
- 介绍一下 MoBA:面向长文本大模型的混合块注意力机制(7.80)
- Introducing Claude for Small Business(7.75)
- QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks(7.65)
- Claude 通过率不到4%,SaaS-Bench评测显示AI全自动办公远未落地(7.65)
- 华为发表半导体韬(τ)定律,提出时间缩微替代几何缩微(7.55)
- GLM-4.7 基座模型上线(7.40)
- Kimi Playground 一站式体验 Kimi K2 的工具调用能力(7.35)
- 技术报告:Muon 优化器的首次大规模训练实践(7.35)
- KPMG integrates Claude across its core business and workforce of more than 276,000 in strategic alliance(7.25)
- Anthropic acquires Stainless(7.20)
- How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning(7.15)
- ActQuant: Sub-4-bit Action-Guided Quantization for Vision-Language-Action Models(7.15)
- New API Features 2024/07/25(7.15)
- 智谱AI发布GLM-4.6V视觉推理模型(7.15)
- ContextEcho: A Benchmark for Persona Drift in Long Agentic-Coding Sessions(7.10)
- 智谱AI发布GLM-5-Turbo龙虾增强基座模型(7.10)
- Raon-Speech Technical Report(7.05)
- ima Copilot25日全面开放,并发布新能力知识号支持发布Skill(7.00)
- Google DeepMind 发布多项 AI 突破与更新(2026年5月汇总)(6.90)
- 阿里云发布全新海外AI产品官网Qwen Cloud(6.85)
- Introducing Claude Opus 4.7(6.85)
- CogVideoX-3 视频生成模型上线(6.85)
- 马斯克:Grok基础模型V9-Medium(1.5T)已完成训练(6.80)
- 字节跳动申请注册Agent World商标(6.80)
- MGVQ: Synergizing Multi-dimensional Sensitivity-Aware and Gradient-Hessian Fusion for Vector Quantization(6.80)
- Operationalizing Reconstructive Authority: Runtime Construction, Dependency Resolution, and Execution Gating in Autonomous Agent Systems(6.75)
- Kimi 长思考模型 API 正式发布(6.75)
- 为什么要推出 Kimi Latest 模型?(6.70)
- An Interactive Paradigm for Deep Research(6.65)
- 国家发改委:指导国产大模型加大力度适配国产算力芯片(6.65)
- DRIVE: Modeling Skills at the Reasoning and Interaction Levels for Web Agents under Continual Learning(6.60)
- Residual Drift Dominates Contradiction in Multi-Turn Constraint Reasoning(6.60)
- Kimi K2 又又又提速了(6.55)
- Kimi 开放平台:新功能发布记录(6.20)
- Quantum Frog: Emergent Cooperation and Difficulty Scaling in a Quantized-Time Cooperative Game(6.05)
值得收藏
- GLM-4.7 基座模型上线(7.40)
- Kimi Playground 一站式体验 Kimi K2 的工具调用能力(7.35)
- 技术报告:Muon 优化器的首次大规模训练实践(7.35)
- KPMG integrates Claude across its core business and workforce of more than 276,000 in strategic alliance(7.25)
- Anthropic acquires Stainless(7.20)
- How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning(7.15)
- ActQuant: Sub-4-bit Action-Guided Quantization for Vision-Language-Action Models(7.15)
- New API Features 2024/07/25(7.15)
- 智谱AI发布GLM-4.6V视觉推理模型(7.15)
- ContextEcho: A Benchmark for Persona Drift in Long Agentic-Coding Sessions(7.10)
- 智谱AI发布GLM-5-Turbo龙虾增强基座模型(7.10)
- Raon-Speech Technical Report(7.05)
- ima Copilot25日全面开放,并发布新能力知识号支持发布Skill(7.00)
- Google DeepMind 发布多项 AI 突破与更新(2026年5月汇总)(6.90)
- 阿里云发布全新海外AI产品官网Qwen Cloud(6.85)
- Introducing Claude Opus 4.7(6.85)
- CogVideoX-3 视频生成模型上线(6.85)
- 马斯克:Grok基础模型V9-Medium(1.5T)已完成训练(6.80)
- 字节跳动申请注册Agent World商标(6.80)
- MGVQ: Synergizing Multi-dimensional Sensitivity-Aware and Gradient-Hessian Fusion for Vector Quantization(6.80)
- Operationalizing Reconstructive Authority: Runtime Construction, Dependency Resolution, and Execution Gating in Autonomous Agent Systems(6.75)
- Kimi 长思考模型 API 正式发布(6.75)
- 为什么要推出 Kimi Latest 模型?(6.70)
- An Interactive Paradigm for Deep Research(6.65)
- 国家发改委:指导国产大模型加大力度适配国产算力芯片(6.65)
- DRIVE: Modeling Skills at the Reasoning and Interaction Levels for Web Agents under Continual Learning(6.60)
- Residual Drift Dominates Contradiction in Multi-Turn Constraint Reasoning(6.60)
- Kimi K2 又又又提速了(6.55)
- May 22, 2026 Announcements Project Glasswing: An initial update(6.30)
- Kimi K2 官方高速版 API 开启 5 折特惠(6.30)
- Kimi 开放平台:新功能发布记录(6.20)
- Multi-Persona Debate System for Automated Scientific Hypothesis Generation(6.15)
- 智谱AI发布GLM-4.7-Flash免费模型(6.15)
- 营销内容从“用AI”到“管AI”的10倍提效| 2026AI Partner·北京亦庄AI+产业大会(6.10)
- Mixture of Complementary Agents for Robust LLM Ensemble(6.10)
- Quantum Frog: Emergent Cooperation and Difficulty Scaling in a Quantized-Time Cooperative Game(6.05)
- Kimi API 助手的氮气加速装置 —— 以 Golang 为例实践 Context Caching 3(6.05)
- IVR-R1: Refining Trajectories through Iterative Visual-Grounded Reasoning in Reinforcement Learning(6.00)
- Mitigating Hallucinations in Large Vision-Language Models via Causal Route Gating(6.00)
值得转给团队
- DeepSeek-V4 Preview 发布:开源、1M上下文、Agent能力增强(9.00)
- GLM-5.1新一代旗舰模型上线(8.85)
- AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms(8.55)
- Google DeepMind 发布 Gemini Omni 模型(8.45)
- 智谱AI发布新一代旗舰模型GLM-5,专为长程Agent任务设计(8.35)
- 阿里云百炼模型更新:新上架Qwen3.7、Qwen3.6、DeepSeek-v4等多款模型(8.30)
- Introducing DeepSeek-V3(8.25)
- Context Caching is Available(8.20)
- 智谱AI发布AutoGLM-Phone AI手机智能助理框架(8.20)
- Context: Proactive Goal-Directed Intelligence via Composable Sandboxed Programs, Declarative Wiring, and Structured Interaction(8.15)
- May 6, 2026 Announcements Higher usage limits for Claude and a compute deal with SpaceX(8.10)
- 智谱AI发布GLM-5.1旗舰模型,支持8小时自主长程任务(8.10)
- GLM-4.5 系列基座模型上线(8.10)
- May 14, 2026 Announcements PwC is deploying Claude to build technology, execute deals, and reinvent enterprise functions for clients(8.05)
- SIMA 2: An Agent that Plays, Reasons, and Learns with You in Virtual 3D Worlds(8.05)
- Remote agents in Vibe. Powered by Mistral Medium 3.5.(7.95)
- Kimi K2 模型更新,带来更强的代码能力、更快的 API(7.95)
- May 5, 2026 Announcements Agents for financial services(7.90)
- Kimi K2 Thinking 模型发布并开源,全面提升 Agent 和推理能力(7.90)
- Introducing Claude Opus 4.7(7.85)
- Anthropic 发布 Claude Opus 4.7 模型(7.85)
- Introducing Claude Design by Anthropic Labs(7.80)
- 介绍一下 MoBA:面向长文本大模型的混合块注意力机制(7.80)
- Introducing Claude for Small Business(7.75)
- QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks(7.65)
- Claude 通过率不到4%,SaaS-Bench评测显示AI全自动办公远未落地(7.65)
- GLM-4.7 基座模型上线(7.40)
- Kimi Playground 一站式体验 Kimi K2 的工具调用能力(7.35)
- KPMG integrates Claude across its core business and workforce of more than 276,000 in strategic alliance(7.25)
- Anthropic acquires Stainless(7.20)
- How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning(7.15)
- ActQuant: Sub-4-bit Action-Guided Quantization for Vision-Language-Action Models(7.15)
- New API Features 2024/07/25(7.15)
- 智谱AI发布GLM-4.6V视觉推理模型(7.15)
- ContextEcho: A Benchmark for Persona Drift in Long Agentic-Coding Sessions(7.10)
- 智谱AI发布GLM-5-Turbo龙虾增强基座模型(7.10)
- ima Copilot25日全面开放,并发布新能力知识号支持发布Skill(7.00)
- Google DeepMind 发布多项 AI 突破与更新(2026年5月汇总)(6.90)
- 阿里云发布全新海外AI产品官网Qwen Cloud(6.85)
- Introducing Claude Opus 4.7(6.85)
- 字节跳动申请注册Agent World商标(6.80)
- MGVQ: Synergizing Multi-dimensional Sensitivity-Aware and Gradient-Hessian Fusion for Vector Quantization(6.80)
- Operationalizing Reconstructive Authority: Runtime Construction, Dependency Resolution, and Execution Gating in Autonomous Agent Systems(6.75)
- 为什么要推出 Kimi Latest 模型?(6.70)
- An Interactive Paradigm for Deep Research(6.65)
- DRIVE: Modeling Skills at the Reasoning and Interaction Levels for Web Agents under Continual Learning(6.60)
- Kimi K2 又又又提速了(6.55)
- Kimi K2 官方高速版 API 开启 5 折特惠(6.30)
- Kimi 开放平台:新功能发布记录(6.20)
- Multi-Persona Debate System for Automated Scientific Hypothesis Generation(6.15)
- 智谱AI发布GLM-4.7-Flash免费模型(6.15)
- 营销内容从“用AI”到“管AI”的10倍提效| 2026AI Partner·北京亦庄AI+产业大会(6.10)
- Kimi API 助手的氮气加速装置 —— 以 Golang 为例实践 Context Caching 3(6.05)
- Toward Reliable Design of LLM-Enabled Agentic Workflows: Optimizing Latency-Reliability-Cost Tradeoffs(5.95)
- GLM-4.6 基座模型上线(5.95)
- 用AI重构增长:新通教育集团的实践| 2026AI Partner·北京亦庄AI+产业大会(5.75)
可以忽略
- Extracting Training Data from Diffusion Language Models via Infilling(4.40)
- AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue(4.30)
- Document Classification Pattern Recognition via Information Fusion: A Systematic Review of Multimodal and Multiview Representation Approaches(4.25)
- Algometrics: Forecasting Under Algorithmic Feedback(4.05)
- Confidence Calibration in Large Language Models(4.00)
- Latest news from Meta AI Blog(3.90)
- A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks(3.85)
- Anthropic co-founder Chris Olah's remarks on Pope Leo XIV's encyclical "Magnifica humanitas"(3.70)
- DRInQ: Evaluating Conversational Implicature with Controlled Context Variation(3.65)
- BoxLitE: A Faithful Knowledge Base Embedding Based on Convex Optimization(3.60)
- A Large-Scale Dataset and Benchmark: Do Protein-Ligand Models Learn Binding Sites or Just Binding Likelihood?(3.55)
- fMRI-Diffusion: Generating fMRI Time Series Via a Temporal Transformer Diffusion Model for Major Depressive Disorder Diagnosis(3.50)
- Cascade-KDE: Robust Time-Series Restoration under Out-of-Distribution Impulse Corruptions(3.50)
- Deep Learning-Based Automated Quantification of TIMI Myocardial Perfusion Frame Count (DL-TMPFC) from Coronary Angiography: A Novel Framework for Rapid Assessment of Microvascular Dysfunction(3.45)
- A Dynamical Framework for Cognitive Processes Based on Transformations and Semantic Equivalence(3.40)
- RAW: Robust Avatar Watermarking -- Benchmarking and Baseline(3.40)
- Task-Aligned Self-Supervised Learning for Medical Image Analysis: A Systematic Review and Practical Design Guidelines(3.40)
- Soft Tuy-Completeness for Robust Projection Selection in Cone-Beam CT(3.40)
- Learning to See Like Humans: Gaze-Aligned Cycling Safety Prediction(3.40)
- Hidden-State Privacy Has an Empty Middle(3.35)
- Toxicity in Twitch Chats: An LLM-Based Analysis Across Gaming Communities(3.30)
- Remote sensing data imputation using deep learning for multispectral imagery(3.30)
- 36氪首发 | 国家级产业基金出手,桥田智能获亿元融资(3.25)
- Fuzzy, Neutrosophic, and Uncertain Graph Theory: Properties and Applications(3.20)
- CUNY at CLPsych 2026: A Pipeline Approach to Classification and Summarization of Mental Health Changes(3.20)
- Widening the conversation on frontier AI(3.15)
- Spacetime Formation under Requirements: Contextual Realization and Form-Dependent Probability(3.05)
- News — Google DeepMind(3.00)
- 众擎机器人等在河南成立新公司,注册资本5000万(2.90)
- 对话云鲸CEO张峻彬:理解人性,告别天真(2.85)
- 投资人疯抢“没利润”的AI企业:一场关于“未来定义权”的豪赌(2.80)
- Research(2.80)
- Explore research(2.75)
- 扣非连亏、主业承压,杰美特追加2.35亿控股戴尔蒙德跨界新材料 | 并购一线(2.60)
- 消除“罪证”:给写作去除“AI味”的不完全手册(2026版)(2.55)
- Kimi 企业级 API 正式发布(2.45)
- 传大砍分红引发员工不满,台积电紧急声明福利将持续增加(2.40)
- 一年关店399家,“温州鞋王”遭遇财富“滑铁卢”(2.40)
- 割肉福兆、苦候30亿补偿款:华映科技的“止血”与“输血”困局(2.40)
- 三星成韩国负债最多企业集团(2.00)
- Products(2.00)
- 3万、半年、注销:2026年,第一批“一人公司”老板已经退场(1.90)
- AlphaGo Mastering the game of Go(1.90)
- Google DeepMind 研究论文列表页面(1.80)
- Google Research Explore our research(1.80)
- 半日主力资金加仓有色金属股,抛售电子股(1.75)
- 李强主持召开国务院常务会议,研究推进全国统一大市场建设有关工作(1.65)
- 恒指午间休盘涨0.54%,联想集团涨超17%(1.60)
- FSD来了,最该高兴的是国内车企(1.60)
- 阅文集团正式上线海外漫剧平台ToonScroll(1.55)
- 助力产业人才培养,希音获评“国家级高技能人才培训基地”(1.50)
- 净利暴跌七成,“RNA诊断第一股”仁度生物何以着急“卖身”?(1.40)
- 新品是今年618的一大看点(1.40)
- 一张电费单正在撕裂美国,更照出了中美AI竞争的底牌(1.25)
- 独立储能为什么很难赚到钱?(1.20)
- 时钟的归时钟:从摩尔到韬定律的六十年(1.20)
- 三大巨头竞购朴朴?即时零售迈入寡头时代(1.00)
- Leo张ToB杂谈个人空间(1.00)
- 罗马仕发生法定代表人变更(0.90)
- 5月25日新闻联播速览17条(0.90)
- 奶茶店、小吃店加冰淇淋,90%的人选错了方法(0.75)
- 全日本打工人最离不开的老头,走了(0.70)
- A股三大指数午间休盘集体下跌,招金黄金涨停(0.50)
- 珀莱雅很需要花知晓(0.30)
- 30亿资金被转移,联储证券状告大股东(0.30)
- 机器之心(0.10)
- 创投家CLUB投资机构库(0.10)
- 02:37 这届北京车展,我看到了行业洗牌的信号(0.10)
- 钛媒体App-商业财经信息及专业人士汇聚交流平台(0.00)