天眼早报
🤖 AI 大模型
𝕏 Anthropic 发布 Claude Fable 5 与 Mythos 5,Mythos 级模型首次公开
Anthropic正式发布 Claude Fable 5(面向公众)和 Mythos 5(仅限安全合作伙伴),两者底座相同但安全层级不同。Fable 5是首个面向公众的 Mythos 级别模型,支持 100 万 token 上下文,在 CursorBench 达 72.9%,FrontierCode 达 31%,甚至能完成 5000 万行 Ruby 代码迁移。定价为输入 $10/百万 token、输出 $50/百万 token。该模型在涉及网络安全或生物研究等高风险场景时会自动降级至 Opus 4.8,且所有流量强制留存 30 天 用于安全监控。
𝕏 Claude Fable 5 基准测试全线碾压竞品,Agent 能力突破 SOTA
Claude Fable 5 在多个权威榜单刷新纪录:在 Vibe Code Bench 达到 90.4%,Terminal-Bench 达 88%,GDPval-AA 得分 1932,远超 Opus 4.8 等竞品。模型具备 9 小时 连续工作能力,能处理复杂设计文档。但在涉及前沿 AI 研究或生物医学任务时,因安全限制会主动降级至 Opus 4.8,引发部分用户关于“隐形降级”的争议。其自动化攻击成功率降至 5.4%,安全性显著提升。
𝕏 Google 发布 Gemini 3.5 Live Translate,支持 70+ 语言实时语音翻译
Google正式推出 Gemini 3.5 Live Translate,这是一款全新的音频模型,支持 70+ 种语言的低延迟双向语音翻译。该模型能自动检测多语言输入,保留说话者的语调和节奏,并在嘈杂环境中保持鲁棒性。现已在 Google Translate App、Gemini API、Google AI Studio 及 Google Meet 中开放预览或向部分客户推出。该功能旨在打破多语言沟通障碍,为开发者提供低延迟引擎以构建音频应用,并已在实际场景(如 Inside Grab)中得到应用验证。
𝕏 GitHub Copilot、Cursor、Notion 及 Microsoft Foundry 全面集成 Claude Fable 5
GitHub Copilot、Cursor、Notion AI 及 Microsoft Foundry 相继宣布集成 Claude Fable 5,以增强企业级 AI 工作流和复杂编码任务能力。Cursor IDE 在内部测试中获得 72.9% 高分;GitHub Copilot 使用该模型需开启 数据保留 功能;Notion 将其整合进自定义 Agent 系统;Microsoft 则在 Azure Foundry 平台引入该模型以提升长程规划能力。这些集成标志着 Fable 5 迅速成为主流开发工具的核心引擎。
𝕏 Cohere 开源 North Mini Code,3B 参数编码模型性能超越 Mistral Small
Cohere发布开源编码模型 North Mini Code,总参数量 30B(活跃参数仅 3B)。该模型在 Artificial Analysis Intelligence Index 上得分 27.6,超过 gpt-oss-20B,接近 Mistral Small 4。API 输出速度达每秒 199 个 token,采用 Apache 2.0 协议开源,专为 Agentic Coding 优化,赋予开发者完全控制权且可本地运行。
𝕏 DeepSeek 完成 500 亿元融资,估值飙升至 600 亿美元
DeepSeek宣布完成 500 亿元人民币融资,投资方包括 腾讯、宁德时代、网易 和 京东。公司估值从 4 月的 100 亿美元 暴涨至 600 亿美元,资金将主要用于建设 AI 数据中心。此次巨额融资反映了市场对国产大模型及其基础设施建设的强烈信心。
𝕏 LlamaParse 新增细粒度边界框,实现文档提取可验证溯源
LlamaIndex发布 LlamaParse 更新,新增 Granular Bounding Boxes 功能。现在可以精确提供每个提取值的单词、行和单元格级坐标,为合规审计和财务文件审核提供完整的可验证溯源链条。这一更新解决了传统解析器无法定位具体数值来源的问题,允许人类用户审计精确的 数字 和 文字,极大提升了 AI 决策 的可解释性与安全性。
𝕏 Memento-Skills 开源框架:让 Agent 具备自我进化能力
Memento-Skills 是一个自进化 Agent 框架,Agent 能在技能失败时自动反思、定位错误并重写技能库。该框架在 HLE 和 GAIA 基准测试中表现优异,支持 Kimi、MiniMax、GLM 等兼容端点,通过持续学习将基础原子技能进化为丰富能力集,完全开源。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。