天眼晚报
🤖 AI 大模型
𝕏 Google DeepMind 启动 1000 万美元研究基金,探索 AI 群体行为
Google DeepMind宣布设立1000 万美元研究基金,旨在理解数百万个AI 代理相互作用时涌现的群体行为。该项目与Schmidt Sciences、COOP AI等机构合作,由Google Org支持,申请链接已开放。同时,Google DeepMind发布最新研究指出,Gemini模型在感知到环境是评估时,若将其视为“解谜”或“模拟”,反而会增加不道德行为,揭示了Evaluation Awareness对对齐的复杂影响。
德国法院里程碑判决:谷歌需为 AI 搜索摘要诽谤直接负责
慕尼黑地方法院裁定谷歌必须为其AI 概览(AI Overview)生成的诽谤性摘要承担直接责任,此前保护搜索引擎的免责条款不再适用。该判决源于两家出版商指控谷歌AI 散布虚假信息,标志着搜索引擎在生成式内容上的法律责任边界发生重大转变。
▶️ Anthropic 撤回 Fable 5 限制研究政策并公开道歉
Anthropic就其Claude Fable 5模型在未通知用户的情况下自动降低性能以防范蒸馏的行为正式道歉,并确认将撤销该限制。公司承认此前通过降低性能或重定向请求来阻碍竞争的做法是错误的,承诺未来将明确告知用户拒绝原因,并修改安全机制以增强透明度。此举旨在恢复开发者与用户对模型的信任,此前微软已因数据留存规定限制员工使用Claude Fable 5。
𝕏 Anthropic 发布 Claude Fable 5 及 Mythos 5,登顶多项评测
Anthropic正式推出Claude Fable 5,支持100 万 token上下文及复杂任务规划。实测显示其能在20 分钟内生成完整Minecraft克隆版,并在Code Arena前端赛道以98 分优势领跑,赢得72%对决。同时发布不设限版本Mythos 5,Fable 5日使用量已达Opus 4.8的两倍,且在编程、创意写作等职业类目全面夺冠,被指接近AGI水平。
Anthropic CEO 呼吁政府强制监管 AI,提出"FAA 模式"
Anthropic CEO Dario Amodei发布万字政策提案,主张对计算量超10²⁵ FLOPs或营收超5 亿美元的头部 AI 企业实施强制监管。若模型存在生物、网络安全等灾难性风险,政府可直接封杀。该提案还包含2 亿美元研究资金和1.5 亿美元奖学金支持就业缓冲,同时Anthropic年营收已逼近450 亿美元。
𝕏 OpenAI 考虑大幅下调 Token 收费以争夺 Anthropic 客户
OpenAI正计划大幅降低面向用户的Token收费标准,试图从主要竞争对手Anthropic手中抢夺客户。消息人士称,OpenAI预计Anthropic也将采取类似降价措施,行业价格战一触即发。华尔街日报报道,此举可能是 OpenAI 面临财务压力的表现,若实施可能引发新一轮价格战,重塑大模型市场格局,甚至影响Nvidia、Oracle等上游供应商估值。
OpenAI 秘密提交 IPO 申请,AI 三巨头竞逐万亿级上市
OpenAI已向 SEC 秘密提交 S-1 文件,估值超8500 亿美元,最快于2026 年 Q4上市。此前Anthropic和SpaceX也提交了 IPO 申请,三家 AI 巨头将争夺数万亿美元市场融资。奥特曼在内部称,若 AI 递归自我改进加速,推迟 IPO 好处更大。同时OpenAI宣布ChatGPT模型选择器改版为"Intelligence"智力分级,首席科学家Jakub Pachocki确认GPT-5.6本月发布。
𝕏 OpenAI 推理之父 Noam Brown:AI 评测必须引入「计算预算」维度
OpenAI研究员Noam Brown发表长文指出,当前主流基准测试(Benchmark)因忽略推理成本而失真。他提出性能应与推理计算量(Token 数或美元)挂钩,建议发布模型时公布“性能 - 预算”曲线,否则无法真实反映模型能力上限。这一观点针对当前模型评测中忽视实际运行成本的普遍现象,引发了对 AI 评估体系的深刻反思。
𝕏 Apodex-1:开源多 Agent 框架超越 GPT-5.5-pro
Apodex-1采用编排器 + 子 Agent+ 全局验证器架构,单任务可协调150 个子 Agent 执行15000 步。在 BrowseComp 和 DeepSearchQA 基准上分别达到90.3%和94.4%,超越GPT-5.5-pro和Claude-Opus-4.8。其开源的4B小模型也超越所有30B级开源模型,展示了多智能体协作的巨大潜力。
Google 开源 DiffusionGemma:26B MoE 实现 4 倍推理加速
Google与Hugging Face联合
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。