天眼早报
🤖 AI 大模型
𝕏 ⭐ ByteDance Seed 发布超长视野代理基准,发现学习速度每三个月翻倍
ByteDance Seed 开发新基准研究代理在 134 个真实环境中学习,发现学习速度每 3 个月翻倍,性能遵循 log-sigmoid 缩放律。1M 上下文 Opus 4.8 持续优于 200k 变体,且 Opus 4.8 整体超过 GPT-5.5。
𝕏 ⭐ Gemini Omni Flash 登顶视频生成评测,谷歌确立领先地位
Google DeepMind的Gemini Omni Flash在 Video Arena 以Elo 1404登顶,领先第二名Seedance 2.0 Mini达101 分,创最大跃升记录。这标志着Google成为视频生成领域的全球领先实验室。
𝕏 ⭐ UK AISI 研究发现:预算从 250 万增至 5000 万 token 时,估计时间跨度从 2 小时延长至 14 小时
UK AISI 最新报告显示,提高推理预算从 250 万 到 5000 万 tokens,估计的时间跨度从约 2 小时 延长至 14 小时。同时证实投入规模与上下文长度对模型能力的关键影响。
𝕏 ⭐ Meta 研究:量化推理模型过度自我怀疑,简单解码修复可提升效率
Meta论文揭示,量化推理模型因压缩引入噪声而频繁自我怀疑,导致对正确答案犹豫不决。通过抑制 50 个犹豫词,可将推理长度减少12%-23%,同时保持或提升准确率。该发现对广泛使用的低成本模型意义重大。
📄 ⭐ MCP 服务器架构设计模式论文发布,揭示工具数量超过 10-15 个时模型准确率下降
新论文总结了 5 种 MCP 服务器模式(如数据暴露、工作流执行等)和 4 个常见错误。测试发现模型准确率在工具超过 10-15 个时降至 90% 以下,强调设计应保持工具列表小、清晰、安全。
𝕏 ⭐ Kimi K2.7 Code 正式登陆 GitHub Copilot,为首个可选开源权重模型
GitHub Copilot 新增对 Kimi K2.7 Code 的支持,这是首个在模型选择器中提供的开源权重模型。早期测试显示其性能媲美主流前沿模型且成本更低。
𝕏 ⭐ 中美模型差距分析:Opus 4.8 与 GPT-5.5 在长上下文任务中远超 GLM-5.2,归因于推理能力
scaling01 分析指出,Opus 4.8 和 GPT-5.5 在 100k+ 上下文时,MRCR 得分与 GLM-5.2 在 16k 时相当,原因是 GLM 未能有效使用推理。GPT-5.4 与 GLM-5.2 不带推理时得分相近,但开启推理后差距拉大。
⭐ Palantir CEO:部分美国政府客户将敏感 AI 工作迁移至 Nvidia Nemotron 开源模型
Palantir 首席执行官表示,部分美国政府客户正将敏感 AI 任务转移到 Nvidia Nemotron 上。Nemotron 可在 air-gapped 环境中运行,适合国防工作。模型质量不再是唯一决策因素,机构开始综合考虑速度、价格、主权和运营控制。
𝕏 ⭐ LeVLJEPA:无需负样本的视觉语言预训练新方法超越 CLIP
Meta联合研究者提出LeVLJEPA,首个非对比、端到端的视觉语言预训练方法。无需负样本、动量编码器或 stop-gradient,在大规模数据上全面超越CLIP和SigLIP,为多模态预训练开辟新路径。
𝕏 ⭐ Anthropic 官方博客:超 80% 代码由 Claude 编写,工程师产出提升 8 倍
Anthropic 工程师当前代码产出是去年的 8 倍。截至 2026 年 5 月,超过 80% 合并到 Anthropic 代码库的代码由 Claude 编写。这一数据来自 Anthropic 官方“递归自我改进”博文。
𝕏 ⭐ Claude Sonnet 5 在 Arena 榜单表现分析:前端代码提升显著
Anthropic最新Claude Sonnet 5(Thinking)在 Code Arena 前端排名第 6,比前代 Sonnet 4.6 高出29 分。在 Text Arena 中,Expert 级提示排名优于 4.6,但其他类别有所下降。整体定位为中端高效模型。
𝕏 Fable/Mythos 安全分类器更新导致部分提示被路由至 Opus 4.8,非模型自身“削弱”
rohanpaul_ai 澄清,Fable 5 的新安全分类器/路由器现在会捕获更多提示并将其发送到后备模型 Opus 4.8,而非模型本身被削弱。因此所谓的“nerf”发生在路由层,而非模型内部。
𝕏 ⭐ Factory 训练专用后训练模型,在秘密扫描任务上超越 GPT-5.5 和 Opus 4.8
Factory推出Droid Shield 2.0,使用两个小型后训练模型优化秘密扫描。在特定任务上准确率超过GPT-5.5和Opus 4.8,同时成本更低、延迟更小,证明针对生产问题的后训练可构建更快更便宜的专用模型。
𝕏 vLLM 原生支持 DeepSeek DSpark 推测解码,速度达 ~250 tokens/s
vLLM 集成 DeepSeek 的 DSpark 推测解码,在 8×B300 GPU 上单批达 ~250 tokens/s,平均接受长度 ~5,比 MTP 高 12-42%。使用现有 SparseMLA 后端,无需定制内核。
𝕏 ⭐ 白宫发布开源 NLP 模型 Rampart,公开机构首次自主发布模型
白宫联合ND 工作室发布 token 分类模型Rampart,在Hugging Face上开源。这是美国公共机构首次拥有并公开其权重,标志着政府从租用 API 向自建模型转变。
𝕏 Primeagen 指出 Anthropic TOS 禁止客户开发竞争产品
Claude 服务条款明确禁止用户使用其服务开发与 Anthropic 竞争的 AI 产品或服务。ThePrimeagen 对此发出警告,引用了 TOS 第 2 条。
Meta 回应鼠标追踪项目审查:员工数据未被用于 AI 训练,未来将采用自愿加入
Meta 首席技术官 Andrew Bosworth 在内部会议表示,对追踪员工鼠标移动的 AI 训练项目审查显示,训练数据中不包含员工数据。若重新启用,将采用“自愿加入”方式。
𝕏 Claude 宣布生命科学虚拟黑客马拉松,奖金池 $10 万
Anthropic 与 Gladstone 研究所联合举办“Built with Claude: Life Sciences”全球虚拟黑客马拉松,7 月 7-13 日进行,使用 Claude Science 和 Claude Code,奖金 $10 万 credits。
𝕏 ⭐ UBS 报告:约 60%大型企业放缓 AI 支出,企业进入成本控制阶段
UBS调查显示约**60%**大企业因 ROI 不均而收紧 AI 支出,CFO 加强看管。中国 AI 模型比美国便宜50 倍,中国企业占 OpenRouter 流量45%。企业开始向开源和更便宜模型转移。
𝕏 Fable 5 生成逼真美国国旗 HTML,644 行代码一次成型
用户给 Fable 5 一个指令:“写一个单文件 HTML,做逼真随风飘动的美国国旗”。模型直接输出 644 行代码,旗面褶皱、光影、抖动节奏全对,无需迭代修改。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。