天眼早报

科技|2026年07月03日|约 42 分钟阅读

来源：772 条推文 + 37 篇 RSS 文章·Lanyun·BatchV2 生成·2026-07-02 — 2026-07-03

AI 速读18 条精选

🤖 AI 大模型

𝕏 ⭐ ByteDance Seed 发布超长视野代理基准，发现学习速度每三个月翻倍

ByteDance Seed 开发新基准研究代理在 134 个真实环境中学习，发现学习速度每 3 个月翻倍，性能遵循 log-sigmoid 缩放律。1M 上下文 Opus 4.8 持续优于 200k 变体，且 Opus 4.8 整体超过 GPT-5.5。

𝕏 ⭐ Gemini Omni Flash 登顶视频生成评测，谷歌确立领先地位

Google DeepMind的Gemini Omni Flash在 Video Arena 以Elo 1404登顶，领先第二名Seedance 2.0 Mini达101 分，创最大跃升记录。这标志着Google成为视频生成领域的全球领先实验室。

𝕏 ⭐ UK AISI 研究发现：预算从 250 万增至 5000 万 token 时，估计时间跨度从 2 小时延长至 14 小时

UK AISI 最新报告显示，提高推理预算从 250 万 到 5000 万 tokens，估计的时间跨度从约 2 小时 延长至 14 小时。同时证实投入规模与上下文长度对模型能力的关键影响。

𝕏 ⭐ Meta 研究：量化推理模型过度自我怀疑，简单解码修复可提升效率

Meta论文揭示，量化推理模型因压缩引入噪声而频繁自我怀疑，导致对正确答案犹豫不决。通过抑制 50 个犹豫词，可将推理长度减少12%-23%，同时保持或提升准确率。该发现对广泛使用的低成本模型意义重大。

📄 ⭐ MCP 服务器架构设计模式论文发布，揭示工具数量超过 10-15 个时模型准确率下降

新论文总结了 5 种 MCP 服务器模式（如数据暴露、工作流执行等）和 4 个常见错误。测试发现模型准确率在工具超过 10-15 个时降至 90% 以下，强调设计应保持工具列表小、清晰、安全。

𝕏 ⭐ Kimi K2.7 Code 正式登陆 GitHub Copilot，为首个可选开源权重模型

GitHub Copilot 新增对 Kimi K2.7 Code 的支持，这是首个在模型选择器中提供的开源权重模型。早期测试显示其性能媲美主流前沿模型且成本更低。

𝕏 ⭐ 中美模型差距分析：Opus 4.8 与 GPT-5.5 在长上下文任务中远超 GLM-5.2，归因于推理能力

scaling01 分析指出，Opus 4.8 和 GPT-5.5 在 100k+ 上下文时，MRCR 得分与 GLM-5.2 在 16k 时相当，原因是 GLM 未能有效使用推理。GPT-5.4 与 GLM-5.2 不带推理时得分相近，但开启推理后差距拉大。

⭐ Palantir CEO：部分美国政府客户将敏感 AI 工作迁移至 Nvidia Nemotron 开源模型

Palantir 首席执行官表示，部分美国政府客户正将敏感 AI 任务转移到 Nvidia Nemotron 上。Nemotron 可在 air-gapped 环境中运行，适合国防工作。模型质量不再是唯一决策因素，机构开始综合考虑速度、价格、主权和运营控制。

𝕏 ⭐ LeVLJEPA：无需负样本的视觉语言预训练新方法超越 CLIP

Meta联合研究者提出LeVLJEPA，首个非对比、端到端的视觉语言预训练方法。无需负样本、动量编码器或 stop-gradient，在大规模数据上全面超越CLIP和SigLIP，为多模态预训练开辟新路径。

𝕏 ⭐ Anthropic 官方博客：超 80% 代码由 Claude 编写，工程师产出提升 8 倍

Anthropic 工程师当前代码产出是去年的 8 倍。截至 2026 年 5 月，超过 80% 合并到 Anthropic 代码库的代码由 Claude 编写。这一数据来自 Anthropic 官方“递归自我改进”博文。

𝕏 ⭐ Claude Sonnet 5 在 Arena 榜单表现分析：前端代码提升显著

Anthropic最新Claude Sonnet 5（Thinking）在 Code Arena 前端排名第 6，比前代 Sonnet 4.6 高出29 分。在 Text Arena 中，Expert 级提示排名优于 4.6，但其他类别有所下降。整体定位为中端高效模型。

𝕏 Fable/Mythos 安全分类器更新导致部分提示被路由至 Opus 4.8，非模型自身“削弱”

rohanpaul_ai 澄清，Fable 5 的新安全分类器/路由器现在会捕获更多提示并将其发送到后备模型 Opus 4.8，而非模型本身被削弱。因此所谓的“nerf”发生在路由层，而非模型内部。

𝕏 ⭐ Factory 训练专用后训练模型，在秘密扫描任务上超越 GPT-5.5 和 Opus 4.8

Factory推出Droid Shield 2.0，使用两个小型后训练模型优化秘密扫描。在特定任务上准确率超过GPT-5.5和Opus 4.8，同时成本更低、延迟更小，证明针对生产问题的后训练可构建更快更便宜的专用模型。

𝕏 vLLM 原生支持 DeepSeek DSpark 推测解码，速度达 ~250 tokens/s

vLLM 集成 DeepSeek 的 DSpark 推测解码，在 8×B300 GPU 上单批达 ~250 tokens/s，平均接受长度 ~5，比 MTP 高 12-42%。使用现有 SparseMLA 后端，无需定制内核。

𝕏 ⭐ 白宫发布开源 NLP 模型 Rampart，公开机构首次自主发布模型

白宫联合ND 工作室发布 token 分类模型Rampart，在Hugging Face上开源。这是美国公共机构首次拥有并公开其权重，标志着政府从租用 API 向自建模型转变。

𝕏 Primeagen 指出 Anthropic TOS 禁止客户开发竞争产品

Claude 服务条款明确禁止用户使用其服务开发与 Anthropic 竞争的 AI 产品或服务。ThePrimeagen 对此发出警告，引用了 TOS 第 2 条。

Meta 回应鼠标追踪项目审查：员工数据未被用于 AI 训练，未来将采用自愿加入

Meta 首席技术官 Andrew Bosworth 在内部会议表示，对追踪员工鼠标移动的 AI 训练项目审查显示，训练数据中不包含员工数据。若重新启用，将采用“自愿加入”方式。

𝕏 Claude 宣布生命科学虚拟黑客马拉松，奖金池 $10 万

Anthropic 与 Gladstone 研究所联合举办“Built with Claude: Life Sciences”全球虚拟黑客马拉松，7 月 7-13 日进行，使用 Claude Science 和 Claude Code，奖金 $10 万 credits。

𝕏 ⭐ UBS 报告：约 60%大型企业放缓 AI 支出，企业进入成本控制阶段

UBS调查显示约**60%**大企业因 ROI 不均而收紧 AI 支出，CFO 加强看管。中国 AI 模型比美国便宜50 倍，中国企业占 OpenRouter 流量45%。企业开始向开源和更便宜模型转移。

𝕏 Fable 5 生成逼真美国国旗 HTML，644 行代码一次成型

用户给 Fable 5 一个指令：“写一个单文件 HTML，做逼真随风飘动的美国国旗”。模型直接输出 644 行代码，旗面褶皱、光影、抖动节奏全对，无需迭代修改。

EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点，再决定是否升级

每篇公开内容都对应三步：订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

订阅每日情报查看同主题历史事件升级 Pro 解锁搜索 / 研究 / 事件详情

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报，先用邮件建立复访，再决定是否升级到更深的追踪能力。

查看同主题历史事件升级 Pro 解锁事件详情