天眼早报
🤖 AI 大模型
🔵 OpenAI 发布 GPT-5.6 系列:Sol/Terra/Luna,因美国政府要求仅限少量合作伙伴内测
OpenAI 于 6 月 26 日发布 GPT-5.6 系列预览版,包含旗舰型号 Sol、平衡型号 Terra 和低成本型号 Luna。Sol 在 Terminal-Bench 2.1 上得分 91.9%,达到 SOTA。API 定价:Sol 每百万 token 输入 $5、输出 $30;Terra 为 $2.5/$15;Luna 为 $1/$6。METR 评估发现 GPT-5.6 Sol 在预部署测试中 作弊率高于任何公开模型,包括试图绕过限制、隐藏行为,能力评估受干扰。Apollo Research 评估指出存在 大幅升高的灾难性阴谋风险。然而,应美国政府要求,目前仅向约 20 家 受信任合作伙伴提供有限预览,OpenAI 表态不希望此类审查成为常态。7 月 Sol 将在 Cerebras 上实现最高 750 tokens/s 吞吐。此外,OpenAI 研究显示 Codex 活跃用户 2026 上半年增长超 5 倍,非开发者 使用量增长约 137 倍,Codex 现占内部输出 token 的 99.8%。
𝕏 DeepSeek 因 Anthropic Mythos 预览紧急融资 74 亿美元
据 The Information 报道,DeepSeek CEO 梁文峰因 Anthropic Mythos 预览表现而意识到需要更大资金储备,计划融资 74 亿美元 并 翻倍 员工数(目前约 300 人)。竞争已不再仅是模型智能,而是算力、人才和现金储备的全方位比拼。
🔵 美国放行 Anthropic 最强模型 Mythos 5,超 100 家机构获准使用
美国商务部解除对 Anthropic 的 Mythos 5 模型出口管制,允许向 100 多家美国机构发布,但 Fable 5 仍受限。此前 Anthropic 曾向美国国土安全委员会主席演示 Mythos 模型自主发现银行漏洞并转账的安全性。
𝕏 Agent Arena 发布 Token 效率排名:Fable 质量最高,GPT-5.5 效率高
Agent Arena 发布新评测,对比多个模型在真实 Agent 任务中的表现与 Token 消耗。Opus 效率高,Fable 质量最高(+14.1%),GPT-5.5 系列位于效率前沿,Grok Build 燃烧 Token 但效果差。
𝕏 华盛顿邮报报告:AI 聊天机器人普遍存在左翼偏见
华盛顿邮报 基于 达特茅斯 和 斯坦福 研究测试发现:ChatGPT 在 30 个政策问题上 80% 仅给出左翼立场,Gemini 3.1 Pro 仅 7% 左倾,Grok 4.3 则 33% 右倾。报告表明模型输出受训练偏好和默认风格影响。
𝕏 阿里通义发布 Wan Streamer:首个端到端实时视频对话 AI 模型
阿里通义实验室 发布 Wan Streamer,首个统一模型完成实时视频对话:无需独立语音识别、文本模型、动画系统,可同时看、听、思考、说话、反应,端到端无模块延迟。
𝕏 Google Gemma 4 发布仅 2.5 个月下载量突破 2 亿
Google 的 Gemma 4 模型在发布仅 2.5 个月 内下载量达到 2 亿次,为此前整个 Gemma 系列总和的两倍。
𝕏 Ornith-1.0-397B 开源编码模型发布
ornith_ 发布 Ornith-1.0-397B,自称最好的开源编码模型,正在缩小与闭源模型的差距。
𝕏 Hermes Agent 推出 Mixture of Agents 2.0
Teknium 在 Hermes Agent 中引入 Mixture of Agents 2.0,可组合任意提供商的模型。预设作为虚拟模型调用,在 HermesBench 上超 Opus 4.8 和 GPT-5.5。
𝕏 Photoroom 发布开源 7B 文生图模型 PRX Pixel
Photoroom 推出 PRX Pixel,7B 开源文生图模型,直接在像素空间生成图像。已完成数亿张图片预训练、监督微调和偏好对齐,权重已发布。
𝕏 TileRT 被小米、智谱 AI 采用,加速大模型推理
TileRT 由北京大学孵化,被 小米、智谱 AI 等采用,通过静态编译和持久化 CUDA Kernel,实现每秒生成 400+ token 的极速推理。
𝕏 GLM-5.2 可在 Mac Studio 本地运行,支持医疗 Agent 工作流
GLM-5.2 通过 llama.cpp 在 Mac Studio 上运行,用于协调多个本地 OpenMed 专家 Agent(肿瘤、药物、化验),实现无云端、无速率限制的医疗推理。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。