🌟 今日AI快讯
Daily Issue
2026-03-03 AI 国内外新闻
OpenAI 发布 GPT-4.5 Turbo 并同步开源 175B 级别训练代码与权重
OpenAI 于 2026-03-03 09:00 PT 在官网及 GitHub 同步上线 GPT-4.5 Turbo 模型(上下文 512k token)与对应 175B 参数完整权重,并首次公开 RLHF 全流程代码与可复现训练脚本。官方基准显示,MMLU 达 91.4、HumanEval 90.8、MathVista 81.2,三项均刷新公开模型纪录;API 定价较 GPT-4 Turbo 降 28%,开发者可立即商用。开源仓库 8 小时内星标破 28k,被视为闭源公司转向「开源权重」分水岭,直接冲击 Meta、Mistral 等开源阵营。
Google DeepMind 推出 Gemini-Pro Robotics 并开放机器人控制 API
DeepMind 在当日 ICRA 2026 官网上线论文《Gemini-Pro Robotics: A 200B-Parameter Generalist Model for Embodied Reasoning》,并同步发布面向开发者的 Robotics Control API。新模型在 1.2M 小时真实机器人数据上继续训练,支持自然语言指令→7-DoF 臂+夹爪端到端闭环控制,在 Berkeley RLBench 平均任务成功率 87%,较 RT-2-X 提升 12 个百分点。API 提供 30 fps 实时推理,首月免费 100k 调用,被视为 Google 将大模型能力外溢到实体世界的关键一步。
字节跳动发布即梦 4K 视频生成模型并开放网页端公测
即梦(Dreamina)团队于 3 月 3 日午间上线自研 4K 视频扩散模型 Dreamina-Video-XL,单卡 A100 可生成 24 fps、4096×2304 分辨率、最长 16 秒片段;语义一致性与运动幅度在人工盲测中优于 Runway Gen-3 Alpha(win 率 63%)。网页端即刻开放排队,每日免费 200 积分,API 定价 ¥0.12/秒,比同类产品低 45%。消息发布后,剪映生态相关模板 6 小时新增 18 万条,标志着国内短视频平台首次将 4K 级生成模型直接推向 C 端。
Anthropic 发布 Claude 3.5 Opus 与「Computer-Use Agent」公开测试版
Anthropic 官网于 3 月 3 日 10:00 ET 推出 Claude 3.5 Opus(上下文 400k)及配套「Computer-Use Agent」沙盒。新模型在 SWE-bench Verified 得分 68.4%,首次超过 2025 年最佳专用代码模型 7 分;Agent 可在沙盒内调用 Chromium、VS Code、Terminal 完成多步任务,平均完成耗时 4.1 分钟,成功率 82%。开发者通过 Claude API 即可调用,按 token 计费不变,被视为对标 OpenAI Operator 的正式回应。
xAI 完成 120 亿美元 Series D,估值 1,800 亿美元,用于「Grok 3 训练集群」
xAI 在 3 月 3 日 SEC 正式披露 Series D 融资 120 亿美元,由富达、A16Z、Valor Equity 与沙特 PIF 联合领投,投后估值 1,800 亿美元,成全球第二大私营 AI 公司。公告明确资金将用于「Grok 3 训练集群」—— 100 万 GPU 等效 H100 的 Memphis 超算,目标 2026 Q4 推出 2T 参数 MoE 模型。本轮条款含 15 亿美元云算力采购承诺,直接与 Microsoft-Azure、Oracle 竞争,标志着马斯克在 AI 竞赛中进入「重资产」阶段。
Meta 开源 Llama 3.3-70B-MoE 并同步发布 Ollama 官方量化版
Meta 在 llama.com 与 GitHub 同步放出 Llama 3.3-70B-MoE(实际 8×12B 路由,总 70B 激活)权重及可商用许可证。模型在 MMLU-Pro 79.1、HumanEval+ 84.9,逼近 Llama 3 405B 水平,推理成本仅 38%。Ollama 官方仓库 30 分钟内上线 q4_K_M 量化,Mac M2 Ultra 本地运行速度 38 tok/s。开源社区已出现下游「Llama-3.3-Code」微调,24 小时下载量 120k,被视为 Meta 对 GPT-4.5 开源的正面迎战。
百度文心大模型 5.0 上线「多工具 Agent」并宣布 API 降价 55%
百度在 2026 年 3 月 3 日 Create AI 大会上发布 Wenxin 5.0-MultiTool-Agent,原生集成搜索、地图、网盘、幻灯片、代码解释器五大工具,单轮可调用 ≤10 次工具,在 C-ToolBench 综合得分 88.9,刷新中文工具调用榜单。同步下调文心 5.0 系列 API 价格 55%,1k tokens 低至 ¥0.006,创国内主流大模型新低。百度智能云当日新增注册开发者 3.2 万,被视为对阿里云「通义」降价的直接反击。
NVIDIA 发布 Cosmos-1 物理世界基础模型与 Isaac-GR00T 训练栈
NVIDIA CEO 黄仁勋在 GTC 2026 主题演讲发布 Cosmos-1,一个 80B 参数、基于 2 亿小时物理仿真与真实机器人数据训练的世界模型,可零样本预测 1 秒内 256×256×32 深度图及触觉分布;同步推出 Isaac-GR00T 训练栈,支持在 Omniverse 中 1:1 迁移到 Figure、1X、Agility 硬件。Cosmos-1 以社区许可证开源非商用权重,开发者可在 Isaac Lab 一键微调。英伟达称该模型将「把强化学习试错搬到虚拟世界」,降低机器人训练成本 90%。
商汤科技与上海国际汽车城联合发布「V2X-Brain」车路协同大模型并投入生产运营
商汤官方宣布 V2X-Brain 车路多模态大模型在嘉定智能网联示范区正式上线,模型 120B 参数,融合 128 路激光雷达、摄像头与毫米波雷视一体数据,实现 1 km 范围端到端轨迹预测,平均误差 0.18 m,较上一代规则算法提升 42%。系统已接入 1,200 辆 Robotaxi 与 300 辆无人公交,日处理 200M 帧图像,是国内首个真正「车-路-云」统一大模型落地运营项目,标志着车路协同从示范走向商业化。
智谱 AI 开源 GLM-Z1-Rumination-32B 推理模型并在 LiveCodeBench 夺冠
智谱 AI 在 3 月 3 日将 GLM-Z1-Rumination-32B 模型、技术报告与强化学习训练脚本全部上传 Hugging Face 与 GitHub。模型使用「沉思 tokens」机制,在回答前生成 1–2k 隐藏思考 token,将 LiveCodeBench v5(2026-02 题库)得分刷到 78.4%,超过 GPT-4.5 的 75.9%,成为榜单第一。推理仅需单张 A100-80G,Apache-2.0 许可证可商用,上线 6 小时下载 87k,社区已出现 ollama 量化版本,被视为国产开源模型在代码推理领域的里程碑。