量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-11-25 09:17

文章核心观点 - OpenAI联合创始人Sam Altman与前苹果设计总监Jony Ive合作，计划在未来两年内推出一款革命性的AI硬件产品，其设计理念旨在创造一种简洁、直观且能引发用户本能喜爱（如“想咬一口”）的体验 [1][2][7][27] 合作背景与公司成立 - Sam Altman与Jony Ive因对设计、智能及技术作用的共同理念而于两年前开始合作 [9][10] - 双方共同创立了IO公司，目标是以前所未有的方式融合硬件、软件与智能 [11] - Jony Ive视此项目为其一生所学的集大成之作，而Altman则认为这是其一生中最大的技术革命之一 [13] 产品设计理念与开发过程 - 团队在项目初期拒绝预设具体产品形态，而是优先探索如“改变人类与自然关系”、“智能本质”等抽象主题 [16] - 设计哲学强调永不满足的好奇心，认为过度关注预定目标会限制创造性，享受不可预知的创作过程 [17] - 设计团队通过制作大量涵盖形状历史、相机设计等内容的精美书籍来研究设计线索，引导新产品形态的融合 [18] - 最终产品原型被描述为质量“令人震惊”，其出现将显得“不可避免和显而易见” [20][21] 产品特性与用户体验 - 产品设计追求极致的简洁与平和，被比喻为“坐在湖边山间的漂亮小屋里”，以区别于现代设备的喧嚣复杂 [22] - 产品将由一个值得信赖的AI驱动，能够长期为用户过滤信息、感知语境，并在适当时机提供信息或请求输入 [23] - 用户体验将位于复杂与简单之间，目标是让用户几乎不经思考即可即时使用，无压迫感 [24] - 产品整体特点是“看起来简单，但实际用起来却并不简单” [25] 产品形态与发布计划 - 产品预计在未来两年内发布，尽管此前有消息称面临计算资源匮乏的困境 [7][27] - 产品形态可能与早期小道消息（如类似iPod Shuffle）的描述不同，Altman用“用户会想要咬它”来形容其吸引力 [2][4] - OpenAI已与富士康正式达成合作，将共同生产AI硬件，表明产品量产已进入实质阶段 [27]

Artificial Intelligence

OpenAI首款AI硬件

iPod Shuffle

Artificial Intelligence

OpenAI首款AI硬件

iPod Shuffle

波士顿动力前CTO加盟DeepMind，Gemini要做机器人界的安卓

量子位· 2025-11-24 17:30

公司战略动向 - 公司在Gemini 3取得市场成功后迅速进行关键人事任命，聘请前波士顿动力首席技术官Aaron Saunders担任DeepMind硬件工程副总裁 [2][3][12] - 此次人事布局旨在强化硬件协同能力，为公司构建通用机器人操作系统的战略目标提供支持 [10][12] - 公司明确将Gemini定位为机器人领域的“安卓系统”，致力于开发可适配任何身体配置的通用AI基础 [6][9][30] 技术愿景与产品规划 - 公司计划构建即插即用的Gemini基础系统，该系统将兼容人形与非人形机器人等多种硬件配置 [6][7] - 技术路径聚焦于开发结合视觉、语言与动作（VLA）的通用机器人基座模型，并通过具身推理实现“先思考，再行动”的智能化 [28] - 产品迭代显示明确技术路线：3月推出基于Gemini 2.0的多模态机器人系统，6月发布优化本地部署的Gemini Robotics On-Device，9月升级至Gemini Robotics 1.5系列 [23][25][27] 行业资源整合 - 新任硬件副总裁Aaron Saunders拥有21年机器人研发经验，曾主导波士顿动力Atlas人形机器人的动力学与控制系统开发 [13][16][20] - 其技术背景涵盖腿式机器人高难度动作控制（如后空翻、跳舞）及Spot机器狗等多元机器人产品线，具备跨形态机器人技术整合能力 [15][18][20] - 此次人才引进结合Gemini 3的技术势能，标志着公司从单一AI模型向机器人全栈生态的战略扩展 [5][31]

1米3宇树G1完美上篮！港科大解锁全球首个真实篮球机器人Demo

量子位· 2025-11-24 17:30

机器人篮球技能突破 - 全球首个能在真实场景中完成篮球动作的机器人demo由香港科技大学团队研发，基于宇树G1机器人实现三步上篮等丝滑动作[1][3][4] - 机器人通过SkillMimic-V2技术解锁"现实世界打篮球"技能，虽未达NBA水平但已接近"村BA"首发标准[3][7] SkillMimic-V2技术核心 - 技术旨在解决交互演示强化学习中演示轨迹稀疏、含噪、覆盖不足的难题，通过拼接轨迹图、状态转移场、自适应轨迹采样提升鲁棒性[9][11] - 拼接轨迹图在不同演示轨迹间寻找相似状态并建立连接，状态转移场从参考轨迹邻域采样以学习恢复能力，自适应轨迹采样动态调整难学片段的采样概率[21][22] - 实验显示困难技能（如Layup）成功率从0%提升至91.5%，技能转换成功率从2.1%飙升至94.9%[25][26] SkillMimic前作技术 - SkillMimic入选CVPR 2025 Highlight，通过统一HOI模仿奖励与接触图技术，在单一奖励配置下训练出精准接触控制能力[27][29] - 采用分层学习架构，低层学习运球、上篮等基础技能，高层复用技能完成复杂任务，成功率显著高于DeepMimic和AMP[31][33] 技术演进与数据集 - PhysHOI为2023年基础框架，通过物理仿真模仿动态人-物交互，引入接触图防止运动学奖励陷入局部最优[34][36][39] - 研究构建BallPlay数据集（含35分钟篮球交互数据），支撑技能学习并在不同篮球尺寸上展现鲁棒性[32][40][42] 研发背景与进展 - 核心研究人员王荫槐（港科大博士）连续主导PhysHOI、SkillMimic系列工作，被称"篮球科研第一人"[43][45] - 从2023年仿真环境测试到真实环境应用，技术迭代速度显著，体现机器人本体发展与算法协同进步[46]

陶哲轩亲测：我用Gemini十分钟搞定了困扰学界多年的难题

量子位· 2025-11-24 15:30

文章核心观点 - 著名数学家陶哲轩借助Gemini 2.5 Deep Think模型，仅用十分钟便成功补全并验证了一个前人未完成的数学难题的证明[1][2][3] - 该事件是AI辅助解决数学问题的典型案例，并非孤例，近期已有6个困扰数学界多年的Erdős难题通过AI辅助得以解决[6] - AI在数学研究中的应用正变得日益普遍和系统化，许多研究者使用AI工具进行文献查询和解题思路探索[7] - AI被视为数学家的重要辅助工具而非替代者，其角色是充当证明的“中介”并帮助发现新的研究路径[35][37] AI模型性能表现 - Gemini 2.5 Deep Think模型在十分钟内完成了从论证分析到结论确认的全过程[3][20] - 该模型由IMO金牌得主参与开发，在最新的FrontierMath测试中，其数学能力远超GPT-5(high)等模型[10] - 在后续的文献查询任务中，Gemini DeepResearch和ChatGPT DeepResearch均能识别出问题所属范畴，但在细节上仍存在混淆[27] 具体问题与解决过程 - 解决的数学问题是由Paul Erdős提出的367号问题，涉及连续整数结构的乘法数论[12] - 数学家Wouter van Doorn基于一个未验证的同余恒等式提出了反证，陶哲轩将此交给Gemini进行完整证明[16][19] - 在Gemini完成p-adic代数数论证明后，陶哲轩手动花费半小时将其转换为更基础的论证方式[21] - Boris Alexeev使用Harmonic的Aristotle工具，花费两到三小时完成了该证明的Lean形式化验证[24] AI在数学领域的应用趋势 - 陶哲轩自三年前ChatGPT发布起就开始系统性探索AI在数学证明中的应用[29][30] - AI的进步使得数学研究未来将拥有更多的实验性方法，而不仅仅是理论推演[30] - 对于缺乏专业知识但怀有热忱的学习者，AI将帮助他们达到难以想象的学习深度[32] - 需要警惕AI可能产生的“幻觉错误”，数学家的细心纠正仍是不可或缺的环节[34]

AI辅助数学证明

AI幻觉错误

Gemini

Gemini 2.5 Deep Think

Gemini 2.5 Deep Think

ChatGPT DeepResearch

Harmonic的Aristotle工具

奥特曼承认谷歌威胁到OpenAI！即将推出新模型“Shallotpeat”

量子位· 2025-11-24 15:30

行业竞争格局转变 - AI行业竞争格局发生显著变化，谷歌凭借Gemini 3 Pro和Nano Banana Pro等模型重新成为焦点，而OpenAI作为昔日的AI风向标正受到冷落 [2][25] - OpenAI首席执行官在内部备忘录中承认，谷歌最近的AI进展给公司带来了暂时的经济阻力，并表明公司需要快速追赶 [4][5][7] - 舆论风向转变，OpenAI与谷歌的攻守之势已经逆转，OpenAI的模型甚至被用作衡量谷歌模型进步的计量单位 [14][25] OpenAI面临的挑战 - OpenAI在关键技术上面临挑战，特别是在模型预训练领域，其调整方法在模型规模较小时有效，但在规模扩大后失效，导致必须解决此问题才能追上谷歌 [30][31] - 公司面临巨大的财务压力，尽管预计2025年收入将达130亿美元，但为追求人类水平AI，未来几年需消耗超过1000亿美元，并可能需再筹集同等数额资金 [18] - 公司的核心收入来源之一——编程能力，正受到谷歌Gemini 3模型的直接挑战，其技术领先优势已缩小甚至被超越 [16][17] 谷歌的竞争优势 - 谷歌拥有完整的全栈优势，包括自研TPU芯片、Google Cloud云服务等底层基础设施，形成“你烧钱，我赚钱”的独特商业模式 [35] - 公司掌握强大的产品与分发渠道，通过Android系统、谷歌搜索及Workspace套件等触达全球超过20亿用户，具备近乎无限的分发优势 [37] - 谷歌过去四个季度产生超过700亿美元的自由现金流，市值达3.6万亿美元，财务实力远超OpenAI [19] 技术发展路径与行业趋势 - AI竞赛重心从“单一模型突破”转向“全栈体系对抗”，谷歌通过“模型+基础设施+产品生态”三位一体体系形成良性循环 [34][39][41] - 谷歌在模型预训练方面的成功让许多AI研究员感到意外，这成为其实现弯道超车的关键技术根基 [27][33] - OpenAI计划在未来几个月内推出代号为“Shallotpeat”的新模型，旨在修复其在预训练过程中遇到的错误 [32]

上线4天下载破百万，蚂蚁CTO：灵光要做AGI时代的“支付宝”

量子位· 2025-11-24 13:30

产品市场表现 - 产品上线仅4天下载量突破百万，2天后再次突破两百万 [1] - 增速超越ChatGPT、Sora2、DeepSeek等全球主流AI产品，最高冲上App Store中国区免费榜第六、工具榜第一 [2] 产品定位与战略 - 灵光被定位为AGI时代的“支付宝”，旨在成为一款普惠产品 [4][12] - 产品本质是让大众直观感受AI便利，专注Save Time（效率）而非Kill Time（娱乐） [5] - 团队希望灵光被别人对标，而不是主动对标别人 [5] - 产品核心理念是“让复杂变简单”，主张“多、快、好、新”四个维度 [14][16][20] 组织架构与研发背景 - 蚂蚁集团在DeepSeek出现后更加笃定All in AGI，并于三月份成立Inclusion AI部门立项灵光 [6][8] - Inclusion AI是项目制组织，集合Research、Engineering、Producting三位一体，向蚂蚁全线业务输出AI能力 [10][11] - 部门采用类似谷歌DeepMind的模式，“拉个群先把活干起来” [10] 产品核心功能 - 核心能力包括灵光对话、闪应用、灵光开眼，通过全模态形式提取展示关键信息 [15] - 技术创新从原先Markdown形式转向全代码生成，通过自然语言快速生成包括前端、后端的功能完善应用 [15][16] - 灵光开眼作为视觉原生入口，因团队认识到物理世界本质连续，AI需通过视频流理解场景，是未来向具身智能延伸的重要一步 [18] 发展策略与路径 - 采用“长板思维”发展：先把长板做得足够长再补齐短板，先用核心能力留住用户而非简单堆叠功能 [18] - 发展路径是先存活，再谈长线运营，然后模型与应用齐头并进 [19] - 把有限资源聚焦在大愿景上，强调帮用户解决更多需求而非关注竞争 [28][29] 行业竞争格局 - 团队认为AGI赛道足够宽广，增长曲线远未封顶，现在推出AI助手应用为时尚不晚 [25][26] - 蚂蚁与千问不是竞争对手而是战友兄弟，AGI技术和市场潜力巨大，所有探索团队都是盲人摸象，需要互帮互助跟上世界先进水平 [21][28] 公司愿景与生态布局 - 蚂蚁最终愿景是在AGI时代拥有自己的代表产品，可能是AQ、蚂小财或灵光 [30] - Inclusion AI技术将持续反哺蚂蚁其它App包括蚂小财、AQ等，未来蚂蚁系应用都将呈现“灵光味” [27] - 蚂蚁生态链接包括灵光成为全能助手、AQ成为健康管家、蚂小财让每个人有数字巴菲特 [33]

田渊栋卡帕西力荐Nano Banana新玩法：论文变漫画、手写解题以假乱真，谷歌这波赢麻了

量子位· 2025-11-24 13:30

Nano Banana Pro的技术能力与应用场景 - AI大牛田渊栋使用整合Nano Banana Pro生图能力的NotebookLM将论文转化为漫画，效果获得本人认可，认为宣传海报质量优于自制[1][6] - 特斯拉前AI总监Andrej Karpathy展示Nano Banana Pro精准识别手写草稿和示意图的能力，解题输出字迹高度模仿真人手写[8][9] - Nano Banana Pro能够根据起始图片和指令"解决这道数学题，然后用我的手写字体生成更新后的图片"，模仿真人笔迹并还原笔记本版式质感[17][21] - ChatGPT核验确认Nano Banana手写解法基本正确，仅存在二硒化二磷未标注规范命名和"硫氰酸"拼写错误两处小瑕疵[11] 交互方式演进与行业影响 - Andrej Karpathy提出当前文本与大模型对话类似敲DOS命令行，认为"智能画布"这种可视化、可操作交互方式代表大模型未来的图形界面方向[11] - 谷歌凭借Gemini和Nano Banana的升级实现技术突破，股价创历史新高，市值超越微软，标志着公司在AI赛道重新夺回领先地位[24][33] - 谷歌CEO通过Nano Banana Pro拆解汉堡结构示意图回应2017年emoji争议，展示AI已能理解物理世界逻辑，精准处理物体相对位置和空间定位[27][29][32] 用户反馈与产品优化 - 网友积极求取提示词，NotebookLM产品负责人回应将优化分享和导出功能以提升用户体验[8] - 用户肯定Nano Banana Pro生成内容的有趣性和易理解性，部分输出结果逼真到难以区分是否为AI生成[7][19][20]

AI技术

Artificial Intelligence

Artificial Intelligence

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

量子位· 2025-11-24 11:39

寒武纪-S模型核心突破 - 专注于解决AI核心问题，让人工智能真正学会感知世界，而非制造硅基芯片[2] - 推出主打空间感知的多模态视频大模型，兼顾通用视频和图像理解能力，在短视频空间推理中取得SOTA成果[6] - 通过预测感知模块处理超长视频空间任务，这是许多主流模型的软肋，且能控制GPU内存消耗，不依赖堆硬件[7][42] 技术理念与研究方向 - 提出“超感知”概念，让AI不仅能识别物体，还能记忆位置、理解关系、预判变化，这是构建超级智能的前提[20][23][24] - 聚焦视频空间超感知，使AI能从连续视频片段中读懂空间关系，如物体位置距离和动态变化[25] - 团队反思“真正的多模态智能”，认为当前模型仅将图像转文字处理，未真正理解场景[19] 模型开发与基准测试 - 开发VSI-SUPER基准测试，包含长时程空间记忆和持续计数任务，主流商业模型在10分钟视频平均准确率不足15%，120分钟视频基本失效[26][27][30][31] - 构建VSI-590K数据集，包含59万条训练样本，标注物体位置和动态变化等关键信息，作为空间感知教材[33] - 采用预测下一帧训练机制，通过意外度识别关键信息，实现超长视频空间理解[38] 性能表现与竞争优势 - 在VSI-SUPER基准测试中，比开源模型空间记忆准确率提升30%以上，部分任务超过商业模型[41] - 参数规模从0.5B到7B，针对性极强，在多项评测中表现亮眼，如7B模型在SI-Bench Debias任务达67.5[35][42] - 对比主流模型如GPT-40、Gemini系列，在空间感知任务上展现优势，尤其在长视频处理能力上领先[31][42] 研发背景与团队基础 - 项目由谢赛宁牵头，李飞飞和Yann LeCun站台，核心团队包括纽约大学博士生等多名研究人员[2][44][45][46][47][48] - 基于前期Cambrian-1图像多模态模型的开放性探索，从视觉编码器测评、数据优化到训练方案总结五方面突破[9][10][11][13][15][17] - 团队未盲目扩大规模，而是聚焦空间智能本质问题，从“考倒AI”转向“做好示范”的开发思路[18][26]

抢先报名！MEET2026最新嘉宾阵容官宣，一起热聊AI

量子位· 2025-11-24 11:39

大会核心信息 - 大会主题为“共生无界，智启未来”，关注AI技术穿透产业、学科与场景边界，成为社会演进核心动能[1][3] - 将于2025年12月10日在北京金茂万丽酒店举行，预计吸引上千名科技从业者参与，百万观众线上围观[2][105][107] - 会议将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议话题[4] 学术与研究机构代表 - 张亚勤：清华大学智能产业研究院院长、中国工程院院士，数字视频和AI领域世界级科学家，曾任职百度与微软[12][13] - 孙茂松：清华大学人工智能研究院常务副院长、欧洲人文和自然科学院外籍院士，主持多项国家级科研项目[17] - 王仲远：北京智源人工智能研究院院长，曾任职快手、美团、Facebook，发表论文100余篇，获美国专利5项、中国专利50余项[21][22][23] - 尤洋：潞晨科技创始人、新加坡国立大学校长青年教授，高性能计算领域谷歌学术引用最高的博士毕业生之一[48] 科技企业代表 - 王颖：百度集团副总裁，负责文库、网盘等业务，2021年加入后引领产品创新[26] - 何晓冬：京东集团高级副总裁、IEEE Fellow，领导团队打造JoyAI大模型，发表论文200余篇，被引用6万余次[30] - 韩旭：文远知行创始人兼CEO，带领公司在全球11国超30城开展自动驾驶业务，2024年登陆纳斯达克[35][36] - 方汉：昆仑万维董事长兼CEO，拥有31年互联网从业经验，是中文Linux奠基人之一[44][45] 基础设施与硬件技术 - 杨帆：商汤科技联合创始人、大装置事业群总裁，主导AI专用计算中心建设及AI芯片产业化[53][54] - 万卫星：高通公司AI产品技术中国区负责人，负责终端侧AI引擎软硬件规划[58][59] - 乔梁：太初元碁联合创始人兼COO，曾任国家超算无锡中心副主任，参与国产AI处理器国家重大专项[86][87] 应用与产品创新 - 喻友平：中关村科金总裁，提出“平台+应用+服务”大模型落地三级引擎战略，推动垂类大模型应用[75][76] - 王潜：自变量机器人创始人兼CEO，致力于研发端到端大模型驱动的通用机器人，团队是国内最早发布VLA大模型的团队之一[90][91] - 徐达峰：蚂蚁集团平台体验技术部负责人，负责AntV等社区产品，推动AI驱动的前端研发范式革新[99][100] 行业洞察与发布 - 大会将权威发布人工智能年度榜单，从公司、产品、人物三大维度评选五类奖项[103] - 同时发布年度AI十大趋势报告，深入分析具有巨大潜力的技术趋势及代表案例[104]

顶流设计Agent能用Nano Banana Pro了！一句话BlackPink变东北翠花

量子位· 2025-11-24 11:39

产品整合与合作 - Lovart设计Agent正式接入Nano Banana Pro模型，实现两大AI产品的结合[1] - 用户可通过简单的@操作或模型选项勾选来调用Nano Banana Pro[6][10] - 该整合支持多任务并行处理，可同时勾选视频、3D等其他模型[11] 核心功能与用户体验 - 产品支持“无边画布+二次编辑”模式，提供所见即所得的多模态上下文处理，体感优于谷歌的“直出结果”[8] - 支持一次性处理多达14张图片元素，例如将12张生肖图与2张背景图合成为一张完整的玩具展示效果图[12][13][14][16] - 生成速度快，例如高清十二生肖玩具陈列图在不到1分钟内即可完成[18] 独家编辑功能 - 推出Touch Edit功能，用户通过简单的点击（如command+单击）即可精准修改细节，无需复杂Prompt描述[24][26][27] - 提供“编辑元素”功能，可将图片中的背景、文字等元素分层“炸开”，实现逐层可编辑[37][38][40] - 这些功能使细节修改不再“牵一发而动全身”，提升了设计的可控性和效率[35][36] 实际应用场景 - 产品能快速生成实用成品，如根据一句Prompt在1分钟内生成风格一致的连续PPT页面[47][48][49] - 支持复杂内容可视化，并具备联动玩法，可结合图片生成和视频生成模型创作新闻播报等内容[62][65][66][70] - 最终效果达到“效果逼真 + 细节可控 = 可直接商用”的水平，提升了生成内容的实用价值[72] 市场表现与用户增长 - Lovart作为全球首个设计Agent，在测试阶段曾创下5天排队10万人的记录[8] - 正式上线两个多月后，其年度经常性收入在9月份已突破3000万美元，日活跃用户数达到20万[8] - 在产品接入Nano Banana Pro后，用户体验获得进一步改善，市场反响积极[34]