Workflow
量子位
icon
搜索文档
当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测
量子位· 2025-10-10 19:24
文章核心观点 - AI视频生成领域的竞争已从单纯技术效果转向满足实际应用需求,关键在于技术能否成为可靠的生产力工具[39][40][41] - Vidu Q2参考生视频与Sora 2在多个维度上表现接近,但各自优势不同,Vidu在操作灵活性和一致性方面表现突出,Sora 2在音视频同步输出方面有优势[37][38][9] - 行业未来的竞争焦点是构建包含创意、生成、编辑、分发与商业化的完整生态,而不仅是视频生成效果[42][43] Vidu Q2参考生视频功能特点 - 功能支持上传多达7张参考图,并让图片联动生成视频,提供专业模式及多种参数自定义选项,如时长(2-8秒)、清晰度(1080p)、宽高比和生成数量(1-4个)[7][8][9] - 该功能于去年9月全球首次提出,Vidu Q2是其参考生视频的第5个迭代版本,预计本月底将有重大更新[4][6][46] 技术能力对比:一致性 - 在一致性测试中,Vidu Q2生成的人物和道具(如包包)全程无异常变化,道具颜色与原图高度相符[12][13][14] - 同样的提示词下,Sora 2生成的内容在基本一致性上存在不足,道具(包包)颜色和形态(如包带数量)发生变化[16] 技术能力对比:遵循物理规律 - 在遵循物理规律的复杂场景测试(如镜面反射舞蹈动作)中,Vidu Q2整体表现良好,仅存在少量细节错误[21][22][23] - Sora 2在处理包含写实人物的图像时存在限制,替换为动漫人物后仍无法生成,改用文字提示生成的结果在人物数量和音乐搭配上完成度较高,但出现无关人员(摄影师)[25][26] 技术能力对比:运镜技巧 - 在运镜测试中,Vidu Q2的镜头语言更符合日常动漫风格,能够实现从近景到远景再到特写的流畅切换和跟随[31][32][33] - Sora 2通过不停切镜来渲染紧张氛围,与Vidu Q2的运镜方式各有优势[34][35] 行业发展趋势与竞争壁垒 - AI视频技术正朝着工业化生产方向发展,一致性等功能是实现AI短剧、数字人广告等商业应用的基础,具有战略价值[41][42] - 行业竞争壁垒在于构建完整生态,Vidu已基于产品矩阵构建了主体库共享生态、商业化生态和创作者生态[43] - 技术的快速迭代正推动技术成熟和成本降低,这场竞赛被视为AI视频生产力革命的开始[44][45]
Sora2五天下载量破百万!超越ChatGPT增长速度,App Store免费榜霸榜第一
量子位· 2025-10-10 14:06
Sora应用的市场表现 - Sora应用在五天内下载量破百万次,并迅速登顶App Store免费榜第一[2][7][15] - 首周下载量达62.7万次,超过ChatGPT首周的60.6万次下载量[8][9] - 即使仅比较美国市场,Sora首周下载量也达到ChatGPT同期的96%[12] - 应用在超高门槛下实现爆发增长,仅支持iOS设备且需要邀请码才能使用[11] 行业竞争格局 - OpenAI旗下产品在应用商店榜单前三中占据两个位置[3] - Sora超越Gemini和ChatGPT登顶免费榜,但面临后来者快速更替的压力[15][25] - DeepSeek保持增长纪录,16天内单日下载量超260万次,同期ChatGPT为160万次[26] - DeepSeek一个月内全球累计下载量接近4000万,DAU超1200万[27] 用户增长趋势 - AI创意应用正加速取代传统社交媒体地位,推广周期显著缩短[22][23] - Sora的爆发性增长是在区域限制和邀请码机制下实现的[11][12] - 盗版应用泛滥现象表明市场需求远超当前官方数据体现的规模[16][17] - 全球最大用户市场在中国,这为下一代中国AI应用超越提供基础[29][30] 产品特性与挑战 - Sora核心玩法为“一句话生成带音效短视频”,定位对标AI版抖音[19] - 平台面临版权问题,充斥AI生成的影视综角色内容引发好莱坞关注[19] - 审核机制明显收紧,出现过度审核情况,公司承诺加快改进速度[21] - 盗版应用甚至登上“热门照片和视频应用程序”排行榜第九位[16]
国产手机正从底层重构安卓!vivo版AI OS亮相了
量子位· 2025-10-10 14:06
文章核心观点 - 国产手机操作系统OriginOS 6通过全面升级AI功能与重构安卓底层核心技术,旨在提升用户体验与系统性能 [1][9] AI交互全面升级 - AI多模态交互全面升级,新版小V圈搜新增屏幕自动感知功能,可识别屏幕重要内容并精准推荐服务 [4][10] - AI能一步精准消除旅行照片中闯入的路人,识别攻略或餐厅链接后一步直达详情,识别地址后即可跳转导航或叫车 [6][10][12] - AI可为一句话摘要文档和邮件,帮助用户快速抓取重点信息,并智能生成贴合主题的文件命名,覆盖小V帮记、扫描、vivo文档等系统应用 [14][16] - 全新AI通话功能可主动拨打客服热线,自动听取语音提示、完成导航并排队,接通人工后交由用户接管 [18][20] - 行业首发Live Photo AI消除功能,可智能圈选并逐帧识别路人,实现动态画面的流畅处理 [22] vivo大模型矩阵 - 语言大模型方面,vivo重构意图中控,使系统能准确理解用户意图、拆解复杂任务并具备长期记忆,蓝心小V具备深度思考能力,未来可快速生成数千字高质量报告 [27][28] - 语音大模型方面,小V语音交互更自然流畅,无需唤醒词即可直接下达指令,具备超拟人音色并支持高相似度音色定制,同声传译拾音距离从1米提升至3米 [30][31] - 视觉模型方面,vivo通过多阶段训练升级图像大模型的图文一致性和美观度,突破长文本渲染难题,实现图像中文字精准生成,并将模型放到端侧后性能提升46% [33][34] - 蓝心3B端侧大模型是行业首个在3B量级集成语言、多模态、逻辑推理等五大核心能力的统一模型,在OpenCompass多模态10B榜单中以78.4分排名第一,在SuperCLUE手机端侧大模型总榜以81.47分排名第一 [36][38][39] - vivo首发端侧AI LoRA训练,可分钟级训练专属定制美颜模型 [39] 重构安卓底层核心 - OriginOS 6通过蓝河流畅引擎从计算、显示、存储三大模块重构安卓底层核心 [40][41] - 计算层面推出超核计算技术,实时监测核心负载状态并优先处理高优先级任务,重载场景下应用启动速度提升11%,游戏场景中帧感知调度技术可实现120帧直播稳帧 [43][44][45][47] - 存储层面升级存储融合技术,为VIP任务划定专属区并构建专用通道,重构虚拟机与垃圾回收机制后,重载场景下数据加载速度提升2倍以上 [49][50][51] - 显示层面升级虚拟显卡,推出双渲染架构,分离式架构适用于中低负载场景,统一架构应对高爆发性渲染需求,重载场景下帧率稳定性提升11%、渲染效率提升35% [53][54][55] - 搭载OriginOS 6的三年机龄X90相比搭载旧版系统的新机,应用触控响应速度提升63%,界面切换响应速度提升35%,滑动帧率稳定性提升69% [57] 系统发布计划 - OriginOS 6将在vivo X300和iQoo 15两款旗舰新机首发搭载,其余机型内测用户当天下午开始推送,公测版最早一批下月亮相 [59]
终于有人解决机器人洗手洗澡问题了
量子位· 2025-10-10 14:06
产品发布与核心升级 - 云深处发布全新人形机器人DR02,是全球首款具备IP66防护等级的行业级人形机器人[2][6] - DR02支持-20℃至55℃的宽温运行范围,环境适应性全面强化[8][10] - 机器人采用模块化快拆设计,小臂、整臂、整腿等核心部件可快速拆卸与更换,维修更快且零部件通用性高[13][14][15][17] - 在运动性能上,DR02可应对多种复杂地形,能够承担货物搬运、应急物资传递等作业任务[11] 公司技术路径与商业化进展 - 公司选择“全天候”差异化路线,将四足机器人绝影系列(X20、X30)的户外作业经验与核心密封防护技术迁移至人形机器人[19][20][21][22] - 2025年1月,公司与电机厂商卧龙电驱达成战略合作,获得工业级电机技术以提升机器人爆发力与能效控制能力[27] - 2025年7月,公司完成近5亿元人民币融资,资金用于扩建产线、优化供应链及加速人形机器人商业化落地[28][29] - 公司在一年内实现了从测试型产品DR01到行业级人形机器人DR02的跃迁[24][26][29] 行业趋势与竞争格局 - 人形机器人行业不再满足于基础动作演示,开始围绕真实作业场景进行系统优化,例如Figure公司主打家庭场景[31][32] - 行业内关于机器人终极形态的讨论逐渐收敛,人形正成为多数共识,有观点认为人形机器人将主导其他形态[34][35][36]
Figure三代机器人发布:洗衣洗碗家务全包!网友:非人形没有出路了
量子位· 2025-10-10 11:52
西风 发自 凹非寺 量子位 | 公众号 QbitAI Figure人形机器人家族添新,第三代 F igure 03 来了。 官方明确,这款机器人专为 适配Helix AI系统、贴合家庭场景以及满足全球规模化应 用 需求 量身打造。 从家务表现来看,整理杂物时逻辑清晰,知道把玩具收进筐里,把电脑合上后摆到桌面: 收拾餐具时,还会顺手清理旁边残留的食物残渣: 紧接着拿去清洗,知道把食物残渣先在水龙头下冲洗掉,再把盘子放进洗碗机: 杯子收纳也遵循生活常识,会倒扣过来放好: 洗衣全程无需协助: 自主添加洗衣凝珠、设置洗衣机程序并启动: 洗完衣服后,还能再叠好放好: 网友直呼鹅妹子嘤,就是不知道哪些任务是遥控完成的,哪些是机器人自主完成的。 如果视频中展示的所有内容均为真正的自主运行 (无远程操控,无预设脚本演示) ,那将是一个重大里程碑。 在我看来,把枕头放好后还特意拍一下这个动作,暴露了就是远程操控。 而Figure CEO Brett Adcock直接回应" 遥 控含量为 0 ": 作为一家在创立初期就被OpenAI、微软、英伟达等纷纷看好押注的机器人公司,Figure成立短短三年发展势头迅猛。 前不久还刚宣布 ...
ImageNet作者苏昊被曝任教复旦
量子位· 2025-10-10 11:52
文章核心观点 - 核心观点为华人学者苏昊(Hao Su)可能从加州大学圣地亚哥分校(UCSD)转赴复旦大学任教,此消息尚未得到官方确认 [1][12][51] - 苏昊是人工智能领域,特别是计算机视觉与具身智能方向的顶尖学者,是ImageNet、ShapeNet、PointNet等多个奠基性项目的核心贡献者 [4][14][24][29][32] - 其职业动向与复旦大学在具身智能领域的战略布局(如成立可信具身智能研究院)相关联,可能预示着中国在AI前沿领域的投入与人才吸引力的提升 [51][52][55] 苏昊的学术背景与成就 - 苏昊现任加州大学圣地亚哥分校计算机科学学院副教授、具身智能实验室主任,并于2023年获得晋升 [14][49] - 其研究历程经历了从自然语言处理到2D计算机视觉,再到3D视觉,最终聚焦于具身智能与机器人的演进 [20][21][22][28][34] - 他是多个里程碑式项目的关键人物:参与ImageNet数据集工作 [24]、主导创建大规模3D数据集ShapeNet(包含超过300万个3D CAD模型,覆盖3135个类别) [29][30]、共同提出PointNet(被引21,737次)和PointNet++(被引16,103次)模型 [32][33]、发布PartNet数据集 [33]、开发机器人模拟器SAPIEN和仿真平台ManiSkill [35][37] - 2024年,他与谢赛宁共同获得CVPR青年学者奖 [5] 苏昊的创业实践:Hillbot - 苏昊于2024年联合创办具身智能公司Hillbot并担任首席技术官 [43] - 公司核心技术产品包括Sapien仿真器和ManiSkill机器人仿真训练平台,专注于通过模拟和3D生成技术解决机器人领域数据采集成本高的问题 [42][45] - 公司已推出轮式机器人Hillbot Alpha,应用于零售店、咖啡馆和制造车间等复杂环境的移动操纵任务 [45] - 在技术合作上,Hillbot与英伟达合作,利用Nvidia Cosmos平台生成高仿真视频训练数据 [47] - 公司已获得Cherubic Ventures的投资 [48] 复旦大学在具身智能领域的布局 - 复旦大学于2024年1月成立了可信具身智能研究院,为吸引顶尖人才提供了具有竞争力的薪酬条件(基本薪资60万到100万,绩效上不封顶) [55] - 有传闻称复旦大学可能投资苏昊创办的Hillbot公司,并且苏昊可能成为相辉研究院、学敏高等研究院的双聘对象 [52] - 目前该研究院的领导职务(如院长)尚未正式公布,被解读为可能为引进资深学者预留位置 [57]
230个大模型在婴幼儿认知题上集体翻车!揭秘多模态大模型的核心知识缺陷
量子位· 2025-10-10 09:03
研究核心发现 - 多模态大模型在人类婴幼儿阶段即具备的12种基础核心认知能力上普遍表现不佳,与人类表现存在显著差距,即便模型规模更大也难以弥补这一缺陷[1][4] - 研究团队构建了业界首个核心认知基准CoreCognition,包含1503道多模态题目,覆盖从连续性到机械推理等12项核心认知概念,每类题目不少于95例[2][7][9] - 在CoreCognition基准测试中,230个主流模型系统暴露出对世界常识的“核心知识盲区”[3] 基准测试方法论 - CoreCognition基准围绕发展心理学与皮亚杰分层框架构建,题目设计遵循判别性强、最小混淆、无文本捷径的高标准,所有题目必须联合利用图像与文本才能得出正确答案[9][10][11][12] - 研究团队提出了Concept Hacking(概念干预)方法,通过构造“对照组”与“干预组”来检测模型是否真正理解概念还是依赖表面模板走捷径[13] - 所有数据由12位具备相关背景的高年级本科或研究生协作完成标注与审核,并经过两轮交叉验证和人工校验[12] 模型性能关键洞察 - 模型在低层核心认知能力(如边界感、连续性、客体永恒)上显著落后于高层能力(如意向理解、工具使用),与人类各层稳定高分的模式明显不同,表明当前多模态大模型存在系统性短板[16] - 增加模型规模主要利好高层能力,对低层核心能力帮助有限甚至为负,其中视角采择能力甚至出现反向规模效应(模型越大越差)[22] - 关联性矩阵显示,模型缺乏人类由低到高的脚手架式认知发展结构,其高级感知与推理并非建立在基础的认知能力之上[18] 模型行为模式分类 - 基于Concept Hacking实验结果,模型可归纳为四类:核心知识型(接近人类水平,占比极少)、捷径依赖型、核心缺陷型、偶然型[25] - 概念干预测试揭示模型存在“假理解”陷阱,例如在直觉物理测试中,模型在原题作对但在改变关键特征的孪生版题目中直接翻车,暴露出对表面模板的依赖而非真实理解[15][24] - 引入认知指令(在题目前明确提示相关概念)可带来约6%的即刻增益,但此类做法在真实场景中可获得性与可用性受限[29][30] 行业影响与启示 - 参数堆叠并不等于理解,地基是否扎实才是关键,与其一味追求“更大、更强”,不如先补齐核心知识,让模型学会在变化中保持一致的常识判断[32][33] - 规模是加法,核心认知是乘法,真正的智能首先取决于对世界最朴素规则的把握,而非仅仅“能写会画”的表面能力[31][34] - 推理模型与其对应非推理版本相比,在多数核心能力任务上未见显著提升,表明症结在于预训练阶段对核心知识的覆盖与结构化不足,而非“会不会用推理”[27]
英特尔发布“2纳米级”工艺CPU,你的AI PC性能即将暴涨50%
量子位· 2025-10-10 09:03
产品战略与定位 - 公司推出新一代酷睿Ultra处理器Panther Lake,旨在通过统一平台解决上一代产品线因不同设计(如Lunar Lake内置内存与Arrow Lake外部内存)导致的混乱局面,覆盖从轻薄本到高性能游戏本的全系列产品[1][2][7] - 新平台放弃了上代将内存封装在处理器内的设计,转而打造一个全能型平台,以终结用户需要在不同路线(效率与性能)之间做选择的尴尬局面[2][7] 性能提升与关键指标 - 与前代产品相比,CPU多核性能提升超过50%,图形性能提升超过50%,同时整体功耗降低30%[3] - 在AI算力方面,平台提供高达180 TOPS的总算力(NPU 50 TOPS + GPU 120 TOPS),是微软Copilot+ PC要求(40 TOPS)的4.5倍[25] - 全新的"Cougar Cove"性能核在同等功耗下,单线程性能比Lunar Lake高出10%[15] - 全新的"Darkmont"能效核在同等功耗下的性能已超过上一代的性能核[16] 架构设计与技术创新 - 处理器采用优化的多芯粒设计,主要由三个功能模块构成:采用Intel 18A工艺的计算模块(集成CPU、NPU、内存控制器)、采用不同工艺的GPU模块以及由台积电N6工艺制造的平台控制模块[9][10][13][36] - 通过将内存控制器集成到计算模块内部,解决了上代Arrow Lake因跨模块访问导致的高延迟问题,最高支持LPDDR5x 9600 MT/s(最大96GB)和DDR5 7200 MT/s(最大128GB)内存[12] - 缓存系统新增8MB内存侧缓存,可将DRAM访问延迟降低30%,数据命中率高达95%,并对Stable Diffusion等AI应用的推理速度有22%的提升[19] - 集成全新的Xe3"Celestial"图形架构,性能比Lunar Lake的Xe2 GPU高出50%以上,并提供4核与12核两种配置[20][22] 制造工艺与供应链 - Panther Lake是首款在计算模块上采用Intel 18A制程工艺的量产产品,该"2纳米级"工艺带来15%的每瓦性能提升和30%的芯片密度改进[29][30] - 制造工艺的关键创新包括RibbonFET晶体管架构和PowerVia背面供电技术,以提升性能与能效[32][34] - 公司采用Foveros多芯粒封装技术,将不同工艺制造的模块(如Intel 18A、Intel 3和台积电N6)组合,提高了生产良率和产品配置灵活性[36][37] 市场计划与产品路线图 - Panther Lake预计在2026年1月CES上正式发布,随后首批笔记本电脑上市[28] - 三种不同规格的芯片采用相同封装设计,使笔记本厂商能用同一套主板通过更换处理器覆盖从入门到旗舰的产品线,简化了供应链并降低了成本[28] - 公司同时预览了代号为Clearwater Forest的下一代服务器处理器,同样基于18A工艺,预计2026年上半年发布[39]
74岁“酒鬼”教授终于拿诺贝尔化学奖了
量子位· 2025-10-09 17:34
诺贝尔化学奖与MOF材料 - 2025年诺贝尔化学奖授予MOF(金属有机框架)领域的三位科学家北川进、理查德·罗布森和奥马尔·M·亚吉,表彰其在该材料上的突破性贡献[1] - MOF材料被类比为"哈利波特中赫敏的手提包",能在小体积中储存大量气体,具备特殊的分子结构[1][8] - 该材料通过金属离子与有机分子连接形成多孔晶体结构,空腔规则且功能可定制[8][9] MOF的科学价值与特性 - MOF可根据构建单元调整,用于捕获特定物质(如二氧化碳)、储存气体或驱动化学反应,应用包括从空气中收集水、净化工业废气等[9][10] - 材料结构具备柔韧性,能随环境因素(温度、光照)变化形状,且在干燥后仍保持稳定性[12][13] - 过去20年MOF成为材料学界研究重点,已有超10万篇学术论文,开发出数万种功能性MOF变体[16] 商业化进展与挑战 - 目前仅少数MOF实现商业化,例如加拿大公司Svante使用CALF-20型号MOF规模化去除水泥生产中的二氧化碳[17] - 商业化难点在于寻找合适的材料组合,但一旦突破潜力巨大,被科学家视为"二十一世纪的材料"[18][20] - 材料合成优势在于其积木式设计,相比传统分子合成更简化[17] 关键科学家贡献 - 理查德·罗布森受金刚石结构启发,最早提出MOF理念,设计出金字塔状晶体结构[10][11] - 北川进开发出可充水的稳定MOF,并发现其结构可变性,被誉为"多孔配位聚合物之父"[3][12][13] - 奥马尔·M·亚吉正式命名MOF术语,通过羧酸盐基团改进材料稳定性与功能[14]
库克被曝让贤:接棒乔布斯任苹果CEO已14年
量子位· 2025-10-09 17:34
核心观点 - 苹果公司正筹划十多年来最大规模领导层换届,首席执行官蒂姆·库克可能转任董事长,硬件工程高级副总裁约翰·特努斯成为新任首席执行官的热门人选 [1][3][4][6][24] 领导层变动背景 - 苹果面临大规模人事变动,人工智能战略负责人因Siri项目失败仕途受挫,硬件技术主管评估去留,环境与政策事务负责人考虑退休 [4] - 此前被公认为库克继任者的首席运营官杰夫·威廉姆斯已于今年7月卸任并将于年底离开公司 [5] - 公司被认为在当前人工智能时代急需一位真正懂技术、懂产品的首席执行官 [20] 库克任期业绩回顾 - 库克自2011年接任首席执行官以来,带领公司实现显著增长,2011至2016年间iPhone销量增长约200%,营收与净利润几乎翻倍 [11][12] - 公司战略转向毛利率更高的服务业,推出Apple Music、Apple TV+、iCloud、App Store等,构筑生态壁垒 [13][14] - 自研M系列芯片取得成功,软硬件生态整合,Mac重返个人电脑行业顶端 [15] - 2022年1月,苹果市值突破3万亿美元,成为全球首家达到此里程碑的公司 [16] 库克时代面临的挑战 - 在人工智能时代,库克的保守作风引发争议,公司被指未能抓住人工智能风口,Apple Intelligence进展缓慢 [17][18] - 曾经创造市值神话的库克模式,如今被视为公司迈向人工智能时代的桎梏 [19] 潜在继任者约翰·特努斯 - 特努斯现年50岁,与库克当年接任首席执行官时年龄相同,若接棒可能带领公司十年以上 [24] - 作为硬件工程高级副总裁,其职责覆盖iPhone、iPad、Mac、AirPods等全部核心硬件产品线 [26][27][28] - 近期频繁亮相,主导产品发布并在欧洲进行巡回演讲,被视为公司为权力交接发出的试水信号 [23][24] - 在公司内部影响力已超越传统硬件工程范畴,参与产品路线规划与战略决策 [24] 特努斯的个人特质与管理风格 - 特努斯深受库克信任,管理风格与库克相似,演讲出色、性格温和、决策谨慎 [32][33] - 以善于合作著称,被认为是连接硬件与软件团队的桥梁人物,推动iPad首次采用OLED屏幕 [35] - 对工程细节了如指掌,习惯亲力亲为,常直接与工程师沟通,被同事称为能凝聚人心的人物 [35][36] - 被评价为在其被提拔到的任何岗位上都从未失败过,是值得信赖的人 [34]