Workflow
量子位
icon
搜索文档
机器人连续叠衣120分钟!仅用0.9B参数实现五大SOTA|清华AIR & 上海AI Lab开源
量子位· 2025-10-18 15:33
清华大学智能产业研究院(AIR)与上海人工智能实验室联合发布 通用跨本体具身基座模型X-VLA ,通过创新的Soft-Prompt机制、高效的 框架设计与定制化训练范式,显著提升预训练效率与模型性能。 X-VLA团队 投稿 量子位 | 公众号 QbitAI 机器人也是卷疯了! 不仅能叠衣服,而且一干就是俩小时,且全程无任何辅助。 更关键的是, X-VLA是 首个实现120min无辅助自主叠衣任务的全开源模型 (公开数据、代码与参数),以仅 0.9B的参数量 在五大权威仿 真基准上全面刷新性能纪录 。 | Methods | Size | | Simpler | | | | LIBERO | | | Calvin | | RoboTwin-2.0 | VLABench | NAVSIM | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | | VM | VA | WidowX | Spatial | Object | Goal | Long | Avg | ABC -> ...
AI画手总是六根手指?阿大/美团/上交首次系统量化扩散模型计数幻觉
量子位· 2025-10-18 15:33
CountHalluSet团队 投稿 量子位 | 公众号 QbitAI 扩散概率模型(diffusion probability models,DPMs)在图像生成任务上取得了卓越的成就,但它们仍频繁产生与现实世界知识相悖 的"幻觉样本"(hallucinations),例如生成有六根手指的手掌或者漂浮在空中的多余物体 。 尽管这类问题普遍存在,社区却一直缺乏系统性量化这些事实性错误的方法,这阻碍了下一代高可信度生成模型的研发进程。 为填补这一空白,来自阿德莱德大学、美团和上海交通大学的研究团队,首次对扩散模型中的一类特殊幻觉——" 计数幻觉 " (counting hallucination)进行了系统性的研究 。 他们提出了几个关键问题: 为了回答这些问题,该团队构建了首个用于量化计数幻觉的数据集套件 CountHalluSet ,并通过大量实验 揭示了计数幻觉与扩散模型中 不同采样条件之间的复杂关系 。 更重要的是,他们基于实验提出了一种简单而有效的 联合扩散模型(Joint-Diffusion Model,JDM) ,能够显著减少复杂真实图像中的 计数幻觉和其它非计数类失败问题。 | Non-coun ...
季度AI视频生成产品:多模态输入成标配,角逐一站式生成能力 | 量子位智库AI 100
量子位· 2025-10-18 15:33
AI视频生成行业动态 - Sora2在五天内下载量突破百万次,显著提升AI视频生成领域热度[3] - 谷歌推出对标产品Veo3.1,重点布局音频生成技术[4] - 国际厂商竞争聚焦电影级创意能力,国内企业追求秒级生成高清稳定视频并深耕垂直场景[5][6] - 视觉模型与世界模型深度融合,推动3D物理场景逼真化,实现无限一致视频生成[6] 技术演进趋势 - 多模态输入成为行业标配,支持文生视频、图生视频及音画同步生成[7] - 部分产品实现Agent一站式生成,构建全流程视频生成体系[7] - 输出视频时长从数秒延长至数分钟,分辨率提升至2K/4K级别,帧率达60fps[7] - 角色一致性、分镜设计、关键帧控制及口型同步等技术稳定性显著增强[7] 用户数据表现 - 5款产品访问量超20万,包括即梦AI、可灵AI、RoboNeo、海螺AI和Vidu[8] - 即梦AI下载量突破1100万,访问量增长27%至约950万[9] - 可灵AI网页端月访问量超100万,RoboNeo紧随其后[9] - 豆包、通义万相等综合类AI产品均集成视频生成功能[10] 头部产品功能特性 - 即梦AI支持3分钟视频生成,具备首尾帧控制、镜头运动及数字人口型同步功能[15] - 腾讯混元3D通过世界模型实现360°沉浸场景生成,支持物理仿真[18] - 可灵AI提供首尾帧稳定衔接及多图参考角色生成,拥有百余种风格模板[20] - 海螺AI实现2D插画转动态视频,30秒内生成6秒短视频,支持2K高清输出[24] - 绘想提供五种模型选择,支持音视一体化生成及11种特效,适配中文语境[25][27] 创新产品技术突破 - 白日梦Agent可将2000字文案转为6分钟连贯视频,支持角色DNA库与智能分镜[37][39] - Vidu最快10秒生成视频,提供4秒/8秒时长选项,分辨率达1080P[43][44] - SEELE实现零代码3D游戏生成,支持角色控制、场景构建及物理效果[60] - FilmAction支持最高16K视频生成,整合从剧本创作到视频合成的全流程[62][63]
61岁退休后,华为海思创始总裁成了复旦北大清华老师
量子位· 2025-10-18 15:33
徐文伟职业转型与学术任职 - 前华为常务董事、海思半导体创始总裁徐文伟于2024年3月61岁时低调退休,结束在华为33年的职业生涯[8][10][23][96] - 2025年2月起在复旦大学担任发展研究院、技术创新战略研究中心教授及博士生导师,同时兼任复旦大学新工科建设战略咨询委员会副主任[12][13] - 在清华大学经管学院与北京大学光华管理学院出任管理实践教授,负责实务教学与案例研究,并在清华AI首期班讲授《AI时代的企业创新》课程[2][14][15][16] 华为早期技术突破与芯片研发 - 1991年加入华为后建立器件室,初期研发资源匮乏,仅配备2台示波器、4只万用表和6名开发人员[27][29] - 主持设计华为首颗自研ASIC芯片SD502,单次流片成本达几万美元,该芯片成为华为半导体自主化的起点[30][31][33][35] - 1995年出任无线研发总经理,负责通信系统核心芯片设计,1997年升任预研部总裁主导前沿技术攻关[43][44] 欧洲市场开拓与全球化进程 - 2004年至2008年担任欧洲地区部总裁,期间推动华为与英国电信签署首份战略合作协议,突破欧洲市场[48][49] - 2005年推出全球首款分布式基站,凭借体积小、功耗低等优势获沃达丰等顶级运营商采用[51][52] - 2008年在德国完成8000个GSM基站搬迁与新建工程,当年华为全球销售额达233亿美元,海外市场占比超75%[56][57] 企业业务与战略创新布局 - 2013年转任企业业务总裁,主导发布全球首款敏捷交换机S12700,性能提升十倍,推动企业业务营收突破25亿美元(同比增长32%)[62][63] - 2018年出任战略研究院院长,提出创新2.0战略,推动华为与高校共建联合实验室,年投入超20亿元[69][71][72] - 主导成立哈勃投资,聚焦半导体、光计算等前沿技术领域,明确其战略合作属性而非财务投资[74][75] 职业轨迹与行业影响 - 在华为历任15个岗位,从芯片研发到欧洲市场开拓,最终进入战略决策层,完整参与公司技术创新体系构建[5][79][95] - 东南大学自动控制系毕业,其校友群体包括艾为电子、芯朋微等企业创始人,形成中国半导体产业中坚力量[81][82] - 早期任职于深圳亿利达电子公司,该公司被誉为中国电子产业黄埔军校,为华为、中兴等输送大量技术骨干[84][86][87]
杨振宁教授千古!中国AI计算机产业因他而不同
量子位· 2025-10-18 12:45
杨振宁生平与学术成就 - 杨振宁1922年出生于安徽合肥 是中国理论物理学家 1938年考入西南联大 1945年赴美留学 1948年获芝加哥大学博士学位[3] - 1956年与李政道合作提出弱相互作用中宇称不守恒理论 彻底改变物理学界对自然界基本对称性的认识 成为20世纪物理学重要里程碑[3] - 1957年因宇称不守恒定律获得诺贝尔物理学奖[4] 杨振宁核心物理学贡献 - 1954年与学生罗伯特·米尔斯提出杨-米尔斯理论 该理论成为粒子物理学标准模型的基础 相关数学难题被克雷数学研究所悬赏百万美元求解[6] - 1967年发现杨-巴克斯特方程 该方程成为解决许多可积系统的核心工具[6] 杨振宁对中国科教事业的推动 - 自1970年代起多次回国讲学 引入国际前沿物理理论如规范场论和统计力学[7] - 1978年建议中国科技大学少年班设立计算机软件专业 为计算机教育在国内普及奠定开端[7] - 1997年推动创办清华大学高等研究院并担任名誉主任 吸引国际一流学者加入[8] - 亲自募集资金设立对华教育交流委员会 资助近百名中国学者赴美进修 这些学者成为后来中国科技发展中坚力量[12] 杨振宁的教育影响与人才引进 - 2004年为清华大学物理系和基础科学班大一新生讲授一学期普通物理课[10] - 影响图灵奖得主姚期智回国任教 姚期智在2004年辞去普林斯顿大学终身教职 全职加入清华大学并创立交叉信息研究院[8][15][16] - 姚期智表示杨振宁和李政道获诺贝尔奖对其选择物理专业产生重大影响 物理学科提供的研究方法与理念对其后续跨领域工作持续有益[15]
通用型产品增长停滞,垂直赛道成市场新解法丨季度AI 100数据解读
量子位· 2025-10-18 10:07
文章核心观点 - AI产品竞争格局呈现多元化发展,互联网巨头凭借全产品矩阵形成生态优势,而初创公司则深耕细分人群以优化体验[2] - AI产品用户规模和活跃度的增长引擎正从通用头部产品转向长尾高细分产品,新兴赛道和Agent产品表现突出[6] - AI产品形态正从工具向集成化工作台和具备执行能力的桌面端Agent演进,Web端与桌面端定位逐步分化[28][31] APP端AI产品现状 - Web端AI产品总访问量和MAU增长停滞,数据持平在6亿和1.3亿人次,头部产品数据出现轻微下滑[6] - 用户增长引擎转变,长尾高细分产品成为增长主力,AI健康等新兴赛道表现瞩目[6] - 综合化办公Agent和垂直赛道Agent用户增长亮眼,显示Agent产品价值得到验证[6] - 头部集中化态势减弱,中腰部产品下载量和日活提升明显,TOP 5产品市场占有率从超60%降至50%以内[14][15] - 智能助手类产品累计下载超5亿,日活超8100万,在APP端占比约33%和32%,但比重较第二季度下降[16] - AI效率办公类产品累计下载量接近5亿,领先于AI创作(近2.7亿)和AI文娱生活(近2.6亿)赛道[17] - AI健康细分赛道增长迅速,蚂蚁AQ和字节小荷AI医生发布两个月累计下载分别达近1400万和近200万[17] APP端用户规模TOP 10 - 夸克以约2.51亿累计下载量位居第一,豆包以约2.33亿紧随其后[7] - 用户规模数据量级在1000万以上的产品共有23款[7] APP端用户新增TOP 10 - 2025年9月APP端AI产品总新增下载超1.66亿,相比6月的1.3亿上涨超27%[9] - 豆包和夸克是9月唯二新增下载量超两千万的产品,分别达约2700万和约2300万[9][10] - 新增千万级产品共4款,百万级产品共24个,相比6月(16款)增长明显[9][10] APP端用户活跃TOP 10 - 2025年9月平均每天有近3亿人次使用AI APP,数据相比6月增长近50%[12] - WPS以约6100万DAU位居第一,共8款产品DAU超千万[12] - DAU在百万级以上的产品从6月的15个增加至20个,腰部以上产品是活跃用户增长主要贡献者[12][13] Web端AI产品现状 - 9月Web端总访问量超6亿,较6月的5.7亿有所增长;总活跃用户数约1.24亿,与6月基本持平[27] - 头部产品访问量和活跃用户有所下滑,TOP 10访问量门槛从1900万降至1700万,月活TOP 10门槛从370万降至340万[27] - 流量被AI Agent类产品分走,该品类有7款产品入围榜单,对多个效率类细分赛道形成挤压[32][33] Web端使用规模TOP 10 - 访问量千万级的Web端AI产品维持在10款,DeepSeek、豆包和夸克访问量位列前三,在整体中占比达47%[18] - DeepSeek以约1.15亿总访问量位居第一,豆包约8500万,夸克约8200万[18] - 豆包9月访问量比6月增长约2500万,百度AI搜索9月访问量相比6月增长超1800万,涨幅达74%[19][20] Web端用户活跃TOP 10 - MAU百万级产品共有19个,百度AI搜索月活数据连续两月显著增长,稳定在千万级梯队[22] - 夸克以约1900万独立访客数位居第一,豆包Web端月活用户从6月约820万增长至9月突破1000万[22][23] Web端用户粘性TOP 10 - 用户粘性TOP 10被AI办公效率应用和AI智能助手应用垄断,莫高设计以9.5次人均访问次数领先[25] - 人均访问次数在5次以上的产品共有23款[26] AI产品形态演进趋势 - 头部产品从"工具"向沉浸式"工作台"转变,进行系统深度集成[28] - 随着Agent能力植入,桌面端形态更符合国内用户习惯,代表有Kimi的OK Computer模式和阶跃星辰的桌面伙伴小跃[29][30] - 未来桌面端基于Agent侧重执行,Web端则侧重相对简单的信息再处理[31] - Agent产品能够端到端交付成果,不仅挤占Web端头部产品空间,也对多个效率类细分赛道形成挤压[33]
黄仁勋2025都在投啥?出手50次,32家公司覆盖产业链闭环
量子位· 2025-10-18 10:07
投资规模与活跃度 - 2025年前三个季度,公司参与了50笔AI相关风险投资,已超过2024年全年的48笔[2] - 公司自身的风险投资部门NVentures在2025年已出手21次,相比2022年起步时的1次大幅增加[6] - 截至2025年9月,NVentures已投资孵化出4家独角兽公司[7] 投资领域分布 - AI基础设施(如数据中心、计算)和模型厂商是主要投资方向,各占投资数量的31%[3] - AI应用领域的投资显著增加,占到总投资数量的四分之一[3] - 其余投资投向具身智能与自动驾驶等领域[3] 十亿美元级投资组合 - 对OpenAI的投资从2024年10月的1亿美元参与66亿美元融资,升级至2025年9月计划分阶段投资高达1000亿美元[11][16] - 2024年12月参与马斯克旗下xAI的60亿美元融资,并计划在其下一轮200亿美元融资中追加高达20亿美元投资[18][19] - 2025年9月第三次投资法国大模型公司Mistral AI,参与其20亿美元C轮融资,该公司估值达135亿美元[23][24] - 2025年10月领投Reflection AI的20亿美元融资,该公司估值达到80亿美元[25] - 2025年7月参与Thinking Machines Lab的20亿美元种子轮融资,该公司估值达120亿美元[30] 数亿美元级投资组合 - 2025年8月参与核聚变能源公司Commonwealth Fusion的8.63亿美元融资,该公司估值约30亿美元[50] - 2024年11月参与清洁计算公司Crusoe的6.86亿美元融资[53] - 2024年8月参与企业级LLM提供商Cohere的5亿美元D轮融资,该公司估值达68亿美元[56] - 持续投资AI搜索引擎Perplexity,参与其2024年12月的5亿美元融资,当时公司估值约180亿美元[58] 一亿美元级投资组合 - 2024年12月第三次投资光学互连技术公司Ayar Labs,投资额1.55亿美元[80] - 2023年12月参与企业级AI聊天机器人公司Kore.ai的1.5亿美元融资[83] - 2025年4月携手谷歌等向量子计算与AI结合公司Sandbox AQ投资1.5亿美元,该公司估值约57.5亿美元[84][86] - 2024年1月参与医疗健康LLM公司Hippocratic AI的1.41亿美元B轮融资,该公司估值达16.4亿美元[88] 投资策略与财务实力 - 公司倾向于不作为领投方,以避免治理压力和深度股权绑定,更注重生态建设而非股权收益[101][108][111] - 截至2025年10月,公司市值已突破4万亿美元[103] - 公司自由现金流在过去三年暴增近十倍,2025年上半年达到720亿美元,同比增长54%[104] - 2025年已兑现的投资额估计在10亿至100亿美元之间[115] 战略协同与生态闭环 - 投资行为与硬件销售深度协同,例如向OpenAI投资1000亿美元的同时,OpenAI承诺采购400万至500万张GPU[117][122] - 通过投资锁定未来硬件订单,形成资本与销售的内循环,例如对xAI的投资旨在帮助其采购更多设备[124][125] - 公司投资版图已覆盖AI全产业链,包括基础设施10家、模型层10家、应用层8家、具身智能4家,合计32家公司[114] - 公司消耗台积电约一半的CoWoS先进封装月产能,理论上可产出约675万张GPU[126][127]
破解空间智能数据稀缺难题,影石开源DiT架构全景生成模型,在线可玩
量子位· 2025-10-18 10:07
影石研究院团队 投稿 量子位 | 公众号 QbitAI 空间智能领域的全景数据稀缺问题,有解了。 影石研究院团队,推出了基于DiT架构的全景图像生成模型DiT360。 通过全新的全景图像生成框架,DiT360能够实现高质量的全景生成。 DiT360提出了一个基于DiT架构的混合训练框架,充分结合透视图像与全景图像数据,在保持真实感的同时提升几何一致性。 而且同时支持多项任务,并在边界一致性、图像保真度和感知质量等方面均优于现有方法。 | Methods | | | | | | FID FIDelio FIDeony FIDeary FAED IS↑ CS↑ QAquality 1 QAacsthetic 1 BRISQUEL NIQEJ | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | PanFusion | 124.87 120.75 | | 182.09 | 108.12 11.06 | | 1.30 28.35 | 3.83 | 3.56 | 27.38 | 4.31 | | MVDiffusi ...
这是最新AI产品季度百强丨量子位智库AI 100
量子位· 2025-10-17 19:30
旗舰100榜单格局 - 头部AI产品在Web端和APP端数据均出现下滑,但核心阵营保持稳定[2] - Web端TOP阵营总访问量和MAU占比分别超过80%和70%,排名前列的包括DeepSeek、豆包、夸克等,月总访问量均超千万[2] - APP端头部产品同样稳定,包含WPS、QQ浏览器、豆包等,其中夸克和豆包的累计下载量均已超过2.3亿[2] - 本季度有35款新产品入围旗舰榜,其中18款是由上期创新榜成功突围[2] 市场数据与趋势 - 25年9月Web端总访问量和MAU多月停滞,数据持平在6亿和1.3亿人次[6] - APP端大盘仍在扩大,单月总新增超1.6亿人次,总DAU接近3亿人次,但增长引擎已转向长尾高细分产品[6] - 市场变量主要来自Agent类产品,包括侧重Deep Research的综合化办公Agent和侧重特定行业Know-how的垂直赛道Agent[6] - 端到端交付、高可控编辑和多模态/形态融合成为重点迭代方向[6] 创新100榜单洞察 - 创新榜定位为“面向未来的AI产品索引”,聚焦快速增长和独特AI原生设计[7] - 本期创新榜出现56个新面孔,变动主要来自综合性AI Agent、AI数据、AI图表、AI游戏、AI教育等领域[8][9][11] - 新产品涵盖AI创作、AI文娱、AI生活、AI开发层及AI消费级硬件等多个细分赛道[11] 行业竞争核心与未来方向 - AI产品竞争进入最激烈时刻,用户通过新工作流和长期复购进行投票[14] - 行业面临全新的功能逻辑、设计哲学和用户心理,所有从业者需重新摸索路径[14] - 下一阶段核心命题是如何沿着用户核心使用链路,把特定场景和痛点做透做通[15] - “场景细分化”和“超个性化”是当前不确定性中的确定性,行业knowhow对产品可用性的提升远超想象[16] - 产品形态、功能价值、场景落地和情绪价值侧均有很长的路要走[16]
百度文心助手都成这样了
量子位· 2025-10-17 19:30
百度AI模型与产品升级 - 文心助手新增8种多模态创作能力,包括生成分钟级长视频和行业首个实时互动数字人智能体[3] - 视频生成模型"蒸汽机"升级至10.15版本,突破传统5-10秒时长限制,实现AI长视频实时交互生成[3][27] - 文心助手支持30多种爆款视频特效,内置超200种配音音色,并整合文生/图生图功能实现视频封面AI一站式输出[21][22] 百度AI技术性能优势 - 文心助手移动端和PC端上线极速大模型,生成速度比行业第一梯队快5倍,成本仅为70%[11] - 蒸汽机模型采用流式生成技术,支持"一张图+一个Prompt"实时修改视频内容,用户可随时中断或调整生成过程[27][29] - 多Agent蜂群工作流技术实现编剧、导演、演员、后期各环节协同,一句指令即可完成"脚本-角色-分镜-成片"全流程[21] 百度AI应用场景拓展 - 文心助手具备超长记忆和深度研究能力,可快速生成市场分析报告,搭载数十亿学习题库支持作业辅导[14][15] - 提供24小时AI在线问诊服务,与专业医生资源合作覆盖医疗咨询场景,魔镜功能支持实时识别物体并获取知识[12][13] - 支持Rap歌曲创作、图片生成MV、数字人歌手转换等娱乐功能,预计10月底上线AI播客功能[23][24] 百度AI市场地位与生态策略 - 百度搜索在AI用户规模、综合技术能力等核心指标位列全行业第一,用户日均AIGC生成量突破千万级[4] - 公司采用"加量不加价"定价策略保持产品低门槛,通过快速迭代(如版本1.0至1.1短期升级)强化市场执行力[34][39] - 生态建设同时面向内部B端(百家号、百度文库)和外部C端需求,通过合作圈层整合数据资源与用户真实需求[35][36] 百度AI产品定位转型 - 百度搜索口号从"百度一下,你就知道"升级为"百度一下,解锁AI万能搭子",从工具属性转向AI伙伴定位[7][8] - 文心助手引入16型MBTI和12星座人设系统,基于数据记忆理解用户习惯,支持个性化互动与情感连接[15][24] - 所有AI功能免费开放给用户,旨在将AI创作转化为日常低门槛活动,实现"边做边改、快速迭代"的产品理念[25][26][34]