Workflow
量子位
icon
搜索文档
聊AI,当然得来量子位MEET大会!首波嘉宾阵容曝光
量子位· 2025-11-14 16:22
大会概况 - 大会以"共生无界,智启未来"为主题,关注AI技术穿透产业、学科与场景边界,成为驱动社会演进的核心动能[3] - 大会聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等年度热门话题[4] - 内容涵盖学术前沿与商业落地碰撞,以及Infra、模型、产品产业领先技术成果[5] 嘉宾阵容 - 清华大学智能产业研究院院长张亚勤院士是数字视频和AI领域世界级科学家,拥有31岁获IEEE Fellow最年轻科学家记录[12][13] - 清华大学人工智能研究院常务副院长孙茂松主持国家973项目、国家社科基金重大项目等20余项科研项目[17] - 北京智源人工智能研究院院长王仲远发表国际顶级学术论文100余篇,获得ICDE 2015最佳论文奖[21][22][23] - 浙江大学赵俊博研究员首创数据库大模型TableGPT,突破通用模型局限,参与PyTorch早期研发[27] - 昆仑万维董事长方汉拥有31年互联网从业经验,是中文Linux奠基人之一[30] - 潞晨科技创始人尤洋获福布斯30岁以下精英榜,曾是高性能计算领域谷歌学术引用最高博士毕业生[35][36] - 小米首席语音科学家Daniel Povey是Kaldi之父,谷歌学术引用近52000次,h-index 70[40] - 上海高级金融学院朱宁教授2021至2024年连续入选爱思唯尔"中国高被引学者"[44][45] - RockAI CEO刘凡平主导实现国内首个非Transformer架构大模型,拥有20余项AI专利[48][49] - 中关村科金总裁喻友平带领公司入选2025《财富》中国科技50强、2024胡润中国人工智能企业50强[53][54] - 太初元碁联合创始人乔梁获评2024年度"算力中国·青年先锋人物",参与国家核高基重大专项[57][58] 行业活动 - 大会将发布人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项[60] - 年度AI趋势报告将提名十大AI趋势并进行深入分析,提名代表机构和最佳案例[64][65] - 大会每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[72]
小米给智能家居做了个“大模型大脑”
量子位· 2025-11-14 16:22
行业现状与痛点 - 当前智能家居行业体验不够智能,多数系统依赖预设规则引擎,用户需手动配置繁琐的触发条件,交互过程机械且繁琐[3][4][10] - 行业存在“规则预设固化”与“生态协同不足”的双重制约,不同品牌设备间缺乏统一联动标准,用户需花费大量精力适配系统[9][10] 小米Miloco方案核心观点 - 公司认为AI代表未来方向,“大模型+智能家居”是行业大势所趋,Miloco的出现重构了家庭智能范式[5][6] - 该方案旨在为家庭赋予一个能理解生活细节的“AI大脑”,核心目标是让智能家居从“人适应设备”转变为“设备适应人”[11][29][30] 技术架构与核心能力 - 方案的技术核心是Xiaomi MiMo-VL-Miloco-7B端侧视觉语言大模型,该模型基于公司自研MiMo-VL-7B大模型优化构建,具备强大的视觉-语言融合能力[15][17] - 模型能力包括全屋视觉问答、规则智能触发、复杂的联动控制以及场景化动态推理,推动智能家居从“单一条件触发”迈入“多维度场景感知”的高阶形态[18][19][20] - 系统构建了四层完整技术架构:用户层、应用层、能力平台层和硬件层,确保功能稳定落地与未来灵活扩展[16][22][26] 生态整合与开放性 - 通过标准化的MCP协议封装,方案实现了米家生态与Home Assistant生态的无缝打通,并支持第三方IoT平台接入,打破生态壁垒[13][14][27] - 项目已在GitHub上面向全社会开放,开发者可部署、体验并修改扩展体系中任何一层的能力,体现了开放共创的理念[8][22][27] 隐私安全与部署方式 - 方案高度重视隐私安全,采用端侧部署大模型的方式,所有视觉数据在家庭端侧完成计算,不向外部服务器传输,保障用户隐私不被侵犯[7][27] - 端侧部署确保了数据处理的实时性与安全性,从技术层面保障家庭隐私不外流[7][27]
报名启动!快来和张亚勤孙茂松一起参与MEET2026智能未来大会
量子位· 2025-11-14 13:38
大会概况 - 大会以"共生无界,智启未来"为主题,关注AI穿透产业、学科与场景边界,成为社会演进核心动能[3] - 聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术与产业落地进展[4] - 包含学术前沿与商业落地碰撞,涵盖Infra、模型、产品产业领先技术成果[5] - 将发布人工智能年度榜单与年度AI趋势报告[6] - 预计吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[72] 嘉宾阵容 - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,数字视频和AI领域世界级科学家,曾任百度总裁、微软全球资深副总裁[12][13] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,主持国家973项目等20余项科研项目[17] - 王仲远:北京智源人工智能研究院院长,发表论文100余篇,获得ICDE 2015最佳论文奖,拥有美国专利5项、中国专利50余项[21][22][23] - 赵俊博:浙江大学百人计划研究员,蚂蚁集团资深技术专家,首创数据库大模型TableGPT,参与PyTorch早期研发[27] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,中文Linux奠基人之一[30] - 尤洋:潞晨科技创始人,新加坡国立大学校长青年教授,高性能计算领域谷歌学术引用最高博士毕业生[34][35] - 朱宁:上海高级金融学院金融学教授,行为金融学专家,连续四年入选爱思唯尔"中国高被引学者"[39] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型,拥有20余项AI技术专利[43][44] - 喻友平:中关村科金总裁,前百度智能云副总裁,提出"平台+应用+服务"大模型落地三级引擎战略[47][48] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,Kaldi开源语音识别工具创始人,论文引用近52000次[52][53] - 乔梁:太初元碁联合创始人兼COO,清华大学计算机系博士,主导国产异构众核平台超大规模并行深度学习框架研发[57][58] 行业活动 - 人工智能年度榜单从公司、产品、人物三大维度评选五类奖项,申报截止2025年11月17日[60][61] - 年度AI趋势报告案例征集截至2025年11月20日,将提名十大AI趋势并分析代表机构[64][65][66] - 大会地点设在北京金茂万丽酒店,已开启观众报名通道[70]
发布即开放:百度猎户座葫芦里卖的什么药?
量子位· 2025-11-14 13:38
百度猎户座系统升级 - 百度推出基于多智能体框架的AI底层系统“百度猎户座”,对搜索系统进行“换头”升级,使其成为能听、能想、能干活、能创作的AI超级大脑[1] - 该系统整合百度二十多年的搜索技术积累、各行业专业能力及全网MCP服务生态,支撑百度百看、文心助手等AI应用[1] - 核心逻辑是让搜索从“给答案”的工具进化成能听懂意图、记忆、交互并完成任务的AI伙伴,具备规划与执行能力[5] 行业搜索技术演进 - 搜索技术从早期关键词匹配、语义识别发展到AI生成富媒体答案,行业探索方向包括谷歌SGE直接总结答案、Perplexity问答对话及OpenAI Atlas让Agent自主执行任务[4] - 当前趋势是多模态、富媒体成为搜索产品新标配,信息呈现方式从文字转向图片、视频甚至生成短片,提升省力直观体验[11] - 搜索角色从检索工具转变为理解世界、实时更新的知识接口,成为AI系统的中枢神经,OpenAI和谷歌均推进“搜索+API”模式[23] 新搜索能力特点 - 具备需求拆分、规划及总结生成能力,例如用户询问北京周末游玩地点,系统自动生成包含景点、路线、时间安排及穿衣建议的完整攻略[7][8][10] - 拥有长期记忆和个性化满足能力,通过记忆用户偏好及意图推断预测需求,如文心助手在演唱会前主动提醒注意事项[13][14] - 支持多模态内容生成,包括生图、生视频及多场景切换,每日AI内容生成量超千万,视频模型调用量超200万[16][18][21] 开放战略与生态影响 - 百度猎户座即日起全面对外开放,企业开发者可接入其搜索AI API,调用百度25年搜索技术沉淀、权威内容资源及多模态文本特征提取能力[2][23] - 已有625家企业通过百度智能云接入搜索API,覆盖手机、汽车、智能家居、办公、教育等行业[23] - 开放策略使搜索从用户工具转变为AI底层能力,助力开发者快速打造专属应用,强化行业生态整合[23][24]
何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral
量子位· 2025-11-14 13:38
技术突破与核心优势 - 提出InfinityStar方法,通过时空金字塔建模统一处理图像和视频生成任务,核心是将视频分解为首帧(外观信息)和后续片段(动态信息)进行解耦建模[13][14][15][16] - 采用纯自回归生成方式,相比DiT(Diffusion Transformer)所需的20-100步去噪迭代,实现"一条过"生成,计算效率提升一个数量级[4][25][31] - 在单张GPU上生成5秒720p视频仅需不到1分钟,比同尺寸DiT方法(如HunyuanVideo、Wan-Video)快一个数量级[31] 模型架构创新 - 引入时空金字塔建模架构,将图像金字塔的下一尺度预测思想扩展到时空维度,使用单一Transformer统一建模所有尺度间和片段间依赖关系[13][16] - 采用基于多尺度残差量化的视觉分词器,并应用知识继承技术加速训练,通过继承预训练连续分词器权重使离散分词器更快收敛[18][19] - 提出随机量化器深度正则化技术,随机丢弃精细尺度Token,迫使模型在粗糙尺度下也能重建有效信息,改善信息分布均衡性[21] 性能优化技术 - 设计语义尺度重复技术,在预测时对控制全局信息的语义尺度重复预测N次,增强视频结构一致性和运动流畅性[24] - 应用时空稀疏注意力机制,只关注必要上下文信息(如前一片段最后一个尺度),大幅降低长序列注意力计算复杂度[24] - 引入时空RoPE位置编码,同时编码尺度、时间、高度和宽度信息,为Transformer提供精确时空坐标感知[24] 多任务能力 - 支持文生图、文生视频、图生视频、交互式长视频生成等多种任务,所有任务均统一为"预测下一个尺度/片段"的自回归问题[9][12][16] - 具备交互式长视频生成能力,可根据5秒参考视频和新提示词持续生成后续内容[12] 性能表现 - 在VBench基准测试中,InfinityStar-8B在文生视频任务上取得83.74综合得分,超越CogVideoX-5B(81.61)和HunyuanVideo-13B(83.24)等扩散模型[27][28] - 人类偏好评估显示InfinityStar-8B在指令遵循方面优于HunyuanVideo-13B[29] - 文生图任务在GenEval和DPG基准上表现优异,在位置和物体关系方面具有明显优势[25]
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"
量子位· 2025-11-14 13:38
研究核心观点 - 多模态大语言模型的模态跟随行为并非静态属性,而是由案例特定的相对推理不确定性和模型稳定的固有模态偏好共同作用的动态过程[1] - 传统的宏观模态跟随统计数据具有误导性,因其混淆了模型的能力和偏好[1] - 模型跟随某一模态的概率会随着该模态相对推理不确定性的增加而单调递减,这一法则在测试的六个模型中普遍存在[5][19] 研究团队与贡献 - 主要作者来自北京大学、华南理工大学、佐治亚大学、KAUST和MBZUAI等机构[3] - 核心贡献包括构建新的可控玩具数据集,以及提出将模态跟随行为解耦为相对推理不确定性和固有模态偏好的分析框架[4] 框架设计:可控数据集与不确定性度量 - 构建了可通过视觉难度和文本难度两个独立设计等级系统控制模态推理复杂性的数据集[9][10] - 采用输出熵作为以模型为中心的不确定性度量指标,熵值随设计难度增加而一致上升[11] - 引入相对单模态不确定性指标,通过(文本熵减视觉熵)除以(两者之和)并归一化来计算,量化模型在每个冲突案例中的置信度差距[12] 传统指标的局限性 - 使用传统宏观指标(如文本跟随率TFR和视觉跟随率VFR)测试6个MLLM时,发现了令人困惑的组合模式,暴露了宏观指标的局限性[14] - 相似的难度感知下,模型可能表现出相反的宏观偏好;而宏观偏好相似的模型,其难度感知可能相反,这共同指向传统指标混淆了数据集伪影和固有模态偏好[15][16] 实验新范式与主要发现 - 设计新实验范式,以相对不确定性为横轴,文本跟随概率为纵轴绘制偏好曲线,成功解耦能力与偏好[18] - 所有被测试模型都展现出文本跟随概率随文本相对不确定性增加而单调递减的统一法则[19][21] - 将曲线穿过50%概率线的点定义为平衡点,作为量化固有模态偏好的原则性指标[22] - 平衡点框架成功解释了宏观指标下的矛盾:LLaVA和Qwen2.5-VL的固有偏好不同,而Qwen2-VL和Qwen2.5-VL的差异揭示了数据集伪影的影响[23][24] 内部决策机制 - 当相对不确定性接近模型的平衡点时(模糊区域),模型内部的逐层预测会在冲突答案间表现出强烈的振荡,而在清晰区域则迅速确定答案[29][30][34] - 模糊区域内冲突输入的振荡次数显著高于清晰区域和无关冲突情况,为模型外部的犹豫不决行为提供了机制性解释[33][34]
腾讯总裁剧透微信搭载智能体!阿里和谷歌也都开始互相伤害了
量子位· 2025-11-14 13:38
行业核心观点 - AI应用竞争已全面开启,互联网巨头业务边界变得模糊,行业进入混战阶段 [3][4][5] - 智能体从技术概念演变为战略核心,AI正重构互联网价值链,竞争焦点在于争夺“端到端闭环”的控制权 [31][32][33] 阿里巴巴战略动向 - 公司计划对通义APP进行重大改革,将其更名为“Qwen”,并逐步添加智能体功能以支持淘宝等平台的购物活动 [6][7] - 此举被视为公司从消费者服务中获取收益的最大举措之一,旨在利用电商优势为AI应用找到独特切入点 [8][9][14] - Qwen系列模型全球下载量已突破6亿次,通义在国内大模型的tokens消耗占比达17.7%,位居第一 [10][12] - 但通义APP在平均DAU上仍落后于豆包、DeepSeek等应用,显示其C端市场存在提升空间 [13] 谷歌战略动向 - 公司在美国假日购物季前推出一系列AI购物功能,覆盖搜索、比价、追踪及结账环节,意图将AI融入购物全流程 [16][17][18] - AI购物功能旨在实现从模糊需求到下单的完整闭环,终极目标是通过智能体撬动消费市场,与阿里巴巴方向一致 [21] 腾讯战略动向 - 公司Q3营收1929亿元,同比增长15%,经营盈利726亿元,同比增长18%,AI成为战略核心 [23][24] - Q3销售及市场推广开支同比增长22%至115亿元,主要用于推广AI原生应用程序及游戏 [25] - AI产品“元宝”已进入微信、QQ、腾讯会议等数十款核心产品,为智能体铺路 [26] - 公司理想蓝图是微信最终推出一个AI智能体,帮助用户在生态内完成任务,目前正通过多路径并行探索 [2][28][30] - 公司核心优势在于微信生态的整合能力,具备社交数据、内容生态及服务商业闭环 [29][34]
AI Coding最贵300人:2年2050亿估值,刚又被塞了160亿
量子位· 2025-11-14 10:04
公司融资与估值 - 完成23亿美元D轮融资,估值达到293亿美元(约合人民币2050亿元)[2][3] - 本轮融资由英伟达、谷歌和Coatue等新投资者加入,a16z等老股东继续参与[5] - 当前估值几乎是2024年6月C轮融资时(融资9亿美元)估值的三倍[6] - 公司融资轨迹显示快速增长:2023年10月种子轮800万美元,2024年A轮6000万美元(估值4亿美元),2024年11月估值推高至25亿美元,2025年3月估值逼近100亿美元,两年内估值冲上293亿美元[10][12][13][14][15] 公司业务与市场表现 - 公司是AI编程软件,专注于提高最强开发者的效率,目标嵌入企业级内部开发流程而非降低编程门槛[21][25][26][28] - 全球数百万开发者使用,包括英伟达、Adobe、Uber、Shopify、PayPal等约5万个团队[24] - 年化收入突破10亿美元,是从0美元跃升至1亿美元ARR史上增长最快的公司之一,且无销售团队[8][18][19] - 团队规模已扩张至300人,涵盖工程、研究、设计与运营等岗位[8][16] 技术产品进展 - 上线自研模型Composer,实现模型到产品的深度适配,仅需30秒完成复杂任务,比同行快400%[31][32] - 自研模型生成的代码量几乎超过全球所有其他LLM[8][33] - 产品定位为让开发者写不出Bug的编辑器,目标用50行伪代码生成2000行PR,并实现即时代码库问答[43][44] 公司文化与创始人 - 公司内部氛围像大学实验室,员工自发加班,周末主动工作,讨论聚焦新功能与产品路线[37][38][40] - 创始团队为麻省理工学院学生,2022年创立公司,四位创始人各持有约4.5%股份,按最新估值个人身价达13亿美元,人均亿万富豪[40][41][42] - 联合创始人Arvid Lunnemark于上月出走创业,投身AI安全与基础研究[47]
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"
量子位· 2025-11-14 10:04
多模态大语言模型模态跟随行为研究框架 - 提出全新分析框架将模态跟随行为分解为相对推理不确定性和固有模态偏好两个核心组成部分[4] - 框架旨在将模型单模态能力与内在偏见清晰解耦以解决传统宏观统计指标的混淆问题[4][16] - 核心论点是宏观模态跟随统计数据具有误导性因为它混淆了模型能力和偏好[1] 可控数据集与不确定性度量方法 - 构建新颖可控玩具数据集通过视觉难度和文本难度两个独立设计等级系统控制模态推理复杂性[9][10] - 采用输出熵作为以模型为中心的不确定性度量指标熵值随设计难度增加而一致上升[11][13] - 引入相对单模态不确定性指标量化模型在每个冲突案例中的置信度差距构成分析核心[12] 传统宏观指标的局限性 - 传统文本跟随率TFR和视觉跟随率VFR等宏观指标将模型单模态能力和固有偏好混为一谈[14][16] - 实验发现相似难度感知下模型宏观偏好相反以及相似宏观偏好下难度感知相反的矛盾现象[15] - 宏观指标无法区分数据集伪影和固有模态偏好导致无法看清模型决策的真正动机[15][16] 实验新范式与核心发现 - 设计新实验范式以相对不确定性为横轴文本跟随概率为纵轴绘制模型偏好动态曲线[18][19] - 所有被测模型均展现统一单调法则文本跟随概率随其相对不确定性增加而严格单调递减[19][21] - 定义平衡点作为量化固有模态偏好的原则性指标平衡点位置揭示模型内在稳定偏向[22][24] 内部决策机制分析 - 采用类似LogitLens技术逐层探查模型预测发现模糊区域内部存在显著答案振荡现象[29][34] - 模糊区域内冲突答案的置信度差异在多层中保持零附近表明模型处于高度不确定状态[34][36] - 内部振荡机制为模型在外部表现出的犹豫不决和平均化选择行为提供了解释[33][34] 框架解释力与验证 - 平衡点框架成功解释LLaVA和Qwen2.5-VL在相似难度感知下偏好相反的现象源于固有偏好差异[23] - 揭示Qwen2-VL和Qwen2.5-VL宏观偏好相似但难度感知相反的现象源于数据集伪影和固有偏好共同作用[24] - 该框架在本文构造数据集和现有MC^2数据集颜色识别子集上均验证了单调关系的稳健性[26][28]
雷军下铺的兄弟,创业家务机器人
量子位· 2025-11-14 10:04
崔宝秋职业新动向 - 小米原副总裁崔宝秋在离开小米两年后,选择创业进入家务机器人领域[1] - 此次创业标志着其技术蓝图从“连接万物”进化到“改造物理世界”[4] - 已与多家顶级VC进行深入接洽,融资洽谈进展顺利[7] 技术战略演进 - 在小米期间是AIoT战略最坚定推动者,曾称AIoT是小米第一战略[7] - 不满足于智能音箱等单点连接,追求能思考移动交互的AIoT终极形态[7] - 创业项目旨在将CBA与AIoT蓝图浓缩到能走进千家万户的智能躯体中[7] 职业背景与小米贡献 - 2012年应雷军邀请加入小米,历任首席架构师、人工智能与云平台副总裁等技术要职[14] - 组建小米人工智能与云平台团队,搭建首个机器学习平台,推动云计算-大数据-人工智能技术路线[15] - 2019年挂帅新成立的集团技术委员会,发起“百万美元技术大奖”以树立技术立业形象[36][37] 行业趋势与竞争格局 - 具身智能成为当前科技圈显著趋势,AI需要“身体”感知和改造物理世界[40][41] - 前华为“天才少年”稚晖君创立的智元机器人获高瓴、红杉等顶级资本重注[42] - 前地平线副总裁张玉峰新项目无界动力获红杉、高瓴等机构3亿元天使融资[43]