Workflow
量子位
icon
搜索文档
AI画手总是六根手指?阿大/美团/上交首次系统量化扩散模型计数幻觉
量子位· 2025-10-18 15:33
文章核心观点 - 研究团队首次对扩散模型中的“计数幻觉”进行了系统性研究,构建了首个量化评测基准CountHalluSet,揭示了采样条件与幻觉率的复杂关系,并提出了能显著减少幻觉的联合扩散模型(JDM)[2][3][5] 研究背景与问题定义 - 扩散概率模型(DPMs)在图像生成中普遍存在产生与现实知识相悖的“幻觉样本”的问题,例如生成六根手指的手掌[1] - 社区缺乏系统性量化这类事实性错误的方法,阻碍了高可信度生成模型的研发[2] - 研究聚焦于一类特殊的幻觉——“计数幻觉”,即生成图像违反了数据集中关于物体数量的既定事实[10] 评测基准:CountHalluSet - 研究团队构建了包含三个数据集的CountHalluSet套件,可数物体的形态复杂性逐级递增[7] - **ToyShape**:包含简单的几何图形(三角形、正方形、五边形)[8] - **SimObject**:包含照片级逼真度的日常三维物体(杯子、苹果、时钟)[8] - **RealHand**:包含真实的、姿态各异的人手图像,每张图像必须严格包含五根手指[8][10] - 为量化评测,团队为ToyShape/SimObject构建了超过400,000个样本的数据集以微调ResNet-50计数模型,并为RealHand在超过2千张图像上微调YOLO-12模型来检测指尖[12][13] 核心实验发现 发现一:采样步数对幻觉的影响呈现“合成–真实”分化趋势 - 在合成数据集(ToyShape、SimObject)上,增加采样步数能有效降低计数幻觉率(CHR)[19] - 在真实数据集(RealHand)中,增加采样步数反而提升了计数幻觉率[19] - 例如,使用DPM-Solver-1,采样步数从25步增至100步时,RealHand的CHR从12.95%升至14.55%[18][19] 发现二:更高阶的ODE求解器可降低总体失败率,却提升计数幻觉率 - DPM-Solver-2在相同步数下生成质量一般优于DPM-Solver-1,并显著降低了RealHand的总体失败率(TFR)[20] - 但DPM-Solver-2却增加了计数幻觉率(CHR)[20] - 例如,在25步时,DPM-Solver-2的CHR为14.48%,高于DPM-Solver-1的12.95%[18][20] 发现三:祖先采样(DDPM)在幻觉抑制上表现最优 - 在所有对比中,DDPM(采样1000步)始终实现最低的计数幻觉率、非计数类失败率(NCFR)和总体失败率(TFR)[22] - 在RealHand上,DDPM的CHR为10.75%,NCFR为2.39%,TFR为13.14%,均显著低于其他求解器[18][22] 发现四:更合理的初始噪声可显著降低幻觉率 - 相较于标准高斯噪声(Normal),使用“扩散”噪声(Ground-truth初始噪声)能同时降低CHR、NCFR和TFR[24] - 例如,对于DPM-Solver-1在25步时,使用扩散噪声的CHR为12.71%,低于标准噪声的12.95%[18][24] 发现五:对象形态越复杂,计数幻觉越显著 - 随着对象形态从ToyShape、SimObject到RealHand逐渐复杂,计数幻觉率持续上升[26] - 例如,在DPM-Solver-1(25步)下,ToyShape的CHR为2.43%,SimObject为9.27%,而RealHand高达12.95%[18][26] 指标相关性分析 发现一:计数幻觉与FID之间的相关性并非固有 - 在SimObject数据集中,计数幻觉率(CHR)与FID呈显著正相关(Pearson = 0.8762)[30] - 在RealHand中却出现强负相关(Pearson = -0.9134)[30] - 当将DDPM结果纳入分析时,这种相关性显著减弱[31] 发现二:非计数类失败率与FID之间的相关性则稳定且显著 - 非计数失败率(NCFR)与总体失败率(TFR)在各条件下均与FID高度正相关(Pearson/Spearman > 0.94,p < 0.001)[32] - 这表明FID虽能衡量视觉质量,却不能代表模型的事实可靠性[32] 解决方案:联合扩散模型(JDM) - 研究团队提出了联合扩散模型(JDM),在训练时将原始图像和其对应的分割掩码在通道维度上进行拼接[33] - 这使得模型在共享的潜在空间中同时学习视觉表征与结构化的事实约束[33] - 实验表明,JDM能显著减少复杂真实图像中的计数幻觉和其他非计数类失败问题[5] - 在对比实验中,JDM在RealHand数据集上的CHR和NCFR均大幅低于基线模型LDM。例如,在某个配置下,JDM的CHR为2.94%,而LDM为18.06%[6] 研究意义与未来展望 - 该研究首次将扩散模型中模糊的“幻觉”问题,转化为一个可定义、可量化、可系统性分析的“计数幻觉”问题[36] - 研究结果挑战了“更多的采样步数、更高阶的求解器总能带来更好结果”以及“完全依赖FID评判模型事实准确性”的普遍认知[36] - 为社区提供了全新的评测基准(CountHalluSet)和评估视角,推动行业从关注“生成得美不美”转向同时关注“生成得对不对”[36] - 未来工作可将量化分析扩展到更复杂的幻觉类型,如不合逻辑的空间关系、违反物理规律的现象等[37] - 可探索将更抽象复杂的知识(如场景图、物理规则)融入扩散过程,发展“事实约束下的生成”新范式[37] - 最终目标是将生成模型从一个“创意工具”转变为一个可靠的“世界模型”,应用于科学模拟、工程设计等对准确性要求高的关键领域[37]
季度AI视频生成产品:多模态输入成标配,角逐一站式生成能力 | 量子位智库AI 100
量子位· 2025-10-18 15:33
AI视频生成行业动态 - Sora2在五天内下载量突破百万次,显著提升AI视频生成领域热度[3] - 谷歌推出对标产品Veo3.1,重点布局音频生成技术[4] - 国际厂商竞争聚焦电影级创意能力,国内企业追求秒级生成高清稳定视频并深耕垂直场景[5][6] - 视觉模型与世界模型深度融合,推动3D物理场景逼真化,实现无限一致视频生成[6] 技术演进趋势 - 多模态输入成为行业标配,支持文生视频、图生视频及音画同步生成[7] - 部分产品实现Agent一站式生成,构建全流程视频生成体系[7] - 输出视频时长从数秒延长至数分钟,分辨率提升至2K/4K级别,帧率达60fps[7] - 角色一致性、分镜设计、关键帧控制及口型同步等技术稳定性显著增强[7] 用户数据表现 - 5款产品访问量超20万,包括即梦AI、可灵AI、RoboNeo、海螺AI和Vidu[8] - 即梦AI下载量突破1100万,访问量增长27%至约950万[9] - 可灵AI网页端月访问量超100万,RoboNeo紧随其后[9] - 豆包、通义万相等综合类AI产品均集成视频生成功能[10] 头部产品功能特性 - 即梦AI支持3分钟视频生成,具备首尾帧控制、镜头运动及数字人口型同步功能[15] - 腾讯混元3D通过世界模型实现360°沉浸场景生成,支持物理仿真[18] - 可灵AI提供首尾帧稳定衔接及多图参考角色生成,拥有百余种风格模板[20] - 海螺AI实现2D插画转动态视频,30秒内生成6秒短视频,支持2K高清输出[24] - 绘想提供五种模型选择,支持音视一体化生成及11种特效,适配中文语境[25][27] 创新产品技术突破 - 白日梦Agent可将2000字文案转为6分钟连贯视频,支持角色DNA库与智能分镜[37][39] - Vidu最快10秒生成视频,提供4秒/8秒时长选项,分辨率达1080P[43][44] - SEELE实现零代码3D游戏生成,支持角色控制、场景构建及物理效果[60] - FilmAction支持最高16K视频生成,整合从剧本创作到视频合成的全流程[62][63]
61岁退休后,华为海思创始总裁成了复旦北大清华老师
量子位· 2025-10-18 15:33
徐文伟职业转型与学术任职 - 前华为常务董事、海思半导体创始总裁徐文伟于2024年3月61岁时低调退休,结束在华为33年的职业生涯[8][10][23][96] - 2025年2月起在复旦大学担任发展研究院、技术创新战略研究中心教授及博士生导师,同时兼任复旦大学新工科建设战略咨询委员会副主任[12][13] - 在清华大学经管学院与北京大学光华管理学院出任管理实践教授,负责实务教学与案例研究,并在清华AI首期班讲授《AI时代的企业创新》课程[2][14][15][16] 华为早期技术突破与芯片研发 - 1991年加入华为后建立器件室,初期研发资源匮乏,仅配备2台示波器、4只万用表和6名开发人员[27][29] - 主持设计华为首颗自研ASIC芯片SD502,单次流片成本达几万美元,该芯片成为华为半导体自主化的起点[30][31][33][35] - 1995年出任无线研发总经理,负责通信系统核心芯片设计,1997年升任预研部总裁主导前沿技术攻关[43][44] 欧洲市场开拓与全球化进程 - 2004年至2008年担任欧洲地区部总裁,期间推动华为与英国电信签署首份战略合作协议,突破欧洲市场[48][49] - 2005年推出全球首款分布式基站,凭借体积小、功耗低等优势获沃达丰等顶级运营商采用[51][52] - 2008年在德国完成8000个GSM基站搬迁与新建工程,当年华为全球销售额达233亿美元,海外市场占比超75%[56][57] 企业业务与战略创新布局 - 2013年转任企业业务总裁,主导发布全球首款敏捷交换机S12700,性能提升十倍,推动企业业务营收突破25亿美元(同比增长32%)[62][63] - 2018年出任战略研究院院长,提出创新2.0战略,推动华为与高校共建联合实验室,年投入超20亿元[69][71][72] - 主导成立哈勃投资,聚焦半导体、光计算等前沿技术领域,明确其战略合作属性而非财务投资[74][75] 职业轨迹与行业影响 - 在华为历任15个岗位,从芯片研发到欧洲市场开拓,最终进入战略决策层,完整参与公司技术创新体系构建[5][79][95] - 东南大学自动控制系毕业,其校友群体包括艾为电子、芯朋微等企业创始人,形成中国半导体产业中坚力量[81][82] - 早期任职于深圳亿利达电子公司,该公司被誉为中国电子产业黄埔军校,为华为、中兴等输送大量技术骨干[84][86][87]
杨振宁教授千古!中国AI计算机产业因他而不同
量子位· 2025-10-18 12:45
杨振宁生平与学术成就 - 杨振宁1922年出生于安徽合肥 是中国理论物理学家 1938年考入西南联大 1945年赴美留学 1948年获芝加哥大学博士学位[3] - 1956年与李政道合作提出弱相互作用中宇称不守恒理论 彻底改变物理学界对自然界基本对称性的认识 成为20世纪物理学重要里程碑[3] - 1957年因宇称不守恒定律获得诺贝尔物理学奖[4] 杨振宁核心物理学贡献 - 1954年与学生罗伯特·米尔斯提出杨-米尔斯理论 该理论成为粒子物理学标准模型的基础 相关数学难题被克雷数学研究所悬赏百万美元求解[6] - 1967年发现杨-巴克斯特方程 该方程成为解决许多可积系统的核心工具[6] 杨振宁对中国科教事业的推动 - 自1970年代起多次回国讲学 引入国际前沿物理理论如规范场论和统计力学[7] - 1978年建议中国科技大学少年班设立计算机软件专业 为计算机教育在国内普及奠定开端[7] - 1997年推动创办清华大学高等研究院并担任名誉主任 吸引国际一流学者加入[8] - 亲自募集资金设立对华教育交流委员会 资助近百名中国学者赴美进修 这些学者成为后来中国科技发展中坚力量[12] 杨振宁的教育影响与人才引进 - 2004年为清华大学物理系和基础科学班大一新生讲授一学期普通物理课[10] - 影响图灵奖得主姚期智回国任教 姚期智在2004年辞去普林斯顿大学终身教职 全职加入清华大学并创立交叉信息研究院[8][15][16] - 姚期智表示杨振宁和李政道获诺贝尔奖对其选择物理专业产生重大影响 物理学科提供的研究方法与理念对其后续跨领域工作持续有益[15]
通用型产品增长停滞,垂直赛道成市场新解法丨季度AI 100数据解读
量子位· 2025-10-18 10:07
文章核心观点 - AI产品竞争格局呈现多元化发展,互联网巨头凭借全产品矩阵形成生态优势,而初创公司则深耕细分人群以优化体验[2] - AI产品用户规模和活跃度的增长引擎正从通用头部产品转向长尾高细分产品,新兴赛道和Agent产品表现突出[6] - AI产品形态正从工具向集成化工作台和具备执行能力的桌面端Agent演进,Web端与桌面端定位逐步分化[28][31] APP端AI产品现状 - Web端AI产品总访问量和MAU增长停滞,数据持平在6亿和1.3亿人次,头部产品数据出现轻微下滑[6] - 用户增长引擎转变,长尾高细分产品成为增长主力,AI健康等新兴赛道表现瞩目[6] - 综合化办公Agent和垂直赛道Agent用户增长亮眼,显示Agent产品价值得到验证[6] - 头部集中化态势减弱,中腰部产品下载量和日活提升明显,TOP 5产品市场占有率从超60%降至50%以内[14][15] - 智能助手类产品累计下载超5亿,日活超8100万,在APP端占比约33%和32%,但比重较第二季度下降[16] - AI效率办公类产品累计下载量接近5亿,领先于AI创作(近2.7亿)和AI文娱生活(近2.6亿)赛道[17] - AI健康细分赛道增长迅速,蚂蚁AQ和字节小荷AI医生发布两个月累计下载分别达近1400万和近200万[17] APP端用户规模TOP 10 - 夸克以约2.51亿累计下载量位居第一,豆包以约2.33亿紧随其后[7] - 用户规模数据量级在1000万以上的产品共有23款[7] APP端用户新增TOP 10 - 2025年9月APP端AI产品总新增下载超1.66亿,相比6月的1.3亿上涨超27%[9] - 豆包和夸克是9月唯二新增下载量超两千万的产品,分别达约2700万和约2300万[9][10] - 新增千万级产品共4款,百万级产品共24个,相比6月(16款)增长明显[9][10] APP端用户活跃TOP 10 - 2025年9月平均每天有近3亿人次使用AI APP,数据相比6月增长近50%[12] - WPS以约6100万DAU位居第一,共8款产品DAU超千万[12] - DAU在百万级以上的产品从6月的15个增加至20个,腰部以上产品是活跃用户增长主要贡献者[12][13] Web端AI产品现状 - 9月Web端总访问量超6亿,较6月的5.7亿有所增长;总活跃用户数约1.24亿,与6月基本持平[27] - 头部产品访问量和活跃用户有所下滑,TOP 10访问量门槛从1900万降至1700万,月活TOP 10门槛从370万降至340万[27] - 流量被AI Agent类产品分走,该品类有7款产品入围榜单,对多个效率类细分赛道形成挤压[32][33] Web端使用规模TOP 10 - 访问量千万级的Web端AI产品维持在10款,DeepSeek、豆包和夸克访问量位列前三,在整体中占比达47%[18] - DeepSeek以约1.15亿总访问量位居第一,豆包约8500万,夸克约8200万[18] - 豆包9月访问量比6月增长约2500万,百度AI搜索9月访问量相比6月增长超1800万,涨幅达74%[19][20] Web端用户活跃TOP 10 - MAU百万级产品共有19个,百度AI搜索月活数据连续两月显著增长,稳定在千万级梯队[22] - 夸克以约1900万独立访客数位居第一,豆包Web端月活用户从6月约820万增长至9月突破1000万[22][23] Web端用户粘性TOP 10 - 用户粘性TOP 10被AI办公效率应用和AI智能助手应用垄断,莫高设计以9.5次人均访问次数领先[25] - 人均访问次数在5次以上的产品共有23款[26] AI产品形态演进趋势 - 头部产品从"工具"向沉浸式"工作台"转变,进行系统深度集成[28] - 随着Agent能力植入,桌面端形态更符合国内用户习惯,代表有Kimi的OK Computer模式和阶跃星辰的桌面伙伴小跃[29][30] - 未来桌面端基于Agent侧重执行,Web端则侧重相对简单的信息再处理[31] - Agent产品能够端到端交付成果,不仅挤占Web端头部产品空间,也对多个效率类细分赛道形成挤压[33]
黄仁勋2025都在投啥?出手50次,32家公司覆盖产业链闭环
量子位· 2025-10-18 10:07
投资规模与活跃度 - 2025年前三个季度,公司参与了50笔AI相关风险投资,已超过2024年全年的48笔[2] - 公司自身的风险投资部门NVentures在2025年已出手21次,相比2022年起步时的1次大幅增加[6] - 截至2025年9月,NVentures已投资孵化出4家独角兽公司[7] 投资领域分布 - AI基础设施(如数据中心、计算)和模型厂商是主要投资方向,各占投资数量的31%[3] - AI应用领域的投资显著增加,占到总投资数量的四分之一[3] - 其余投资投向具身智能与自动驾驶等领域[3] 十亿美元级投资组合 - 对OpenAI的投资从2024年10月的1亿美元参与66亿美元融资,升级至2025年9月计划分阶段投资高达1000亿美元[11][16] - 2024年12月参与马斯克旗下xAI的60亿美元融资,并计划在其下一轮200亿美元融资中追加高达20亿美元投资[18][19] - 2025年9月第三次投资法国大模型公司Mistral AI,参与其20亿美元C轮融资,该公司估值达135亿美元[23][24] - 2025年10月领投Reflection AI的20亿美元融资,该公司估值达到80亿美元[25] - 2025年7月参与Thinking Machines Lab的20亿美元种子轮融资,该公司估值达120亿美元[30] 数亿美元级投资组合 - 2025年8月参与核聚变能源公司Commonwealth Fusion的8.63亿美元融资,该公司估值约30亿美元[50] - 2024年11月参与清洁计算公司Crusoe的6.86亿美元融资[53] - 2024年8月参与企业级LLM提供商Cohere的5亿美元D轮融资,该公司估值达68亿美元[56] - 持续投资AI搜索引擎Perplexity,参与其2024年12月的5亿美元融资,当时公司估值约180亿美元[58] 一亿美元级投资组合 - 2024年12月第三次投资光学互连技术公司Ayar Labs,投资额1.55亿美元[80] - 2023年12月参与企业级AI聊天机器人公司Kore.ai的1.5亿美元融资[83] - 2025年4月携手谷歌等向量子计算与AI结合公司Sandbox AQ投资1.5亿美元,该公司估值约57.5亿美元[84][86] - 2024年1月参与医疗健康LLM公司Hippocratic AI的1.41亿美元B轮融资,该公司估值达16.4亿美元[88] 投资策略与财务实力 - 公司倾向于不作为领投方,以避免治理压力和深度股权绑定,更注重生态建设而非股权收益[101][108][111] - 截至2025年10月,公司市值已突破4万亿美元[103] - 公司自由现金流在过去三年暴增近十倍,2025年上半年达到720亿美元,同比增长54%[104] - 2025年已兑现的投资额估计在10亿至100亿美元之间[115] 战略协同与生态闭环 - 投资行为与硬件销售深度协同,例如向OpenAI投资1000亿美元的同时,OpenAI承诺采购400万至500万张GPU[117][122] - 通过投资锁定未来硬件订单,形成资本与销售的内循环,例如对xAI的投资旨在帮助其采购更多设备[124][125] - 公司投资版图已覆盖AI全产业链,包括基础设施10家、模型层10家、应用层8家、具身智能4家,合计32家公司[114] - 公司消耗台积电约一半的CoWoS先进封装月产能,理论上可产出约675万张GPU[126][127]
破解空间智能数据稀缺难题,影石开源DiT架构全景生成模型,在线可玩
量子位· 2025-10-18 10:07
技术突破与核心创新 - 影石研究院推出基于DiT架构的全景图像生成模型DiT360,旨在解决空间智能领域真实全景数据稀缺的问题[1][2] - 模型采用多层级混合训练框架,结合有限全景数据与大规模高质量透视图像,在保持真实感的同时提升几何一致性[4][11][12] - DiT360支持文本引导图像生成、inpainting和outpainting等多项任务,并在边界一致性、图像保真度和感知质量上优于现有方法[5][17][46] 技术框架与实现路径 - 图像层级通过全景图像精修与透视图像引导两种机制,提升全景数据的结构质量并实现跨域知识迁移[14][16] - 特征层级引入循环填充、旋转一致性损失与畸变感知立方体损失三个关键模块,确保潜空间中的几何一致性和全局连续性[19][20][22][25][27] - 该框架使模型能生成高分辨率(2048×1024)的全景图像,在室内外多种场景下均展现出出色细节和真实感[11] 性能表现与评估结果 - 在定量评估中,DiT360在FID(42.88)、FAED(24.77)、IS(1.60)等多项关键指标上均优于MVDiffusion、PanFusion等主流方法[6][32][34] - 用户测评显示,DiT360在真实感和整体质量上获得最高偏好比例,分别达到63.8%和80.9%,显著领先于其他方法[38][39] - 消融实验证实,循环填充、畸变感知立方体损失、旋转一致性损失和透视图像引导四个核心模块共同作用,使模型达到最佳性能[41][43][44] 行业应用与未来前景 - 高质量全景图像生成对AR/VR、自动驾驶、机器人导航等应用至关重要,是通向“空间智能”的关键一步[7][8] - 该技术为未来多模态、跨域的三维场景生成提供思路,可拓展至全景视频生成、VR/AR内容创作及动态场景模拟等任务[50][51] - 该方法展示了利用平面图像弥补稀缺全景数据以提升场景细节真实感与空间一致性的潜力,为虚拟世界构建开辟新方向[52]
这是最新AI产品季度百强丨量子位智库AI 100
量子位· 2025-10-17 19:30
旗舰100榜单格局 - 头部AI产品在Web端和APP端数据均出现下滑,但核心阵营保持稳定[2] - Web端TOP阵营总访问量和MAU占比分别超过80%和70%,排名前列的包括DeepSeek、豆包、夸克等,月总访问量均超千万[2] - APP端头部产品同样稳定,包含WPS、QQ浏览器、豆包等,其中夸克和豆包的累计下载量均已超过2.3亿[2] - 本季度有35款新产品入围旗舰榜,其中18款是由上期创新榜成功突围[2] 市场数据与趋势 - 25年9月Web端总访问量和MAU多月停滞,数据持平在6亿和1.3亿人次[6] - APP端大盘仍在扩大,单月总新增超1.6亿人次,总DAU接近3亿人次,但增长引擎已转向长尾高细分产品[6] - 市场变量主要来自Agent类产品,包括侧重Deep Research的综合化办公Agent和侧重特定行业Know-how的垂直赛道Agent[6] - 端到端交付、高可控编辑和多模态/形态融合成为重点迭代方向[6] 创新100榜单洞察 - 创新榜定位为“面向未来的AI产品索引”,聚焦快速增长和独特AI原生设计[7] - 本期创新榜出现56个新面孔,变动主要来自综合性AI Agent、AI数据、AI图表、AI游戏、AI教育等领域[8][9][11] - 新产品涵盖AI创作、AI文娱、AI生活、AI开发层及AI消费级硬件等多个细分赛道[11] 行业竞争核心与未来方向 - AI产品竞争进入最激烈时刻,用户通过新工作流和长期复购进行投票[14] - 行业面临全新的功能逻辑、设计哲学和用户心理,所有从业者需重新摸索路径[14] - 下一阶段核心命题是如何沿着用户核心使用链路,把特定场景和痛点做透做通[15] - “场景细分化”和“超个性化”是当前不确定性中的确定性,行业knowhow对产品可用性的提升远超想象[16] - 产品形态、功能价值、场景落地和情绪价值侧均有很长的路要走[16]
百度文心助手都成这样了
量子位· 2025-10-17 19:30
百度AI模型与产品升级 - 文心助手新增8种多模态创作能力,包括生成分钟级长视频和行业首个实时互动数字人智能体[3] - 视频生成模型"蒸汽机"升级至10.15版本,突破传统5-10秒时长限制,实现AI长视频实时交互生成[3][27] - 文心助手支持30多种爆款视频特效,内置超200种配音音色,并整合文生/图生图功能实现视频封面AI一站式输出[21][22] 百度AI技术性能优势 - 文心助手移动端和PC端上线极速大模型,生成速度比行业第一梯队快5倍,成本仅为70%[11] - 蒸汽机模型采用流式生成技术,支持"一张图+一个Prompt"实时修改视频内容,用户可随时中断或调整生成过程[27][29] - 多Agent蜂群工作流技术实现编剧、导演、演员、后期各环节协同,一句指令即可完成"脚本-角色-分镜-成片"全流程[21] 百度AI应用场景拓展 - 文心助手具备超长记忆和深度研究能力,可快速生成市场分析报告,搭载数十亿学习题库支持作业辅导[14][15] - 提供24小时AI在线问诊服务,与专业医生资源合作覆盖医疗咨询场景,魔镜功能支持实时识别物体并获取知识[12][13] - 支持Rap歌曲创作、图片生成MV、数字人歌手转换等娱乐功能,预计10月底上线AI播客功能[23][24] 百度AI市场地位与生态策略 - 百度搜索在AI用户规模、综合技术能力等核心指标位列全行业第一,用户日均AIGC生成量突破千万级[4] - 公司采用"加量不加价"定价策略保持产品低门槛,通过快速迭代(如版本1.0至1.1短期升级)强化市场执行力[34][39] - 生态建设同时面向内部B端(百家号、百度文库)和外部C端需求,通过合作圈层整合数据资源与用户真实需求[35][36] 百度AI产品定位转型 - 百度搜索口号从"百度一下,你就知道"升级为"百度一下,解锁AI万能搭子",从工具属性转向AI伙伴定位[7][8] - 文心助手引入16型MBTI和12星座人设系统,基于数据记忆理解用户习惯,支持个性化互动与情感连接[15][24] - 所有AI功能免费开放给用户,旨在将AI创作转化为日常低门槛活动,实现"边做边改、快速迭代"的产品理念[25][26][34]
早鸟倒计时6天 | 中国大模型大会邀您携手探索大模型的智能边界!
量子位· 2025-10-17 19:30
大会概况 - 中国中文信息学会将于2025年10月28日至29日在北京举办第二届中国大模型大会(CIPS & CLM 2025)[2] - 大会旨在延续首届会议精神,聚焦大模型的理论突破、技术前沿、产业落地与生态共建,致力于打造更具技术深度与行业影响力的AI盛会[2] - 会议汇聚百余名国内NLP领域顶尖学者与技术专家,参会规模逾千人[2] 核心议程与特邀报告 - 大会荣幸邀请到管晓宏院士和方滨兴院士等多位知名专家作特邀报告[3] - 管晓宏院士(西安交通大学)将作题为“人工智能的奖励函数意味着什么”的报告[5][17] - 方滨兴院士(广州大学)将探讨“伦理与安全驱动的大模型关键技术研究”[5][18][20] - 文继荣教授(中国人民大学)将介绍扩散大语言模型新范式LLaDA,挑战自回归范式的地位[5][30] - 邱锡鹏教授(复旦大学)将提出“情境智能”作为补全AGI的关键拼图,以突破算力与数据瓶颈[6][33] 专题论坛与技术方向 - 大会将组织13场高端专题论坛,覆盖生成式AI、知识图谱、具身智能、情感计算等热点技术方向[3][7] - 专题论坛主题包括大模型与AIGC协同创新、大模型时代具身智能、大模型安全与隐私计算、大模型与民族语言等[7][8][10] - 具体技术议题涵盖智能体革命、大小模型协同、大模型高级推理、长上下文能力构建、多模态具身机器人等前沿领域[8][9][10] 产学研结合与产业应用 - 多个专题论坛聚焦产业落地,如“大模型时代语音技术的产学研协同”论坛将探讨学界和工业界如何协同发展[14] - 产业界代表将分享实践,包括阿里国际数字商业集团骆卫华博士探讨工业级大模型应用的挑战,字节跳动吴烨博士介绍大模型隐私保护推理,中国电信李杰博士分享星辰语音大模型研发应用[10][11][14] - 智慧医疗论坛将探讨AI全科医生构建、多模态医学数据分析、心电大模型等临床应用前景[11][16]