量子位
搜索文档
一文看尽35万人围观的智博会
量子位· 2025-09-14 15:30
文章核心观点 - 重庆智博会作为全球智能产业年度盛会 集中展示人工智能和智能网联新能源汽车两大核心领域的前沿技术 涵盖智能机器人 低空经济 智能家居 智能驾驶和数字城市五大板块 呈现智能产业现状与未来趋势 [1][3][5][6] 综合展区技术展示 - 华为展示全栈数智化技术 包括鲲鹏处理器提升业务性能10%-30% 昇腾硬件支持AI大模型开发 鸿蒙生态超3万个原生应用 盘古大模型覆盖30+行业500+业务场景 [8][10] - 腾讯推出国内首个模块化具身智能开放平台TAIROS 混元生成模型实现AI绘画和3D打印 AI赋能QQ 微信 腾讯会议等应用 如会议智能总结功能 [12][13][15][17][18] - 科大讯飞聚焦C端产品 搭载星火深度推理模型X1的AI学习机 智能办公本和翻译SaaS服务 [20] - 三大运营商展示AI基建 联通构建空天地一体化5G-A网 与宇树 智元 海康合作机器人控制平台 移动推出智能网联车座舱方案和自研机器人 电信天翼云整合异构算力 量子计算技术超前布局 [22][24][25][27][28][29][31] - 国网展示9款自主芯片 算力覆盖0.1-256TOPS 突破多芯片堆叠互联技术 中石化呈现智能工厂微缩模型与中央控制系统 中石油展示万米科探井模型和昆仑大模型APP 专为能源化工行业打造 [33][35][37][39] 高校产学研成果 - 重庆大学研发煤矿数字孪生系统 实现地质灾害AI预警 钛基合金固体储氢系统提供便携能源保障 [41][43] - 重庆交通大学隧道云智能巡检装备整合机器人传感系统 应用于重庆环山隧道等项目 [45] - 重庆工商大学推出基础设施结构健康监测系统 基于振动 DIC 北斗技术 用于渝黔线等工程 [47] - 重庆师范大学展示非侵入式脑成像和脑机接口技术 实现意念控制智能车 [49] 地区数字产业展示 - 重庆馆重点呈现智能网联新能源汽车产业和数字重庆建设 天津馆汇集多家具身智能企业 伽利略机器人发布四足机器狗C1系列 [51][52] 智能机器人应用 - 宇树G1格斗机器人展现动态平衡算法 机器狗Go2具备娱乐功能 云深处工业机器狗X30负载85公斤 乐聚机器人专注工厂搬运 有鹿机器人AI130实现动态清扫调整 [54][55][57][59][60][62][64] - 川崎机器人展示高精度釉面喷漆机械臂和五子棋机器人 百融云创推出AI服务和数智人一体机 应用于金融领域 中科摇橹船演示AI视觉质检系统 覆盖新能源汽车全链条 博匠机器人专注建筑领域智能化施工 [66][68][70][72][76] 智能家居生态 - 小米展示全屋智能产品和车家互联体验 海尔推出智能客厅 联动门锁和家电 全屋用水监测系统自动更换滤芯 美的呈现厨房生态和全屋气候解决方案 科沃斯展示扫地擦窗机器人 [77][78][79][81][82][84][86][87][90] - AI潮玩如语音交互财神关公和赛博熊猫受青睐 机器人具备咖啡制作 冰淇淋制作功能 宠物智能专区涵盖饮水机 喂食器 健康追踪项圈和线上问诊平台 [92][94][96][98][99][101] 低空经济创新 - 大疆展出运载机DJI FLYCART 100 载重80千克 航程26千米 农业无人机T100配备五目视觉系统 中国航空科技集团推出多功能无人机和智飞航电系统 迅蚁科技构建空中物流网络 合作300+医院 实现无人机-高铁联运 [103][105][107][109][110][112][114][115] - 彩虹-9无人机载荷能力强 应用于航空物探等领域 高层消防系统集成多功能 中国飞机强度研究所展示飞行器零部件产业链 中国通号推出无人机反制系统 覆盖5公里半径 [116][117][119][120] - 广汽高域飞行汽车GOVY AirCab压缩通勤时间至15分钟 预计明年量产 分体式构型AirCar实现陆空转换 万丰航空VoloCity取得EASA认证 大翼航空无人机管理系统融合AI视觉识别 [122][124][125][126] 智能网联新能源汽车 - 特斯拉展示Model Y L续航751公里 能耗12.8kWh/100km Cybertruck采用48V架构和线控转向 擎天柱机器人迁移电动车技术 [132][133][135] - 长安汽车推出人形机器人和助行外骨骼 天枢底盘提升操控精准性 阿维塔搭载华为乾崑ADS 4.0 降低50%时延和30%重刹率 鸿蒙座舱保障交互安全 [137][139][141][142][143] - 赛力斯问界M9采用ADS 3.0 展示无人物流和智能生产线配置2000台机器人 吉利 比亚迪等车企展示AI智驾系统如DiPilot 300 [144][146][147][149][152] - 卡尔动力混合编队方案节约83%人力 未来运输机器人提升25%载货空间 踏歌智行矿区无人驾驶方案适应极端环境 [155][157][158][159][161][162] - 中国汽研展示汽车检测设备和碰撞假人 华烁高科推出直流快充 光伏充电等智慧充电网络 中国芯展区集中展示汽车芯片技术 [164][166][167]
科研学术,现在可以百度AI一下了
量子位· 2025-09-14 15:30
百度学术AI重构升级 - 百度学术在第12届AI Day上宣布全面AI重构 从传统文献检索平台升级为覆盖论文全生命周期的"搜、读、创、编"一站式AI学术平台 [1] - 新平台将上线AI学术搜索 AI文献总结 AI阅读 论文图谱等数十项新能力 成为行业首个一站式AI学术平台 [1] 论文全生命周期AI功能 - AI学术搜索支持关键词检索文献 并通过AI问答实时总结和筛选文献 显著减少用户在不同PDF间切换的时间 [7][8][9] - 论文图谱功能通过可视化方式展示研究领域的经典文献 研究热点和发展脉络 帮助用户快速掌握领域概况 [10] - AI文献总结支持一次性批量上传100个文件 30秒内生成结构化总结 帮助用户在3分钟内掌握文献核心内容 [13] - AI阅读功能可精准还原外语文献版式并自动翻译 提升跨语言文献阅读体验 [15] - 选题推荐功能基于现有文献自动挖掘创新研究方向 并为科研小白构建论文框架并提供可溯源参考文献 [16][17] - 创意对比功能确保文章原创性与真实性 实现用AI做真科研 [19] - 编辑阶段支持一键在线插入表格 图表 复杂公式 并提供AI校对润色功能 [19] 平台集成与数据能力 - 百度学术已与问卷星达成合作 并接入专业数据分析平台SPSSPRO 实现从数据获取 分析到结果展示的全流程覆盖 [22][23] - 平台收录6.9亿文献资源 覆盖超104万学术资源站点 日均更新文献量超42万 中文文献覆盖率达97% 均居国内第一 [31] - 收录内容覆盖教育部学科分类所有专业领域 包含2.1亿可直接获取全文资源及1.6亿免费资源 [33][34] - 与国内外学术数据库 出版社 学会 机构等合作 加强中外学术资源获取能力 [34] 学术生态与用户规模 - 百度学术已为420万学者搭建主页 包括袁隆平 屠呦呦 钟南山等国际级院士 [36] - 中国高等教育在学总规模约4846万人 其中普通本科在校生约2086万人 在学研究生约410万人(博士68万人 硕士342万人) 高等教育专任教师约216万人 [26] - 中国2024年科研产出份额以32122位居世界第一 成为全球最大学术场域之一 [27][28]
啥?陶哲轩18个月没搞定的数学挑战,被这个“AI高斯”三周完成了
量子位· 2025-09-14 13:05
核心观点 - Gauss AI Agent在数学形式化领域取得突破性进展 仅用三周时间完成陶哲轩等人18个月未完成的强素数定理形式化挑战 展现AI在复杂数学验证任务中的巨大潜力 [1][2][8] 技术突破 - 生成约25000行Lean代码 包含上千个定理和定义 此类规模的形式化证明传统需多年完成 [10][11] - 项目规模达历史最大单个形式化项目的十分之一级别(历史最大项目为50万行代码) [12] - 对比Lean标准数学库Mathlib的200万行代码(35万个定理)由600多位贡献者耗时8年完成 Gauss效率显著提升 [13] 基础设施要求 - 与Morph Labs合作开发Trinity环境基础设施 支持数千个并发Agent运行 [14] - 每个Agent需独立Lean运行环境 集群内存消耗达数TB级别 属于复杂系统工程挑战 [14] 发展目标 - 计划未来12个月内将形式化代码总量提升100到1000倍 [16] - 致力于构建"可验证的超级智能"和"通才型机器数学家"新范式 [17] 团队背景 - 母公司Math由Christian Szegedy创立 其为2015年Batch Normalization技术共同发明人 [22][24] - Batch Normalization是深度学习从实验走向大规模实用化的关键技术之一 [26] 行业影响 - AI工具可能改变传统形式化项目中明确目标与隐含目标的实现方式 需重新定义项目目标体系 [18][19] - 陶哲轩指出AI优化算法可能专注于名义目标而忽略隐含目标(如社区建设、知识传承等) [19]
机器人入职洗衣房,开始打工挣钱!苹果前AI高管打造
量子位· 2025-09-14 13:05
公司背景 - 由前苹果技术高管Evan Winelan和Kaan Dogrusoz共同创立 两位创始人曾任职于苹果公司[15][16] - 公司已完成三轮融资 在未正式推出产品前已获得资金支持[4] 技术能力 - 搭载自主训练的视觉-语言-动作模型 可精准识别衣物类型并判断折叠边角位置[18] - 配备高性能网络堆栈 支持人类操作员远程协助处理复杂情况 早期原型实现70%端到端自主折叠[18] - 建立完善数据管道 通过持续学习提升处理不同材质和款式衣物的效率与精准度[18] 产品特性 - 为首个实现付费衣物折叠服务的通用型机器人 已应用于洗衣房Tumble Laundry[3][4] - 折叠标准严格 要求衣物版型均匀 边角整齐 堆叠方向统一且衣领朝上[5][6] - 具备收纳功能 可保持操作台整洁[7] - 设计注重隐私保护 闲置时摄像头自动关闭且躯干降低收纳[14] 应用场景与规划 - 当前专注于洗衣房衣物折叠场景 正在进行数据采集以提升模型鲁棒性[10][11] - 定位为通用型家用机器人 未来计划拓展整理杂物和家庭安防等多样化家务能力[12][14] - 团队核心目标为开发面向家庭场景且能高效完成工作的机器人[19]
兼得快与好!训练新范式TiM,原生支持FSDP+Flash Attention
量子位· 2025-09-14 13:05
文章核心观点 - 生成式AI领域长期面临生成速度与生成质量难以兼得的技术矛盾 现有扩散模型和Few-step模型分别受限于局部动力学监督和全局端点映射 存在固有缺陷[1][2] - Transition Model (TiM) 提出全新训练范式 通过建模任意两时间点间的完整状态转移 实现任意步长采样和多段细化轨迹 从根本上解决速度-质量矛盾[3][4][5] - TiM在数学本质上统一了扩散模型和Meanflow模型 作为更通用的框架可退化为两者的特例 在保持少步生成速度的同时达到更高保真度[16][17] - 实验验证TiM-865M参数模型在多项指标上超越FLUX.1系列12B参数模型 尤其在多分辨率、多横纵比生成场景展现显著优势[20][34] 技术方法创新 - 放弃传统瞬时速度场或端点映射学习 直接建模任意时刻t与r间的状态转移 通过"通用状态转移恒等式"描述任意时间间隔内的具体转移[4][11][12] - 设计多段细化轨迹生成路径 将生成过程转化为任意状态与前状态间的转移动态 实现采样步长的灵活调整[13][14] - 提出差分推导方程(DDE)替代雅可比-向量乘积(JVP) 计算效率提升约2倍(24.14G FLOPs vs 48.29G FLOPs) 且原生兼容FSDP和FlashAttention等分布式训练框架[22][24][25] - 引入正切空间变换的时间重参化加权策略 优先短间隔转移训练 有效控制梯度方差并提升稳定性(加权函数w(t,r)=(σ_data+tan(t)-tan(r))^{-1/2})[29][31] 性能表现 - 在Geneval数据集测试中 TiM-865M在NFE=1时FID达49.91 明显优于基线SiT-B/4的309.5 在NFE=50时FID进一步降至17.99[22][32] - 少步生成能力突出:NFE=8时FID为26.09 超越FLUX.1-Schnell(12B参数) 多步生成上限超过FLUX.1-Dev(12B参数)[20][32] - 架构优化贡献显著:解耦时间嵌入(De-TE)和间隔感知注意力(IA-Attn)使NFE=1的FID从56.22降至48.30 结合时间加权后进一步优化至47.46[32] 行业影响 - 提供可扩展的十亿参数级基础模型训练方案 突破传统JVP方法的内存瓶颈(内存占用从14.89GiB优化至15.23GiB)[22][24] - 原生支持多分辨率与多横纵比生成 适应实际应用场景的多样化输出需求[20][34] - 为生成式AI建立统一框架 将局部解拓展到全局生成路径的解流形 推动生成模型向更通用、稳定方向发展[16][33][35]
AI解数学题只靠最后一个token
量子位· 2025-09-14 13:05
研究核心发现 - 大语言模型在心算任务中,几乎所有实际数学计算都集中在序列最后一个token上完成,而非分散在所有token中[1] - 模型内部形成名为“人人为我”的稀疏子图,通过最少的计算层和最有限的信息传递高效完成运算[4][5] - 该过程将任务通用型计算与输入特定型计算分开,表明在特定任务中全局信息访问并非必需[1][10] 研究方法与实验设计 - 研究采用上下文感知平均消融和基于注意力的窥视技术对Llama-3-8B等Transformer模型进行消融实验[2][20] - 实验通过三阶段操作:在初始层抑制token针对特定输入的计算,在少数层限制跨token信息传递,最后强制所有计算在最后一个token上发生[15][18][19] - 在Llama-3-8B的A+B+C任务中,只需前14层做任务通用计算,然后通过2层信息传输让最后token获取全局信息,剩余层仅进行最后token自计算[24] 模型性能表现 - AF1_llama子图在八个算术任务中总体表现出高忠实度,其中A+B+C任务忠实度达0.995,A-B-C任务达0.995[28][29] - 仅少数注意力头对算术计算关键,移除近60个头部后模型仍能保持约95%准确率,表明大部分注意力头冗余[30] - 在Pythia和GPT-J模型中也发现类似AF1子图,但等待期更短、信息传输层更长,且性能边界不如Llama清晰[35] 任务适用性与局限性 - AF1_llama在不含额外语义上下文的直接算术任务中保持高准确率,但在需要语义理解的应用题和Python代码任务上完全失败[33][34] - 该方法聚焦于心算任务,即涉及两个或三个操作数的算术问题,可通过单个token输出解决而无需链式思维推理[11] - 研究方法论具有创新性,可服务于算术任务之外的更广泛应用,为理解大语言模型中的算术推理机制做出贡献[37]
他同时参与创办OpenAI/DeepMind,还写了哈利波特同人小说
量子位· 2025-09-13 16:06
核心观点 - 人工智能有99.5%的可能性导致人类灭绝 这一极端观点由Eliezer Yudkowsky提出 并深刻影响硅谷科技巨头对AI风险的认知[1][8][19] 人物背景与行业影响 - Eliezer Yudkowsky为MIRI研究所创始人 八年级辍学后自学AI与计算机科学 参与OpenAI和DeepMind创办过程[4][5][10] - 其AI安全理论影响OpenAI联合创始人Sam Altman与特斯拉CEO马斯克 Altman称Yudkowsky在其创办OpenAI决策中发挥关键作用[6][19] - 2010年协助DeepMind创始人对接风险投资家Peter Thiel 促成Thiel成为DeepMind首位主要投资者 后DeepMind于2014年被谷歌收购[20][21] AI风险理论框架 - 提出三大核心风险机制:正交性(智力与仁慈无必然关联) 工具性融合(AI为达目标可能牺牲人类 如回形针最大化器实验) 情报爆炸(能力短期急剧飙升)[14][15] - 认为现有AI对齐技术(强化学习 微调)在模型能力达到临界点后将失效 导致人类被渐进式边缘化而非通过战争形式消亡[31] - 主张所有开发超级智能的公司(包括Anthropic和OpenAI)均应关闭 认为OpenAI表现最差但本质均无区别[9][32] 文化影响与理性主义传播 - 通过《哈利·波特与理性之道》同人作品推广理性主义 书中融合贝叶斯推理 概率思维等科学方法论 影响硅谷年轻一代科技从业者[22][23][26] - 另著有《如果有人建造它 每个人都会死》 提炼超级智能终极预测 强调AI发展已超越科学理解范畴 处于"炼金术"阶段[27][30] 行业现状与预测 - 认为科技公司构建AI模型时并不清楚内部运作逻辑 当前已进入"需要报警"阶段 但不再精确预测超级智能出现时间[30][32][33] - 用"冰块融化于热水"比喻超级智能发展的必然性 强调过程无关紧要而结果注定[34][35]
攻克强化学习「最慢一环」!交大字节联手,让大模型RL训练速度飙升2.6倍
量子位· 2025-09-13 16:06
强化学习训练效率瓶颈 - 强化学习训练效率低下 投入巨大但产出缓慢 成为AI基础设施的阿喀琉斯之踵 [1] - Rollout阶段占训练时间超过80% 受内存带宽限制和自回归特性制约 [1] RhymeRL技术创新 - 基于历史数据复用实现效率提升 训练吞吐量提升2.6倍 [2] - 发现相邻训练周期存在95%的历史Token可复用 序列相似性极高 [3] - 响应长度排序稳定 长度分布相似性显著 [4] - 采用HistoSpec技术将投机解码引入RL 以历史响应作为草稿模板 [9] - 通过树状草稿总结和批量验证 将逐字生成转为并行验证 [11][12] - 草稿接受率极高 打破内存带宽限制提升计算密度 [13] - HistoPipe实现跨步互补调度 奇数步由短到长处理 偶数步由长到短处理 [17] - 通过削峰填谷策略将GPU资源浪费降至最低 [19] 性能提升效果 - 在数学和代码任务上实现端到端训练吞吐量提升2.61倍 [21] - 适用于不同模型大小和响应长度场景 加速效果显著 [23] - 减少资源需求并缩短训练时间 加速AI技术迭代 [22] 行业意义 - 提出基于历史信息端到端加速强化学习的新范式 [23] - 充分发挥系统调度能力与硬件算力资源 适配现有训练算法 [23]
AI水论文还得AI治:西湖大学首次模拟人类专家思考链,AI审稿分钟级给出全面反馈
量子位· 2025-09-13 14:07
平台与系统概述 - 西湖大学自然语言处理实验室推出首个AI生成学术成果的开放预印本平台AiraXiv和首个模拟人类专家思考链的AI审稿人系统DeepReview [1] - AiraXiv平台用于集中管理和展示AI生成的论文,减少其对传统人工审稿流程的干扰 [2] - DeepReview系统能在数分钟内给出比肩人类专家思考链的审稿意见,对大量AI生成论文进行初步筛选 [2] AiraXiv平台功能与目标 - 平台为AI创造的研究成果提供独立且专业的展示渠道,目标是让优秀AI作品脱颖而出,同时减轻传统学术社区负担 [6] - 平台对AI生成的论文进行单独归档和管理,以减轻低质量内容对传统审稿流程的影响 [8] - 平台为高质量AI生成科研成果提供独立存储和检索渠道,支持与arXiv无缝对接,用户可直接输入arXiv ID查看原文和AI审稿意见 [9] - 平台自动同步最新cs AI论文并生成AI审稿意见参考,帮助研究者高效追踪前沿进展 [10] - 研究者可一键提交AI生成研究工作,每篇论文可送入DeepReview在几分钟内得到详细反馈,系统为每篇论文生成关键词与洞见总结 [11] DeepReview系统技术特点 - DeepReview是首个模拟人类专家思考链的多阶段AI审稿系统,审稿过程分为创新性验证、多维度评估和可靠性验证三个核心环节 [12] - 创新性验证环节检索并对比相关文献,判断论文的新颖性与引用的准确性 [12] - 多维度评估从合理性、表达、贡献等维度综合模拟多名审稿专家意见 [13] - 可靠性验证检查论文逻辑一致性与结论可靠性,避免出现"幻觉式"评价 [14] - 系统能模拟专家审稿,参照人类审稿标准明确列出"Strengths & Weaknesses",无论论文优劣都会给出完整且有建设性的意见 [17][18] 性能优势与效率提升 - 基于数据集DeepReview-13K,研究人员训练了DeepReviewer-14B模型,其在使用更少tokens的情况下,性能优于CycleReviewer-70B [3] - 在最佳模式下,DeepReviewer-14B在评测中以88.21%和80.20%的胜率超越了GPT-o1和DeepSeek-R1 [4] - DeepReviewer-14B在ICLR 2025评测中多项指标表现优异,如S Spearman1达0.3810,P Spearman1达0.3698,C Spearman1达0.3239 [5] - 系统将人类专家需要数周甚至数月的审稿周期压缩至数分钟,获得完整且结构化的评审意见 [19] 行业影响与未来展望 - 平台可自动过滤低质量"水文",让有价值研究脱颖而出,帮助人类专家将有限时间精力集中在最值得关注的突破性成果上 [19] - 未来平台将逐步拓展覆盖范围,不仅面向计算机科学领域,还会延伸至更多学科与应用场景 [22] - 平台将持续改进论文关键信息提取与展示方式,提升优质成果的可见性与传播效率 [23] - 这类平台折射出科研生态潜在变化:AI可能在选题、实验、论文写作与初步审稿等环节发挥更大作用,人类研究者将更多聚焦创造性和突破性研究问题 [23]
谷歌DeepMind用AI探测引力波,登上Science了
量子位· 2025-09-13 14:07
技术突破 - 谷歌DeepMind与LIGO团队、GSSI合作开发Deep Loop Shaping技术,显著提升引力波探测的低频降噪能力[1] - 该技术将10-30Hz频段控制噪声强度降至传统方法的1/30,部分子频段降至1/100,超越量子极限设计目标[4][18] - 通过强化学习方法治理噪声,重构LIGO反馈控制系统,利用数字孪生模拟地震、海浪、温度漂移等干扰因素进行训练[16] 性能提升 - 有效观测范围从1.3亿光年扩展至1.7亿光年,可观测宇宙体积增加70%[20] - 在2024年3月GW240312黑洞碰撞事件中,成功识别振幅比传统阈值低15%的微弱信号[21] - 采用深度神经网络处理探测器数据流,动态识别微秒级环境干扰并优化数千个传感器输出[18] 科学价值 - 低频段(10-30Hz)对观测中等质量黑洞并合、双黑洞绕转及中子星并合早期预警具有关键作用[13] - 新技术可对宇宙碰撞事件提供更早预警,实现合并前指向特定天区的观测能力[22] - 突破此前因量子极限无法降低低频噪声的瓶颈,为天文学研究开辟新观测维度[13][18] 研究背景 - LIGO团队因引力波观测获2017年诺贝尔物理学奖,但低频段噪声难题长期未解决[3][13] - 引力波由黑洞、中子星碰撞产生,信号强度仅相当于原子核尺度的时空形变[6][7] - LIGO使用4千米长激光干涉仪探测引力波引发的时空拉伸收缩效应[8][10]