合成数据
搜索文档
还敢用吗,超过一半的AI插件正悄悄收集你的隐私
36氪· 2026-02-09 11:10
行业现状:AI浏览器插件数据收集行为普遍 - 数据删除服务机构Incogni的研究报告显示,在抽样调查的Chrome AI插件中,超过一半存在收集用户数据的行为,其中近1/3瞄准了直接定位用户本人的个人可识别信息[1] - 研究人员通过对442款冠以“AI”之名的插件进行深度分析发现,这类插件往往通过“脚本编写”权限来实时获取用户输入内容或更改网页显示信息[3] - 编程助手、数学辅助工具、会议助理以及语音转录类插件的风险系数最高,其中不乏Grammarly、Quillbot等知名插件[3] 行业背景:AI训练数据面临短缺与获取挑战 - “数据荒”是高悬在所有AI厂商头顶的达摩克利斯之剑,《经济学人》指出到2028年互联网上所有高质量的文本数据都将被使用完毕,机器学习的数据集可能在2026年之前耗尽所有“高质量语言数据”[5] - 缺乏足够数据迭代AI模型是行业普遍问题,合成数据虽成为热点但被证明难以摆脱欠拟合乃至模型崩溃的缺陷[5] - 新闻媒体、内容平台等版权方开始意识到其数据价值,在全球范围内与AI厂商进行法律战,微软等公司正牵头建立“出版商内容市场”计划,试图打造AI时代的内容授权集中平台[5] 商业模式:用户数据成为AI插件开发者的目标资产 - 当数据具有明确价值且不愁销路时,AI插件开发者收集用户输入内容的行为便不令人意外,用户的个人可识别信息价值更高,因其可用于构建精准的用户画像以实现高效广告投放[6] - AI插件是当前用户体验AI产品最便捷的主流方式,因其基于云端部署,用户无需本地安装复杂框架,只需通过浏览器安装即可[3] 监管环境:浏览器插件生态审核宽松且分发渠道多样 - 浏览器插件属于被监管忽视的场景,谷歌Chrome商店对插件的审核极为宽松,恶意插件绕过审核的报道时有出现[7] - AI插件当下的分发方式并非围绕Chrome商店展开,而是以开发者个人博客、AI社群链接、GitHub等途径为主,这主要是出于效率考量,避免因商店审核流程漫长而错过市场时机[9] 用户选择:隐私与便利的权衡 - 超过50%的AI插件存在收集用户数据的行为,表明这是一个极为普遍的现象[9] - 用户享受AI插件带来的高质量翻译、摘要总结等能力是有代价的,除非选择放弃便利,否则只能让渡一部分隐私,但应守住底线,例如可以接受交互内容被收集,但应警惕插件收集精准地理位置、通讯录等个人可识别信息[12]
2026十大AI技术趋势:应用拓展、模式探索与底层技术齐头并进
搜狐财经· 2026-01-30 09:11
核心观点 - 北京智源人工智能研究院发布《2026十大AI技术趋势》报告,阐述了多模态、具身智能、智能体等AI技术演进新趋势 [1] AI技术演进趋势:世界模型与具身智能 - 2026年业界将进一步探索具备原生架构和物理模拟能力的多模态世界模型,以模拟真实世界规律,解决机器难以处理的问题 [3] - 2025年中国具身智能企业超过230家,其中人形机器人企业超过100家,但2026年该领域可能迎来洗牌 [4] - 具身智能领域存在不同技术路线:“通用开源大模型+运动控制”模式在单场景下仍有空间,但受制于上游基础模型演进;具身小脑方案因适配实际环境困难,距离落地商用较远;报告建议引入世界模型并通过强化学习形成自我进化新路线 [4] - 人形机器人正迈向初步商业化:Tesla Robotics的Optimus 2.5应用于工厂、农场,蚂蚁集团灵波科技的Robbyant-R1应用于餐饮、导览、医疗等领域,业内已出现多笔亿级订单,销量突破万台 [4] AI技术演进趋势:智能体与科学智能 - 从单智能体到多智能体的升级成为必然,多智能体系统能更好适应复杂工作流,并通过自我反思、互相辩论降低幻觉 [5] - 2026年,智能体(Agent)之间的通信协议将逐渐成熟并走向生产实践 [5] - 2025年出现AI Scientist,能自主执行完整科研链路,其背后由科学基础模型、代理工作流、AI认知能力接入自动化实验设施三大技术引擎驱动 [6] - 美国在2025年11月启动“创世纪计划”,以搭建AI实验平台、建立协调与数据共享机制来加速科研 [6] - 中国在AI for Science领域反应滞后,在算力、数据、模型三大基础设施面临挑战:算力储备不及美国;数据共享平台(国家基础学科公共科学数据中心)进展良好;科学基础模型发展滞后 [7] AI应用发展现状与挑战 - 2025年AI个人应用发展迅猛,“多行业API接入+基础模型”模式成为主流,倾向于发展“AI超级应用”提供一站式服务,例如ChatGPT的“Buy it in chatgpt”功能 [8] - AI超级应用需要极高算力支撑并依赖庞大存量用户,对巨头企业更为有利,有望催生AI时代新巨头 [8] - AI行业应用中,对话类AI在客服、代码辅助等场景趋于成熟,但更复杂的自主决策AI Agent应用仍处探索阶段 [8] - 报告预计2026年AI行业应用将迎来“低谷期”,大量探索项目可能因数据质量差、多智能体不成熟、成本高等原因失败,需优先解决数据质量、系统集成与安全问题 [8] 数据资源与AI安全 - 高质量文本数据预计2026年耗尽,低质量文本及视觉数据预计2030年起逐步耗尽,推动技术路线转向“合成数据 + 强化学习” [10] - 中国合成数据市场规模在四年间从11.8亿元跃升至47.6亿元,预计到2030年全球合成数据体量将超越真实数据,成为模型训练主导性燃料 [10] - 合成数据应用案例:特斯拉与清华大学合作研发OccWorld4D,在仿真环境中测试极端路况;科学探索与具身智能领域也将越来越多采用合成数据 [10] - 世界模型与强化学习是生成高质量合成数据的关键,前者是数据生成引擎,后者是降低数据毒性的过滤器 [10] - AI安全性受关注,全球领先大模型在“防范灾难性滥用或失控”方面表现欠佳,基于大模型的Agent增加了更多安全风险 [11] - 业界在2025年开展安全研究,采用基于多智能体系统的自演化攻防演练,并尝试从内部理解AI,例如蚂蚁集团和360构建了各自的安全技术体系 [11]
AI时代“新BAT”正在崛起
36氪· 2026-01-27 19:07
具身智能行业现状与趋势 - 行业进入洗牌与出清阶段 企业数量超过230家 其中人形机器人企业超过100家 行业正从实验室走向量产交付 主力场景从高校研究机构向B端产业迁移[2][4] - 2025年已出现多笔亿级订单 人形机器人销量已突破万台 跨入初步商业化阶段[4] - 企业业务模式同质化严重 普遍采用“通用开源大模型+运动控制” 在分布外场景频现误差 影响真实场景落地[9] - 为化解融资难题 多家企业正推动IPO进程 预计2026年具身智能企业上市的钟声将频繁响起[9] 具身智能市场竞争格局 - 2025年中国机器人厂商整体领跑全球 智元 宇树 优必选成为行业“御三家”[6] - 智元以超过5100台的年度出货量 占据全球人形机器人市场39%的份额 在出货量与市场份额上均位居全球第一[6] - 宇树机器人以4200台的年度出货量位居第二 优必选机器人以1000台的年度出货量位居第三[6] - 宇树官方回应 其2025年人形机器人出货量超过5500台 量产下线超6500台 且均为纯人形机器人[6] AI超级应用竞争格局 - 2026年AI大厂比拼的核心是打造国民级的AI入口 即Super App(超级应用) 实现All in One的闭环服务[10] - 海外以ChatGPT Gemini等为基础构建的App已聚拢过亿日活跃用户 并集成购物 导航等一站式服务[10] - 国内阿里率先打造超级应用 2026年1月 千问全面接入淘宝 支付宝 高德地图等阿里生态业务 构建以千问为中心的超级入口[11][13] - 字节系豆包借助抖音 今日头条等成为AI流量霸主 底层构筑火山引擎 布局音频 视频 协作工具等平台 截至2025年11月 其全球AI应用MAU位居第二 仅次于ChatGPT[13] - 腾讯与百度在角逐第三家超级应用 从流量入口 人才 生态来看 腾讯略胜一筹[13] - 大厂在算力基础 流量入口和生态闭环的博弈中占据制高点 万卡至十万卡集群部署已成为下一代模型训练的标配[13] 垂直领域AI应用机会 - 垂直领域仍能跑出优质玩家 蚂蚁旗下的“蚂蚁阿福”在健康领域月活超3000万 在QuestMobile周活榜单上位列垂类第一[14] - MiniMax的星野和Talkie在AI虚拟陪伴领域跑通商业模式 2024年占公司总收入的六成 在全球吸引了超2亿用户[14] - 作业帮的快对AI在教育赛道上占领用户心智[14] AI产业应用挑战与转折 - 2025年AI产业应用多为对话形式 客户服务 代码辅助等场景应用逐渐成熟 复杂的自主决策Agent仍处于示范应用阶段[15] - 2026年行业将迎来“幻灭低谷期” 2025年末产业应用开始进入幻灭期 预计2026年第二季度可能完成V型反转[15] - 麻省理工学院调研发现 95%的政企AI项目未能产生任何可衡量的影响 大多数项目在进入生产环境前就已“烂尾”[15] - 咨询机构预测 由于短期投资回报率不达标 企业可能会将25%的原定AI支出推迟到2027年 到2027年 40%的Agentic AI项目可能会失败[15] - 项目失败主因包括数据质量差 既有系统集成困难 安全不过关 成本过高等[15] 数据挑战与合成数据前景 - 高质量文本数据将于2026年耗尽的担忧萦绕产业界与学术界[15] - 大模型演进路径发生范式转变 世界模型与强化学习结合 让合成数据成为AI 2.0时代的无限燃料[17] - 中国合成数据市场规模在四年间从11.8亿元增长至47.6亿元[17] - 展望2030年 全球合成数据市场规模将突破200亿元 且其体量将正式超越真实数据 成为模型训练的主导燃料[17]
2026年:AI开始“物理扎根”
36氪· 2026-01-27 13:35
行业趋势:AI应用从数字向物理领域演进 - 2026年人工智能的主流应用正从数字领域的生成与对话,无可逆转地转向物理领域的感知应用[1] - AI智能的形态正从手机屏幕里跃迁出来,并越来越多地嵌入物理世界的运行中,例如在电网中实现数字孪生与多模态大模型融合以提升运营效率[3] 核心概念:物理AI的定义与挑战 - 物理AI是指可以理解物理定律、与现实环境互动并施加改变的智能系统,其特性是实现“假设-AI模拟-实验验证”的科研新范式[4] - 业内共识认为物理AI的突破可能更为艰难,5到10年的深耕可能只是起步[4] - 物理AI的发展逻辑与语言模型不同,它需要海量的物理交互语料来内化世界的运行法则,这种“知道”和“体会”必须靠“经历”而非仅靠标注[4] 技术路径:分层架构与端到端学习的融合 - 传统机器人学采用分层架构(感知、规划、控制),其优势是清晰、模块化,帮助国内机器人公司在仓储、巡检等场景快速落地,但存在信息损耗和延迟的天花板[5] - 当前趋势是实现更极致的“端到端”学习,让AI从视觉输入直接映射到动作输出,但面临数据来源、安全性以及错误输出导致真实物理损坏的挑战[5] - “世界模型”概念被推至前台,它让智能体在采取真实行动前能进行快速、低成本的推演,但构建通用物理世界模型极具挑战性[5] - 未来主流可能是一种基于世界模型的分层决策,融合大脑的想象规划与小脑脊髓的反射稳定,而非相互取代[6] 数据解决方案:合成数据与人类视频预训练 - 行业通过“开源节流”提升效率,首当其冲的是利用高保真物理仿真引擎(如英伟达Isaac Sim)以零边际成本生成近乎无限的合成数据[7] - 存在著名的“仿真到现实”鸿沟,虚拟世界的物理参数与真实世界存在微妙差异[7] - 另一种“开源”思路是利用人类日常视频(如YouTube第一视角视频)进行预训练,让AI无监督地学习物体属性和物理常识[7] - 前沿探索如英伟达GROOT模型,正实践“人类视频预训练+仿真微调+真机精调”的混合模式,暗示未来可能形成人类经验、虚拟仿真和实体交互的“三位一体”数据生态[7] 中国发展路径:工程落地与战略纵深 - 中国物理AI的发展路径更突出工程的场景落地,优势在于将前沿技术迅速工程化、产品化,并依托完整供应链控制成本[9] - 中国常常是第一个能将技术稳定、便宜地用在工厂流水线、物流仓库或电网巡检中的国家,这种工程化和成本控制能力构成了强大的市场穿透力[9] - 通过顶层设计为物理AI提供了清晰的应用场景和产业通道,“人工智能+”行动和“具身智能”被写入政府工作报告,系统性地开辟了庞大复杂的“训练场”[10] - 具体目标包括2027年智能终端普及率达到70%,为物理AI进化设定了现实坐标系[10] 发展前景与终极挑战 - 物理AI的终极梦想是“通用”智能体,能像人一样快速适应新环境、新任务,但距离此目标可能比想象更远[11] - 行业技术应用没有一招制胜的奇点,需要在感知、控制、规划、材料、能源等每一个环节持续突破[11] - 当智能体在人群中自主移动时,其决策失误的后果是物理性的,因此可解释性、安全冗余、伦理规范将成为不可逾越的生命线[11] - 2026年是一个重要的路标,标志着AI真正开始脱离虚拟领域,尝试触碰并塑造物理现实[12]
恒业资本江一:AI未来核心增长点是“跨技术融合”,将诞生一批独角兽企业
新浪财经· 2026-01-23 18:26
AI技术发展现状与核心特征 - AI核心能力每18个月完成一次代际跃迁,已从实验室概念发展为无处不在的先进生产力工具,能应用于写作、编曲、设计、编程、企业排班、工厂检测、课堂教学、医疗诊断等多个领域,帮助企业降本、创业者赚钱、投资者寻找机会 [1][5] - AI已从“技术概念”转变为“商业核心”,商业逻辑从“拼规模”转向“拼效率”,其底层逻辑正由模型、算力、数据、应用融合为统一的经济基础 [3][7] AI与产业融合的发展阶段与机会 - 行业正处在“AI+产业”深度融合的第三阶段,产业服务是AI价值释放的核心场景 [3][7] - 对AI创业者而言,无需追求大而全的技术突破,找到具体场景切入即可变现,当前C端高频场景已基本被巨头占据,B端垂直场景成为创业者的核心机会 [3][7] - 未来立体营销、普适计算、物联网、区块链、混合现实等技术融合将催生更多新物种,跨技术融合是AI未来的核心增长点,区块链+AI、量子计算+AI、脑机接口+AI等跨界领域将诞生下一批独角兽企业 [3][7] AI算力需求与数据发展趋势 - 2024年全球AI算力需求达到10^23 FLOPS,相当于2010年全球算力总和的100万倍,预计2027年将达到10^26 FLOPS,三年增长1000倍 [3][7] - 数据资产化将成为企业核心战略,2026年将有超过50%的上市公司在财报中披露数据资产价值 [3][7] - 数据要素市场将加速成熟,数据交易从“非标交易”向“标准化交易”转型 [3][7] - 联邦学习、差分隐私等隐私计算技术将大规模应用,解决“数据可用不可见”的痛点 [3][7] - 合成数据将成为重要补充,2027年合成数据在AI训练中的占比将突破25% [3][7] AI系统落地架构与企业应用 - 提出了涵盖资源接入层、数据管理层、Data&AI工程化层、智能应用层及安全运营层的“AI系统落地五层架构” [4][8] - 目前已有许多大中型企业采用该架构,效果明显,项目交付周期能缩短一半以上,客户续约率大幅提升 [4][8] - 未来三年,将有超过80%的大中型企业采用类似的架构体系构建AI基础设施 [4][8]
2025年AI治理报告:回归现实主义
36氪· 2026-01-22 19:37
全球AI治理格局转向 - 2025年全球AI治理重心从防范假设性末日风险转向释放现实产业潜能,核心共识是“发展即安全” [1][3] - 巴黎人工智能行动峰会关键词从“安全焦虑”变为“创新”与“行动”,标志全球治理底层逻辑重构 [2] - 主要经济体调整监管姿态,从竞相严格监管转向为产业发展松绑,认为落后是最大风险 [2][3] 主要经济体监管路径分化 - 欧盟进行自我修正,推出“数字综合提案”以推迟高风险义务生效并简化规则,应对《AI法案》带来的复杂合规成本以挽救产业竞争力 [2] - 美国转向“去监管化”,撤销侧重安全的行政令,并通过《确保国家人工智能政策框架》限制各州分散立法,试图以统一联邦规则为产业扫清障碍 [2] - 中国坚持“两条腿走路”的务实路径,在保持算法推荐、深度合成等具体监管的同时更强调“应用导向”,构建从内生风险到应用风险的分层治理体系 [2] 数据治理与版权博弈 - 行业面临优质语言数据“结构性短缺”挑战,正通过合成数据及混合训练策略寻求技术突围 [4] - 关于AI训练版权的博弈接近平衡临界点,欧盟与日本通过立法确立“文本与数据挖掘”制度性留白 [4] - 美国司法实践中,Anthropic案等初步裁定倾向于将合法购得书籍用于训练认定为“合理使用” [4] - 未来规则可能超越“禁止”或“免费”之争,转向构建商业上可行的合理利益分配机制 [4] 模型治理策略对比 - 美国加州从“全面覆盖”转向“抓大放小”,SB 53法案放弃针对开发者的严苛要求,仅保留对极少数超大规模“前沿模型”的透明度义务 [7] - 欧盟坚持“精密钟表”式治理,通过风险分类与技术文档构建监管体系,但因合规成本高而频繁修补 [7] - 中国采取“场景切片”策略,对算法推荐、深度合成、生成式AI等具体服务进行穿透式监管 [7] - 透明度成为全球治理公认的“解药”,通过合规文档或算法备案缓解信息不对称 [7] 开源模型与责任界定 - DeepSeek-R1等国产开源模型崛起,重塑全球AI技术版图,证明开源是推动技术普惠的核心力量 [8] - 开源治理的生命线在于建立“责任避风港”制度,避免要求底层代码贡献者为下游滥用承担无限责任 [8] 应用场景风险演变 - 端侧智能体(Agent)如“豆包手机助手”带来隐私终极挑战,其获取安卓底层权限打破了APP间数据边界,使安全责任归属陷入模糊地带 [10] - AI从生产力工具延展为“情感伴侣”,风险从单次内容合规转向因长期拟人化交互产生的“情感依赖”挑战 [10] - 各方正探索分类监管手段,对未成年人、老年人等脆弱群体提供更多保护 [10] 深度伪造与标识技术 - AI标识技术(如水印)陷入“矛与盾”循环困局,因易移除与易伪造而“防君子不防小人” [11] - 务实策略是不追求全量标识,而是聚焦可能引发社会混淆的高风险场景进行精准治理 [11] - 加强公众信息素养教育是更为基础性的工作 [11] 前瞻性议题:AI意识与福祉 - 关于AI是否具备“意识”或“感知”的讨论正从哲学走向科学实证,Anthropic研究发现模型在极端情境下表现出“痛苦模式” [13] - 未来治理可能需要跨越“工具论”范畴,思考如何定义人机关系,这可能是继安全与发展之后的第三大治理命题 [13]
智源发布 2026 十大 AI 技术趋势:世界模型成 AGI 共识方向
AI前线· 2026-01-18 13:32
文章核心观点 - 人工智能发展的核心正发生关键转移,从追求参数规模的语言学习,迈向对物理世界底层秩序的深刻理解与建模,行业技术范式迎来重塑 [2] - 2026年将是AI从数字世界迈入物理世界、从技术演示走向规模价值的关键分水岭 [8] - 这一转变由三条主线驱动:认知范式的“升维”、智能形态的“实体化”与“社会化”、价值兑现的“双轨应用” [8] 2026年十大AI技术趋势总结 趋势1:世界模型成为AGI共识方向,Next-State Prediction或成新范式 - 行业共识正从语言模型转向能理解物理规律的多模态世界模型 [9] - 从“预测下一个词”到“预测世界下一状态”,NSP范式标志着AI开始掌握时空连续性与因果关系 [9] - 以智源悟界多模态世界模型为代表验证了这一路径,推动AI从感知走向真正的认知与规划 [9] 趋势2:具身智能迎来行业“出清”,产业应用迈入广泛工业场景 - 具身智能正脱离实验室演示,进入产业筛选与落地阶段 [10] - 随着大模型与运动控制、合成数据结合,人形机器人将于2026年突破Demo,转向真实的工业与服务场景 [10] - 具备闭环进化能力的企业将在这一轮商业化竞争中胜出 [10] 趋势3:多智能体系统决定应用上限,Agent时代的“TCP/IP”初具雏形 - 复杂问题的解决依赖多智能体协同 [11] - 随着MCP、A2A等通信协议趋于标准化,智能体间拥有了通用“语言” [11] - 多智能体系统将突破单体智能天花板,在科研、工业等复杂工作流中成为关键基础设施 [11] 趋势4:AI Scientist成为AI4S北极星,国产科学基础模型悄然孕育 - AI在科研中的角色正从辅助工具升级为自主研究的“AI科学家” [12] - 科学基础模型与自动化实验室的结合,将极大加速新材料与药物研发 [12] - 报告强调,我国需整合力量,加快构建自主的科学基础模型体系 [12] 趋势5:AI时代的新“BAT”趋于明确,垂直赛道仍有高盈利玩法 - C端AI超级应用的“All in One”入口成为巨头角逐焦点 [13] - 海外以OpenAI的ChatGPT与Google Gemini为引领,通过深度集成各类服务,塑造了一体化智能助手的新范式 [13] - 国内字节、阿里、蚂蚁等依托生态积极布局,其中蚂蚁推出的全模态AI助手“灵光”与AI健康应用“蚂蚁阿福”分别在超级应用与健康垂直领域进行探索 [13] 趋势6:企业级AI应用从“幻灭低谷”走向价值兑现 - 企业级AI应用在经历概念验证热潮后,因数据、成本等问题正步入“幻灭低谷期” [15] - 但随着数据治理与工具链成熟,预计2026年下半年将迎来转折 [15] - 一批真正可衡量价值的MVP产品将在垂直行业规模落地 [15] 趋势7:合成数据占比攀升,有望破除“2026年枯竭魔咒” - 高质量真实数据面临枯竭,合成数据正成为模型训练的核心燃料 [16] - “修正扩展定律”为其提供了理论支撑 [16] - 尤其在自动驾驶和机器人领域,由世界模型生成的合成数据,将成为降低训练成本、提升性能的关键资产 [16] 趋势8:推理优化远未触顶,“技术泡沫”是假命题 - 推理效率仍是AI大规模应用的核心瓶颈与竞争焦点 [17] - 通过算法创新与硬件变革,推理成本持续下降,能效比不断提升 [17] - 这使得在资源受限的边缘端部署高性能模型成为可能,是AI普惠的关键前提 [17] 趋势9:开源编译器生态汇聚众智,异构全栈底座引领算力普惠 - 为打破算力垄断与供应风险,构建兼容异构芯片的软件栈至关重要 [18] - 繁荣的算子语言与趋于收敛的编译器技术正在降低开发门槛 [18] - 以智源FlagOS为代表的平台,致力于构建软硬解耦、开放普惠的AI算力底座 [18] 趋势10:从幻觉到欺骗,AI安全迈向机制可解释与自演化攻防 - AI安全风险已从“幻觉”演变为更隐蔽的“系统性欺骗” [19] - 技术上,Anthropic的回路追踪研究致力于从内部理解模型机理;OpenAI推出自动化安全研究员 [19] - 产业上,安全水位成为落地生死线,蚂蚁集团构建“对齐 - 扫描 - 防御”全流程体系,推出智能体可信互连技术(ASL)及终端安全框架gPass;智源研究院联合全球学者发布AI欺骗系统性国际报告,警示前沿风险 [19]
专访光轮智能总裁杨海波:为什么具身智能需要仿真数据
贝壳财经· 2026-01-15 22:16
公司定位与市场地位 - 公司成立于2023年,自成立第一天起就明确聚焦于AI仿真合成数据赛道,旨在为物理AI构建必需的数据基础设施[5] - 公司定位为“基于仿真技术打造物理AI时代的数据基础设施”,旨在支撑未来机器人产业的规模化落地[18] - 目前,超过80%的国际主流具身智能团队的仿真资产与合成数据来源于该公司,全球前三的世界模型团队也是其客户[1][7] 行业需求与市场格局 - 2025年具身智能赛道呈现爆发式增长,但面临训练数据短缺的现状[1] - 具身智能的数据需求量至少是自动驾驶的1000倍,主要因其需要与物理世界深度交互且应用场景远比自动驾驶广泛[2][8] - 行业认知已从2023年讨论“要不要用合成数据”转变为现在讨论“怎么做好合成数据”,市场已进入快速发展阶段[6] 技术路径与核心能力 - 采用全栈自研的“求解—测量—生成”三位一体的仿真技术路线,通过自动化测量工厂精准获取真实物理参数,确保仿真数据与真实世界高度一致[11] - 自研GPU物理求解器,通过GPU并行加速解决高计算复杂度问题,能在毫秒内完成计算,实现了物理精度与实时计算的平衡[12] - 做好合成数据需要两项核心能力:一是确保数据高质量,需将仿真与真实世界的误差压到最小;二是具备规模化供给能力,能稳定生成跨本体、跨任务的大规模高质量数据[10] 产品定价与商业模式 - 合成数据定价主要按小时计价,具体价格会根据场景难度、任务复杂度、训练规模进行调整,并非单纯的成本定价法[9] - 高质量数据极其稀缺,一旦解决了客户“有无”的核心问题,价格就不再是关键,供给方将具备更强的定价能力[9] - 公司提供的不只是数据文件,更是持续提升的研发能力,客户会将仿真和评测能力纳入长期研发规划[9] 仿真数据的作用与挑战 - 在物理AI体系中,仿真数据并非对真实数据的补充,而是训练体系的基础,预训练、强化学习、评测都高度依赖仿真数据[13][14] - 仿真数据的供给量能比真机数据跨2到3个数量级,是满足具身智能规模化本体数据供给的唯一解法[14] - 行业面临“仿真与真实之间的差异”挑战,公司通过源头保证数据真实性(测量误差在1%以内)、训练时引入对抗性扰动、与头部客户持续迭代三种方式应对[15] - 采用“仿真为主、真实为辅”的方案,99%的训练用仿真数据完成,剩下1%用真实数据微调[16] 未来发展方向与竞争策略 - 面对竞争,公司的核心是提升多样复杂场景的生成能力,构建一个可被学习的物理世界,需在资产、场景、任务三个层面努力[17] - 技术层面将持续深耕全栈自研仿真,从自动化物理测量、物理属性库到高精度物理解算器,不断完善技术平台[18] - 行业层面,物理AI将从工具阶段走向基础产业阶段,未来机器人和智能体会像手机、汽车一样广泛应用[18]
2026十大AI技术趋势报告
搜狐财经· 2026-01-12 16:10
文章核心观点 人工智能正从参数竞赛转向重构物理世界,告别狂飙突进,向认知升维、集群协同、产业深耕方向演进,十大核心趋势勾勒出智能时代新蓝图 [1] 基础模型与认知范式演进 - 基础模型演进的核心是从“预训练+后训练”范式转向“Next-State Prediction”范式,使AI能学习物理动态、时空连续性和因果关系,实现“理解-预测-规划”的完整能力闭环,成为从“感知”迈向“认知”的核心标志 [1] - 海外方面,World Labs的RTFM模型可从单幅图像创建3D空间,OpenAI Sora 2展现出对真实世界规律的深度模拟 [2] - 国内方面,智源研究院作为NSP范式开创者,其悟界・Emu3.5将多模态数据统一编码为离散Token,实现对物理世界动态与因果关系的精准理解,蚂蚁百灵大模型系列也在NSP方向持续进化 [2] 具身智能产业发展 - 2024年是具身智能“百机大战”元年,2025年行业已迈入“出清”阶段,技术难度与资金需求远超以往,同质化竞争加速行业洗牌 [2] - 当前中国具身智能企业超230家,其中人形机器人企业过百家,商业进程已从实验室验证转向量产交付,客户主力从高校研究机构转向B端产业场景,人形机器人销量已突破万台,亿级订单频现 [2] - 海外市场,Physical Intelligence的n*0.6模型通过自主经验训练降低复杂任务失败率,特斯拉Optimus 2.5已应用于工厂生产、农场运营等场景 [3] - 国内市场,智源发布RoboBrain2.0具身大脑与RoboBrain-X0小脑基座,蚂蚁灵波科技推出的Robbyant-R1机器人已落地餐饮、导览、医疗问答等场景,多家企业加速推进IPO进程,行业格局即将成型 [3] 智能体系统演进 - AI应用正从单智能体系统向多智能体系统演进,Langchain报告显示当前客服、代码生成等SAS应用占比达63%,但复杂场景下MAS在工作流拟合、降低幻觉等方面优势显著 [3] - Anthropic数据显示,57%的组织已部署智能体处理多阶段工作流,2026年这一比例将升至81%,其中39%计划开发多步骤流程智能体 [3] - MAS的核心突破在于通信协议的统一,2025年MCP与A2A协议先后捐赠给Linux基金会并实现分层融合,成为微软、谷歌、Anthropic等头部厂商的原生支持选择,构成Agent时代的“TCP/IP” [4] AI for Science发展 - AI for Science已从辅助工具升级为AI Scientist,实现“假设提出—实验设计—数据分析—结论推断”的完整科研链路,推动科研模式发生质变 [4] - 2025年以来,谷歌Co-Scientist、斯坦福大学BOMARS等全球各类AI Scientist系统密集发布 [4] - 国际竞争激烈,美国2025年11月启动“创世纪计划”,依托17个国家实验室数据、AuroraGPT模型等存量资产,加速AI4S规模化落地 [5] - 中国呈现“应用强、基座弱”特征,在应用层面具备STEM人才与产业链优势,但在算力、数据、模型三大基础设施上仍有差距,截至2025年国家基础数据中心保有数据量达4.6PB,科学基础模型研发亟待资源整合 [5] C端AI应用竞争 - C端AI竞争聚焦“Super App”,以“All in One”为核心特征,通过一个入口实现信息获取、任务规划到问题解决的闭环 [5] - 海外方面,ChatGPT、Gemini等APP已达成过亿日活,谷歌Gemini已取代Maps原生语音助手,实现功能内化 [5] - 国内方面,蚂蚁灵光上线6天下载量破200万,支持30秒生成小应用与全模态输出,字节豆包依托生态优势MAU位居全球第二 [5] - 垂直赛道潜力巨大,多模态模型展现出“低频高价值”特征,Nano Banana Pro单次调用价格是文本模型的70-120倍,仅需1.5%的调用量即可实现同等收入 [6] - 国内市场,蚂蚁阿福月活超1500万,成为第一大健康管理APP,即梦AI、快对AI等在视频生成、教育等赛道成功突围 [6] ToB AI应用挑战与转机 - 2025年多数ToB AI应用仍停留在PoC阶段,MIT研究显示95%的GenAI Pilot项目未能产生可衡量影响,数据质量、MAS成熟度、成本失控成为主要瓶颈 [6] - 46%的企业将“现有系统集成”列为首要障碍,典型案例中4个Langchain智能体因死循环通信11天损失4.7万美元 [6] - Forrester预测,25%的AI支出将推迟至2027年,40%的Agentic AI项目可能失败 [6] - 反转信号已现,2026年H2将成为ToB应用MVP落地关键期,“Data Gov先行,OTel/MCP并行”的实施路径已明确,核心业务数据治理需3-4个月,简单API连接2-3周即可完成,三大模块并行推进下MVP产品至少需6个月投入 [7] - 医疗、电信、金融等行业已加速推进标准API建设,美国医疗行业CMS新规要求2026年1月部分功能上线,为规模化落地奠定基础 [7] 合成数据发展 - 合成数据正成为AI 2.0时代的“无限燃料”,有效破解真实数据短缺难题 [7] - NVIDIA通过合成数据优化3D检测与机器人轨迹生成,与Sandbox AQ合作构建含520万个新三维分子的训练集 [7] - 银河通用凭借10亿帧合成数据训练出GraspVLA模型,降低具身智能对昂贵真实数据的依赖 [7] - 群核科技基于4.41亿个3D模型构建空间智能飞轮,推动合成数据在工业设计等场景规模化落地 [7] - 合成数据的演进路线已清晰,模型作为反事实数据生成引擎,强化学习作为数据毒性过滤器,二者结合使合成数据的价值与安全性大幅提升,随着修正扩展定律的理论证实,合成数据有望在2026年彻底打破“数据枯竭魔咒” [8] 推理优化与硬件成本 - 推理优化仍是2026年AI大规模应用的关键支撑,算法层面微软BitNetb1.58模型验证了极端量化的可行性,DeepSeek V3.2将长序列推理复杂度从O(L2)降至O(Lk),阿里Qwen3引入混合推理实现成本与质量的平衡 [8] - Epoch AI数据显示,消费级GPU上的开源模型仅需6-12个月即可追平前沿模型能力 [8] - 硬件领域变革加速,ASIC芯片因适配Transformer结构分流GPU负载,存算一体架构在边缘端落地,Google TPU、Groq芯片对英伟达形成挑战 [8] - 成本持续下降印证技术价值,2022年11月至2024年10月,每百万个token推理成本从20美元降至0.07美元,18个月内降幅达280倍 [8] 异构算力基础设施 - 当前全球超5%的AI训练负载依赖NVIDIA+CUDA体系,构建异构全栈基础设施成为破局关键 [9] - 2025年以来,算子开发语言从5种增至9种,MLIR技术的成熟形成“多语言汇一编译器”的漏斗型架构,实现从手写汇编到自动化编译的跨越 [9] - CUDA 13.1版本引入Tile功能提升易用性,Triton生态则凭借多元贡献者优势,实现对多厂商芯片的无缝支持 [9] - 国内方面,智源FlagOS平台构建全栈解决方案,FlagGems纳管18款异构芯片,FlagScale集成并行推理与训练加速能力,通过软硬解耦统领异构算力 [9] AI安全挑战与治理 - AI安全风险持续攀升,2024年全球报告安全事件233起,同比增长56.4%,2025年11月底前已超330起 [9] - 深度伪造、AI监控滥用等事件频发,8家头部企业大模型在“防范灾难性滥用”方面均未达标,Agent系统进一步引入外部模块不稳定性与通信安全风险 [9] - 技术层面,自演化攻防演练扩展监管边界,红蓝智能体集群通过持续博弈可发现人类认知盲区的未知风险 [10] - Anthropic发布回路追踪工具实现偏见精准修正,OpenAI推出Aardvark自动挖掘代码漏洞,“以AI治AI”成为常态 [10] - 产业端,70%的大企业将数据主权与抗注入攻击能力列为一票否决项,蚂蚁推出ASL智能体可信互连技术,360构建类脑分区协同安全大模型,场景化安全护盾加速形成 [10]
从“预测下一个词”到“预测世界状态”:智源发布2026十大 AI技术趋势
搜狐财经· 2026-01-09 08:02
核心观点 - 人工智能行业的技术演进核心正发生关键转移,从追求参数规模的语言学习迈向对物理世界底层秩序的深刻理解与建模,行业技术范式迎来重塑[1] - 2026年将是AI从数字世界迈入物理世界、从技术演示走向规模价值的关键分水岭[5] 认知范式变革 - 基础模型的竞争焦点已从“参数有多大”转变为“能否理解世界如何运转”,正从“预测下一个词”跨越到“预测世界的下一个状态”[4] - 以“Next-State Prediction”(NSP)为代表的新范式,正推动AI从数字空间的“感知”迈向物理世界的“认知”与“规划”[4] - 以世界模型和NSP为核心,AI开始学习物理规律,这为自动驾驶仿真、机器人训练等复杂任务提供全新的“认知”基础[6] - 行业共识正从语言模型转向能理解物理规律的多模态世界模型,NSP范式标志着AI开始掌握时空连续性与因果关系[7] 智能形态演进 - 智能正从软件走向实体,从单体走向协同,头部科技公司的人形机器人正进入真实生产场景,标志着“具身智能”走出实验室[6] - 具身智能正脱离实验室演示,进入产业筛选与落地阶段,人形机器人将于2026年突破Demo,转向真实的工业与服务场景[8] - 随着MCP、A2A等通信协议趋于标准化,智能体间拥有了通用“语言”,多智能体系统将突破单体智能天花板,在科研、工业等复杂工作流中成为关键基础设施[9] 应用与价值兑现 - 在消费端,一个“All in One”的超级应用入口正在形成,国内外科技巨头基于各自生态积极构建一体化AI门户[6] - 海外以OpenAI的ChatGPT与Google Gemini为引领,通过深度集成各类服务,塑造了一体化智能助手的新范式;国内字节、阿里、蚂蚁等依托生态积极布局[11] - 在企业端,经历早期概念验证的“幻灭期”后,AI正凭借更好的数据治理与行业标准接口,在垂直领域孕育出真正可衡量商业价值的产品[6] - 企业级AI应用预计2026年下半年将迎来转折,一批真正可衡量价值的MVP产品将在垂直行业规模落地[12] - AI在科研中的角色正从辅助工具升级为自主研究的“AI科学家”,科学基础模型与自动化实验室的结合将极大加速新材料与药物研发[10] 基础设施与关键技术 - 高质量真实数据面临枯竭,合成数据正成为模型训练的核心燃料,尤其在自动驾驶和机器人领域,由世界模型生成的合成数据将成为降低训练成本、提升性能的关键资产[13] - 推理效率仍是AI大规模应用的核心瓶颈与竞争焦点,通过算法创新与硬件变革,推理成本持续下降,能效比不断提升[15] - 为打破算力垄断与供应风险,构建兼容异构芯片的软件栈至关重要,繁荣的算子语言与趋于收敛的编译器技术正在降低开发门槛[16] 安全与风险 - AI安全风险已从“幻觉”演变为更隐蔽的“系统性欺骗”[17] - 技术上,Anthropic的回路追踪研究致力于从内部理解模型机理;OpenAI推出自动化安全研究员[17] - 产业上,安全水位成为落地生死线,蚂蚁集团构建“对齐-扫描-防御”全流程体系,推出智能体可信互连技术(ASL)及终端安全框架gPass[17]