Workflow
多模态基础模型
icon
搜索文档
CSET:《物理AI:面向政策制定者的AI-机器人技术融合入门指南》
文章核心观点 - 人工智能发展的下一个核心阶段是物理AI(Physical AI),即AI与机器人技术的融合,旨在赋予自主系统在真实物理世界中感知、理解和执行复杂动作的能力 [2][3] - 物理AI的发展面临软件突破与硬件桎梏的鲜明对比,软件算法进展迅速,但硬件供应链在标准化、关键组件量产等方面存在巨大瓶颈 [4][5] - 全球竞争格局呈现中美在软件与规模上领先,而欧日企业控制核心硬件供应链的复杂局面,没有国家拥有完全垂直整合的供应链 [6][7][8][9] - 当前市场存在炒作与现实的背离,人形机器人虽受关注但实际部署和收入占比极低,而特定任务的仓储和工业机器人已吸引大量资金并实现规模应用 [10] - 实现通用人形机器人仍需在关键硬件、数据、供应链标准化等方面取得跨越式突破,物理AI的黎明已现但发展之路漫长 [11][12] 软件突破与硬件桎梏:实体AI的技术基本面 - 实体AI的兴起源于AI算法突破与机器人硬件供应链改善的偶然交汇,可能形成类似“摩尔定律”的积极反馈循环 [4] - 软件供应链的核心在于突破性AI算法:大型语言模型(LLMs)作为高层推理引擎;多模态基础模型整合视觉、语言和推理;强化学习提升技能获取效率;“从模拟到现实”技术降低真实数据收集成本 [4] - 机器人硬件供应链面临长期存在的技术与经济壁垒,五大核心硬件系统包括结构组件、执行器、动力系统、计算系统和传感器 [5] - 关键硬件如电池、电机、传感器和执行器的演进速度远慢于软件,且供应链严重缺乏标准化,各公司采用独特技术路线和物料清单,阻碍规模经济并推高成本 [5] - 人形机器人的关键硬件,如六维力矩传感器、触觉传感器及行星滚柱丝杠,缺乏大规模量产能力,成为产能爬坡的严重瓶颈 [5] 全球竞争格局:中美的资本角逐与欧日的隐形巨头 - 全球没有国家拥有完全垂直整合的机器人供应链,相互依赖度极高 [6] - 美国在AI基础模型和软件生态系统占据绝对先发优势:Alphabet(谷歌母公司)的PaLM-E、RT系列及Gemini Robotics-ER模型;英伟达的GROOT基础模型、Isaac平台及Cosmos世界模型;微软、Meta通过合作或开源模型切入该领域 [7] - 美国初创公司吸金能力强,例如Skild AI和Physical Intelligence在2024年分别筹集了数亿美元 [7] - 中国的竞争力体现在庞大的研究产出、快速增长的专利及无与伦比的硬件制造与部署规模:2018至2023年间,中国占全球机器人相关学术文章发表量的28%,远超美国的16%和日本的7%;中国每年安装近29万台工业机器人,超过日本、美国、韩国和德国的总和 [8] - 中国企业积极研发机器人优化的国产大模型,并涌现出宇树科技、优必选、智元机器人等众多人形机器人研发厂商 [8] - 日本和欧洲的“隐形冠军”企业扼守硬件供应链核心:日本企业如哈默纳科、纳博特斯克、尼得科在精密机械齿轮、电机和执行器领域保持高市场份额,其中哈默纳科控制其精密齿轮80%的市场份额;德国企业如博世力士乐、雄克在末端执行器等灵巧操作核心组件上极具竞争力 [9] 剥离炒作:万亿市场的商业现实与政策启示 - 金融界对市场前景预测乐观,如摩根士丹利断言人形机器人市场将从目前的数千万美元增长到2050年的5万亿美元,但此类预测被指出具有高度投机性且缺乏清晰定义 [10] - 市场存在显著认知反差:人形机器人虽受媒体热捧,但在真实世界中独立导航和处理灵巧任务仍困难,其在总机器人市场收入中的占比可能不足1% [10] - 资本实际大量流向实用型机器人:过去五年中,致力于仓储机器人的公司筹集了约205亿美元,而同期人形机器人市场仅筹集了约46亿美元 [10] - 目前表现最好的机器人是针对特定任务(如分拣包裹或移动托盘)在软硬件上高度优化的机器人,通用AI驱动的、可灵活切换任务的机器人仍是遥不可及的愿景 [11] - 政策制定者缺乏成熟的机器人政策议程和严谨分析框架,应集中资源解决高质量触觉传感器、运动学硬件及真实世界数据严重匮乏等痼疾,以推动机器人在航空航天、国防等关键战略领域的实质性应用 [11]
商汤-W涨近3% 生成式AI业务成为核心增长引擎 高盛料未来能把握AI变现机遇
智通财经· 2026-01-21 14:05
公司股价与市场表现 - 商汤-W股价上涨2.94%,报2.45港元,成交额达8.23亿港元 [1] 管理层战略与业务发展 - 管理层对扩展至多模态基础模型的发展方向持积极态度,认为此举能提升成本效益比并有助于捕捉更多终端应用机遇 [1] - 公司作为本地领先的生成式AI软件企业,拥有自研的AI基础模型SenseNova及AI基础设施,为其增长奠定稳固基础 [1] - 公司已构建起覆盖AI基础设施、多模态大模型及行业定制化应用的全栈服务体系 [1] 财务表现与增长预测 - 2025年上半年,公司生成式AI业务营收占集团总营收比例飙升至77%,成为核心增长引擎 [1] - 预测2024至2027财年,公司营收复合年增长率将达30%,从38亿元人民币增至83亿元人民币 [1] - 预计公司2027年有望实现盈利 [1] 收入增长动力与市场地位 - 预期公司生成式AI收入将持续增长,动力来自广泛的产品覆盖以及针对特定行业的定制化解决方案 [1] - 公司是中国LLM(大语言模型)应用市场前三甲企业 [1]
阿里巴巴(09988)组建机器人和具身智能团队 探索让AI从虚拟世界走向物理世界
智通财经网· 2025-10-09 15:49
公司战略与投资 - 阿里巴巴通义千问大语言模型负责人宣布已组建机器人和具身智能的小型团队 探索让模型从虚拟世界走向物理世界 使其从语言模型向能够在现实世界中行动的智能体迈进 [1] - 阿里巴巴集团于9月8日领投机器人科技企业"自变量机器人"1.4亿美元融资 用于加速其人工智能与机器人核心技术研发、产品迭代及商业化落地 [1] - 阿里巴巴计划在云计算、AI平台、供应链、全球化渠道等方面与自变量机器人深度协同 未来合作或率先落地于智能制造、仓储物流、家庭服务机器人等场景 [1] 行业趋势与资本开支 - 阿里巴巴CEO表示未来五年全球AI投资总额将加速增长到4万亿美元 [2] - 公司此前已公布未来三年为云和AI硬件基础设施投入3800亿元 并计划在此基础上追加投入 [2]
原力无限签订2.6亿元具身智能单笔订单;阿里通义已建立机器人和具身智能的小型团队丨智能制造日报
创业邦· 2025-10-09 11:23
荣耀Magic8系列及AI手机发展 - 荣耀宣布将于10月15日举办Magic8系列及MagicOS 10发布会,新机定位为“自进化AI原生手机” [2] - 新机搭载独家AI实体侧边键,支持短按快速进入影像界面、长按唤醒YOYO智能体 [2] 具身智能在文旅领域的商业应用 - 原力无限智能科技与时华文旅控股集团签署2.6亿元人民币战略合作协议,创下全球具身智能单笔金额最大商业订单纪录 [2] - 双方合作围绕“机器人+文旅”战略,旨在打造全国首批具身智能智慧景区样板工程,覆盖智能导览、互动体验、运营服务及数字管理等环节 [2] 商业航天与可重复使用火箭融资进展 - 美国可重复使用火箭开发商Stoke Space完成5.1亿美元D轮融资,由美国创新技术基金领投 [2] - 此轮融资使公司总融资额达到9.9亿美元,资金将用于加速可重复使用运载火箭Nova的研发及产能扩张 [2] 科技巨头在机器人及具身智能的布局 - 阿里通义千问大语言模型负责人林俊旸表示已建立机器人和具身智能小型团队,认为多模态基础模型正转变为基础智能体 [2] - 基础智能体可利用工具和记忆通过强化学习进行长视野推理,并应从虚拟世界走向物理世界 [2]
阿里通义组建机器人和具身智能团队,要让智能体具备“行动力”
新浪财经· 2025-10-09 10:07
公司战略动向 - 通义千问团队已建立机器人和具身智能的小型团队 探索让大模型从虚拟世界走向物理世界 [1] - 多模态基础模型正转变为基础智能体 这些智能体可以利用工具和记忆通过强化学习进行长视野推理 [1] - 团队技术负责人林俊旸是公司内部最早一批研究多模态和具身智能的核心人物 拥有相关项目经验 [1] 技术产品进展 - 通义大模型家族已全面覆盖文本、图像、视频、音频等全模态 性能跻身世界第一梯队 [3] - 旗舰模型Qwen3-Max预训练数据量达36T tokens 总参数超过万亿 拥有较强的编程能力和工具调用能力 性能据称超过GPT5、Claude Opus 4等 跻身全球前三 [3] - 公司在2025年9月底的云栖大会上实现"七连发" 在模型智能水平、工具调用和编程能力、深度推理、多模态等方面取得多项突破 [3] - 公司开源了300余个模型 覆盖不同大小的全尺寸及多种模态 全球下载量突破6亿次 全球衍生模型17万个 [3] 市场地位与表现 - 2025年上半年中国企业级大模型日均调用量较2024年底实现363%的增长 目前超10万亿Tokens [3] - 公司通义大模型在中国企业级大模型调用中占比17.7%位列第一 是中国企业选择最多的大模型 [3] 财务业绩支撑 - 公司2025财年第四季度收入为2364.54亿元 同比增长7% 经营利润为284.65亿元 同比增长93% [4] - 在AI需求强劲推动下 阿里云智能集团季度收入增速扩大至18% 达到301.27亿元 创下过去三年最快增速 [4] - 阿里云AI相关产品收入连续七个季度实现三位数增长 [4]
阿里下场,通义千问牵头组建机器人AI团队
选股宝· 2025-10-09 08:14
公司战略动向 - 阿里巴巴集团已成立内部“机器人和具身AI小组” 标志着公司从AI软件向硬件应用领域的战略延伸 [1] - 阿里巴巴通过阿里云领投了深圳机器人初创公司自变量机器人1.4亿美元的A+轮融资 这是阿里云首次布局具身智能领域 [4] - 阿里巴巴计划在未来三年为云和AI硬件基础设施投入3800亿元 并计划追加投入 以保持与全球AI投资总额加速增长到4万亿美元的同步趋势 [1] 技术发展与愿景 - 多模态基础模型正被转化为基础智能体 可以利用工具和记忆通过强化学习执行长时序推理 这些应用理应从虚拟世界迈向现实世界 [2] - 自变量机器人采取软件和算法优先的路线 发布了开源具身智能基础模型“Wall-OSS”及Quanta X2机器人 该机器人配备能感知细微压力变化的机械手 [5] - 阿里巴巴的技术负责人林俊旸参与开发了可处理声音、图像及文本输入的多模态模型 公司正寻求将大模型优势向机器人等实体产品延伸 [3] 行业竞争格局 - 全球科技巨头纷纷布局机器人领域 日本软银集团宣布以54亿美元现金收购ABB的工业机器人业务 以强化其在“物理AI”领域的布局 [1][6] - 英伟达CEO黄仁勋表示AI和机器人是公司的两大技术机遇 将带来“数万亿美元”的长期增长机会 并预测自动驾驶汽车将成为机器人技术的首个主要商业应用领域 [6] - 风投资本大举涌入人形机器人赛道 花旗预计到2050年全球机器人市场规模将达到7万亿美元 [6] 被投公司概况 - 自变量机器人成立不到两年已完成八轮融资 累计融资额达到约2.8亿美元 [4] - 自变量机器人的人形机器人Quanta X2售价为8万美元 目前已向学校、酒店和养老院等机构销售产品实现收入 并计划于明年开始筹备IPO [5] - 自变量机器人预计“机器人管家”将在五年内成为现实 但承认用于机器人的AI技术仍落后于聊天或代码生成等领域 [5]
阿里通义林俊旸:已建立机器人和具身智能的小型团队
新浪财经· 2025-10-08 23:00
公司战略与团队动态 - 公司已建立机器人和具身智能的小型团队 [1] - 公司大语言模型负责人表示多模态基础模型正转变为基础智能体 [1] 行业技术趋势 - 基础智能体可以利用工具和记忆通过强化学习进行长视野推理 [1] - 技术发展方向是从虚拟世界走向物理世界 [1]
三个人、一篇论文,估值850亿
36氪· 2025-09-17 16:40
公司概况与融资亮点 - 公司为人工智能研究公司Thinking Machines Lab,由前OpenAI首席技术官Mira Murati于2025年2月牵头创立,聚焦多模态基础模型与下一代人机协作 [1][3] - 公司成立仅七个月,在尚未推出正式产品、没有实际用户的情况下,以120亿美元(折合人民币850亿元)的估值完成20亿美元种子轮融资 [1][3] - 核心团队约30人,其中三分之二成员来自OpenAI,涵盖AI产品落地与核心技术研发等关键领域的顶尖人才,被视为“全明星期权”团队 [1][3][4] - 种子轮融资由Andreessen Horowitz领投,行业巨头英伟达和AMD争相跟投,并已与Google Cloud达成算力合作 [1][3] 高估值驱动因素分析 - 高估值源于“人、卡、势”三重优势:顶级团队构成“人才”优势;获得英伟达和AMD投资意味着锁定了数万张高端H100/H200 GPU的配额,构成“算力”优势;公司被视为全球能从头训练GPT-4级稠密模型的不足5家团队之一,是最后一个由“原OpenAI核心决策层”整体出走的投资标的,构成“叙事”优势 [3][4][5] - 120亿美元估值被解读为“叙事+算力+人才”三位一体的看涨期权定价,而非传统的基于收入的估值 [5][6] - 英伟达和AMD的投资战略意在“买入口、锁需求、抢话语权”,通过入股锁定未来可能高达3-4万颗高端GPU的确定性需求,并抬高竞争对手的拿卡门槛 [6] 技术研究进展与方向 - 公司选择以技术研究成果为“名片”,通过发布研究博客和学术论文向行业传递其布局,开辟了研究博客专栏「Connectionism」 [2][7] - 公司发表了首篇技术博客文章,研究如何提升大型语言模型推理输出的稳定性和可预测性,挑战了行业内关于LLM输出非确定性源于“并发+浮点数”的流行假说 [7][8][9] - 论文指出,LLM推理中的非确定性主要源于服务器负载变化导致的批大小不同,并提出需要通过确保关键计算内核具备“批不变性”来解决此问题 [8][12] 行业影响与未来趋势启示 - 公司案例提示AI行业,在追求模型性能的同时,必须高度重视输出的可预测性和可重复性,这是赢得用户信任、确保系统可靠性的关键,尤其在医疗、金融等高风险管理领域 [10][11][12] - “确定性AI”可能成为商业化分水岭,行业将加速推进批不变性内核等工程手段,确保关键场景的输出可复现 [12][13] - AI大模型行业的发展将开启新篇章,从“暴力计算”转向“精密工程”,未来趋势包括模型架构更注重效率与可解释性、训练推理一体化、多模态融合进入2.0阶段、能源效率成为核心指标等 [13][14]
千问团队开源图像基础模型 Qwen-Image
AI前线· 2025-09-02 14:52
模型技术架构 - 使用Qwen2.5-VL处理文本输入 变分自编码器(VAE)处理图像输入 多模态扩散变换器(MMDiT)进行图像生成 支持英语和中文文本渲染 [2] - 采用逐步提升图像分辨率的预训练策略 从256x256像素放大至640x640 再到1328x1328像素 [4] - 后训练分为两个阶段:监督微调(SFT)使用人工标注数据集生成逼真图像 强化学习(RL)通过人类评估者筛选最优图像 [4] 性能表现 - 在DPG GenEval GEdit ImgEdit等T2I和TI2I基准测试中总体得分最高 [2] - AI Arena人类评估排名第三 与五个高质量闭源模型竞争(包括GPT Image 1) [2] - 图像理解任务表现与专门训练模型"非常接近" 支持目标检测 语义分割 深度估计等多项功能 [2][4] 训练数据构建 - 训练数据集包含数十亿对图像文本对 涵盖自然(55%) 设计(27%) 人物和合成数据四大类别 [3] - 设计类图像包含丰富文本元素 所有数据经过严格筛选去除低质量样本 [3] - 通过标注框架为每张图像生成详细标题和元数据 [3] 技术特性 - 支持文本到图像(T2I)生成 文本图像到图像(TI2I)编辑 风格转换 对象添加删除 文本编辑等多元功能 [2][4] - 引入超现实风格合成图像 多样化分辨率分布图像 以及含渲染文本的图像增强训练效果 [4] - 开源代码发布于GitHub 模型文件可通过Huggingface下载 [4] 行业意义 - 代表多模态基础模型领域的范式转变 挑战生成模型在感知和认知建模中的传统角色 [2] - 推动视觉理解与生成界限模糊化 为交互式多模态智能体发展奠定基础 [2] - 社区评价认为其意义重大 功能覆盖全面 被形容为"多面手"型模型 [4]
苹果最新模型,5年前的iPhone能跑
36氪· 2025-09-01 19:37
公司技术发布 - 苹果于8月28日在arXiv发布新论文,介绍新一代多模态基础模型MobileCLIP2及其多模态强化训练机制,并同期在GitHub、Hugging Face上开源模型预训练权重和数据生成代码 [1] - MobileCLIP2专为零样本分类和检索任务设计,参数规模在50百万至1.5亿不等,推理延迟在3-15毫秒之间 [1] - 与上一代模型相比,MobileCLIP2-B在ImageNet-1k上的零样本准确率提高了2.2% [1] 模型性能优势 - MobileCLIP2-S4在iPhone 12 Pro Max上测得的零样本准确率可对标参数规模更大的SigLIP-SO400M/14,但参数量仅为后者的一半 [1][4] - 在延迟方面,MobileCLIP2-S4的表现优于DFN ViT-L/14,延迟约为后者的40% [4] - MobileCLIP2系列模型在38个数据集上的平均性能均为最佳,其中MobileCLIP2-S2与SigLIP2-B/32参数规模相差4倍但性能相当,MobileCLIP2-S4相比DFN ViT-L/14推理速度提高2.5倍 [6] 技术机制创新 - 多模态强化训练机制整合了改进的教师监督与字幕数据,旨在提升模型鲁棒性和迁移性,同时降低计算开销 [2][9] - 通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督,教师信号聚合使集成蒸馏在ImageNet-1k验证集上比单教师变体提高高达2.8%的准确率 [9][10] - 字幕生成教师模型通过两阶段协议升级优化,并在高质量标题数据集上微调,生成具有增强语义质量和多样性的合成标题,提升模型语义覆盖范围 [11] 开发者生态与部署 - 训练机制支持多模态模型直接在移动、边缘设备上部署,实现零样本检索/分类,具有极低的延迟和内存占用 [2][8] - 苹果开源了所有模型变体的预训练权重和数据生成代码,支持开发者直接部署、基准测试及创建具有任意教师的强化数据集 [2][12] - 开放的数据管道和模块化的教师、标题生成器集成,使该机制可扩展到新的模态或数据域,降低开发者部署和实验门槛 [8][12]