Workflow
多模态基础模型
icon
搜索文档
阿里巴巴(09988)组建机器人和具身智能团队 探索让AI从虚拟世界走向物理世界
智通财经网· 2025-10-09 15:49
公司战略与投资 - 阿里巴巴通义千问大语言模型负责人宣布已组建机器人和具身智能的小型团队 探索让模型从虚拟世界走向物理世界 使其从语言模型向能够在现实世界中行动的智能体迈进 [1] - 阿里巴巴集团于9月8日领投机器人科技企业"自变量机器人"1.4亿美元融资 用于加速其人工智能与机器人核心技术研发、产品迭代及商业化落地 [1] - 阿里巴巴计划在云计算、AI平台、供应链、全球化渠道等方面与自变量机器人深度协同 未来合作或率先落地于智能制造、仓储物流、家庭服务机器人等场景 [1] 行业趋势与资本开支 - 阿里巴巴CEO表示未来五年全球AI投资总额将加速增长到4万亿美元 [2] - 公司此前已公布未来三年为云和AI硬件基础设施投入3800亿元 并计划在此基础上追加投入 [2]
原力无限签订2.6亿元具身智能单笔订单;阿里通义已建立机器人和具身智能的小型团队丨智能制造日报
创业邦· 2025-10-09 11:23
荣耀Magic8系列及AI手机发展 - 荣耀宣布将于10月15日举办Magic8系列及MagicOS 10发布会,新机定位为“自进化AI原生手机” [2] - 新机搭载独家AI实体侧边键,支持短按快速进入影像界面、长按唤醒YOYO智能体 [2] 具身智能在文旅领域的商业应用 - 原力无限智能科技与时华文旅控股集团签署2.6亿元人民币战略合作协议,创下全球具身智能单笔金额最大商业订单纪录 [2] - 双方合作围绕“机器人+文旅”战略,旨在打造全国首批具身智能智慧景区样板工程,覆盖智能导览、互动体验、运营服务及数字管理等环节 [2] 商业航天与可重复使用火箭融资进展 - 美国可重复使用火箭开发商Stoke Space完成5.1亿美元D轮融资,由美国创新技术基金领投 [2] - 此轮融资使公司总融资额达到9.9亿美元,资金将用于加速可重复使用运载火箭Nova的研发及产能扩张 [2] 科技巨头在机器人及具身智能的布局 - 阿里通义千问大语言模型负责人林俊旸表示已建立机器人和具身智能小型团队,认为多模态基础模型正转变为基础智能体 [2] - 基础智能体可利用工具和记忆通过强化学习进行长视野推理,并应从虚拟世界走向物理世界 [2]
阿里通义组建机器人和具身智能团队,要让智能体具备“行动力”
新浪财经· 2025-10-09 10:07
公司战略动向 - 通义千问团队已建立机器人和具身智能的小型团队 探索让大模型从虚拟世界走向物理世界 [1] - 多模态基础模型正转变为基础智能体 这些智能体可以利用工具和记忆通过强化学习进行长视野推理 [1] - 团队技术负责人林俊旸是公司内部最早一批研究多模态和具身智能的核心人物 拥有相关项目经验 [1] 技术产品进展 - 通义大模型家族已全面覆盖文本、图像、视频、音频等全模态 性能跻身世界第一梯队 [3] - 旗舰模型Qwen3-Max预训练数据量达36T tokens 总参数超过万亿 拥有较强的编程能力和工具调用能力 性能据称超过GPT5、Claude Opus 4等 跻身全球前三 [3] - 公司在2025年9月底的云栖大会上实现"七连发" 在模型智能水平、工具调用和编程能力、深度推理、多模态等方面取得多项突破 [3] - 公司开源了300余个模型 覆盖不同大小的全尺寸及多种模态 全球下载量突破6亿次 全球衍生模型17万个 [3] 市场地位与表现 - 2025年上半年中国企业级大模型日均调用量较2024年底实现363%的增长 目前超10万亿Tokens [3] - 公司通义大模型在中国企业级大模型调用中占比17.7%位列第一 是中国企业选择最多的大模型 [3] 财务业绩支撑 - 公司2025财年第四季度收入为2364.54亿元 同比增长7% 经营利润为284.65亿元 同比增长93% [4] - 在AI需求强劲推动下 阿里云智能集团季度收入增速扩大至18% 达到301.27亿元 创下过去三年最快增速 [4] - 阿里云AI相关产品收入连续七个季度实现三位数增长 [4]
阿里下场,通义千问牵头组建机器人AI团队
选股宝· 2025-10-09 08:14
公司战略动向 - 阿里巴巴集团已成立内部“机器人和具身AI小组” 标志着公司从AI软件向硬件应用领域的战略延伸 [1] - 阿里巴巴通过阿里云领投了深圳机器人初创公司自变量机器人1.4亿美元的A+轮融资 这是阿里云首次布局具身智能领域 [4] - 阿里巴巴计划在未来三年为云和AI硬件基础设施投入3800亿元 并计划追加投入 以保持与全球AI投资总额加速增长到4万亿美元的同步趋势 [1] 技术发展与愿景 - 多模态基础模型正被转化为基础智能体 可以利用工具和记忆通过强化学习执行长时序推理 这些应用理应从虚拟世界迈向现实世界 [2] - 自变量机器人采取软件和算法优先的路线 发布了开源具身智能基础模型“Wall-OSS”及Quanta X2机器人 该机器人配备能感知细微压力变化的机械手 [5] - 阿里巴巴的技术负责人林俊旸参与开发了可处理声音、图像及文本输入的多模态模型 公司正寻求将大模型优势向机器人等实体产品延伸 [3] 行业竞争格局 - 全球科技巨头纷纷布局机器人领域 日本软银集团宣布以54亿美元现金收购ABB的工业机器人业务 以强化其在“物理AI”领域的布局 [1][6] - 英伟达CEO黄仁勋表示AI和机器人是公司的两大技术机遇 将带来“数万亿美元”的长期增长机会 并预测自动驾驶汽车将成为机器人技术的首个主要商业应用领域 [6] - 风投资本大举涌入人形机器人赛道 花旗预计到2050年全球机器人市场规模将达到7万亿美元 [6] 被投公司概况 - 自变量机器人成立不到两年已完成八轮融资 累计融资额达到约2.8亿美元 [4] - 自变量机器人的人形机器人Quanta X2售价为8万美元 目前已向学校、酒店和养老院等机构销售产品实现收入 并计划于明年开始筹备IPO [5] - 自变量机器人预计“机器人管家”将在五年内成为现实 但承认用于机器人的AI技术仍落后于聊天或代码生成等领域 [5]
阿里通义林俊旸:已建立机器人和具身智能的小型团队
新浪财经· 2025-10-08 23:00
公司战略与团队动态 - 公司已建立机器人和具身智能的小型团队 [1] - 公司大语言模型负责人表示多模态基础模型正转变为基础智能体 [1] 行业技术趋势 - 基础智能体可以利用工具和记忆通过强化学习进行长视野推理 [1] - 技术发展方向是从虚拟世界走向物理世界 [1]
三个人、一篇论文,估值850亿
36氪· 2025-09-17 16:40
公司概况与融资亮点 - 公司为人工智能研究公司Thinking Machines Lab,由前OpenAI首席技术官Mira Murati于2025年2月牵头创立,聚焦多模态基础模型与下一代人机协作 [1][3] - 公司成立仅七个月,在尚未推出正式产品、没有实际用户的情况下,以120亿美元(折合人民币850亿元)的估值完成20亿美元种子轮融资 [1][3] - 核心团队约30人,其中三分之二成员来自OpenAI,涵盖AI产品落地与核心技术研发等关键领域的顶尖人才,被视为“全明星期权”团队 [1][3][4] - 种子轮融资由Andreessen Horowitz领投,行业巨头英伟达和AMD争相跟投,并已与Google Cloud达成算力合作 [1][3] 高估值驱动因素分析 - 高估值源于“人、卡、势”三重优势:顶级团队构成“人才”优势;获得英伟达和AMD投资意味着锁定了数万张高端H100/H200 GPU的配额,构成“算力”优势;公司被视为全球能从头训练GPT-4级稠密模型的不足5家团队之一,是最后一个由“原OpenAI核心决策层”整体出走的投资标的,构成“叙事”优势 [3][4][5] - 120亿美元估值被解读为“叙事+算力+人才”三位一体的看涨期权定价,而非传统的基于收入的估值 [5][6] - 英伟达和AMD的投资战略意在“买入口、锁需求、抢话语权”,通过入股锁定未来可能高达3-4万颗高端GPU的确定性需求,并抬高竞争对手的拿卡门槛 [6] 技术研究进展与方向 - 公司选择以技术研究成果为“名片”,通过发布研究博客和学术论文向行业传递其布局,开辟了研究博客专栏「Connectionism」 [2][7] - 公司发表了首篇技术博客文章,研究如何提升大型语言模型推理输出的稳定性和可预测性,挑战了行业内关于LLM输出非确定性源于“并发+浮点数”的流行假说 [7][8][9] - 论文指出,LLM推理中的非确定性主要源于服务器负载变化导致的批大小不同,并提出需要通过确保关键计算内核具备“批不变性”来解决此问题 [8][12] 行业影响与未来趋势启示 - 公司案例提示AI行业,在追求模型性能的同时,必须高度重视输出的可预测性和可重复性,这是赢得用户信任、确保系统可靠性的关键,尤其在医疗、金融等高风险管理领域 [10][11][12] - “确定性AI”可能成为商业化分水岭,行业将加速推进批不变性内核等工程手段,确保关键场景的输出可复现 [12][13] - AI大模型行业的发展将开启新篇章,从“暴力计算”转向“精密工程”,未来趋势包括模型架构更注重效率与可解释性、训练推理一体化、多模态融合进入2.0阶段、能源效率成为核心指标等 [13][14]
千问团队开源图像基础模型 Qwen-Image
AI前线· 2025-09-02 14:52
模型技术架构 - 使用Qwen2.5-VL处理文本输入 变分自编码器(VAE)处理图像输入 多模态扩散变换器(MMDiT)进行图像生成 支持英语和中文文本渲染 [2] - 采用逐步提升图像分辨率的预训练策略 从256x256像素放大至640x640 再到1328x1328像素 [4] - 后训练分为两个阶段:监督微调(SFT)使用人工标注数据集生成逼真图像 强化学习(RL)通过人类评估者筛选最优图像 [4] 性能表现 - 在DPG GenEval GEdit ImgEdit等T2I和TI2I基准测试中总体得分最高 [2] - AI Arena人类评估排名第三 与五个高质量闭源模型竞争(包括GPT Image 1) [2] - 图像理解任务表现与专门训练模型"非常接近" 支持目标检测 语义分割 深度估计等多项功能 [2][4] 训练数据构建 - 训练数据集包含数十亿对图像文本对 涵盖自然(55%) 设计(27%) 人物和合成数据四大类别 [3] - 设计类图像包含丰富文本元素 所有数据经过严格筛选去除低质量样本 [3] - 通过标注框架为每张图像生成详细标题和元数据 [3] 技术特性 - 支持文本到图像(T2I)生成 文本图像到图像(TI2I)编辑 风格转换 对象添加删除 文本编辑等多元功能 [2][4] - 引入超现实风格合成图像 多样化分辨率分布图像 以及含渲染文本的图像增强训练效果 [4] - 开源代码发布于GitHub 模型文件可通过Huggingface下载 [4] 行业意义 - 代表多模态基础模型领域的范式转变 挑战生成模型在感知和认知建模中的传统角色 [2] - 推动视觉理解与生成界限模糊化 为交互式多模态智能体发展奠定基础 [2] - 社区评价认为其意义重大 功能覆盖全面 被形容为"多面手"型模型 [4]
苹果最新模型,5年前的iPhone能跑
36氪· 2025-09-01 19:37
公司技术发布 - 苹果于8月28日在arXiv发布新论文,介绍新一代多模态基础模型MobileCLIP2及其多模态强化训练机制,并同期在GitHub、Hugging Face上开源模型预训练权重和数据生成代码 [1] - MobileCLIP2专为零样本分类和检索任务设计,参数规模在50百万至1.5亿不等,推理延迟在3-15毫秒之间 [1] - 与上一代模型相比,MobileCLIP2-B在ImageNet-1k上的零样本准确率提高了2.2% [1] 模型性能优势 - MobileCLIP2-S4在iPhone 12 Pro Max上测得的零样本准确率可对标参数规模更大的SigLIP-SO400M/14,但参数量仅为后者的一半 [1][4] - 在延迟方面,MobileCLIP2-S4的表现优于DFN ViT-L/14,延迟约为后者的40% [4] - MobileCLIP2系列模型在38个数据集上的平均性能均为最佳,其中MobileCLIP2-S2与SigLIP2-B/32参数规模相差4倍但性能相当,MobileCLIP2-S4相比DFN ViT-L/14推理速度提高2.5倍 [6] 技术机制创新 - 多模态强化训练机制整合了改进的教师监督与字幕数据,旨在提升模型鲁棒性和迁移性,同时降低计算开销 [2][9] - 通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督,教师信号聚合使集成蒸馏在ImageNet-1k验证集上比单教师变体提高高达2.8%的准确率 [9][10] - 字幕生成教师模型通过两阶段协议升级优化,并在高质量标题数据集上微调,生成具有增强语义质量和多样性的合成标题,提升模型语义覆盖范围 [11] 开发者生态与部署 - 训练机制支持多模态模型直接在移动、边缘设备上部署,实现零样本检索/分类,具有极低的延迟和内存占用 [2][8] - 苹果开源了所有模型变体的预训练权重和数据生成代码,支持开发者直接部署、基准测试及创建具有任意教师的强化数据集 [2][12] - 开放的数据管道和模块化的教师、标题生成器集成,使该机制可扩展到新的模态或数据域,降低开发者部署和实验门槛 [8][12]