大语言模型
搜索文档
Ai2推出MolmoAct模型:在机器人领域挑战英伟达和谷歌
搜狐财经· 2025-08-14 15:50
行业技术发展 - 物理AI是机器人技术与基础模型结合的快速发展领域 英伟达 谷歌和Meta等公司正在发布研究成果探索将大语言模型与机器人技术融合[2] - 基于大语言模型的方法允许机器人根据交互对象确定下一步动作 谷歌研究的SayCan帮助机器人使用大语言模型对任务进行推理 Meta和纽约大学的OK-Robot使用视觉语言模型进行运动规划和物体操控[4] - 英伟达宣称物理AI是下一个重大趋势 发布了包括Cosmos-Transfer1在内的多个模型来加速机器人训练 Hugging Face发布了299美元的桌面机器人致力于机器人开发的民主化[4] 公司产品创新 - 艾伦人工智能研究所(Ai2)发布全新开源模型MolmoAct 7B 该模型让机器人能够在空间中推理 采用Apache 2.0许可证 数据集使用CC BY-4.0许可证[2] - MolmoAct被归类为动作推理模型 能够运用推理能力理解物理世界 规划空间占用方式并执行相应动作 相比传统视觉-语言-动作(VLA)模型具备三维空间推理能力[2] - 模型通过输出空间定位感知Token来理解物理世界 这些Token使用向量量化变分自编码器预训练提取 能够编码几何结构并估算物体间距离[3] 技术性能表现 - MolmoAct 7B在基准测试中任务成功率达到72.1% 超越了谷歌 微软和英伟达的模型[3] - 模型能够适应不同的具体实现形式如机械臂或人形机器人 只需最少的微调[3] - 空间定位感知Token与VLA使用的Token不同 不是文本输入 使模型能够预测图像空间路径点并输出具体动作指令[3] 行业发展前景 - 创造更具空间感知能力的机器人是开发者的长期梦想 物理AI兴趣正在增加 实现通用物理智能的目标正变得更容易实现[4][5] - 专家认为该研究代表了增强视觉语言模型用于机器人技术的自然进展 是开发更强大的三维物理推理模型的重要一步[4] - 数据开放性为其他学术实验室和专业爱好者提供了坚实基础 因为开发和训练这些模型成本高昂[4]
被王兴兴质疑的VLA,为何自变量机器人CEO王潜坚定看好?
搜狐财经· 2025-08-14 15:37
具身智能模型发展路径 - 行业认为达到ChatGPT或GPT-3.5水平需3到5年时间 [2][7] - 硬件已非发展障碍 运动能力达到非常好水平 但当前机器人更多提供情绪价值而非实用价值 [2][13] - 行业共识是需要完全统一的端到端基础模型或通用模型 [2][6] VLA技术路线与模型特性 - VLA技术路线被确认为正确方向 将遵循类似大语言模型的Scaling Law发展路径 [2][7] - 具身模型应是独立于数字世界的物理世界基础模型 而非语言模型延伸 [3][9] - 模型训练需要足够大数据量 尽可能大的模型规模 并在架构和训练方法上持续探索 [3][7] 数据策略与质量挑战 - 复杂物理交互操作拒绝使用仿真数据 导航类任务可大量采用仿真数据 [10] - 数据主要来源包括互联网视频预训练数据 现实机器人采集数据及人类演示数据 [10] - 数据质量控制是研发核心挑战 数据质量直接决定模型性能上限 [12] 应用场景与商业化展望 - 家庭及养老生活场景被判断为最大潜在市场 规模可能超越工业场景 [3][14] - C端产品预计2-4年内进入日常生活 目标价格区间为1-2万美元(约10万人民币) [4][17] - 公司选择软硬一体化商业模式 直接提供完整产品或解决方案而非单纯模型授权 [4][19] 技术实施与产品规划 - 短期聚焦轮式机器人平台 暂不开发双足形态 以室内场景为主要应用方向 [19] - 通过长序列任务训练提升环境泛化能力 但承认该路径会延长商业化周期 [18] - 当前产品优先面向科研市场 逐步向复杂场景推进 [19]
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
机器之心· 2025-08-14 12:57
研究背景与动机 - 自动驾驶技术需要两大核心能力:对当前环境的深刻理解(识别交通参与者、理解交通规则)和未来场景的准确预测(预测行人、车辆运动)[7] - 当前主流方案将"理解"和"生成"分开处理,但实际决策需要两种能力深度融合[8][10] - 构建统一模型面临挑战:高分辨率环视图像输入LLM的token限制、理解与生成任务相互促进机制、世界知识与场景预测的集成[11] HERMES框架设计 - 采用共享LLM同时驱动理解与生成任务,通过BEV(鸟瞰图)作为统一场景表达[13][18] - BEV Tokenizer将六路环视图像编码为紧凑俯视视角表征,保留空间几何关系和语义细节[18] - 引入世界查询机制:通过自适应采样提取场景核心信息Token,实现知识注入与传递[19] - 联合训练优化:语言建模损失(Next Token Prediction)和点云生成损失(L1损失)[21][22] 技术优势与性能 - 未来生成任务:3秒未来点云误差降低32.4%,Chamfer Distance显著优于ViDAR[31] - 场景理解任务:CIDEr指标提升8%,超越OmniDrive等专用模型[31] - 统一建模效果:生成精度显著提升且理解能力无损,验证框架有效性[31] - 无需历史序列即可实现高效推理,展现强泛化能力[31] 应用表现 - 能准确预测未来三秒车辆与环境动态(如货车轨迹),同时深度理解当前场景(识别"星巴克"并描述路况)[4] - 生成时序连贯且几何精确的未来点云,精准描述驾驶场景细节(动态物体移动预测、路边商家识别)[27]
我们都错怪GPT-5了,路由统一算力,免费用户也能创造收益
量子位· 2025-08-14 10:01
GPT-5路由架构的核心设计 - GPT-5采用统一调度系统,包含智能高效模型、深度推理模型和实时路由器,根据问题类型、复杂度及用户意图自动选择模型[16][17] - 路由框架动态平衡成本与性能:轻量模型处理低价值简单查询,深度推理模型应对高价值复杂商业查询[31][32] - 系统通过持续学习用户切换模型行为、偏好评分等数据优化路由策略,未来计划整合为单一模型[40][41] 开源社区对标方案Arch-Router - 采用领域-动作分类法定义路由策略,先识别大领域(如金融)再细化到具体动作(如生成代码)[10] - 两阶段路由过程:自然语言匹配用户意图→映射函数连接指定LLM完成特定任务[13][14] - 无需重新训练即可适配新模型,仅需更新映射函数保持策略灵活性[14][15] 商业化路径创新 - 通过识别高价值商业意图(预订/购买)提供深度服务,从交易链路收取订阅费或佣金[38] - 构建"第三消费空间"连接电商、支付等平台,形成交易闭环并收取过路费[44][47] - 免费用户占比达99%,但路由框架可将其基础服务计入广告曝光量实现间接变现[21][42] 成本控制机制 - 大模型推理成本随用户规模线性增长,与互联网边际成本趋零的特性相反[25][27] - 统一入口智能分配算力资源,避免对免费用户开放无限深度推理[28][31] - 达到使用限额后自动切换迷你版模型维持服务连续性[40] 行业竞争格局 - ChatGPT周活跃用户达7亿且增速最快,规模超越X/Twitter等平台逼近头部社交应用[19][21] - 路由技术成为降低获客成本关键,吸引企业主动寻求合作构建生态[46] - 广告模式革新:通过意图识别实现无痕商业化,替代传统展示广告[48][49]
WAIC 2025解码:中国的AI巨头真正释放了什么信号?
Counterpoint Research· 2025-08-14 09:03
更安全的AI - 深度学习教父Geoffrey Hinton首次访华并在WAIC 2025发表主题演讲 强调AI治理需中国参与 标志着全球AI安全合作进入新阶段 [3] - Hinton提出LLM与人类认知相似性理论:两者均通过模式补全生成意义 且数字智能可依托硬件替换实现"永生" [3] - 人类知识转移效率低下 而AI可实现即时精确的模型复制 能源成本降低后将超越人类认知能力 [3] - AI与人类一致性仍是未解难题 缺乏可靠方法确保超人类智能系统选择帮助人类 最坏情况下人类或沦为附属品 [3] 阿里巴巴的开源战略 - 发布三款高性能开源模型:Qwen3-235B-A22B-Instruct-2507(非推理模型超越Kimi K2)、Qwen3-235B-A22B-Thinking-2507(推理模型媲美GPT-4)、Qwen3-Coder(4800亿参数MoE编码模型) [7] - 推出无屏幕AI智能眼镜 深度集成Qwen模型 通过垂直场景建立用户黏性 成为持续AI交互的"特洛伊木马" [4][5] - 开源策略推动中国开发者生态普及 降低对海外API依赖 同时将阿里云定位为默认基础设施 采用"聚合理论"商业模式 [8] 宇树科技机器人突破 - 发布新一代人形机器人R1 重量25公斤 售价5600美元(特斯拉Optimus价格的1/5) 定位大众市场开发者和研究机构 [6] - 具备动态运动和多模态交互能力 提供即插即用API 可能催生第三方应用生态 类似早期智能手机市场 [6][9] - 中国硬件创新模式快速迭代 威胁特斯拉市场地位 若形成应用生态或抢先建立人形机器人iOS式平台 [9] 全球AI治理动向 - WAIC 2025吸引40国800余家企业 展示3000+创新成果 中国提议设立全球AI治理机构并发布13项合作框架 [2] - 欧洲、东南亚及非洲国家签署多边AI治理框架 显示中国从产业规模转向开放安全原则的基调转变 [3][4]
腾讯(00700)Q2电话会:拥有足够芯片用于AI训练和模型升级 在AI推理芯片方面有多种选择
智通财经网· 2025-08-14 06:21
财务表现 - Q2收入同比增长15%至1845亿元超预期,净利润同比增长17% [1] - 非国际会计准则经营利润同比增长80%至690亿元,非国际会计准则归属于股东净利润同比增长10%至630亿元 [3] - 毛利润同比增长22%至1050亿元,三大业务板块毛利润均同比增长超20% [5] - 增值服务收入同比增长16%至910亿元,其中国内游戏收入同比增长17%,国际游戏收入同比增长35% [5][6] - 广告业务收入同比增长20%至360亿元,视频号营销服务收入同比增长约50% [10] - 金融科技与企业服务收入同比增长10%至560亿元,云服务收入增速加快 [11] 业务亮点 - 游戏业务强劲复苏,《Delta Force》《王者荣耀》《和平精英》等长青游戏表现良好 [1][5] - 广告业务AI技术驱动单次曝光收入提升,短视频广告加载率仅为中低个位数,相比同行10%以上仍有提升空间 [1] - 微信月活跃用户增长3%至14.1亿,小程序GMV同比增长超10%,小游戏总流水同比增长20% [1][6] - 企业服务收入加速增长,受益于GPU租赁和API Token使用需求增加 [2][11] - 混元3D模型成为HuggingFace排名第一的3D生成模型,被游戏开发者和设计师广泛采用 [11] AI战略 - 资本支出增长逾一倍至191亿元,重点投向AI能力建设 [1] - 持续推进元宝等原生AI应用,在微信搜索、腾讯会议等产品集成AI功能 [2] - 采用小模型和提升效率控制整体推理成本,AI已助力广告、游戏等业务增长 [2][20] - 拥有足够芯片用于AI训练和模型升级,正通过多种方式优化推理性能 [1][42] - AI在游戏内容生产、广告投放、金融科技等业务线广泛应用 [8][30] 游戏业务 - 将游戏分为买断制AAA游戏和长线运营服务型游戏两类,中国市场仍以后者为主 [25] - 《Delta Force》上线九个月用户数和营收持续增长,符合长青型游戏预期 [25] - FPS品类表现突出,《无畏契约》《和平精英》《三角洲特种部队》同时取得成功 [36] - 人口结构变化和技术进步推动FPS游戏发展,公司在该品类拥有绝对领导地位 [37] - 除FPS外,内容驱动型游戏如《鸣潮》《NIKKE》表现优异,吸引不同受众 [38] 广告业务 - AI驱动广告技术升级,提升点击率、转化和广告主ROI [10] - 增长主要来自单次曝光收入提升和曝光量增加,广告加载率保持稳定 [16] - 视频号流量增长、搜索流量提升以及电商闭环交易增多是主要驱动力 [16] - 广告平台架构升级,跨应用分析用户行为实现实时洞察和优化 [10] - 新广告法规预计不会带来实质性影响,业务已相当多元化 [22]
“大年”悄然来临 市场环境成就量化盛宴
中国证券报· 2025-08-14 05:08
量化策略表现 - 今年以来量化私募产品回报率普遍超过40%,部分产品甚至超过50% [1][2] - 量化选股策略表现突出,整体业绩远超指数增强策略 [2] - 全市场选股的"空气指增"策略和小微盘指数增强策略表现相对突出 [1][2] 量化私募机构 - 老牌百亿级私募如灵均投资、聚宽投资、龙旗科技、念空科技、明汯投资、启林投资、天演资本旗下产品表现优异 [2] - 新锐机构如玄元投资、孝庸私募、衍盛资产、云起量化、子午投资等旗下产品同样表现不俗 [2] - 百亿级量化私募平均收益率达18.92%,36家机构全部实现正收益,其中3家收益率超30% [6] 量化策略优势 - 量化选股策略灵活性高,不受特定指数成分股和权重的限制,可动态调整持仓 [3][4] - 阿尔法收益源于另类数据使用、信号持续挖掘以及全面拥抱人工智能 [3] - 大语言模型提升文本信息处理效率,量化和主观优势互补融合成为迭代方向 [3] 市场环境与量化策略 - 市场成交额放大、投资者热情高涨、中小盘股表现强势,有利于量化策略发挥 [1][4][6] - 新增资金推动市场上涨,保险、金融机构资金及居民储蓄流入支撑流动性 [6] - 政策环境改善,监管层对市场呵护明显,量化策略风险降低 [6] 小盘指数增强产品 - 对标中证2000的量化指增产品收益率超过40%,近一年收益率更在90%以上 [7] - 公募小盘风格指数增强基金同样表现优异,如招商中证2000指数增强和华泰柏瑞中证2000指数增强 [7] - 量价策略和小市值因子表现出色,超额收益显著 [7]
亿元订单开始涌入,但机器人仅仅靠表演支撑不了这个赛道
第一财经· 2025-08-13 20:29
行业订单情况 - 头部厂商宇树、智元、优必选等披露合计超2亿元人民币人形机器人订单,客户主要来自运营商、车企、3C及半导体企业 [1] - 智元与宇树共同中标中国移动1.24亿元采购订单,其中智元7800万元中标全尺寸人形双足机器人,宇树4605万元中标小尺寸人形双足机器人及配件,交付周期预计三年 [3] - 优必选中标觅亿汽车9051万元机器人设备采购项目,但产业链合作动态未明确 [4] - 优必选预计2024年交付500台工业人形机器人,用于车企、3C及半导体企业的搬运、分拣等场景 [5] - 松延动力已签约2000台机器人,7月产能突破百台;加速进化完成数百万台交付,海外占比超50%;智元近百台机器人落地富临精工工厂 [5] 订单落地挑战 - 部分订单存在融资炒作嫌疑,或受供应链产能限制无法按时交付,投资人需审慎评估 [1] - 机器人落地需满足客户经济账,大额订单当前主要提供信息与品牌价值,行业预计一年内接近落地临界点 [1] - 供应链问题突出,部分厂商因合作方无法扩产导致交货困难,预计下半年供应链将改善 [7] - 机器人实际作业中频繁出现本体质量问题,如拧螺丝等高精度任务难以完成,需突破高刚度关节、千赫兹力控等技术瓶颈 [8] - 高强度训练易导致机器人损坏,行业需解决长期技术可用性问题,确保24小时工作能力 [9] 技术应用与场景适配 - 工业场景对机器人泛化能力要求较低,但服务业复杂场景更利于模型能力提升 [9] - 客户需求聚焦性价比,厂商调整灵巧手自由度以降低算力需求,提升任务成功率 [10] - 工业领域探索"甜点区间",即在低成本下实现高效能,例如不改造基础设施完成复杂工作 [11] - 星动纪元机器人当前效率达人力70%,预计明年提升至90%,端到端技术路线助力性能优化 [11] 行业发展趋势 - 2024年被行业视为"机器人量产元年",第一梯队厂商订单规模或破千台,市场总量超万台 [11] - 厂商加速产能布局,松延动力计划Q3完成量产流程,Q4启动出海业务 [5] - 行业核心目标是实现机器人真正解放生产力,而非仅展示表演 [12]
突破SAM局限!中山大学X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-12 18:37
核心观点 - X-SAM是由中山大学、鹏城实验室和美团团队提出的突破性框架,将分割范式从"分割任何事物"推向"任何分割",实现了多任务、多模态的统一分割能力 [3][4] - X-SAM在超过20个分割数据集、7大核心任务上全面超越现有模型,包括文本指令驱动的分割任务和跨图像场景的精准分割 [4] - X-SAM通过三大支柱创新(统一输入格式、双编码器架构、多阶段训练)解决了SAM的局限性,如任务单一性、模态割裂和多任务壁垒 [12][6] 技术架构 统一输入格式 - 设计统一输入规则,用`<p>`和`</p>`标记文本查询,`<region>`标签代表视觉提示(点、框、涂鸦等),使不同任务能被模型统一处理 [13][15] 双编码器架构 - 图像编码器(SigLIP2-so400m)提取全局特征,分割编码器(SAM-L)捕捉像素级细节,双投影器将视觉特征转换为与语言模型匹配的维度 [19] - 分割连接器通过补丁合并和扩展操作生成1/8、1/16、1/32三种尺度特征,支持不同大小物体的分割 [19][17] - 分割解码器基于Mask2Former架构,能一次性输出多个分割掩码,并通过LLM生成的`<SEG>`标签关联类别或描述 [20] 多阶段训练 - 分割器微调:在COCO全景分割数据集上训练分割编码器和解码器,使用分类损失、掩码损失和dice损失 [27] - 对齐预训练:在LLaVA-558K数据集上训练双投影器,使视觉特征与语言模型词嵌入空间对齐 [27] - 混合微调:混合多种任务数据集训练,采用数据集平衡重采样策略(参数t=0.1)解决数据集大小差异问题 [24][27] 性能表现 基准测试 - 在COCO全景分割中PQ达54.7,接近Mask2Former(57.8);在A150-OV数据集上AP达16.2,远超ODISE(14.4)和PSALM(9.0) [31] - Referring分割任务中,RefCOCO/+/g的cIoU分别达85.1/78.0/83.8,超越PSALM(83.6/72.9/73.8)和Sa2VA(81.6/76.2/78.7) [32] - 推理分割任务gIoU达56.6,超过LISA-7B(52.9);GCG分割mIoU达69.4,远超GLaMM(65.8) [32][33] 新任务VGD分割 - 在COCO-VGD数据集上,点/涂鸦/框/掩码提示的AP分别达47.9/48.7/49.5/49.7,远超PSALM(2.0-3.7) [26][35] - 支持跨图像VGD分割,用一张图的视觉提示在另一张图中分割同类对象 [26] 消融实验 - 混合微调使开放词汇分割AP从16.4提升至22.4,推理分割gIoU从48.2跃升至57.1 [37] - 双编码器组合使GCG分割mIoU达69.4,远超单编码器方案(Swin编码器为62.5) [38] - 多阶段训练中,跳过分割器微调会使COCO全景分割PQ降至45.2,完整训练提升至54.7 [39] - Mask2Former解码器比SAM原生解码器PQ提升9.2,加入多尺度特征后PQ再提升1.3 [41] 未来方向 - 计划与SAM2结合拓展至视频分割,将VGD分割延伸到视频领域实现"跨时空视觉定位" [43] - 需解决任务平衡难题(部分分割任务因对话数据干扰性能下降)和性能不均问题(某些细分任务略逊于专门优化模型) [46]
“利润率要么是0,要么为负”!最火的AI应用竟只是“为大模型打工”?
华尔街见闻· 2025-08-12 11:31
行业财务表现 - AI编程公司收入飞速增长但利润率深度为负 呈现矛盾财务数据 [2] - Cursor母公司Anysphere在6月达到5亿美元年经常性收入 创SaaS史上最快达到1亿美元ARR纪录 [2] - Replit年收入从去年8月200万美元暴涨至上月1.44亿美元 [2] - 瑞典初创公司Lovable在8个月内从100万美元增长至1亿美元年收入 [2] - AI编程公司毛利率普遍在20%至40%之间 但未包括为免费用户支付的AI调用成本 [4] - Replit在4月份毛利率为负数 [4] - 所有代码生成产品利润率处于近似平衡或亏损状态 情况相当糟糕 [4] 成本结构问题 - 大语言模型调用费用占据成本大头 是压垮利润的主要元凶 [5] - AI编程助手必须始终采用最新最先进且最昂贵的大语言模型 [5] - 用户越多导致模型调用量越大 运营成本反而越高 与传统软件单位成本递减模式截然不同 [5] - 领域内所有初创公司可变成本相差无几 可能在10%至15%之间 [5] - 最新AI模型成本不降反升 因处理复杂多步骤任务需要更多时间和计算资源 [6] 商业模式挑战 - 行业面临"毛利率显著为负"困境 用户越多反而亏损越严重 [1] - 对外部模型供应商存在严重依赖 同时面临激烈市场竞争 [1] - 模型提供商OpenAI、Anthropic直接进入AI编程市场 形成既是供应商又是竞争对手的局面 [1][9] 战略选择 - 自研模型可消除对供应商依赖 但成本过于巨大 如Windsurf最终放弃该计划 [8] - 出售成为选择选项 Windsurf以24亿美元价格将核心团队加入谷歌 剩余业务出售给Cognition [8] - 向用户转嫁成本 Anysphere调整定价结构 在20美元月费基础上对使用最新Claude模型加收额外费用 [8] 行业前景 - 推理成本处于有史以来最高水平 GPT-5定价虽低于Claude Opus 4.1 但显著降低成本时间仍不明朗 [9] - 用户忠诚度可能不高 若竞争对手开发出更优秀工具 用户可能迅速转移 [9] - 收入数亿美元的AI编程巨头都难以盈利 引发对行业可持续性质疑 [9]