量子位
搜索文档
抢先报名!MEET2026最新嘉宾阵容官宣,一起热聊AI
量子位· 2025-11-24 11:39
大会核心信息 - 大会主题为“共生无界,智启未来”,关注AI技术穿透产业、学科与场景边界,成为社会演进核心动能[1][3] - 将于2025年12月10日在北京金茂万丽酒店举行,预计吸引上千名科技从业者参与,百万观众线上围观[2][105][107] - 会议将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议话题[4] 学术与研究机构代表 - 张亚勤:清华大学智能产业研究院院长、中国工程院院士,数字视频和AI领域世界级科学家,曾任职百度与微软[12][13] - 孙茂松:清华大学人工智能研究院常务副院长、欧洲人文和自然科学院外籍院士,主持多项国家级科研项目[17] - 王仲远:北京智源人工智能研究院院长,曾任职快手、美团、Facebook,发表论文100余篇,获美国专利5项、中国专利50余项[21][22][23] - 尤洋:潞晨科技创始人、新加坡国立大学校长青年教授,高性能计算领域谷歌学术引用最高的博士毕业生之一[48] 科技企业代表 - 王颖:百度集团副总裁,负责文库、网盘等业务,2021年加入后引领产品创新[26] - 何晓冬:京东集团高级副总裁、IEEE Fellow,领导团队打造JoyAI大模型,发表论文200余篇,被引用6万余次[30] - 韩旭:文远知行创始人兼CEO,带领公司在全球11国超30城开展自动驾驶业务,2024年登陆纳斯达克[35][36] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,是中文Linux奠基人之一[44][45] 基础设施与硬件技术 - 杨帆:商汤科技联合创始人、大装置事业群总裁,主导AI专用计算中心建设及AI芯片产业化[53][54] - 万卫星:高通公司AI产品技术中国区负责人,负责终端侧AI引擎软硬件规划[58][59] - 乔梁:太初元碁联合创始人兼COO,曾任国家超算无锡中心副主任,参与国产AI处理器国家重大专项[86][87] 应用与产品创新 - 喻友平:中关村科金总裁,提出“平台+应用+服务”大模型落地三级引擎战略,推动垂类大模型应用[75][76] - 王潜:自变量机器人创始人兼CEO,致力于研发端到端大模型驱动的通用机器人,团队是国内最早发布VLA大模型的团队之一[90][91] - 徐达峰:蚂蚁集团平台体验技术部负责人,负责AntV等社区产品,推动AI驱动的前端研发范式革新[99][100] 行业洞察与发布 - 大会将权威发布人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项[103] - 同时发布年度AI十大趋势报告,深入分析具有巨大潜力的技术趋势及代表案例[104]
顶流设计Agent能用Nano Banana Pro了!一句话BlackPink变东北翠花
量子位· 2025-11-24 11:39
产品整合与合作 - Lovart设计Agent正式接入Nano Banana Pro模型,实现两大AI产品的结合[1] - 用户可通过简单的@操作或模型选项勾选来调用Nano Banana Pro[6][10] - 该整合支持多任务并行处理,可同时勾选视频、3D等其他模型[11] 核心功能与用户体验 - 产品支持“无边画布+二次编辑”模式,提供所见即所得的多模态上下文处理,体感优于谷歌的“直出结果”[8] - 支持一次性处理多达14张图片元素,例如将12张生肖图与2张背景图合成为一张完整的玩具展示效果图[12][13][14][16] - 生成速度快,例如高清十二生肖玩具陈列图在不到1分钟内即可完成[18] 独家编辑功能 - 推出Touch Edit功能,用户通过简单的点击(如command+单击)即可精准修改细节,无需复杂Prompt描述[24][26][27] - 提供“编辑元素”功能,可将图片中的背景、文字等元素分层“炸开”,实现逐层可编辑[37][38][40] - 这些功能使细节修改不再“牵一发而动全身”,提升了设计的可控性和效率[35][36] 实际应用场景 - 产品能快速生成实用成品,如根据一句Prompt在1分钟内生成风格一致的连续PPT页面[47][48][49] - 支持复杂内容可视化,并具备联动玩法,可结合图片生成和视频生成模型创作新闻播报等内容[62][65][66][70] - 最终效果达到“效果逼真 + 细节可控 = 可直接商用”的水平,提升了生成内容的实用价值[72] 市场表现与用户增长 - Lovart作为全球首个设计Agent,在测试阶段曾创下5天排队10万人的记录[8] - 正式上线两个多月后,其年度经常性收入在9月份已突破3000万美元,日活跃用户数达到20万[8] - 在产品接入Nano Banana Pro后,用户体验获得进一步改善,市场反响积极[34]
杭州蚂蚁投了家腾讯系具身智能公司
量子位· 2025-11-23 18:33
融资情况 - 星尘智能完成数亿元A++轮融资,由国科投资与蚂蚁集团联合领投,老股东锦秋基金跟投[2][5] - 本轮融资后公司估值进入20亿元俱乐部[4] - 2024年以来已完成四轮融资,包括4月由锦秋基金和蚂蚁集团领投的数亿元A轮及A+轮融资,以及去年7月由经纬创投领投的数千万美元Pre-A轮融资[7][8][9] 技术路线与产品 - 公司核心技术路线为绳驱AI机器人,采用“柔性绳索+卷扬电机”设计,实现低摩擦、高跟随、连续力域的控制[13][17][22] - 绳驱技术具备高拟人表现力、高动态响应和高交互安全特性,尤其适合家庭、商业等需要灵巧操作与人机协作的场景[23] - 公司打造集顶尖本体、领先遥操、高效模型于一体的具身智能全栈平台,并推出Astribot S1等机器人产品,能完成叠衣服、打咏春、颠勺做菜等复杂任务[24][25] - 2024年10月发布半身商用机器人Astribot S1-U、超远程数字分身遥操作系统及面向商业服务的DuoCore全身VLA模型[27] 商业化进展 - 公司与金马游乐达成战略合作,推出文旅文娱机器人系列产品[31] - 全球首个由绳驱AI机器人全自主运营的零售服务店“机器人MART”在中山落地,能全自主为游客制作小吃、调饮料[32][33] - 与仙工智能、字节跳动、腾讯、百度、央视、京东等头部企业达成合作,业务覆盖科研、文旅、服务、物流等领域,累计获得数千台订单[35] - 2024年6月攻克绳驱量产难关,实现多个月批量稳定交付[37] 团队背景 - 创始人兼CEO来杰拥有16年机器人研发经验,曾为腾讯Robotics X实验室一号员工,主导研发轮腿式机器人Ollie等多款产品[40][41][44] - 联合创始人戴媛拥有加州大学洛杉矶分校博士学位,同样出身于腾讯Robotics X实验室[46][47][48] - 核心团队成员背景横跨腾讯、谷歌、优必选、百度和华为等前沿科技公司[48]
「创业初期全靠人工」,AI笔记独角兽自曝了
量子位· 2025-11-23 18:33
公司早期运营模式 - Fireflies公司在2017年之前并未使用人工智能技术,其会议纪要服务完全由两位创始人手动完成,他们以“Fred”的身份接入客户会议并手动记录[1][2][7] - 该人工服务模式每月收费100美元,创始人在会议结束后10分钟内发送会议纪要,早期共手动处理了100多次会议[13][16][18][19] - 公司联合创始人兼CTO公开承认,采用此模式是为了在资金匮乏的创业初期验证产品市场需求并节省开发成本,当时公司经历第六次创业失败后经济拮据[9][10][11][12][14] 公司当前市场地位与业务规模 - Fireflies目前估值达到10亿美元,服务覆盖全球超过50万家机构和2000万名用户,财富500强企业中有75%使用其服务[5][36] - 公司用户数量在过去18个月内暴涨8倍,成为全球增长最快的AI应用之一,自2023年起已实现全面盈利且毛利率水平堪比SaaS企业[35][44] - 公司核心服务包括支持100多种语言的语音录制与转录,以及将语音数据集成至其他应用以自动化完成数据录入等任务[37] 事件引发的行业争议 - 创始人公开早期运营模式后引发广泛批评,焦点集中于客户隐私安全风险,因为早期有真人而非AI旁听涉及商业机密的客户会议[23][24][25][27] - 有行业观点认为此行为足以重创公司品牌形象并破坏客户信任,涉及未经许可参会可能引发法律诉讼[26][27] - 部分业内人士支持该做法,认为“先人工、后智能”是初创公司在低成本下验证产品价值与真实需求的聪明策略,关键在于先跑通市场再构建产品[31] 公司现有产品生态与技术能力 - Fireflies已形成独特生态护城河,包括构建可搜索知识库、超过200款AI应用以及无缝集成60多款工具如CRM和企业沟通平台[42] - 公司与Perplexity达成战略合作,推出“Talk to Fireflies”功能,允许用户在会议中通过语音激活实时网络搜索[38] - 尽管早期与AI无关,但经过数年演化,公司AI能力已获业内广泛认可,目前所有笔记记录已完全实现自动化[28][39]
抢先报名!MEET2026最新嘉宾阵容官宣,一起热聊AI
量子位· 2025-11-23 12:09
大会核心信息 - 大会主题为“共生无界,智启未来”,关注AI技术穿透产业、学科与场景边界,成为驱动社会演进的核心动能 [3] - 大会将于2025年12月10日在北京金茂万丽酒店举行 [105] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术与产业落地进展 [4] - 预计将吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [107] 嘉宾阵容与背景 - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,曾任百度公司总裁,在微软工作16年,是数字视频和AI领域世界级科学家 [12][13] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,曾主持国家973项目等20余项科研项目 [17] - 王仲远:北京智源人工智能研究院院长,曾在快手、美团、Facebook、微软亚洲研究院任职,发表顶级学术会议及期刊论文100余篇 [21][22][23] - 王颖:百度集团副总裁,负责文库事业部、网盘事业部,2021年加入百度后全面负责百度互娱和垂类业务 [26] - 何晓冬:IEEE Fellow,京东集团高级副总裁、探索研究院副院长,发表论文200余篇,被引用6万余次,带领团队打造JoyAI大模型 [30] - 韩旭:文远知行WeRide创始人兼CEO,带领公司在全球11国超30城开展自动驾驶,公司于2024年登陆纳斯达克,2025年登陆港交所 [35][36] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,著名开源语音识别工具Kaldi的提出者和主要维护者,谷歌学术引用近52000次 [40] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,是中文Linux奠基人之一,国内最早的网络安全专家之一 [44][45] - 尤洋:潞晨科技创始人兼董事长,新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜(亚洲),高性能计算领域谷歌学术引用最高的博士毕业生 [48] - 杨帆:商汤科技联合创始人、执行董事、大装置事业群总裁,主导推动商汤多个核心业务实现规模化商业落地,并前瞻性布局AI专用计算中心 [53][54] - 万卫星:高通公司AI产品技术中国区负责人,领导团队参与多个高通移动平台多媒体项目,负责终端侧AI引擎软硬件规划及生态建设 [58][59] - 陈晓建:亚马逊云科技大中华区产品部总经理,负责云服务在大中华区的落地、产品管理及业务拓展,是企业级业务领域资深专家 [63][64] - 朱宁:上海交通大学上海高级金融学院金融学教授,曾任雷曼兄弟与野村证券高管,研究涵盖行为金融学、中国宏观经济等领域 [67][68] - 赵俊博:浙江大学百人计划研究员、博士生导师,蚂蚁集团资深技术专家,聚焦大模型、世界模型技术攻坚,参与过PyTorch早期研发 [72] - 喻友平:中关村科金总裁,曾任百度智能云副总裁,主导构建百度智能云ToB商业体系,带领团队打造“得助”大模型平台及系列智能产品 [75][76] - 刘凡平:RockAI CEO,主导并实现国内首个非Transformer架构大模型,在大模型领域首倡“群体智能”理念 [80][81] - 乔梁:太初元碁联合创始人兼首席运营官,清华大学计算机系博士,长期从事高性能计算技术与计算机体系结构研究 [86][87] - 王潜:自变量机器人创始人兼CEO,致力于研发由端到端大模型驱动的通用机器人,是国内最早发布VLA统一大模型的团队之一 [90][91] - 杜知恒:小宿科技联合创始人兼CEO,曾任家办CIO、红杉中国对冲基金创始成员,并在高瓴资本、百度等企业从事投资、战略岗位 [95][96] - 徐达峰:蚂蚁集团平台体验技术部负责人,资深前端技术专家,负责AntV/Galacean等社区产品,致力于AI驱动的前端研发范式革新 [99][100] 大会亮点与发布 - 大会将权威发布人工智能年度榜单与年度AI趋势报告 [6][102] - 人工智能年度榜单将从公司、产品、人物三大维度评选五类奖项,是AI行业最具影响力榜单之一 [103] - 年度AI趋势报告将提名正在释放巨大潜力的十大AI趋势,并进行深入分析,提名代表机构及最佳案例 [104]
AI把PC天花板打破了
量子位· 2025-11-23 12:09
文章核心观点 - PC行业并未触及天花板,全球PC出货量连续四个季度同比增长,2025年第三季度达到7590万台,同比增长9.4% [1] - AI技术正在重塑PC行业,拉高PC的价值天花板,并推动行业进入新的增长周期 [5][24][31] - 联想作为行业龙头,其财报和战略表明公司已进入由AI驱动的新增长周期,AI业务营收占比达30% [3][33][51] 联想2025/26财年第二财季财报表现 - 总营收达1464亿元人民币,同比增长15%,创下单财季历史新高 [6] - 经调整净利润为36.6亿元人民币,同比增长25%,利润增速高于营收增速 [2][12][13] - 综合毛利率为15.4%,略低于去年同期的15.7% [14] - 研发费用为41亿元人民币,同比增长6%,投入方向包括AI、液冷技术等 [21] 联想三大业务板块表现 - 智能设备业务收入1081亿元,同比增长12%,占总收入73.8%,是公司基石业务 [8] - 基础设施业务收入293亿元,同比增长24%,增速居首,AI基础设施需求是核心拉动力 [8] - 解决方案和服务业务收入90亿元,同比增长18%,连续18个季度双位数增长,运营利润率超22% [8] PC业务与市场地位 - 公司PC出货量全球第一,市场份额首次突破25%,较第二名高出5.7个百分点 [2][11] - 联想AI PC在Windows AI PC市场份额达31.1%,稳坐全球第一 [11] - AI PC单位平均售价比传统PC高出约5%-10%,为硬件厂商带来毛利率提升机会 [32] AI战略与业务进展 - AI业务营收占比达总营收30%,同比增长13个百分点,成为新增长引擎 [3][34][35] - 推行“混合式AI”战略,算力按场景分布在“端、边、云”三层次 [36][37] - 在个人智能领域提出“一体多端”战略,“一体”指天禧AI个人超级智能体,“多端”指AI PC、AI手机等设备 [42][43] - 企业智能领域构建全栈能力,AI服务器高双位数增长,液冷技术业务收入同比大增154% [46][48] 行业展望与公司前景 - Gartner预测到2025年AI PC将占全球PC出货量的31% [32] - 全球PC市场预计将有5%-10%的可持续增长 [52] - 联想在中国市场AI PC出货占笔记本出货量比重有望从Q2财季的27%提升至Q4的35% [52] - 公司判断已进入结构更优、质量更高、确定性更强的新增长周期 [51]
卡帕西大模型横评方法太好玩了!四大AI匿名参赛评分,最强出乎意料
量子位· 2025-11-23 12:09
项目概述 - 卡帕西发布名为“大模型议会”(LLM Council)的Web应用,该项目在GitHub上已获得337个星标和53个分支[1][5] - 项目界面与ChatGPT类似,但核心功能是调用多个大模型通过OpenRouter开会商议用户问题[2] - 系统工作流程包括多模型同时回答、匿名互评和主席模型汇总最终答案三个步骤[7][8][12] 技术流程 - **第一步:多模型并行回答**:通过OpenRouter同时调用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等多个大模型回答同一问题,并以标签视图展示结果[7][18] - **第二步:匿名互评机制**:所有模型对其他模型的回复进行匿名评估,根据准确性和洞察力给出评分和详细理由[8][9][10] - **第三步:答案汇总输出**:指定主席模型汇总所有回复,形成统一最终答案交付用户[12][13] 性能发现 - 在多模型互评中,GPT-5.1被一致认为提供最强、最有洞见的答案,Claude被公认为最弱,Gemini 3和Grok-4排名居中[21] - 模型表现出较低偏见倾向,通常愿意承认其他模型的答案更优[24] - 尽管模型自评结果与人类主观评价存在差异(如卡帕西认为Gemini 3答案更简洁凝练),但多模型集成方法显示出巨大探索潜力[23][24] 项目背景与发展 - LLM议会系统延续了卡帕西早前分享的LLM分阶段深度阅读项目,该项目将阅读流程重塑为与LLM协作的三阶段过程[15][19] - 相关项目在GitHub上获得较高关注度,其中一个项目收获1.8k星标[17] - 行业专家认为模型自评可能成为一种新的“自动benchmark”方式,多模型集成有望成为未来LLM产品的突破点[6][24]
图片生成仿真!这个AI让3D资产「开箱即用」,直接赋能机器人训练
量子位· 2025-11-23 12:09
技术突破与核心创新 - 提出PhysX-Anything框架,是首个面向仿真、具备物理属性的3D生成范式,仅需单张图像即可生成高质量、可直接用于仿真的3D资产[5] - 该框架能同时生成显式几何结构、关节运动以及物理参数,解决了现有方法普遍缺失密度、绝对尺度、关节约束等关键物理信息的问题[5][6] - 采用由粗到细的生成框架,通过多轮对话依次生成整体物理描述与各部件几何信息,最终解码输出六种常用格式的可仿真3D资产[8] 技术实现细节 - 提出一种新型3D表征方式,基于体素构建几何表示,在32体素网格上由视觉语言模型建模粗略几何,再由下游解码器细化,实现超过193倍的token压缩比[10][27] - 设计可控的flow transformer模块,将粗体素表示作为扩散模型的引导信号,以控制细粒度体素几何的生成[14] - 使用最近邻算法将重建网格划分为部件级组件,结合全局结构信息与细粒度体素几何,生成用于仿真的URDF、XML及部件级网格[15] 性能评估与比较 - 在PhysX-Mobility数据集上的评估显示,PhysX-Anything在几何与物理两类指标上均取得最优表现,其绝对尺度误差大幅降低至0.30[18][19] - 在基于视觉语言模型的评估中,PhysX-Anything在几何与运动学参数两项指标上均显著优于所有对比方法,得分高达0.94[20][21] - 人类志愿者评估结果显示,PhysX-Anything的生成结构在几何与物理属性都获得最高分,几何得分为0.98,物理属性多项得分在0.84至0.98之间[22] 应用潜力与行业影响 - 生成的仿真就绪3D资产可以直接导入模拟器,并用于接触丰富的机器人策略学习,展示了在推动多种下游机器人与具身智能应用方面的巨大潜力[25][26] - 该框架有望为3D视觉、具身智能与机器人研究开辟新的方向,推动从“视觉建模”到“物理建模”的范式转变[28] - 团队构建了覆盖47个常见真实类别、具备丰富物理标注的PhysX-Mobility数据集,大幅拓展了现有物理3D资产的多样性[27]
沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断
量子位· 2025-11-23 09:00
文章核心观点 - 机会不仅来自技术本身,更来自理解技术如何改变智能载体、交互方式、计算架构与数据,从而重新分布能力、资源与价值[1][19] - 智能演进可从五个维度梳理:算法范式、智能载体、交互范式、计算架构、数据,为创新者提供识别机会的思考框架[1][5] 算法范式维度 - AI算法从监督学习阶段演进至强化学习阶段,未来将迈向自主学习阶段[3][4] - 监督学习阶段构筑表达与生成能力,强化学习阶段引入因果与执行能力[3] 智能载体维度 - 关注点从语言和多模态模型转向世界模型与具身模型[7] - 智能载体从抽象符号空间迈向物理空间[8] 交互范式维度 - 人机交互经历命令行、图形界面、搜索、推荐到自然交互的范式迁移[11] - 自然交互分层为被动响应、交互式执行、具备提议能力的主动模式,交互方式从文本扩展至语音、手势及脑机接口[12] 计算架构维度 - 计算架构从通用走向专用、从单一走向多元[14] - GPU刺激深度学习爆发,但能耗与成本攀升,推动推理、端侧、强化学习等专用芯片涌现[14][15] 数据维度 - 数据从模拟世界的静态教材变为探索世界的动态反馈,再变为归纳世界的验证假设证据[17] - 数据从人类数据枯竭转向合成数据兴起,再转向AI主动探索获取实验数据,从限制模型能力的约束变为推动AI主动学习的工具[17] 未来个体与组织 - 个体能力被AI放大,多环节协作任务可由单个个体端到端完成[21] - 组织重心从管控转向定义问题、融合个体协作,未来CEO或变为首席氛围官[22][23] 创新项目成果 - DINO-X Grasp模型实现万物可抓取,精准识别物体、预测抓取点位,结合深度信息还原三维结构指导机械臂操作[25][29] - 模型不挑设备与场景,在4090显卡上实现10帧/秒实时推理速度,兼容主流深度相机与机械臂,支持移动端运行[31][32][41] - 已应用于招商局集团港口集装箱验残、桥梁螺钉检测等场景,并与美团机器人研究院合作[33][34] - MoonBit编程语言为AI时代设计,首个原生提供AI助手的语言,性能超越Java近10倍,代码体积比Rust小30%[37] - 用户从去年2.6万增至超10万,预计2026年底达100万,已有北美云厂商付费客户[38] - Smart渲染器打破美国Arnold等公司垄断,支持英伟达、AMD、国产GPU及苹果芯片,实现秒级实时渲染[43][46][48] - 已被《流浪地球》特效制作方MoreVFX、《哪吒》制作方光线动画等顶级公司使用[49]
罗福莉首个小米成果!开源具身大模型
量子位· 2025-11-22 14:00
文章核心观点 - 小米公司的MiMo团队发布了业界首个开源的、融合自动驾驶与具身智能两大领域的统一多模态基础模型MiMo-Embodied [6] - 该模型在自动驾驶与具身智能共计29个基准测试中全部实现了最先进性能 [2] - 此项研究由新入职的团队负责人罗福莉作为核心作者,智能驾驶首席科学家陈龙作为项目负责人,标志着公司在空间智能与自动驾驶融合领域的重要技术突破 [1][47] 技术方案与创新 - 模型基于MiMo-VL架构,通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集,并采用包含思维链和强化学习的渐进式四阶段训练策略 [8] - 四阶段训练策略具体包括:具身智能监督微调、自动驾驶监督微调、思维链推理微调和强化学习微调,批量大小分别为512、512、512和32,学习率分别为2×10⁻⁶、2×10⁻⁶、2×10⁻⁶和1×10⁻⁶ [23][24] - 该方案有效打破了室内操作与户外驾驶之间的领域鸿沟,解决了现有视觉语言模型缺乏统一性、存在领域差距与迁移困难等挑战 [10][12][14] 性能表现评估 - 在具身能力评估中,MiMo-Embodied在可供性预测、任务规划和空间理解等核心领域表现优异,在RoboRefit测试中得分82.30,在CV-Bench测试中得分88.82,显著超越对比模型 [28][29] - 在自动驾驶能力评估中,模型在CODA-LM测试中得分58.55,在Drama测试中得分76.14,在NuInstruct测试中得分83.58,在所有感知、预测和规划基准测试中均取得强劲性能 [30] - 定性评估显示模型能有效处理复杂真实世界任务,包括具身导航与操作、交叉路口转弯、弯道掉头、跟车和变道超车等多样化自动驾驶场景 [32][34][38][40] 团队与战略意义 - 研究团队由新加盟的AI专家罗福莉负责,其拥有阿里巴巴达摩院和DeepSeek的资深研发经验,项目负责人陈龙曾任职于Wayve和Lyft,具备丰富的自动驾驶研发背景 [45][46][48][49] - 此项研究成果是公司在智能驾驶与具身智能交叉领域的重要布局,未来将基于此模型探索具身智能视觉-语言-动作模型,以增强复杂环境中的交互能力 [43] - 模型已在GitHub和Huggingface平台开源,参数规模为7B,便于行业进一步研究与应用 [50]