Workflow
多模态大模型
icon
搜索文档
AI挑战赛聚焦具身智能应用落地
人民网· 2025-10-27 17:47
行业战略定位与发展方向 - 具身智能机器人是人工智能与高端制造深度融合的战略性前沿领域,正在实现从虚拟算法向实体智能的革命性跨越 [1] - 加快应用落地和产业融合的路径包括加强底层建设共建产业生态、促进应用场景开放赋能数据供给、深化产学研融合筑牢人才根基 [1] - 行业专注于与物理环境相互作用的智能体,强调感觉运动耦合和情境智能 [2] 核心技术融合与创新趋势 - 具身智能本体正融合新材料、感控一体、变体结构、多自主体协同合作等交叉技术以应对复杂物理环境的挑战 [2] - 多模态大模型与具身智能机器人的融合将赋予多智能体多模态自感知、自认知、自决策、自执行和自学习能力,实现思考、感知、行动三者有机智能融合 [2] - 未来重要科学方向是将机理模型与大数据学习的新方法结合 [2] 行业应用前景与现存挑战 - 技术将对未来智能机器人、工业具身智能、智能医疗等领域产生强大赋能作用 [2] - 替代物理世界体力工作仍需克服未知非结构化环境的物理建模、灵巧操作、多模态自然交互及高质量多模态数据生成等挑战 [2] 产业生态与创新活力 - 专项赛共吸引全国重点高校、科研机构和科技企业的74支队伍参赛,最终决出24支优胜团队 [3] - 大赛采用产业命题与开放场景竞赛模式,赛题涵盖仿生灵巧手精密操作、具身智能垂直领域大模型任务规划、国产化机器人AI芯片等前沿方向 [3]
相机参数秒变图片!新模型打通理解生成壁垒,支持任意视角图像创作
量子位· 2025-10-27 11:31
核心技术突破 - 提出Puffin统一多模态模型,首次在统一框架下融合以相机为中心的理解与生成任务,解决了此前两类任务被独立研究、模型受限于固定视角的问题[1][2][11][12] - 模型具备“与相机共思”能力,通过将抽象相机参数转化为专业摄影术语和分析空间线索,弥合了视觉-语言-相机模态间的鸿沟,支持空间想象和灵活的跨视角应用[4][18][20][44] - 在生成任务网络设计中引入像素级相机透视场作为连续潜在变量,并结合共享的思维链机制,实现了对图像生成更精细的空间控制和更合理的空间结构生成[16][27][28] 模型架构创新 - 引入几何对齐的视觉编码器,通过语义教师网络与视觉教师网络的双重蒸馏获得,兼具几何保真度和强语义理解能力,克服了现有多模态大模型视觉编码器缺乏几何保真度的局限性[14] - 采用渐进式解冻与联合微调的分阶段优化策略,使模型在底/中层结构线索与高层语言推理之间建立紧密联系[14][15] - 设计连接模块,通过可学习的queries将文本描述和相机参数对应的LLM隐式状态映射为扩散模型可理解的条件信号[15] 数据集与基准建设 - 构建Puffin-4M大规模高质量数据集,包含约400万张图片-语言-相机三元组,弥补了多模态空间智能领域同时覆盖视觉、语言与相机模态的数据集稀缺的空白[29][30] - 数据集构建流程涵盖360°全景数据收集与预处理、2D透视图像渲染生成、场景描述与空间推理打标以及跨视角场景扩展四个阶段[32][33] - 开源Puffin-Gen和Puffin-Und两个评测基准数据集,分别为相机可控生成和相机理解提供更具挑战性和综合性的验证标准[34] 性能表现 - 在相机理解任务中,Puffin模型在Roll、Pitch、FoV等参数估计上全面超越现有方法,例如在Roll参数估计上达到0.32度误差和84.9%/93.4%/96.2%的1/5/10度AUC精度[36] - 与GPT-4o、Qwen-Image、Nano Banana等主流多模态模型相比,Puffin在Up Vector、Latitude、Gravity等几何参数估计上误差显著更低,例如Up Vector平均误差为11.94度,远低于GPT-4o的24.11度[38] - 模型在AIGC图像和真实世界摄影图像等多种场景中均表现出良好的鲁棒性和合理的空间生成能力[39][41] 应用前景 - 模型能够通过精确预测相机参数,在自然场景图像中辅助虚拟三维物体的插入,并可通过指令微调灵活扩展至空间想象、世界探索和摄影指导等跨视角任务[43][44] - 在世界探索任务中,对初始视角与生成视角进行三维重建可视化显示,生成结果在空间结构上保持了良好的一致性[44] - 未来计划进一步提升跨视角能力,并扩展至以相机为中心的视频生成与理解,促进在动态与沉浸式场景中的更广泛应用[45]
自动驾驶之心合伙人招募!
自动驾驶之心· 2025-10-25 00:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司关注的前沿技术方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向涵盖具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等关键技术 [3] 人才招聘要求 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
高盛大幅上调阿里资本开支预期至4600亿元:推理需求爆炸性增长,AI效率提高驱动更强收入
硬AI· 2025-10-24 20:40
文章核心观点 - AI推理需求呈指数级增长,推动云服务厂商资本开支持续扩张,技术效率提升反而可能加速资本开支向收入的转化 [2][3][6] - 中国互联网巨头在AI领域的战略路径分化,阿里巴巴聚焦企业级AI云市场,字节跳动发力消费级应用 [2][3][8] - 当前中国主要科技股估值相较于全球同行仍有折价空间,市场尚未进入AI泡沫 [4][10] AI推理需求与资本开支 - 高盛预计阿里巴巴2026至2028财年合计资本开支将达4600亿元人民币,远高于其此前3800亿元的目标 [2][3] - AI推理需求激增是支撑资本开支判断的核心逻辑,阿里巴巴AI推理需求每2-3个月翻一番 [2][6] - 字节跳动日均token消耗量在9月份突破30万亿,相比4-5月实现翻番,已接近谷歌的43万亿水平 [6] - 高盛预测中国云服务提供商在2025年第三季度资本开支将同比增长50% [6] - 技术效率提升(如阿里云Aegaeon系统节省82% GPU资源,DeepSeek模型减少90% token消耗)并不意味着资本开支缩减,反而有助于投资更有效转化为收入 [6] 巨头AI战略路径分化 - 阿里巴巴凭借全栈AI能力押注企业级AI云市场,在外部AI云收入规模和企业级服务方面处于领先地位 [2][3][8] - 字节跳动凭借聊天机器人"豆包"在消费级市场和日均token消耗量上占据最大份额,侧重于探索面向消费者的AI应用 [2][3][8] - 阿里巴巴正式推出夸克AI聊天机器人助手服务,利用闭源通义千问模型与字节跳动"豆包"和腾讯"元宝"竞争 [8] - 字节跳动加速"豆包"商业化,在聊天中无缝接入抖音电商服务,并加入AI键盘等新功能 [8] 多模态进展与商业化 - 中国多模态大模型凭借开源、低价和高速度策略形成差异化优势,例如腾讯"混元图像3.0"在文生图模型排行榜名列前茅 [10] - 阿里巴巴Qwen3 Max模型输出价格比GPT-5/Gemini 2.5 Pro便宜40% [10] - 中国开源AI模型获全球市场认可,例如爱彼迎大量使用阿里巴巴Qwen模型支持其客服代理 [10] - 中国To-C聊天机器人商业化路径仍在演进,最终可能更多地由广告收入驱动 [10] 行业估值水平 - 腾讯和阿里巴巴2026年预期市盈率分别为21倍和23倍,相较于谷歌的24倍以及亚马逊和微软的28-30倍,仍处于"不苛刻"水平 [4][10] - 高盛认为市场尚未进入AI泡沫,腾讯和阿里巴巴估值相较于其盈利增长前景及全球同行仍有折价空间 [4][10]
有的同学还没入门具身,有的已经CCF-A!?
具身智能之心· 2025-10-24 18:00
CCF-A到CCF-C SCI一区到四区 EI/中文核心/毕业论文/申博等 还在为论文选题抓耳挠腮?被数据建模折磨到头秃?面对导师批注手足无措?别慌!具身智能之心,资深 导师团队在线 "救援",一站式解决你的论文烦恼! 论文辅导上线了 【具身智能之心论文辅导重磅上线!多模态大模型/VLA/强化学习/VLN/遥操作/数采/机器人仿 真/real2sim2real/端到端/diffusion等顶会方向1V1定制化辅导】 辅导区间 ✅ 全流程闭环辅导:从选题创新点挖掘→实验设计→代码调试→论文写作→投稿策略,助你快速产出高质 量成果。 ✅ 工业界/学术界双视角:不仅发论文,更关注落地价值。 欢迎咨询 现在前10名咨询的同学,能免费匹配专属导师!来和导师进行深度 Meeting,根据你的研究方向、学术基 础,一对一深入分析,给出最适合你的会议、期刊选投建议! 更多详细内容欢迎添加微信进一步交流:AIDriver005,开启你的论文逆袭之旅~ 为什么选择我们? ✅ 顶会/顶刊导师团队:来自国内外名校的PhD及头部大厂研究员,覆盖ICML、ICLR、CoRL、ICRA、 NeurIPS、CVPR等顶级会议中稿审稿经验。 ...
高盛大幅上调阿里资本开支预期至4600亿元:推理需求爆炸性增长,AI效率提高驱动更强收入
华尔街见闻· 2025-10-24 17:25
行业资本开支趋势 - 高盛上调对中国头部云厂商的资本开支预测,预计阿里巴巴2026至2028财年合计资本开支将达到4600亿元人民币,远高于其此前3800亿元的目标 [1] - 高盛预测中国云服务提供商在2025年第三季度的资本开支将同比增长50% [2] - AI推理需求的指数级增长是驱动资本开支上行的核心逻辑,阿里巴巴的AI推理需求每2-3个月翻一番,字节跳动日均token消耗量在9月份突破30万亿,相比4-5月实现翻番 [2] 公司战略路径分化 - 阿里巴巴凭借全栈能力聚焦企业级AI云市场,在外部AI云收入规模和企业级服务方面处于领先地位 [1][3] - 字节跳动侧重于消费级AI应用,其聊天机器人“豆包”在To-C市场和日均token消耗量上占据最大份额 [1][3] - 阿里巴巴推出夸克AI助手服务与字节跳动“豆包”和腾讯“元宝”竞争,字节跳动则加速“豆包”商业化,无缝接入抖音电商服务 [3] 技术效率与商业化进展 - 中国公司在AI计算效率方面取得突破,阿里云GPU池化系统Aegaeon可节省82%的GPU资源,DeepSeek的OCR模型能将文本输入token消耗减少90% [2] - 中国多模态大模型在全球市场取得进展,腾讯“混元图像3.0”在文生图排行榜名列前茅,阿里巴巴Qwen3 Max模型输出价格比GPT-5/Gemini 2.5 Pro便宜40% [4] - 中国To-C聊天机器人商业化路径加速演进,字节跳动“豆包”整合电商功能,阿里巴巴夸克推出图像视频创作平台“造点” [3][5] 全球应用与估值水平 - 中国开源AI模型获得全球市场认可,爱彼迎大量使用阿里巴巴Qwen模型支持其客服代理 [5] - 高盛认为中国主要科技股估值具吸引力,市场尚未进入AI泡沫,腾讯和阿里巴巴2026年预期市盈率分别为21倍和23倍,低于谷歌的24倍及亚马逊和微软的28-30倍 [1][5]
HumanSense:探索多模态推理边界,打造「察言观色会共情」的全模态交互伙伴
机器之心· 2025-10-22 14:32
目前,该项目以及相关配套工作已在 GitHub 和 HuggingFace 开源,希望能吸引社区更多关注多模态大模型在以人为中心的交互场景的潜力,推动 AI 交互体验的 革新。 本文作者来自蚂蚁集团的多模态认知团队和西安交通大学的人机混合增强智能全国重点实验室。团队持续围绕多模态大模型、内容生成和全模态交互等前沿方向 进行研究,致力于构建领先的大模型基础能力和创新的交互应用体验。 在科幻作品描绘的未来,人工智能不仅仅是完成任务的工具,更是为人类提供情感陪伴与生活支持的伙伴。在实现这一愿景的探索中,多模态大模型已展现出一 定潜力,可以接受视觉、语音等多模态的信息输入,结合上下文做出反馈。 然而,真正融洽的沟通,需要 AI 可以像人类一样从外貌、声音乃至表情动作中感知对方的个人特点和情绪状态,理解深层诉求,进而做出恰当回应。 现有工作对这类以人为中心场景的深入研究还较少见,既缺乏细粒度的评估,也限制了相关能力的优化。这导致在许多交互应用中「AI 感」依然常见,AI 助手们 听得懂语音却读不懂情绪,能回答问题却不理解用户的诉求,纵有一身本领却无法完整表达。 为了填补这一空白,蚂蚁集团与西安交通大学联合提出并开源了 ...
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-10-22 08:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶、具身交互、联合预测等技术 [3] - 其他关键方向包括SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理 [3] 合伙人资质要求 - 候选人需来自QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级会议论文成果的候选人将获得优先考虑 [4] 合伙人待遇与支持 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
合合信息推出多模态文本智能技术落地方案,助力AI实现智能推理
21世纪经济报道· 2025-10-21 16:29
行业发展趋势 - 多模态大模型正成为人工智能发展的重要方向,其利用文本、图像、音频、视频等多种信息形式进行表达、理解和交流 [1][4] - 根据2025年Gartner人工智能技术成熟度曲线,多模态AI将在未来五年内成为各行业提升所有应用和软件产品功能的核心技术 [4] - 行业对AI系统的需求正从“功能实现”向“业务赋能”深化,旨在推动AI系统从辅助工具进化为具备自主决策能力的业务伙伴 [15] 技术突破与创新 - 合合信息推出“多模态文本智能技术”方案,通过文本相关空间位置理解深层语义逻辑,实现对多模态信息的“立体化综合化理解” [3] - 哈尔滨工业大学车万翔教授分享“多模态思维链”技术,将推理逻辑分解为一系列可解释的跨模态推理步骤,以生成更精准可靠的结论 [4] - 南开大学周宇教授介绍系统化的OCR幻觉缓解方案,为提升多模态大模型的可视文本感知能力提供有效路径 [4][8] - 技术方案将文本智能认知程度从语义理解拓展到类人推理及自主机器决策,形成从感知到认知再到决策的技术实现路径 [15] 应用场景与案例 - 小红书hi lab团队分享基于单视觉语言模型的多语言文档布局解析工具“dotsocr” [9] - 华中科技大学刘禹良教授介绍首个覆盖甲骨文专家破译全流程的辅助考释框架AlphaOracle,在“劳”等字的辅助破译上取得突破 [11][12] - 合合信息文本智能技术帮助用户解决复杂场景下的文档图像问题,方案已在金融、医药、教育等专业领域开展应用 [8][15] - 技术方案处理对象从传统文档延伸至多种承载文本信息的媒介,如论文、财报、视频、自然场景,实现对业务流程的智能重构 [14][15]
RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward
机器之心· 2025-10-21 11:43
但一个朴素而尖锐的问题始终横在面前:当视觉信息变得极其繁复、结构密集,模型究竟能不能「看懂图」?比如以高分辨率地铁图为代表的真实场景,既要求 精细的视觉感知,又要求跨线路、跨站点的空间推理。 来自该团队的前向工作 ReasonMap 首次系统揭示了这一问题:在高分辨率地铁图等真实场景下,即使最先进的 MLLMs 也频繁在跨线路、跨站点的路径规划中出 现「看错线」「漏站」「重复路线」等推理幻觉。 本研究由西湖大学 ENCODE Lab 牵头,联合同济大学、浙江大学和新加坡国立大学共同完成。团队在大模型强化学习与多模态推理方向具有深厚研究基础。 近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。 团队进一步发现,在高分辨率、信息极其密集的地铁图上,仅依靠最终答案给出成败信号的强化学习,很容易陷入奖励极度稀疏的困境:多数输出几乎得不到任 何正反馈,少数「偶然对」的样本又会造成高方差梯度,训练既慢又不稳,这使得模型在长链路路径规划中频繁出现看错线、漏站、甚至重复路线的「幻觉」。 为此,该团队进一步提出 RewardMap:一个围绕真实 map reasoning ...