Workflow
多模态大模型
icon
搜索文档
自动驾驶之心合伙人招募!
自动驾驶之心· 2025-10-25 00:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司关注的前沿技术方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向涵盖具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等关键技术 [3] 人才招聘要求 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
高盛大幅上调阿里资本开支预期至4600亿元:推理需求爆炸性增长,AI效率提高驱动更强收入
硬AI· 2025-10-24 20:40
文章核心观点 - AI推理需求呈指数级增长,推动云服务厂商资本开支持续扩张,技术效率提升反而可能加速资本开支向收入的转化 [2][3][6] - 中国互联网巨头在AI领域的战略路径分化,阿里巴巴聚焦企业级AI云市场,字节跳动发力消费级应用 [2][3][8] - 当前中国主要科技股估值相较于全球同行仍有折价空间,市场尚未进入AI泡沫 [4][10] AI推理需求与资本开支 - 高盛预计阿里巴巴2026至2028财年合计资本开支将达4600亿元人民币,远高于其此前3800亿元的目标 [2][3] - AI推理需求激增是支撑资本开支判断的核心逻辑,阿里巴巴AI推理需求每2-3个月翻一番 [2][6] - 字节跳动日均token消耗量在9月份突破30万亿,相比4-5月实现翻番,已接近谷歌的43万亿水平 [6] - 高盛预测中国云服务提供商在2025年第三季度资本开支将同比增长50% [6] - 技术效率提升(如阿里云Aegaeon系统节省82% GPU资源,DeepSeek模型减少90% token消耗)并不意味着资本开支缩减,反而有助于投资更有效转化为收入 [6] 巨头AI战略路径分化 - 阿里巴巴凭借全栈AI能力押注企业级AI云市场,在外部AI云收入规模和企业级服务方面处于领先地位 [2][3][8] - 字节跳动凭借聊天机器人"豆包"在消费级市场和日均token消耗量上占据最大份额,侧重于探索面向消费者的AI应用 [2][3][8] - 阿里巴巴正式推出夸克AI聊天机器人助手服务,利用闭源通义千问模型与字节跳动"豆包"和腾讯"元宝"竞争 [8] - 字节跳动加速"豆包"商业化,在聊天中无缝接入抖音电商服务,并加入AI键盘等新功能 [8] 多模态进展与商业化 - 中国多模态大模型凭借开源、低价和高速度策略形成差异化优势,例如腾讯"混元图像3.0"在文生图模型排行榜名列前茅 [10] - 阿里巴巴Qwen3 Max模型输出价格比GPT-5/Gemini 2.5 Pro便宜40% [10] - 中国开源AI模型获全球市场认可,例如爱彼迎大量使用阿里巴巴Qwen模型支持其客服代理 [10] - 中国To-C聊天机器人商业化路径仍在演进,最终可能更多地由广告收入驱动 [10] 行业估值水平 - 腾讯和阿里巴巴2026年预期市盈率分别为21倍和23倍,相较于谷歌的24倍以及亚马逊和微软的28-30倍,仍处于"不苛刻"水平 [4][10] - 高盛认为市场尚未进入AI泡沫,腾讯和阿里巴巴估值相较于其盈利增长前景及全球同行仍有折价空间 [4][10]
有的同学还没入门具身,有的已经CCF-A!?
具身智能之心· 2025-10-24 18:00
公司服务概述 - 公司提供具身智能领域的论文辅导服务,覆盖多模态大模型、视觉语言导航、机器人仿真等前沿研究方向[1] - 服务采用1对1定制化辅导模式,辅导范围涵盖从CCF-A到CCF-C级别的会议以及SCI一区到四区的期刊[1] - 公司导师团队由来自国内外名校的博士及头部企业研究员组成,拥有ICML、NeurIPS、CVPR等顶级会议的投稿和审稿经验[1] 公司服务流程与优势 - 公司提供全流程闭环辅导,包括选题创新点挖掘、实验设计、代码调试、论文写作和投稿策略等环节[1] - 公司服务兼具工业界和学术界双视角,不仅关注论文发表,更注重研究成果的落地价值[2] - 公司为前10名咨询者提供免费匹配专属导师的机会,可进行深度会议并获得个性化的会议期刊选投建议[3]
高盛大幅上调阿里资本开支预期至4600亿元:推理需求爆炸性增长,AI效率提高驱动更强收入
华尔街见闻· 2025-10-24 17:25
行业资本开支趋势 - 高盛上调对中国头部云厂商的资本开支预测,预计阿里巴巴2026至2028财年合计资本开支将达到4600亿元人民币,远高于其此前3800亿元的目标 [1] - 高盛预测中国云服务提供商在2025年第三季度的资本开支将同比增长50% [2] - AI推理需求的指数级增长是驱动资本开支上行的核心逻辑,阿里巴巴的AI推理需求每2-3个月翻一番,字节跳动日均token消耗量在9月份突破30万亿,相比4-5月实现翻番 [2] 公司战略路径分化 - 阿里巴巴凭借全栈能力聚焦企业级AI云市场,在外部AI云收入规模和企业级服务方面处于领先地位 [1][3] - 字节跳动侧重于消费级AI应用,其聊天机器人“豆包”在To-C市场和日均token消耗量上占据最大份额 [1][3] - 阿里巴巴推出夸克AI助手服务与字节跳动“豆包”和腾讯“元宝”竞争,字节跳动则加速“豆包”商业化,无缝接入抖音电商服务 [3] 技术效率与商业化进展 - 中国公司在AI计算效率方面取得突破,阿里云GPU池化系统Aegaeon可节省82%的GPU资源,DeepSeek的OCR模型能将文本输入token消耗减少90% [2] - 中国多模态大模型在全球市场取得进展,腾讯“混元图像3.0”在文生图排行榜名列前茅,阿里巴巴Qwen3 Max模型输出价格比GPT-5/Gemini 2.5 Pro便宜40% [4] - 中国To-C聊天机器人商业化路径加速演进,字节跳动“豆包”整合电商功能,阿里巴巴夸克推出图像视频创作平台“造点” [3][5] 全球应用与估值水平 - 中国开源AI模型获得全球市场认可,爱彼迎大量使用阿里巴巴Qwen模型支持其客服代理 [5] - 高盛认为中国主要科技股估值具吸引力,市场尚未进入AI泡沫,腾讯和阿里巴巴2026年预期市盈率分别为21倍和23倍,低于谷歌的24倍及亚马逊和微软的28-30倍 [1][5]
HumanSense:探索多模态推理边界,打造「察言观色会共情」的全模态交互伙伴
机器之心· 2025-10-22 14:32
文章核心观点 - 蚂蚁集团与西安交通大学联合提出并开源了HumanSense项目,旨在解决多模态大模型在以人为中心的交互场景中“AI感”过强的问题 [2][3] - 该项目包含一个全模态评估基准HumanSense Benchmark和一个全模态推理模型HumanSense OmniReasoning,通过模拟人类从感知到反馈的思维演进过程,系统评估和提升AI的交互能力 [3][4] - 研究证明,融合视觉、听觉和文本信息的全模态模型在高阶交互任务上具有明显优势,音频是情感理解的关键,而融合全模态感知的思考能力是提升交互表现的有效方法 [4][9][18] 评估基准设计 - HumanSense Benchmark构建了4层认知阶梯,包含15项难度递增的评估任务,共计3882个源于真实数据的问答对 [4] - 评估任务覆盖从基础感知(L1)、复杂感知(L2)、上下文理解(L3)到反馈策略(L4)的全链条能力,系统地衡量大模型从“看见听见”到“理解思考”再到“恰当回应”的综合能力 [4][12] - 交互数据覆盖了面对面交流、文字聊天以及电话访谈等多模态场景,细粒度地拆解了人类交互过程 [4][12] 模型性能评估 - 人类受试者在HumanSense子集上取得了87.5%的平均准确率,而表现最好的模型Qwen2.5-Omni-7B为57.8%,即使顶尖模型如GPT-4o与人类表现仍有近30%的差距 [9][13] - 全模态模型得益于增加音频输入,在L3、L4两类高阶任务中的表现明显优于纯视觉模型,在谎言检测等任务上甚至超越了人类水平 [9][10] - 全模态消融实验证明,在社会关系、对话和谐度等任务上,增加音频输入能带来远超纯视觉的表现,语音是交互中不可或缺的信息维度 [4][14] 优化策略与推理能力 - 公司提出多阶段模态递进的强化训练方式,通过视觉先行、语音增强、边听边看综合判断三个阶段,让模型有效激发深度思考能力 [19][20][21] - 完整三阶段强化训练后,大多数任务都获得了最佳表现,例如心理咨询任务从0.399提升至0.619 [19][20] - 通过构建“感知关键特征和情绪-理解上下文-思考与回应”的提示词模板,即使免训练也能有效提升评估指标,证明了推理拓展在交互场景的有效性 [21] 下游应用与行业影响 - 全模态推理模型可输出包含主题、情感策略、表情与肢体动作等相互关联的结构化内容,为下游数字形象生成提供精细控制 [23][25] - 配套开源项目如Ditto-talkinghead支持基于单张图像的可控说话人生成,是首个支持实时视频生成的开源实现;VersaAnimator可实现语音驱动和肢体动作控制 [25][27][29] - 这些工作有潜力推动大模型交互应用从单一任务工具进化为有情感有表现的生活同伴,为用户提供情感支撑和生活支持 [25]
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-10-22 08:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶、具身交互、联合预测等技术 [3] - 其他关键方向包括SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理 [3] 合伙人资质要求 - 候选人需来自QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级会议论文成果的候选人将获得优先考虑 [4] 合伙人待遇与支持 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
合合信息推出多模态文本智能技术落地方案,助力AI实现智能推理
21世纪经济报道· 2025-10-21 16:29
行业发展趋势 - 多模态大模型正成为人工智能发展的重要方向,其利用文本、图像、音频、视频等多种信息形式进行表达、理解和交流 [1][4] - 根据2025年Gartner人工智能技术成熟度曲线,多模态AI将在未来五年内成为各行业提升所有应用和软件产品功能的核心技术 [4] - 行业对AI系统的需求正从“功能实现”向“业务赋能”深化,旨在推动AI系统从辅助工具进化为具备自主决策能力的业务伙伴 [15] 技术突破与创新 - 合合信息推出“多模态文本智能技术”方案,通过文本相关空间位置理解深层语义逻辑,实现对多模态信息的“立体化综合化理解” [3] - 哈尔滨工业大学车万翔教授分享“多模态思维链”技术,将推理逻辑分解为一系列可解释的跨模态推理步骤,以生成更精准可靠的结论 [4] - 南开大学周宇教授介绍系统化的OCR幻觉缓解方案,为提升多模态大模型的可视文本感知能力提供有效路径 [4][8] - 技术方案将文本智能认知程度从语义理解拓展到类人推理及自主机器决策,形成从感知到认知再到决策的技术实现路径 [15] 应用场景与案例 - 小红书hi lab团队分享基于单视觉语言模型的多语言文档布局解析工具“dotsocr” [9] - 华中科技大学刘禹良教授介绍首个覆盖甲骨文专家破译全流程的辅助考释框架AlphaOracle,在“劳”等字的辅助破译上取得突破 [11][12] - 合合信息文本智能技术帮助用户解决复杂场景下的文档图像问题,方案已在金融、医药、教育等专业领域开展应用 [8][15] - 技术方案处理对象从传统文档延伸至多种承载文本信息的媒介,如论文、财报、视频、自然场景,实现对业务流程的智能重构 [14][15]
RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward
机器之心· 2025-10-21 11:43
研究背景与问题定义 - 多模态大模型在高分辨率、结构密集的视觉信息(如地铁图)理解上面临挑战,容易出现看错线路、漏站、重复路线等推理幻觉 [3] - 传统强化学习方法在路径规划任务中面临奖励极度稀疏的困境,导致训练不稳定且效率低下 [3] RewardMap框架核心设计 - 框架包含两大核心组件:难度感知的细粒度奖励和多阶段强化学习 [10] - 采用课程式训练策略,先从易于获得稠密信号的问题类型开始,逐步迁移到复杂的路径规划任务 [10] - 奖励函数由格式合规、最终正确性和细节项三部分组成,其中细节项权重系数为α=0.5 [11] - 细节项奖励对起点/终点正确性、线路名称匹配、换乘站点合理性、路线分段数等要素分别评分,形成连续型信号而非全或无的评判 [11] 数据集构建 - 构建ReasonMap-Plus数据集,覆盖30座城市,包含4018个问题样本 [6] - 数据集明确区分五类细粒度题型(两类Local Counting、Global Counting、两类True/False),并为强化学习阶段提供细密监督 [6] - 数据集包含易/中/难三级难度标签,在训练/测试划分上保持城市与难度分布的多样性与均衡性 [6] 性能评估结果 - RewardMap在六项外部评测基准上均取得一致提升,在SpatialEval上的增幅最高达到+13.51% [13] - 在Qwen2.5-VL-7B-Instruct模型上,RewardMap相比基线RL在平均性能上提升+3.47% [14] - 质化对比显示,经过RewardMap训练的模型显著减少了视觉混淆和幻觉现象,在路线分段上更能匹配真实地图结构 [15] 应用价值与未来展望 - 该框架为高分辨率、强结构的视觉任务提供了一套可复用的强化学习范式 [17] - 基于地图数据的后训练被验证能提升多模态大模型的通用能力,未来这类真实数据将在模型不同训练阶段发挥更大作用 [18]
“百度不做”,仅仅一年,李彦宏反悔了
搜狐财经· 2025-10-20 16:59
行业战略转变 - 百度创始人李彦宏在2024年10月内部讲话中表示AI视频大模型投入周期过长可能10年或20年都无法获得业务收益因此百度不会去做此类模型 [1] - 2025年9月30日Sora 2发布后仅14天百度便高调推广其AI视频模型“百度蒸汽机”与谷歌Veo 3.1形成竞争态势显示公司战略从回避转向积极参与 [2] - 中国AI视频应用从2024年初Sora发布时的沉寂转变为2025年的火热各大厂商包括阿里、腾讯、字节、百度均推出产品市场竞争加剧 [4][12] 技术差距与演进 - 2024年2月Sora通过“建构现实”能力超越其他仅“模拟现实”的应用例如能再现咬苹果留下齿痕的物理规则细节提升视频真实感 [5] - 2024年中国大厂因基础大模型与Open AI、谷歌存在巨大差距优先聚焦追赶GPT-4而非开发文生视频模型导致初期回避Sora竞争 [10][12] - 2025年初深度求索推出“物美价廉”的DeepSeek模型减轻行业焦虑基础大模型竞争迭代加速成本下降推动多模态能力发展 [12] - 当前AI视频模型沿两大方向演进:视频质量提升如画面更真实、提示词更准确以及用户编辑能力强化如局部修改和对象增删 [15] - 音频即时生成功能填补了AI视频仅能制作“默片”的短板而测试显示Sora 2注重娱乐性谷歌Veo 3.1强调物理规则差异化竞争明显 [16][17] 商业化前景 - Sora 2通过成本降低和可用性增强用户可直接生成复杂电影片段减少修改需求AI演员如蒂利·诺伍德出现可能替代真人颠覆传统影视行业 [19][20] - Sora 2推出免费用户“一键创作视频”功能推动从网页端向APP移动端战略下沉通过个性化设计如插入用户形象加速社交传播 [22] - Open AI计划为创作者提供变现机制目标是让90%以上免费用户找到盈利途径构建类似TikTok的用户生产与消费闭环平台 [22][24] - 全球生成式AI视频竞争加剧但平台化机会有限同一类型“平台”数量不会太多导致厂商间血腥厮杀以争夺主导地位 [24]
让模型“看视频写网页”,GPT-5仅得36.35分!上海AI Lab联合发布首个video2code基准
量子位· 2025-10-19 12:10
行业技术发展现状与瓶颈 - 多模态大模型在静态截图生成网页代码方面已展现出不俗能力,但网页的真正价值在于其动态交互功能,这是传统静态评测的盲区[1] - 为填补评估交互式网页重建能力的关键空白,上海人工智能实验室与浙江大学等机构联合提出了IWR-Bench评测基准,标志着AI从“看懂静态网页”到“理解动态交互”的关键一步[1][20] - 新基准的任务复杂性跨度很大,从简单的浏览功能到需要逆向工程游戏规则的2048、订机票等应用,难度远超预期[2] IWR-Bench评测基准核心特点 - 评测核心转变在于要求模型观看一段记录完整用户操作流程的视频,并结合网页全部静态资源,去理解并复现整个页面的动态行为,即从“image-to-code”迈向“video-to-code”[2][5] - 基准覆盖113个真实网站任务和1001次交互动作,平均每任务8.9步,包含2048、扫雷等完整游戏逻辑与GUI重建的复杂任务[5][12] - 引入自动化Agent-as-a-Judge评测协议,通过编程代理复现动作轨迹,采用双重评分体系同时评估功能正确性与视觉保真度[5][10][11] 主要模型评测结果 - 对28个主流模型的全面测试显示,最佳模型GPT-5的综合得分仅为36.35分,其交互功能分数为24.39%,视觉保真度分数为64.25%[2][13][14] - 所有模型的视觉保真度分数均显著高于交互功能分数,揭示模型能较好复现静态视觉效果,但在生成事件驱动逻辑方面严重不足,功能实现是最大瓶颈[14][16] - “thinking”版本模型普遍表现更好,但提升幅度有限,基础模型能力仍是决定性因素[17][18][19] - 专门针对视频理解的模型表现垫底,通用多模态大模型表现更优,表明该任务与传统视频理解任务具有显著差异性[20] IWR任务对模型的核心挑战 - 任务对模型提出三大核心挑战:从视频帧精准捕捉布局、文本与组件状态的多模态理解能力[8] - 挑战还包括在时间序列中推断交互逻辑与因果关系,并将视频元素与静态资源可靠匹配与绑定的多模态推理能力[8] - 最终挑战是将推断出的状态机与事件逻辑实现为可运行前端代码的高级代码生成能力[8]