Workflow
推理
icon
搜索文档
大模型在自动驾驶后期的落地与研究方向有哪些?
自动驾驶之心· 2025-07-08 07:31
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受行业重点关注 [1] 大模型优化课程核心内容 - 课程系统探讨大模型前沿优化方法,聚焦参数高效计算、知识动态扩展和复杂推理三大方向 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等范式 [2] 课程技术重点 - 结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等关键技术 [2] - 使用LLaMA、GPT等主流大模型作为实验平台 [2] - 多智能体协作和多模态理解等前沿方向 [2][3] 课程安排与产出 - 12周在线小组科研+2周论文指导+10周论文维护期 [7] - 每周1-1.5小时课程,涵盖大模型剪枝、量化加速、PEFT、多智能体协作等主题 [18][20] - 最终产出包括论文初稿、写作方法论、投稿建议 [6][7] 学员收获 - 系统掌握大模型优化理论体系,解决知识零散问题 [6] - 获得导师提供的定制化研究idea和baseline代码 [7][17] - 提升Coding能力,掌握论文写作与投稿技巧 [6][7] 技术要求与资源 - 需具备PyTorch和Python基础,建议配备4张4090显卡 [13] - 提供公开数据集和Baseline代码,包括LLM-Pruner、LLaVA等开源项目 [15][16][17] - 必读论文涵盖GPTQ量化、Sheared LLaMA剪枝等前沿研究 [17][19]
万通智控20250707
2025-07-08 00:32
纪要涉及的公司 万通智控 纪要提到的核心观点和论据 - **主营业务及发展情况**:主营业务包括传感器、气门嘴和金属软管等产品 [3] - **传感器相关产品**:2025 年第一季度增长约 40%,第二季度继续保持增长,新产品如传感器及车联网产品(MLP 产品)增长显著 [3] - **金属软管业务**:2025 年第一季度下滑约百分之十几,原因待分析 [4][11] - **气门嘴业务**:长期保持平稳,2024 年略有增长 5.9%,营收约两亿多,利润 2000 - 3000 万元,预计 2025 年类似 [15] - **机器人项目合作**:4 月底与浙江大学成立研发中心,5 月底与玄武山机器人公司签订框架协议,合作领域包括机器人关节手上的温度压力传感器、电子皮肤和气动肌肉,项目进入科研报告中后期,预计 50 - 70 个工作日完成报告 [3] - **与 AI 推理芯片公司合作**:双方意向强烈,芯片可用于机器大脑和智能驾驶领域,但尚未正式签订协议 [3] - **商用车 NLP 产品** - **技术优势**:安装在轮胎外部,无需剥开轮胎,体积小、电池功耗低、安装方便,性价比高,毛利率 60% - 70% [5] - **市场表现**:2025 年上半年订单量约 5 万套,每套标准版约 2000 元,总订单金额数亿元,受欧美大型车队青睐 [2][5] - **优势原因**:商用车对传感器要求高,传统 TPMS 安装成本高,NLP 便于安装,还能优化油耗管理、降低爆胎风险和维护成本 [6] - **国内市场 TPMS 推广情况** - **乘用车**:中国 2020 年 1 月 1 日起强制新出厂乘用车安装 [7] - **商用车**:中国未强制要求,自营物流公司如顺丰、京东等开始逐步安装,公司与挂车整车厂合作推广 TPMS 系统和车辆联网产品作为标配 [2][7] - **出口业务影响**:中美贸易战对出口影响有限,公司在美国、捷克、德国和泰国等地有本土化生产基地,可快速本地化生产,加税成本主要由客户承担 [2][7] - **未来业务增速预期**:未来两三年利润年增长目标为 20% - 30%,基于董事长稳健保守的发展策略 [2][8] - **乘用车 TPMS 业务结构及客户分布**:约 80% - 90%产品销往海外售后市场,因整车厂采购价格低、回款周期长 [4][10] - **海外公司运营情况**:收购的海外公司保持盈利且增长明显,收购 Westphalia 后迅速盈利,因其基础好、技术优、客户群体稳定 [4][12][14] - **欧洲市场环境影响**:2024 年营业收入下降,2025 年一季度延续,但对利润影响较小,因相关产品毛利率低,传感器产品毛利率高对利润贡献大 [13] - **与芯片公司合作方式**:一是与浙大成立联合研发中心,项目明确后成立项目公司,万通出资 50%以上,浙大技术出资 30%以上,其余校友企业合作;二是与推理芯片公司成立合资公司,具体方式未明确 [16] - **进军巨升智能领域原因**:浙大希望科研成果市场化,万通有传感器生产经验,两者匹配度高,且认为机器人领域是未来趋势,计划长期投入 2 - 8 年 [17] - **单车 SP MLP 产品价格构成**:约 2000 元,包括 18 - 20 个轮胎传感器、一个接收机和一个 TBOX [18] 其他重要但是可能被忽略的内容 - 成功收购 Westphalia 是创业板经典案例,豁免 150 个交易日内披露标的公司审计报告,无业绩承诺和对赌条款,监管部门提示风险 [12] - 经销商如飞利浦可能与车队建立特定电网平台,用于监测行驶路径、胎温胎压等数据 [6]
复盘国内外AI,兼论恒生科技
小熊跑的快· 2025-07-07 17:45
股市表现 - 纳斯达克累计涨幅32 9% 恒生科技指数ETF(513180)累计涨幅11 57% 上证涨幅12 16% A股整体涨幅不及美股且结构差异显著 [1] AI芯片趋势 - 资金从训练GPU转向推理ASIC芯片 H100和H200主力云上价格自2月28日后持续下行 [3] - 基础大模型迭代放缓 3月B200交付后模型升级速度明显下降 行业转向RL强化学习路径 [5] - H100和H200租赁价格下降因RL阶段算力需求减少及中国厂商减少高性能芯片堆叠 [5] 数据与推理需求 - GPT5训练数据中合成数据占比达50% 显著高于GPT4 未来高质量数据获取成关键 [6] - 微软25Q1 Token总量超100万亿同比增5倍 谷歌4月Token处理量从9 7万亿飙升至480万亿增幅50倍 国内豆包大模型5月日均Tokens达16 4万亿较24年底增4倍 [7] - 推理芯片价格持续上涨 L4和A10等传统推理芯片需求旺盛 显示模型精度已具备实用价值 [6] ASIC芯片发展 - OpenAI自去年10月启动ASIC设计 2025-2027年为ASIC快速发展期 博通等厂商受益 [7] - 英伟达推出柜式机争夺推理市场 寄望ASIC迭代失败后客户回归B200和GB300 [7] - ASIC芯片前两代即使存在瑕疵也会推进 最快2027年才可能宣告失败 期间行业刺激将持续 [10] 港股科技股 - 港股科技股反弹弱于美股 恒生科技指数成分股如阿里腾讯仍处低位 三季度ASIC芯片供应改善或带动capex触底反弹 [9] - 市场对云收入增长预期保守 但全年目标1350亿以上 Q2同比增速或超15% [9]
刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3
量子位· 2025-07-07 15:43
WebSailor团队 投稿 量子位 | 公众号 QbitAI 在互联网信息检索任务中,即使是很强的LLM,有时也会陷入"信息迷雾"之中:当问题简单、路径明确时,模型往往能利用记忆或一两次搜索 就找到答案;但面对高度不确定、线索模糊的问题,模型就很难做对。 举个例子,我们平常问一个直白的问题(比如"某城市的人口是多少"),搜索引擎一查即可。 但如果问题被设计得非常复杂,比如"这首与南美某首都密切相关的乐曲,其歌词作者在21世纪初获颁当地荣誉称号,其旋律创作者曾就读于 哥伦比亚西部的一所著名艺术学院。这首乐曲叫什么?",人类和AI都很难直接找到入口。 这类问题需要阅读许多网页、抽丝剥茧地拼凑线索,逐步把迷雾拨开,才能找到答案。这超出了人类有限记忆和注意力的负荷,也远远超出了 普通开源模型的能力范围。 有没有办法让开源的大模型也掌握这种拨云见日的本领? 阿里巴巴通义实验室最新提出的方案WebSailor通过一整套创新的post-training方法,大幅提升了开源模型在复杂网页推理任务上的表现。 此前开源的Agent在类似BrowseComp这样复杂的、超越人类能力边界的基准上几乎为零,WebSailor成为首个 ...
AI芯片新贵Groq在欧洲开设首个数据中心以扩大业务
智通财经网· 2025-07-07 15:03
公司动态 - 人工智能半导体初创公司Groq宣布在欧洲建立首个数据中心,选址芬兰赫尔辛基,与Equinix公司合作 [1] - Groq公司估值28亿美元,获得三星和思科投资部门支持 [1] - Groq设计的语言处理单元(LPU)芯片专为人工智能推理而非训练设计,功能类似热门聊天机器人生成答案 [1] - Groq目前在美国、加拿大和沙特阿拉伯设有采用其技术的数据中心 [2] 行业趋势 - 欧洲对人工智能服务需求增长,吸引美国公司加大投资,北欧地区因可再生能源和凉爽气候受青睐 [1] - 英伟达首席执行官黄仁勋近期在欧洲签署多项基础设施协议,包括数据中心建设 [1] - 人工智能推理芯片市场竞争激烈,除Groq外,SambaNova、Ampere、Cerebras和Fractile等初创企业参与竞争 [1] 技术合作 - Equinix作为全球数据中心建设商,连接亚马逊、谷歌等云服务提供商,简化企业使用多供应商流程 [2] - Groq的LPU将安装在Equinix数据中心,企业可通过Equinix访问Groq的推理能力 [2] 政策环境 - 欧洲政客推动"主权人工智能"理念,要求数据中心设在本地区以提升服务速度和数据主权 [2]
从多模态融合到行业深扎,国内 AI 大模型三大发展方向解析
搜狐财经· 2025-07-07 11:36
技术深化方向 - 多模态融合成为大模型发展重点 科大讯飞的星火认知大模型通过综合判断语音、手势、行为、情绪等提供更自然交互 并首发汽车端侧星火大模型赋能汽车产业 字节跳动的豆包强化多模态能力 其视频生成模型Seedance 1.0 pro在国际评测中表现优异 未来大模型将更精准融合文本、图像、语音等多模态信息 [2] - 推理能力持续提升 字节跳动的豆包1.6-thinking在复杂推理、竞赛级数学等测试中跻身全球前列 多轮对话能力达企业级应用标准 百度文心一言通过引入外部知识源提升知识水平和回答准确性 [2] 应用拓展方向 - 行业深度赋能趋势明显 科大讯飞计划将星火大模型从通用走向行业 覆盖汽车、教育、医疗、智慧城市等领域 百度、阿里等公司也在金融、工业、政府、科研、电商领域探索定制化应用 [3] - 智能应用创新加速 字节跳动提出"互联网从APP时代进入Agents时代" 火山引擎方舟平台构建了服务Agent开发完整体系 催生他她它、推氪AI等创新产品 未来大模型将与新兴技术结合创造智能助手、创作工具等应用 [3] 生态建设方向 - 开源共享成为重要趋势 2025年以来字节豆包、百度文心、阿里通义千问等推出开源模型 商汤科技发布LazyLLM开源框架 MiniMax开源新一代MiniMax-01系列模型 通过开源吸引开发者提升模型性能 [4] - 产业生态构建持续推进 国内出台政策支持AI产业发展 上海模速空间覆盖算力层、数据层、基础大模型层和应用层全产业链 未来研发机构将加强与上下游合作构建完整产业生态 [4]
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 13:23
多模态大语言模型(MLLMs)与强化学习(RL)的融合 - 多模态大语言模型在视频推理等任务中快速进化,强化学习作为关键引擎显著提升模型推理能力 [1] - DeepSeek-R1通过纯RL优化实现推理能力质的飞跃,VideoR1引入T-GRPO增强视频时空逻辑拆解能力,VideoChat-R1通过多任务联合微调提升视频理解与多步推理表现 [1] - 当前RL优化面临思维链推理在多模态任务中效率低下、稀疏二元奖励信号忽略部分正确答案两大挑战 [1] TW-GRPO框架的创新设计 - TW-GRPO框架由多所高校联合提出,通过聚焦思维和密集奖励粒度增强视觉推理,解决传统GRPO的推理质量与奖励粒度问题 [2][7] - 动态加权机制通过分析token信息熵优先处理高信息密度内容,规避冗余干扰,提升推理精度与效率 [4] - 多层次奖励机制将单选题QA拓展为多选任务,结合视频定位IoU软奖励机制,对部分正确答案给予梯度反馈,改善训练稳定性 [5][9] - 问答反转(QAI)技术通过否定问题与反转答案扩充多选训练数据,解决数据稀缺问题 [6][9] TW-GRPO的性能表现 - 在CLEVRER、NExT-GQA和MMVU基准测试中,TW-GRPO分别以50.4%、76.1%和65.8%准确率超越Video-R1达18.8%、1.8%和1.6% [15][16] - 通用视频理解任务中,TW-GRPO在MVBench和TempCompass基准分别保持63.3%和73.3%的领先准确率,较基线模型最高提升0.4% [16] - 训练动态显示TW-GRPO奖励标准差收敛更快,输出序列长度缩短17%-23%,验证其推理简洁性与稳定性 [17][18][20] 技术实现细节 - Token重要性加权采用KL散度量化分布差异,通过最小-最大归一化与超参数α控制权重缩放,实现位置敏感优化 [8] - 多选软奖励设计借鉴视频定位IoU机制,依据预测与真实答案重叠度赋予分数,显著降低奖励波动 [9][10] - 实验基于Qwen2.5-VL-7B模型,使用NVIDIA H800 GPU处理128×28×28分辨率视频帧,推理时提升至256×28×28 [12] 定性分析案例 - 在MMVU密度估计任务中,TW-GRPO精准提取视频关键数值并正确应用阿基米德原理,而T-GRPO因错误假设体积导致计算结果偏差 [19][21][22] - 对比显示TW-GRPO在因果推理、定量推理和动态视觉线索处理方面具有显著优势 [22][24]
想清楚再动手:具身智能也要学会脑补未来和择优执行 | RSS 2025
机器之心· 2025-07-05 13:53
研究团队与背景 - 第一作者吴怡琳为卡内基梅隆大学机器人学院博士生,研究方向为开放世界物体操控与机器人终身学习,曾获ICRA最佳论文等荣誉[1] - 第二作者田然是UC Berkeley博士生兼NVIDIA研究科学家,专注于机器人基础模型的安全与偏好对齐研究,获多项国际奖项[2] - 该研究获2025 ICLR World Model Workshop最佳论文奖,并被2025 Robotics: Science and Systems会议接收[3] 研究核心问题 - 当前具身智能模型在真实部署中面临"学得像但用不好"的困境,面对环境扰动时成功率常低于30%[3][21] - 核心难题在于如何让机器人在部署阶段具备"推理能力"(Test-Time Intelligence),无需额外数据即可预判风险并调整策略[5] FOREWARN框架设计 - 采用"预见(Foresight)"与"深思(Forethought)"双模块架构,分解为"模拟未来"和"评估未来"两大任务[11] - 世界模型在低维隐空间预测候选动作的环境状态变化,通过离线学习实现高效未来推演[11] - 多模态语言模型将隐空间预测解码为自然语言,结合任务目标与用户意图进行语义评估[12] 系统工作流程 1 候选动作采样与聚类:保留K个代表性动作[16] 2 隐空间未来预测:世界模型预测动作的未来演化[16] 3 语义转译:多模态语言模型将预测转为自然语言描述[16] 4 最优方案筛选:基于语义评估选择最契合意图的动作[16] 创新亮点 - 首次实现世界模型隐空间与多模态语言模型语义空间的对齐[18] - 实现端到端自动化决策,无需人工示范即可实时筛选最优方案[19] - 在基础操作和复杂任务中均展现卓越泛化能力[20] 实验结果 - 引入FOREWARN后成功率从30%提升至70%-80%[21] - 在任务指令变化或感知干扰时仍能维持60%-80%成功率[21] - 有效弥合离线训练与在线部署的能力鸿沟[21] 未来挑战 - 需提升底层生成策略的多样性与泛化能力[23] - 世界模型对大规模数据依赖较强,数据稀缺时性能可能下降[23] - 需优化大模型设定下的推理效率与算力成本[23]
大模型这个坑,还有哪些可以发论文的点?
具身智能之心· 2025-07-05 10:25
大模型优化课程核心内容 - 课程聚焦大语言模型(LLM)和多模态模型的前沿优化技术,涵盖参数高效计算、知识动态扩展和复杂推理三大方向 [1] - 关键技术包括结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等,实验平台采用LLaMA、GPT等主流模型 [1] - 重点解决参数压缩(剪枝稀疏化/量化加速)、知识扩展(RAG/PEFT)和推理优化(CoT/GRPO)等核心挑战 [1] 课程结构与招生信息 - 采用12周在线科研+2周论文指导+10周维护期的教学模式,每期限招6-8人 [3][10] - 目标学员包括大模型方向本硕博学生、科研人员及AI从业者,需具备PyTorch和Python基础 [4][5] - 硬件要求最低配置2张NVIDIA 4090显卡,推荐4张或使用云服务器 [11] 课程产出与学术支持 - 学员将获得定制化研究idea、baseline代码及公开数据集,最终完成论文初稿 [10][13][14] - 论文指导覆盖SCI 1-4区和CCF A/B/C类会议,提供从选题到投稿的全流程方法论 [18] - 必读论文包括GPTQ量化(NeurIPS 2023)、Sheared LLaMA剪枝(ICML 2024)等前沿成果 [15][17] 课程技术模块 - 剪枝量化模块:涵盖结构化剪枝算法、GPTQ量化技术及TVM编译器优化 [15] - 知识扩展模块:通过RAG解决幻觉问题,采用PEFT实现垂类任务高效微调 [16] - 推理增强模块:包含Chain-of-Thought多步推理和GRPO强化学习优化 [16][17] - 多模态扩展:涉及LLaVA视觉语言模型和Flamingo多模态学习框架 [15][17] 教学安排与服务 - 每周1-1.5小时专题授课,包含多智能体协作、动态知识扩展等14个核心模块 [16][18] - 采用腾讯会议直播+小鹅通回放形式,提供6个月答疑周期和学术诚信监督 [18] - 课程产出包括顶会论文模板应用、动机凝练方法和选刊投稿策略 [18]
以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理
机器之心· 2025-07-04 16:59
核心观点 - 游戏代码可自动合成视觉推理数据,提升AI几何与图表推理能力 [1][4] - 游戏具备三大优势:规则明确、因果推理链完整、LLM生成成本低 [12] - Code2Logic方法通过LLM三步骤转化游戏代码为多模态推理数据 [13][14][15] - GameQA数据集含14万问答对,覆盖4类认知能力与30种游戏 [18][21] - 游戏数据训练使模型在域外任务和通用基准上均获显著提升 [24][25][26] 研究方法 - 游戏代码构建:LLM自动生成完整游戏逻辑(如推箱子) [13] - QA模板设计:从代码提取推理模式并设计任务模板 [14] - 数据引擎构建:自动化生成问答实例且保证正确性 [15] - 数据集特点:细粒度难度控制(Easy/Medium/Hard三级) [20] - 对比实验:5K GameQA样本效果优于8K几何数据集 [28][29] 数据集表现 - 人类在域内游戏测试准确率达84.75%,Claude-3.5仅47.69% [22] - Gemini-2.5-Pro表现最佳达58.95%,仍显著低于人类 [22] - 开源模型Qwen2.5-VL-7B训练后平均提升2.33% [25][26] - InternVL3-8B在MathVista达73%,超几何数据集67.63% [26][29] - 游戏多样性提升域外泛化效果1.80% [37] 模型能力分析 - 3D空间感知是最大短板,易混淆物体高度关系 [42] - 非网格化场景(如祖玛)中模式识别困难 [43] - 多次识图易受文本干扰导致图文不符 [44] - 策略规划能力不足,缺乏直觉剪枝能力 [45] - GRPO训练后视觉感知提升10.94%,文本推理提升14.95% [32] 行业意义 - 首次验证游戏作为可验证环境提升通用智能的潜力 [48] - 低成本可扩展数据合成方法突破多模态数据稀缺瓶颈 [4][19] - 游戏认知多样性能迁移至数学等非对口领域 [29] - 揭示当前VLMs在3D感知和策略规划的根本缺陷 [42][45] - 为多模态大模型训练评估提供理想数据源 [48]