Workflow
基础模型
icon
搜索文档
TUM最新!全面梳理自动驾驶基础模型:LLM/VLM/MLLM/扩散模型和世界模型一网打尽~
自动驾驶之心· 2025-07-29 08:52
自动驾驶基础模型综述 - 文章全面梳理了自动驾驶中LLM/VLM/MLLM/扩散模型和世界模型的最新工作,系统总结了相关数据集和BenchMark [1][2] - 基础模型在复杂驾驶场景合成与解读方面展现出强大潜力,可处理异构输入如自然语言、传感器数据等 [2][9] - 综述提出了统一分类体系,涵盖LLMs、VLMs、MLLMs、DMs和WMs在自动驾驶场景生成与分析中的应用 [2][14] 技术发展现状 - Waymo等公司已实现SAE四级自动驾驶商业化,2025年每周可提供25万次载客服务 [7] - 基于仿真的场景测试成为关键验证方法,可复现真实数据集中缺失的边缘案例 [8][21] - 基础模型通过大规模预训练获得通用知识,能高效适应特定AD任务 [9][10] 模型应用进展 - LLMs在场景评估中依赖高消耗提示词,新兴推理模型可能实现更高效零样本评估 [30] - VLMs通过BEV特征提取、VQA执行等技术应用于感知和预测任务 [34][36] - DMs通过前向加噪和反向去噪过程生成高质量场景样本 [42][44] 数据集与工具 - nuScenes和Waymo Open成为最具影响力的数据集,分别被引用52次和19次 [51] - CARLA、MetaDrive等仿真平台在研究中被广泛使用 [53] - 行业已建立多个基准挑战赛推动技术进步,如CARLA AD Challenge等 [54] 未来研究方向 - 需提升生成场景的真实性,将物理模型与数据驱动方法结合 [55] - 应开发专门针对罕见事件的生成方法,建立针对性数据集 [55] - 需创建多模态融合的大规模数据集,解决当前可扩展性问题 [56] - 行业亟需开发标准化评估指标和KPI体系 [56]
硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
机器之心· 2025-07-28 12:24
大模型技术演进与发展之路 核心观点 - 大模型技术从预训练为主转向强化学习主导的范式转变 [10][17][19] - 行业面临Transformer架构局限性、数据枯竭、开源闭源博弈等核心挑战 [31][41][59] - Agent应用爆发与基础模型研发需双轨并行 [53][54][55] 训练范式转变 - OpenAI从GPT-4o的预训练主导转向o1的强化学习后训练,提出测试时间扩展新维度 [13][14][15] - 强化学习可解决行为克隆难以建立目标导向推理能力的问题,但需突破自然语言反馈限制 [21][22][23] - 预训练仍是强化学习冷启动的基础,但需解决奖励机制和算力效率挑战 [25][26][27] 模型架构演进 - Transformer面临O(n²)扩展性、显存占用和长期记忆三大瓶颈 [31] - 优化路径包括RoPE位置编码、分组查询注意力等改进,以及Mamba等非Transformer架构探索 [33][34] - 智能体时代可能推动RNN架构回归,需建模无限上下文能力 [37][38] 数据供给挑战 - 高质量语料预计2028年耗尽,合成数据被Anthropic/OpenAI等广泛应用但存在迭代崩溃风险 [41][42][43] - 英伟达提出物理仿真生成边缘案例,需建立真实世界验证闭环 [44][45] - 行业数据未充分挖掘,应建立非敏感数据共享机制提升预训练质量 [46][48][51] 商业化落地路径 - 2025年Agent产品成爆点(如OpenAI Operator、智谱AutoGLM),但基础模型研发仍持续 [53][54] - 大模型当前相当于自动驾驶L3阶段,距AGI仍有差距 [55] - 金融等领域落地需突破大规模数据处理等技术瓶颈 [56][57] 开源生态影响 - DeepSeek等开源模型性能逼近闭源,冲击传统GPU/闭源产业链 [60][61] - 开源推动资源合理配置并形成行业压力,但需解决分叉滥用问题 [63][64][67] - 英伟达支持开源算力引擎,未来可能走向混合模式 [65][66]
启明创投于WAIC 2025再发AI十大展望:围绕基础模型、AI应用、具身智能等
IPO早知道· 2025-07-28 11:47
启明创投AI投资布局 - 公司是中国AI领域最早投资且布局最丰富的投资机构 累计投资100余个AI项目 覆盖AI产业全链条 [2] - 连续第三年主办世界人工智能大会"创业与投资论坛" 主题聚焦AI技术与应用共振周期 [2] 基础模型发展 - 未来12-24个月 200万Token上下文窗口将成为顶级AI模型标配 更精细的上下文工程成为核心驱动力 [4] 多模态模型突破 - 通用视频模型有望在12-24个月内出现 实现视频模态下的生成 推理与任务理解 推动内容生成与交互革新 [6] AI Agent演进 - Agent形态将从"工具辅助"转向"任务承接" 首批"AI员工"将参与企业核心流程 具备协同作业和OKR承担能力 [8] - 多模态Agent将融合视觉 语音等输入 在医疗 金融 法律行业实现复杂推理与任务执行突破 [9] AI基础设施创新 - AI芯片领域将出现更多国产GPU批量交付 3D DRAM堆叠与通算融合的新一代云端芯片崭露头角 [11] - Token消耗量将提高1-2个数量级 集群推理优化与软硬协同成为降低Token成本核心技术 [12] AI应用趋势 - AI交互范式转移加速 用户对手机依赖减弱将催生AI原生超级应用 [14] - 垂直场景AI应用潜力大 初创公司以"Go Narrow and Deep"策略与大厂差异化竞争 [15] - AI BPO模式将实现商业化突破 从"交付工具"转向"交付结果" 在金融 客服等行业快速扩张 [15] 具身智能发展 - 具身智能机器人将在拣选 搬运等场景规模化部署 积累第一视角数据构建"模型-本体-场景数据"闭环飞轮 [17]
月之暗面Kimi发布MoE架构基础模型K2并同步开源,总参数1T
快讯· 2025-07-11 23:00
模型发布 - 月之暗面Kimi发布MoE架构基础模型K2并同步开源 [1] - 模型总参数1T,激活参数32B [1] - 在自主编程、工具调用、数学推理等领域超越全球其他开源模型 [1] 技术优化 - 使用MuonClip优化器实现万亿参数模型的高效训练 [1] - 在高质量数据遇到瓶颈的背景下通过提升Token效率找到新的预训练扩展空间 [1] 模型能力 - 具备更强代码能力,擅长通用Agent任务 [1] - 在多个实际场景中展现出更强的能力泛化及实用性 [1] - 新模型目前已上线开放体验 [1]
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
具身智能之心· 2025-07-11 08:57
具身智能研究综述 - 文章整理了数十篇具身智能领域的综述论文,涵盖数据集、评测、视觉-语言-动作模型(VLA)、视觉语言导航(VLN)、强化学习、基础模型和扩散策略(DP)等方向 [1] 视觉-语言-动作模型(VLA) - 从动作标记化视角综述VLA模型的发展 [2] - 自动驾驶领域的VLA模型应用现状 [2] - VLA模型后训练与人类运动学习的类比研究 [2] - 探讨VLA模型的概念、进展、应用与挑战 [5] - 机器人视觉中的多模态融合与VLM应用 [6] 机器人基础模型 - 机器人领域基础模型的应用现状与未来挑战 [3] - 深度强化学习在机器人领域的实际应用案例 [3] - 扩散策略在机器人操作中的分类与发展方向 [3] - 面向具身AI的机器人基础模型研究进展 [9] 工业机器人技术 - 具身智能工业机器人的概念与技术框架 [4] - 受神经科学启发的具身智能体框架Neural Brain [4] 机器人导航与操作 - 物理模拟器在具身AI时代的机器人导航与操作应用 [5] - 目标导向导航的多模态感知技术 [5] - 扩散模型在机器人操作中的应用现状 [5] - 基于模仿学习的灵巧操作技术综述 [5] - SE(3)等变机器人学习与控制方法 [6] 多模态大模型 - 具身多模态大模型的发展与数据集建设 [8] - 大模型在具身AI中的研究挑战 [8] - 网络视频数据在通用机器人学习中的应用 [9] 数据集与评测 - 通用型具身智能体数据集标准建设 [9] - 人形机器人远程操作技术研究 [9]
扎克伯格,上亿美元抢人的另一面
投中网· 2025-07-08 14:54
核心观点 - Meta近期通过高薪挖角和收购策略加速AI领域布局,包括以数千万美元薪酬挖走苹果基础模型团队负责人Ruoming Pang[6][8][11][12] - 公司一个月内完成收购Scale AI(140亿美元)、挖走OpenAI多名高级研究员(最高年薪1亿美元)、建立超级智能实验室等系列动作[12][13][26] - AI行业出现极端薪酬分化现象,顶尖人才薪酬堪比职业运动员(如1亿美元年薪相当于国内百万年薪者700年收入),但基层员工面临裁员压力[24][27][29][37] - Meta内部AI团队架构重组引发管理冲突,28岁Scale AI创始人Alexandr Wang出任首席人工智能官,可能导致65岁首席科学家杨立昆汇报关系变化[44][45][48] - 公司同时推进两种技术路线(开源物理世界模型vs闭源文本模型),造成资源争夺和团队张力[50][51][53] 人才竞争态势 - Meta为OpenAI研究员开出四年3亿美元薪酬套餐,部分人首年收入可达1亿美元[12][23] - OpenAI被迫重新评估薪酬体系,其2023年股权激励达44亿美元(占营收119%),原计划2030年降至10%但面临调整压力[15][16][17] - 美国科技行业呈现"边裁员边高薪挖人"现象,Meta/微软2024年分别裁员3600/9000人,但AI岗位需求年增21%[33][34][63] - 入门级AI工程师薪酬比其他领域高8.5%,中高级AI工程师溢价达11%[63] 组织架构调整 - 新成立的超级智能实验室(MSL)整合FAIR等原有团队,由Alexandr Wang领导并直接向扎克伯格汇报[41][42] - FAIR团队创始人杨立昆保留首席科学家头衔,但管理权限被削弱,其倡导的开源路线与新团队闭源倾向形成冲突[45][50][51] - 内部资源分配不均导致研究员需自行寻找空闲GPU,麻省理工报道的明星研究员Zeyuan Zhu公开抱怨计算资源短缺[54][55][56] 行业影响 - 科技公司30-50%代码已由AI生成,可能压缩初级工程师成长空间[62][63][64] - 基层员工担忧被AI工具取代,案例显示有创业者通过AI作弊获取大厂offer后选择创业[66][69] - Blind平台员工吐槽新实验室是"营销产物",GenAI团队成员担忧被边缘化[30][31][59]
被 AI 大厂逼至绝望,这帮欧洲人发起了一场“科学复兴运动”
AI科技大本营· 2025-06-24 15:45
LAION的起源与使命 - LAION诞生于对AI领域"黑箱"研究现状的反思,旨在通过开放数据集和工具推动机器学习研究的可复现性[7][12][13] - 由德国高中教师Christoph Schuhmann发起"在家爬虫"计划,后联合程序员Theo Coombes共同创建去中心化协作网络[2][3] - 核心信条为100%非营利与免费,目标是通过开放资源对抗AI发展的集权化趋势[3][9][26] 组织架构与关键成员 - 采用分布式实验室网络模式,核心成员包括尤利希超级计算中心的Jenia Jitsev博士、斯坦福大学Ludwig Schmidt教授等[5][9][11] - 依托德国亥姆霍兹联合会的超级计算资源,实现工业级模型训练能力[9][14] - 志愿者社区涵盖科学家、工程师、医生等多元背景,形成互补型人才网络[3][5] 技术突破与行业影响 - 成功构建LAION-400M/5B开放数据集,训练出的OpenCLIP模型性能媲美OpenAI原始CLIP[16][17] - OpenCLIP B32模型持续产生影响力,月下载量超100万次[17] - 验证了开源社区通过协作可复现顶尖实验室成果的可能性[16][26] 研究范式与学术理念 - 强调"以数据为中心"的机器学习理念,主张网络规模数据集的多样性优于人工筛选[21][22] - 遵循"苦涩的教训"原则,追求算法与数据集的双重可扩展性[22][23] - 通过OpenThoughts等项目推动推理模型发展,已积累100万条推理轨迹数据[41][43] 行业问题与批判 - 揭示大语言模型存在根本性逻辑缺陷,简单数字变化即可导致GPT-4等顶尖模型性能崩溃[35][36] - 指出商业模型过度自信的"虚构"问题可能对实际应用造成隐蔽风险[37][38] - 批评封闭实验室因商业压力可能偏离基础研究方向[27][28] 未来发展方向 - 计划扩大推理数据规模至数百万条,验证量变能否引发质变[41][43] - 寻求与Linux基金会等组织建立更紧密的开放生态合作框架[45] - 持续通过"爱丽丝梦游仙境"等研究对行业进行压力测试[33][38]
自动驾驶基础模型全面盘点(LLM/VLM/MLLM/扩散模型/世界模型)
自动驾驶之心· 2025-06-21 19:18
基础模型在自动驾驶场景生成与分析中的应用 - 基础模型(Foundation Models)能够处理异构输入(如自然语言、传感器数据、高清地图和控制指令),实现对复杂驾驶场景的合成与解析 [2] - 文章提出了一个统一分类体系,涵盖大语言模型(LLMs)、视觉-语言模型(VLMs)、多模态大型语言模型(MLLMs)、扩散模型(DMs)和世界模型(WMs)在自动驾驶场景生成与分析中的应用 [2] - 传统场景生成方法存在多样性有限和难以生成真实高风险场景的问题,而基础模型可以解决这些挑战 [2] 语言模型在场景生成中的应用 - 使用GPT-4、Claude 3.5 Sonnet、Gemini 1.5 Pro等大语言模型生成安全关键场景 [9] - 采用CoT(Chain-of-Thought prompting)、ICL(In-Context Learning)、RAG(Retrieval-Augmented Generation)等技术 [9] - 在CARLA、MetaDrive、SUMO等仿真平台上测试生成的场景 [9] 视觉-语言模型在场景分析中的应用 - 使用BLIP2、InstructBLIP2、MiniGPT4等视觉-语言模型进行场景理解和视觉问答 [18] - 在nuScenes、Waymo Open等数据集上进行感知、预测和规划任务 [18] - 采用零样本学习、LoRA(Low-Rank Adaptation)等技术 [18] 扩散模型在场景生成中的应用 - 使用DDPM、DiT、LDM等扩散模型生成交通流和静态交通元素 [27] - 可以控制场景参数如速度、目标航点、交通密度等 [27] - 在nuScenes、Argoverse 2、WOMD等数据集上进行测试 [27] 世界模型在场景生成中的应用 - 使用GAIA-1、DriveDreamer等世界模型进行未来预测和场景生成 [33] - 采用自回归、扩散等架构 [33] - 在nuScenes、Waymo Open等数据集上进行训练和测试 [33] 数据集和仿真平台 - nuScenes、Waymo Open、DRAMA、HighD是最具影响力的数据集 [35] - CARLA、MetaDrive、LGSVL、SUMO是最常用的仿真平台 [36] - 这些资源为自动驾驶场景生成与分析研究提供了重要支持 [35][36]
百度集团-SW(09888.HK)25Q1 财报点评:广告业务持续承压,AI 云增长加速显著
国信证券· 2025-05-23 21:25
报告公司投资评级 - 维持优于大市评级 [2][25] 报告的核心观点 - 看好AI技术对搜索广告和智能云业务的潜在拉动作用,但公司广告收入受宏观经济影响承压,Gen - AI研发投入持续增长 [2][25] 各部分总结 整体业绩 - 2025Q1百度集团总收入325亿元,同比+3%;经调整归母净利润65亿元,同比 - 7%,经调整归母净利润率20%;百度核心收入255亿元,同比+7%,爱奇艺收入72亿元,同比 - 9% [1] - 百度核心经调整归母净利润63亿元,同比 - 4%,经调整归母净利润率25% [1] 广告业务 - 百度核心广告收入下滑6%,在线营销收入160亿元,同比下滑6%,托管页收入占比47%,代理为广告主创造的收入同比增长30倍,占核心在线营销收入9% [1] - 搜索结果中35%由生成式AI实现,环比+13pcts,AI转型加速提升用户体验,25年3月百度App MAU达7.24亿,同比+7% [1][12] 智能云业务 - 智能云收入67亿元,同比增长42%,非GAAP运营利润保持正值,GenAI和基础模型相关收入三位数同比增长 [2][20] - 千帆平台升级,无代码工具MIAODA上线,一季度与多家领先企业合作,拓展具身智能等新兴领域 [2][20] 自动驾驶业务 - Apollo Go一季度提供超140万次乘车服务,同比增长75%,累计服务超1100万次,覆盖15个城市,5月与CAR公司战略合作 [2][21] 投资建议与财务预测 - 预计2025 - 2027年实现经调整归母净利润241/270/312亿元(前值为272/301/331) [2][25] - 给出2023 - 2027年盈利预测和财务指标,包括营业收入、调整后归母净利润等多项数据 [4] - 给出2024 - 2027年资产负债表、利润表、现金流量表预测及关键财务与估值指标 [27]
BIDU(BIDU) - 2024 Q4 - Earnings Call Transcript
2025-02-18 21:30
财务数据和关键指标变化 - 百度核心总营收第四季度同比增长1%至277亿元人民币,全年同比增长1%至1247亿元人民币 [6][29][30] - 在线营销业务第四季度同比下降7%至179亿元人民币,占核心总营收的65%,全年同比下降3% [30] - 非在线营销业务第四季度同比增长18%至98亿元人民币,全年同比增长12%,主要由AI云业务驱动 [30] - 爱奇艺营收第四季度同比下降14%至66亿元人民币,全年同比下降8%至292亿元人民币 [31] - 第四季度运营收入为39亿元人民币,同比下降28%,核心运营利润率为13% [33] - 非GAAP运营收入第四季度为50亿元人民币,核心非GAAP运营利润率为17% [34] - 截至2024年底,现金及等价物为1391亿元人民币,自由现金流为131亿元人民币 [38] 各条业务线数据和关键指标变化 AI云业务 - 第四季度AI云营收同比增长26%至71亿元人民币,全年增长17% [6][23][66] - 生成式AI相关收入在2024年几乎翻了三倍 [66] - 外部API调用量季度环比增长178%,12月每日处理约16.5亿次API调用 [8][9] - 与国网合作开发的AI解决方案显著提升了运营可靠性,国网增加了对百度AI云服务的支出 [10][11] - 与招聘平台校聘合作,使用AI外呼产品使招聘会邀请接受率提高50%,人工成本降低70% [11] 移动生态业务 - 百度文库订阅收入第四季度同比增长21%,12月AI功能月活跃用户达9400万,几乎翻倍 [13] - 百度搜索22%的搜索结果页面包含AI生成内容 [16][52] - 12月百度App用户每日搜索查询量同比增长2% [18][53] - 超过2.7万广告主通过AI代理每日产生广告支出,在医疗、法律、教育等领域增长迅速 [26] 自动驾驶业务 - 第四季度Apollo Go提供约110万次乘车服务,同比增长36%,截至1月累计乘车量超过900万次 [26][80] - 已实现100%完全无人驾驶运营 [27][81] - 累计自动驾驶里程超过1.3亿公里,安全记录优异 [20][21] - 2024年11月获得香港开放道路测试许可,成为首个进入右舵左行市场的公司 [21][81] 公司战略和发展方向和行业竞争 - 决定开源即将推出的Ernie 4.5系列,并使ErnieBot对终端用户免费,以扩大市场认知和采用 [10][44] - 持续投资AI技术,保持在AI创新领域的领先地位 [6][27] - 通过AI改造搜索体验,提供多样化内容格式(短视频、直播、数字人等) [16][17][52] - 自动驾驶业务探索资产轻型商业模式,寻求与出行服务提供商、出租车公司等合作 [20][83] - 认为行业仍处于早期阶段,竞争有助于加速市场发展和创新友好的监管环境 [83] 管理层对经营环境和未来前景的评论 - 生成式AI在2024年展现出强劲市场需求,企业已认识到AI的变革潜力 [6][7] - 随着推理成本下降,AI采用速度加快 [9] - 广告业务预计已触底,2025年上半年表现将优于2023年第四季度,下半年进一步改善 [62][63] - 对2025年AI云业务保持强劲增长势头和持续盈利充满信心 [69][70] - 预计2025年自动驾驶业务将加速增长,车队规模和乘车量增速将创历史新高 [81] 其他重要信息 - 第四季度一次性损失约10亿元人民币,包括信贷损失计提和库存减记 [34] - 2024年员工总数约为3.1万人 [38] - 2024年股票回购超过10亿美元,计划加速回购计划 [87][88] 问答环节所有的提问和回答 关于Ernie开源战略和竞争格局 - 开源Ernie 4.5系列和免费ErnieBot旨在扩大采用,基于对技术领先地位的信心 [44] - 强调基础模型只有有效解决现实问题才能体现真正价值,百度采用应用驱动的方法 [46][47] - Ernie的API调用量从一年前的5000万/日增至16.5亿/日,显示强劲市场吸引力 [45] 关于搜索业务转型 - 22%搜索结果含AI生成内容,83%月活跃用户与生成内容互动 [52][53] - AI代理在春节假期帮助广告主弥补客服缺口,提高销售线索质量 [54] - 认为搜索与语言模型能力天然契合,正将搜索发展为从找答案到完成任务的综合平台 [56] 关于广告业务展望 - 认为广告业务已触底,预计2025年逐步改善 [62][63] - 计划在AI搜索功能足够完善后推进变现,目前22%查询已开始变现 [63] 关于AI云业务前景 - 2024年生成式AI相关收入几乎翻三倍 [66] - 天工平台提供从Ernie到第三方模型的完整解决方案,支持模型微调和应用开发 [67] - 预计2025年AI云市场将快速增长,企业将更多采用基础模型 [68] 关于利润率趋势 - 在线营销业务改善和AI云利润率提升将支持核心利润率 [72] - 保持对高增长机会的投资,同时注重运营效率提升 [74] 关于自动驾驶业务 - Apollo Go在中国复杂交通环境中验证了商业模式 [78][79] - RT6是全球最具成本效益的自动驾驶出租车 [79] - 2025年重点扩大车队规模、乘车量,探索资产轻型合作模式 [81][83] 关于资本配置 - 2025年战略重点:AI能力建设、搜索AI转型、AI云采用、自动驾驶扩展 [86] - 2024年回购超10亿美元股票,计划加速回购 [87][88]