Workflow
基础模型
icon
搜索文档
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
具身智能之心· 2025-07-11 08:57
具身智能研究综述 - 文章整理了数十篇具身智能领域的综述论文,涵盖数据集、评测、视觉-语言-动作模型(VLA)、视觉语言导航(VLN)、强化学习、基础模型和扩散策略(DP)等方向 [1] 视觉-语言-动作模型(VLA) - 从动作标记化视角综述VLA模型的发展 [2] - 自动驾驶领域的VLA模型应用现状 [2] - VLA模型后训练与人类运动学习的类比研究 [2] - 探讨VLA模型的概念、进展、应用与挑战 [5] - 机器人视觉中的多模态融合与VLM应用 [6] 机器人基础模型 - 机器人领域基础模型的应用现状与未来挑战 [3] - 深度强化学习在机器人领域的实际应用案例 [3] - 扩散策略在机器人操作中的分类与发展方向 [3] - 面向具身AI的机器人基础模型研究进展 [9] 工业机器人技术 - 具身智能工业机器人的概念与技术框架 [4] - 受神经科学启发的具身智能体框架Neural Brain [4] 机器人导航与操作 - 物理模拟器在具身AI时代的机器人导航与操作应用 [5] - 目标导向导航的多模态感知技术 [5] - 扩散模型在机器人操作中的应用现状 [5] - 基于模仿学习的灵巧操作技术综述 [5] - SE(3)等变机器人学习与控制方法 [6] 多模态大模型 - 具身多模态大模型的发展与数据集建设 [8] - 大模型在具身AI中的研究挑战 [8] - 网络视频数据在通用机器人学习中的应用 [9] 数据集与评测 - 通用型具身智能体数据集标准建设 [9] - 人形机器人远程操作技术研究 [9]
扎克伯格,上亿美元抢人的另一面
投中网· 2025-07-08 14:54
核心观点 - Meta近期通过高薪挖角和收购策略加速AI领域布局,包括以数千万美元薪酬挖走苹果基础模型团队负责人Ruoming Pang[6][8][11][12] - 公司一个月内完成收购Scale AI(140亿美元)、挖走OpenAI多名高级研究员(最高年薪1亿美元)、建立超级智能实验室等系列动作[12][13][26] - AI行业出现极端薪酬分化现象,顶尖人才薪酬堪比职业运动员(如1亿美元年薪相当于国内百万年薪者700年收入),但基层员工面临裁员压力[24][27][29][37] - Meta内部AI团队架构重组引发管理冲突,28岁Scale AI创始人Alexandr Wang出任首席人工智能官,可能导致65岁首席科学家杨立昆汇报关系变化[44][45][48] - 公司同时推进两种技术路线(开源物理世界模型vs闭源文本模型),造成资源争夺和团队张力[50][51][53] 人才竞争态势 - Meta为OpenAI研究员开出四年3亿美元薪酬套餐,部分人首年收入可达1亿美元[12][23] - OpenAI被迫重新评估薪酬体系,其2023年股权激励达44亿美元(占营收119%),原计划2030年降至10%但面临调整压力[15][16][17] - 美国科技行业呈现"边裁员边高薪挖人"现象,Meta/微软2024年分别裁员3600/9000人,但AI岗位需求年增21%[33][34][63] - 入门级AI工程师薪酬比其他领域高8.5%,中高级AI工程师溢价达11%[63] 组织架构调整 - 新成立的超级智能实验室(MSL)整合FAIR等原有团队,由Alexandr Wang领导并直接向扎克伯格汇报[41][42] - FAIR团队创始人杨立昆保留首席科学家头衔,但管理权限被削弱,其倡导的开源路线与新团队闭源倾向形成冲突[45][50][51] - 内部资源分配不均导致研究员需自行寻找空闲GPU,麻省理工报道的明星研究员Zeyuan Zhu公开抱怨计算资源短缺[54][55][56] 行业影响 - 科技公司30-50%代码已由AI生成,可能压缩初级工程师成长空间[62][63][64] - 基层员工担忧被AI工具取代,案例显示有创业者通过AI作弊获取大厂offer后选择创业[66][69] - Blind平台员工吐槽新实验室是"营销产物",GenAI团队成员担忧被边缘化[30][31][59]
被 AI 大厂逼至绝望,这帮欧洲人发起了一场“科学复兴运动”
AI科技大本营· 2025-06-24 15:45
LAION的起源与使命 - LAION诞生于对AI领域"黑箱"研究现状的反思,旨在通过开放数据集和工具推动机器学习研究的可复现性[7][12][13] - 由德国高中教师Christoph Schuhmann发起"在家爬虫"计划,后联合程序员Theo Coombes共同创建去中心化协作网络[2][3] - 核心信条为100%非营利与免费,目标是通过开放资源对抗AI发展的集权化趋势[3][9][26] 组织架构与关键成员 - 采用分布式实验室网络模式,核心成员包括尤利希超级计算中心的Jenia Jitsev博士、斯坦福大学Ludwig Schmidt教授等[5][9][11] - 依托德国亥姆霍兹联合会的超级计算资源,实现工业级模型训练能力[9][14] - 志愿者社区涵盖科学家、工程师、医生等多元背景,形成互补型人才网络[3][5] 技术突破与行业影响 - 成功构建LAION-400M/5B开放数据集,训练出的OpenCLIP模型性能媲美OpenAI原始CLIP[16][17] - OpenCLIP B32模型持续产生影响力,月下载量超100万次[17] - 验证了开源社区通过协作可复现顶尖实验室成果的可能性[16][26] 研究范式与学术理念 - 强调"以数据为中心"的机器学习理念,主张网络规模数据集的多样性优于人工筛选[21][22] - 遵循"苦涩的教训"原则,追求算法与数据集的双重可扩展性[22][23] - 通过OpenThoughts等项目推动推理模型发展,已积累100万条推理轨迹数据[41][43] 行业问题与批判 - 揭示大语言模型存在根本性逻辑缺陷,简单数字变化即可导致GPT-4等顶尖模型性能崩溃[35][36] - 指出商业模型过度自信的"虚构"问题可能对实际应用造成隐蔽风险[37][38] - 批评封闭实验室因商业压力可能偏离基础研究方向[27][28] 未来发展方向 - 计划扩大推理数据规模至数百万条,验证量变能否引发质变[41][43] - 寻求与Linux基金会等组织建立更紧密的开放生态合作框架[45] - 持续通过"爱丽丝梦游仙境"等研究对行业进行压力测试[33][38]
自动驾驶基础模型全面盘点(LLM/VLM/MLLM/扩散模型/世界模型)
自动驾驶之心· 2025-06-21 19:18
基础模型在自动驾驶场景生成与分析中的应用 - 基础模型(Foundation Models)能够处理异构输入(如自然语言、传感器数据、高清地图和控制指令),实现对复杂驾驶场景的合成与解析 [2] - 文章提出了一个统一分类体系,涵盖大语言模型(LLMs)、视觉-语言模型(VLMs)、多模态大型语言模型(MLLMs)、扩散模型(DMs)和世界模型(WMs)在自动驾驶场景生成与分析中的应用 [2] - 传统场景生成方法存在多样性有限和难以生成真实高风险场景的问题,而基础模型可以解决这些挑战 [2] 语言模型在场景生成中的应用 - 使用GPT-4、Claude 3.5 Sonnet、Gemini 1.5 Pro等大语言模型生成安全关键场景 [9] - 采用CoT(Chain-of-Thought prompting)、ICL(In-Context Learning)、RAG(Retrieval-Augmented Generation)等技术 [9] - 在CARLA、MetaDrive、SUMO等仿真平台上测试生成的场景 [9] 视觉-语言模型在场景分析中的应用 - 使用BLIP2、InstructBLIP2、MiniGPT4等视觉-语言模型进行场景理解和视觉问答 [18] - 在nuScenes、Waymo Open等数据集上进行感知、预测和规划任务 [18] - 采用零样本学习、LoRA(Low-Rank Adaptation)等技术 [18] 扩散模型在场景生成中的应用 - 使用DDPM、DiT、LDM等扩散模型生成交通流和静态交通元素 [27] - 可以控制场景参数如速度、目标航点、交通密度等 [27] - 在nuScenes、Argoverse 2、WOMD等数据集上进行测试 [27] 世界模型在场景生成中的应用 - 使用GAIA-1、DriveDreamer等世界模型进行未来预测和场景生成 [33] - 采用自回归、扩散等架构 [33] - 在nuScenes、Waymo Open等数据集上进行训练和测试 [33] 数据集和仿真平台 - nuScenes、Waymo Open、DRAMA、HighD是最具影响力的数据集 [35] - CARLA、MetaDrive、LGSVL、SUMO是最常用的仿真平台 [36] - 这些资源为自动驾驶场景生成与分析研究提供了重要支持 [35][36]
百度集团-SW(09888.HK)25Q1 财报点评:广告业务持续承压,AI 云增长加速显著
国信证券· 2025-05-23 21:25
报告公司投资评级 - 维持优于大市评级 [2][25] 报告的核心观点 - 看好AI技术对搜索广告和智能云业务的潜在拉动作用,但公司广告收入受宏观经济影响承压,Gen - AI研发投入持续增长 [2][25] 各部分总结 整体业绩 - 2025Q1百度集团总收入325亿元,同比+3%;经调整归母净利润65亿元,同比 - 7%,经调整归母净利润率20%;百度核心收入255亿元,同比+7%,爱奇艺收入72亿元,同比 - 9% [1] - 百度核心经调整归母净利润63亿元,同比 - 4%,经调整归母净利润率25% [1] 广告业务 - 百度核心广告收入下滑6%,在线营销收入160亿元,同比下滑6%,托管页收入占比47%,代理为广告主创造的收入同比增长30倍,占核心在线营销收入9% [1] - 搜索结果中35%由生成式AI实现,环比+13pcts,AI转型加速提升用户体验,25年3月百度App MAU达7.24亿,同比+7% [1][12] 智能云业务 - 智能云收入67亿元,同比增长42%,非GAAP运营利润保持正值,GenAI和基础模型相关收入三位数同比增长 [2][20] - 千帆平台升级,无代码工具MIAODA上线,一季度与多家领先企业合作,拓展具身智能等新兴领域 [2][20] 自动驾驶业务 - Apollo Go一季度提供超140万次乘车服务,同比增长75%,累计服务超1100万次,覆盖15个城市,5月与CAR公司战略合作 [2][21] 投资建议与财务预测 - 预计2025 - 2027年实现经调整归母净利润241/270/312亿元(前值为272/301/331) [2][25] - 给出2023 - 2027年盈利预测和财务指标,包括营业收入、调整后归母净利润等多项数据 [4] - 给出2024 - 2027年资产负债表、利润表、现金流量表预测及关键财务与估值指标 [27]
BIDU(BIDU) - 2024 Q4 - Earnings Call Transcript
2025-02-18 21:30
财务数据和关键指标变化 - 百度核心总营收第四季度同比增长1%至277亿元人民币,全年同比增长1%至1247亿元人民币 [6][29][30] - 在线营销业务第四季度同比下降7%至179亿元人民币,占核心总营收的65%,全年同比下降3% [30] - 非在线营销业务第四季度同比增长18%至98亿元人民币,全年同比增长12%,主要由AI云业务驱动 [30] - 爱奇艺营收第四季度同比下降14%至66亿元人民币,全年同比下降8%至292亿元人民币 [31] - 第四季度运营收入为39亿元人民币,同比下降28%,核心运营利润率为13% [33] - 非GAAP运营收入第四季度为50亿元人民币,核心非GAAP运营利润率为17% [34] - 截至2024年底,现金及等价物为1391亿元人民币,自由现金流为131亿元人民币 [38] 各条业务线数据和关键指标变化 AI云业务 - 第四季度AI云营收同比增长26%至71亿元人民币,全年增长17% [6][23][66] - 生成式AI相关收入在2024年几乎翻了三倍 [66] - 外部API调用量季度环比增长178%,12月每日处理约16.5亿次API调用 [8][9] - 与国网合作开发的AI解决方案显著提升了运营可靠性,国网增加了对百度AI云服务的支出 [10][11] - 与招聘平台校聘合作,使用AI外呼产品使招聘会邀请接受率提高50%,人工成本降低70% [11] 移动生态业务 - 百度文库订阅收入第四季度同比增长21%,12月AI功能月活跃用户达9400万,几乎翻倍 [13] - 百度搜索22%的搜索结果页面包含AI生成内容 [16][52] - 12月百度App用户每日搜索查询量同比增长2% [18][53] - 超过2.7万广告主通过AI代理每日产生广告支出,在医疗、法律、教育等领域增长迅速 [26] 自动驾驶业务 - 第四季度Apollo Go提供约110万次乘车服务,同比增长36%,截至1月累计乘车量超过900万次 [26][80] - 已实现100%完全无人驾驶运营 [27][81] - 累计自动驾驶里程超过1.3亿公里,安全记录优异 [20][21] - 2024年11月获得香港开放道路测试许可,成为首个进入右舵左行市场的公司 [21][81] 公司战略和发展方向和行业竞争 - 决定开源即将推出的Ernie 4.5系列,并使ErnieBot对终端用户免费,以扩大市场认知和采用 [10][44] - 持续投资AI技术,保持在AI创新领域的领先地位 [6][27] - 通过AI改造搜索体验,提供多样化内容格式(短视频、直播、数字人等) [16][17][52] - 自动驾驶业务探索资产轻型商业模式,寻求与出行服务提供商、出租车公司等合作 [20][83] - 认为行业仍处于早期阶段,竞争有助于加速市场发展和创新友好的监管环境 [83] 管理层对经营环境和未来前景的评论 - 生成式AI在2024年展现出强劲市场需求,企业已认识到AI的变革潜力 [6][7] - 随着推理成本下降,AI采用速度加快 [9] - 广告业务预计已触底,2025年上半年表现将优于2023年第四季度,下半年进一步改善 [62][63] - 对2025年AI云业务保持强劲增长势头和持续盈利充满信心 [69][70] - 预计2025年自动驾驶业务将加速增长,车队规模和乘车量增速将创历史新高 [81] 其他重要信息 - 第四季度一次性损失约10亿元人民币,包括信贷损失计提和库存减记 [34] - 2024年员工总数约为3.1万人 [38] - 2024年股票回购超过10亿美元,计划加速回购计划 [87][88] 问答环节所有的提问和回答 关于Ernie开源战略和竞争格局 - 开源Ernie 4.5系列和免费ErnieBot旨在扩大采用,基于对技术领先地位的信心 [44] - 强调基础模型只有有效解决现实问题才能体现真正价值,百度采用应用驱动的方法 [46][47] - Ernie的API调用量从一年前的5000万/日增至16.5亿/日,显示强劲市场吸引力 [45] 关于搜索业务转型 - 22%搜索结果含AI生成内容,83%月活跃用户与生成内容互动 [52][53] - AI代理在春节假期帮助广告主弥补客服缺口,提高销售线索质量 [54] - 认为搜索与语言模型能力天然契合,正将搜索发展为从找答案到完成任务的综合平台 [56] 关于广告业务展望 - 认为广告业务已触底,预计2025年逐步改善 [62][63] - 计划在AI搜索功能足够完善后推进变现,目前22%查询已开始变现 [63] 关于AI云业务前景 - 2024年生成式AI相关收入几乎翻三倍 [66] - 天工平台提供从Ernie到第三方模型的完整解决方案,支持模型微调和应用开发 [67] - 预计2025年AI云市场将快速增长,企业将更多采用基础模型 [68] 关于利润率趋势 - 在线营销业务改善和AI云利润率提升将支持核心利润率 [72] - 保持对高增长机会的投资,同时注重运营效率提升 [74] 关于自动驾驶业务 - Apollo Go在中国复杂交通环境中验证了商业模式 [78][79] - RT6是全球最具成本效益的自动驾驶出租车 [79] - 2025年重点扩大车队规模、乘车量,探索资产轻型合作模式 [81][83] 关于资本配置 - 2025年战略重点:AI能力建设、搜索AI转型、AI云采用、自动驾驶扩展 [86] - 2024年回购超10亿美元股票,计划加速回购 [87][88]