Workflow
端到端
icon
搜索文档
开年收到了很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2026-01-06 17:17
对于从事自动化和计算机的同学,建议搞深度学习,VLA、端到端、世界模型都是很好的方向,从入门、到 工作甚至读博都有很大空间。对于机械和车辆的同学,可以先学习传统PnC、3DGS这些方向。算力低、入手 简单。 剩下的就是一些方法论的提升了,多看论文多交流,慢慢形成自己的思考和idea。 对很多新人研究者,一个 好的idea需要踩很多次坑。如果你还是新人,不知道怎么入门,可以看看我们推出的论文辅导。 论文辅导上线了! 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 元旦后,收到不少同学的咨询,很多都是计算机、车辆、自动化和机械方向的同学。 先看自驾一些前沿的方向,VLA、端到端、强化学习、3DGS和世界模型。以及一些相对没那么拥挤的赛道像 开集目标检测、OCC、few-shot/zero-shot。很多研一和大四的同学往往无从下手,刚开始深度学习都还不懂, 更别说跟进前沿的方向了。是传统动力学还是深度学习?哪些还有发论文的需求?需要什么样的学习路线? 如果您有任意论文发表需求,支持带课题/研究方向咨询,欢迎联系我们, 微信:paperguidance 提供的服 ...
2025汽车智能化复盘:从狂热到理性的转折之年
36氪· 2026-01-05 16:43
如果要用一句话总结2025年的汽车智能化,那大概是: 技术更聪明了,价格腰斩了,宣传更克制了,智能驾驶从城市走向更多元场景。 年初的时候,谁也没想到,这一年会成为汽车智能化的分水岭。开年两个月,比亚迪就把智驾塞进7万块小车,喊出"智驾平权"。几乎同时,DeepSeek、 华为盘古等大模型纷纷上车,座舱从语音控制升级为主动理解。 但技术狂奔很快遭遇现实拷问,小米SU7事故将整个行业拉回现实,安全成为更重要的关键词。 于是,2025年智驾圈就这样在狂奔与刹车之间呈现出前所未有的广度。 DeepSeek等AI大模型上车热潮 2025年,DeepSeek、华为盘古、阿里通义等通用大模型密集登车,车企纷纷推出具备语义理解、多轮对话、场景预判能力的新一代智能座舱。座舱交互 从指令响应迈向主动服务,用户一句模糊的"我有点累",就能触发座椅按摩、氛围灯调节和导航就近推荐休息区。但热潮之下也暴露短板:部分车型的大 模型依赖云端算力,在弱网或离线状态下功能大幅缩水。大模型上车,真正考验的不是参数规模,而是端云协同的稳定性与本地化推理能力。 小米SU7事故,三条生命,换来史上最严L2+智驾新规 2025年4月,一辆开启NOA的小米 ...
肥了果农、坑了股民,洪九也难逃果企上市魔咒?
搜狐财经· 2026-01-03 22:48
文章核心观点 - 洪九果品因未履行复牌条件被取消港交所上市地位 其市值曾一度突破600亿港元 但上市仅约三年便退市 [2] - 水果行业整体面临挑战 百果园股价腰斩、利润下滑 鲜丰水果上市进程停滞 行业被描述为资本难以填满的“黑洞” [2] - 洪九果品的失败案例揭示了水果行业表面光鲜之下存在难以逾越的商业鸿沟 [2] 洪九果品退市事件与商业模式分析 - 洪九果品因未能按时发布2023年财报而自2024年3月起停牌 审计机构毕马威对其第四季度预付款骤增34亿元提出质疑 [4] - 公司创始人邓洪九及多名高管于2025年4月因涉嫌骗取贷款和虚开增值税发票被采取刑事强制措施 这成为其退市的直接原因 [4][5] - 公司试图以“端到端”模式讲述高效供应链故事 但其商业实质是通过向下游批发商提供超长账期(“卖账期”)来换取营收的快速增长 [6] - 这种模式导致公司现金流状况恶化 利润表表现与现金流量表严重背离 [6] - 在上游采购端 公司需要向泰国等地的果园主预付大量现金以锁定货源 而在下游销售端却只能回收周期长达半年或更久的应收账款 [7] - 公司商业模式本质上是利用高成本融资资金补贴下游的低周转效率 并依赖持续融资维持运营 其资产(水果)具有易腐特性 库存积压会迅速贬值并形成坏账 [8] 水果零售行业的结构性困境 - 以百果园为代表的水果零售品牌试图通过工业化标准(如“四度一味一安全”分级体系)来建立连锁帝国 但筛选高标准水果会产生高昂的隐性成本 [10][11] - 为筛选出20%符合“招牌”标准的水果 需要承担剩余80%“次果”的成本 这些成本被转嫁到高端产品上 在经济下行、消费者追求性价比时难以持续 [11] - 品牌方与加盟商之间存在利益冲突 品牌方利润来自向加盟商销售水果的差价和加盟费 而加盟商利润仅来自终端销售的微薄毛利 这导致加盟商为生存可能采取以次充好等行为 [12] - 社区团购(如拼多多、美团优选)等新模式通过预售制和集采制 以更低价格和“次日达”便利性冲击了传统水果连锁店的高溢价模式 动摇了其“品质生活”的消费基础 [13] - 传统高端水果连锁店在价格上不敌互联网巨头 在便利性上不如社区夫妻店 陷入竞争劣势 [14] 行业反思与教训 - 水果行业具有看天吃饭、非标准化、高损耗、低毛率的固有特性 天生排斥互联网式的“爆发式增长” [17] - 过去行业过于迷信“规模效应”和“资本杠杆” 试图用烧钱换市场 用规模换利润 但事实证明在农业领域需要遵循其客观规律 [17] - 真正的出路在于深耕供应链 降低损耗 稳定品质 在这个行业 “慢”可能才是“快” [17]
何小鹏和马斯克的共识:通向L4之路已经清晰
36氪· 2025-12-31 08:14
文章核心观点 - 小鹏汽车通过其创始人何小鹏亲测特斯拉FSD最新版本并进行对标,表明其在自动驾驶领域已跻身全球顶尖阵营,与特斯拉共同代表了中美前瞻性的技术路线 [1] - 自动驾驶行业头部企业技术共识趋同,聚焦于“大算力+大数据+大模型”、纯视觉路线以及通过量产规模构建数据闭环 [2] - 小鹏汽车制定了明确的技术落地时间表,计划在2026年实现L4级自动驾驶软件量产上车及Robotaxi试运营,展现了从技术路线到量产验证的清晰路径 [32][33][34] 头部企业技术对标与共识 - 何小鹏于2025年12月赴美实测特斯拉FSD V14.2及Robotaxi,并与小鹏第二代VLA进行对标验证,此举被视为观察自动驾驶竞赛的关键窗口 [1][3] - 通过对比一年半前体验的FSD V12,何小鹏认为FSD V14.2已从L2高阶辅助驾驶进入“准L4”的安心阶段,在近5小时试驾中表现大幅超过去年 [5][9] - 特斯拉与小鹏在技术路线上存在共性,均坚定选择纯视觉方案、遵循端到端设计逻辑,并观察到“能力涌现”现象,这印证了全球顶级玩家的路线趋同 [11][13] 技术迭代与能力提升 - FSD V14.2相比V12在复杂路况决策连贯性、突发状况反应速度及风险预判上有显著改善,驾驶风格愈发拟人化,实现了模型整体感知与理解能力的跃迁 [7][8][9] - 小鹏第二代VLA的关键突破是重构了传统架构,彻底去掉了“语言转译”环节,实现从视觉信号到动作指令的端到端直接生成,提升了决策效率和响应速度 [18][19] - 第二代VLA展现出对物理世界的深度理解能力,例如能精准识别交警手势,并在人机交互中能完整理解并执行用户的简单语音指令,形成“识别—理解—行动”的完整闭环 [19][21][23] 差异化竞争与本地化优势 - 技术路线趋同并未消除市场场景差异,中国道路的复杂性(如人车混行、极窄巷道)对自动驾驶适应性要求更高,这构成了小鹏第二代VLA的差异化打磨重点 [14] - 小鹏第二代VLA支持小路NGP丝滑贯通高速、城区、小路/园区等场景,让复杂小路平均接管里程提升13倍,深耕中国本地化需求 [15] - 特斯拉FSD聚焦全球通用场景,而小鹏则针对中国特色路况持续优化,两者差异反映了不同市场需求下的优化方向,形成差异化竞争 [15] 从L2到L4的演进路径 - 行业头部企业认为L2到L4的演进是逐步落地的工程现实,而不再是遥远的技术设想 [10][39] - 小鹏汽车与特斯拉均采用同一套自动驾驶系统框架做L2和L4,核心算法与决策逻辑保持一致,判断两者技术同源,因此选择从L2直通L4的技术路线 [27] - 尽管已获得L3路测牌照,但小鹏将L3视为技术验证角色,而非商业化终点,直接聚焦L4目标进行技术布局,以规避L3级别的责任界定模糊问题 [27] 量产规划与未来目标 - 小鹏汽车计划在2026年第一季度向Ultra车型全量推送第二代VLA软件,实现量产上车 [33] - 公司目标在2026年8月30日前,使国内第二代VLA达到特斯拉FSD V14.2在硅谷的整体水平 [16][34] - 2026年,小鹏计划推出三款软硬件均达到L4水平的Robotaxi车型并启动试运营,其Robotaxi将搭载4颗图灵AI芯片,车端算力达3000TOPS,并采用六方面双冗余架构 [28][34] 训练体系与数据规模 - 小鹏第二代VLA的训练数据规模已接近1亿 clips,覆盖的场景规模相当于人类司机驾驶65000年遇到的极限场景总和 [23] - 依托全球领先的3万卡云端算力集群,该模型每五天可完成一次全链路迭代,并能通过推演未来决策场景生成长尾场景进行对抗训练 [23] - 该系统的训练无需人工介入标注道路元素,结合海量真实驾驶视频和机器人领域多模态数据,实现模型的自我演进式成长 [23]
20万和10万表现一个样?这项功能真能成为“新时代自动挡”?
电动车公社· 2025-12-28 00:23
公司战略与业务布局 - 地平线公司虽以汽车辅助驾驶芯片闻名,但其在机器人领域布局已久,公司内部长期设有专门的机器人事业部[9][10][11] - 2024年初,公司将机器人事业部独立,成立了“地瓜机器人”,标志着其重新押注并正式发力机器人领域[17] - 地瓜机器人推出了旭日芯片、RDK机器人开发者套件及一站式开发平台,其技术已赋能人形机器人、机器狗、扫地机器人、物流AMR等多种产品,成为中国最大的消费类机器人计算平台[7][19] 汽车业务市场地位与业绩 - 2024年,地平线成功超越Mobileye,成为中国车企ADAS(L0-L2)市场份额第一的智驾供应商[14] - 公司已成为国内首家达成千万级出货量的辅助驾驶供应商,在规模上是智驾龙头企业[28] - 2024年上半年,公司中高阶产品(AD,相当于L2+)出货量激增6倍,已占总出货量近一半[26] - 征程6B/L芯片的定点量目前已超1000万,客户包括广汽丰田及3家未公布的全球车企[27] 核心技术突破:征程6芯片与HSD系统 - 2024年4月,地平线发布了征程6系列芯片,其中征程6P单颗芯片算力达560TOPS,追平了当前行业一线辅助驾驶硬件能力[21][22] - 基于征程6芯片,公司发布了HSD(Horizon SuperDrive️),这是一段式端到端城区辅助驾驶系统,可实现全场景NOA[30] - HSD系统通过图像信号输入到车辆控制指令输出的直接映射,减少信息损失和延迟,提升了决策效率,在实际复杂路况中表现出快速反应和丝滑的纵向抑制能力[33][34][35][36][37] - 2024年11月,搭载HSD系统的深蓝L06、星途ET5上市,其城区NOA能力已达到行业顶尖水平[32] 技术理念与行业愿景 - 公司认为自动驾驶与机器人构建在同一技术基座上,实现自动驾驶的大模型同样可以赋能机器人[39][41] - 一段式端到端大模型的出现被视作方法论上的突破,类似于“开悟”,能极大加快自动驾驶的进化速度,并可能以极低成本和速度落地L4系统[43][45] - 公司的宏大愿景是成为“机器人时代的底层平台”,即“机器人时代的Wintel”[39] - 为实现目标,公司计划在后续每一代芯片和产品上,坚持十倍算力、十倍模型容量的提升规模[47] - 征程6系列芯片已追平特斯拉AI4芯片,正在规划的征程7系列芯片则瞄准了特斯拉下一代AI5芯片[49][50] 市场普及与行业趋势 - HSD系统的意义在于以越来越低的成本普及城区NOA功能,公司将其比喻为“新时代的更加高级的自动挡”[52][53] - 辅助驾驶功能正快速从高端车型下放,预计明年搭载激光雷达、支持城市高阶辅助驾驶的车型价格可能下探到10万元以下[56] - 2024年前三季度,辅助驾驶出货量中,13万元以下车型占比达50%,13万-20万之间占20%,20万以上占30%[58] - 2024年时,仅20万以上车型能搭载城区NOA,但到2025年,比亚迪、小鹏、卓驭、地平线等公司正努力将辅助驾驶价格打下来,让更广泛的主流消费人群能够使用[59][60][61][63]
智驾L3冲刺,车企都在赌哪条路
汽车商业评论· 2025-12-27 07:04
文章核心观点 - 行业正从L2级辅助驾驶向L3级商业化迈进,L3可能成为短暂过渡,最终目标是实现L4普及 [5][6] - 2025年中国智能驾驶“平权”加速落地,功能搭载率显著提升,系统可靠性(以平均接管里程衡量)实现近100%的跃升 [8][15][17] - 智能驾驶技术正从机械规则驱动向场景理解进化,在复杂路况下展现出类似“老司机”的灵活应变能力 [8][19][21] - 技术路线争论持续,但融合与务实成为主流,下一阶段可能以端到端为主干,融合视觉语言行为模型和世界模型 [9][39][42] - 用户体验是当前L2框架下的第一优先级,明确功能边界是未来重要的迭代方向 [10][24][39] 中国辅助驾驶发展趋势 - **功能普及(平权)加速**:高速NOA搭载车型从2024年的18款增至2025年的29款,涨幅超50%,价格门槛从12.38万元下探至9.68万元 [15] - **功能普及(平权)加速**:城区NOA搭载车型从2024年的10款大幅增至2025年的24款,涨幅达150%,起步售价进入14.98万元级别 [15][16] - **功能普及(平权)加速**:自动泊车辅助(APA)和记忆泊车(HPA)功能在测评车型中搭载率分别达到30款和25款 [15] - **供应链与方案多样化**:采用供应商方案的车型从2024年的10款增至2025年的22款,增长显著,硬件方案选择也更加多样化(如Orin系列、Thor系列、MDC系列等) [15] - **系统性能显著提升**:在固定测评场景下,平均接管里程从2024年的6.4公里提升至2025年的12.1公里,增长近100% [15][17] - **场景理解能力质变**:面对施工围挡、临时导流区等复杂场景,2025年约80%的测试车型能够通过大施工区域,而2024年仅有个别车型能实现 [19] 以用户为中心的多维度评估 - **测评理念**:在L2框架下,驾驶员需随时准备接管,因此用户体验是第一优先级 [24] - **测评维度**:借鉴马斯洛需求理论,从系统性能(生存与安全)、安心感(归属感)、舒适与效率(自我实现)三大维度评估 [24] - **权重分配**:舒适性与效率各占20%权重;基础场景(高频使用)占80%权重,挑战性场景占20%权重 [26][27] - **测评路线**:全程约40公里,包含47个路口及20多次转向调头场景,并新增了停车场驶入驶出环节以测试“行泊打通”能力 [27] 测评亮点车型及场景 - **梯队划分**:未做具体排名,而是将表现分为三个梯队,第一梯队(如理想、尊界、问界)平均接管里程近20公里,在日常通勤中几乎无需接管,达到“可用”水平 [29] - **亮点车型**: - 理想i6:应用视觉语言行为模型,带来诸多新颖的交互体验 [31] - 魏牌高山:在效率与舒适性上调校均衡,从用户实际使用出发 [31] - 东风日产N7:以约80 TOPS算力和3R7V配置(成本为高阶方案的1/3-1/5),实现了可用水平,是“中算力方案的守门员” [31] - 奇瑞iCAR V23:以仅13 TOPS的算力实现了高速NOA,是“中小算力方案的优等生” [31] - **VLA模型创新体验**: - 支持“语音路边停车”等复杂自然语言指令,车辆能理解并尝试执行,改变了必须设定固定目的地的传统模式 [33] - 支持“语音右转”,车辆能根据语音指令改变导航路径 [33] - 在泊车场景中,能“自主寻找停车场出口”,通过识别环境元素(如指示牌、闸机)实现,无需依赖高精地图先验信息 [33] 辅助驾驶技术路线探讨及争论 - **功能演进方向**:2026年行业重点将是高速NOA向L3级别商业化落地迈进,L3意味着责任主体从驾驶员转向主机厂或系统 [5][37] - **法规影响**:针对L2的强制性国家标准正在酝酿,短期内可能给市场带来压力,长期将规范功能使用,从安全出发 [37] - **城区功能进展**:2025年重点是“行泊打通”,关键点在于处理停车场闸机场景,多家公司已能实现 [39] - **感知能力进步**:从识别车辆发展到能识别车辆类型、警车、路面坑洼等,越来越接近真人视觉 [39] - **技术路线融合**:纯端到端模型存在局限性(缺乏推理能力),行业开始尝试将其与视觉语言行为模型、世界模型融合,以兼顾理解与响应 [39][42] - **地图应用共识**:行业形成“重图轻用”共识,即充分利用地图信息进行推测和辅助决策,但不让用户过度依赖或感知其存在,以平衡成本与体验 [44][45] 知行科技公司介绍 - **公司概况**:成立于2016年,2023年于港交所上市,是中国首家在香港上市的辅助驾驶公司,提供软硬件一体解决方案 [47] - **业务布局**:总部在苏州,国内外设有多个办公室和研发中心,在马来西亚有工厂,产品涵盖软件、智能摄像头、域控制器等 [47] - **市场成果**:服务客户超20家,包括自主、合资及外资品牌,累计获得近100个车型项目,在帮助中国主机厂海外车型法规认证方面布局较早 [47] - **技术认可**:在E-NCAP测试中,已有四款搭载其技术的车型获得五星评级,在国内处于领先水平 [47]
收到很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-26 17:18
自动驾驶领域学术研究趋势与方向 - 行业观察到计算机、车辆、自动化和机械等专业背景的学生对自动驾驶研究方向存在普遍困惑,特别是在入门和选择前沿方向上[2] - 行业将自动驾驶研究方向分为前沿方向与相对不拥挤的赛道,前沿方向包括视觉语言动作模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型,相对不拥挤的赛道包括开集目标检测、占用网络以及少样本/零样本学习[2] - 针对不同专业背景的学生,行业给出了差异化的学习路径建议,对于自动化和计算机背景的学生,建议专注于深度学习相关的前沿方向,如视觉语言动作模型、端到端和世界模型,这些方向被认为从入门到工作乃至读博都有很大发展空间,对于机械和车辆背景的学生,建议从传统规划与控制或3D高斯泼溅等对算力要求较低、入手更简单的方向开始[2] - 行业强调方法论提升的重要性,建议研究者通过多阅读论文和交流来逐步形成自己的思考与想法,并指出新人研究者通常需要经历多次试错才能产生好的想法[2] 论文辅导服务覆盖的研究方向 - 公司提供的论文辅导服务覆盖了自动驾驶领域的众多前沿与关键技术方向,包括但不限于端到端自动驾驶、视觉语言动作模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、鸟瞰图感知、占用网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达感知、单目感知以及车道线/在线高精地图构建等[3] 论文辅导服务内容与成果 - 公司提供的核心服务包括论文选题、论文全流程指导以及实验指导[6] - 此外,公司还提供博士申请指导服务[7] - 公司宣称其辅导服务的中稿率很高,并且已有辅导完成的论文被计算机视觉、人工智能、机器人、自然语言处理等领域的顶级会议和期刊收录,例如CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等[7] 论文辅导服务的目标发表范围 - 公司的论文辅导服务旨在帮助客户在广泛的学术出版物上发表成果,目标范围包括自动驾驶领域的顶级会议和期刊,涵盖中国计算机学会推荐的A、B、C类会议/期刊,科学引文索引的一区至四区期刊,中国科学院分区的一区至四区期刊,以及工程索引和中文核心期刊,同时也涵盖毕业设计论文、博士申请和学术比赛等相关需求[10]
地平线吕鹏:端到端是基石,做不好端到端就做不好VLA
21世纪经济报道· 2025-12-22 21:23
市场格局与公司进展 - 今年前三个季度,国内20万元以上乘用车市场份额占比30%,13万元以下市场份额则高达50%,但后者多数车型尚未配备城区辅助驾驶功能,市场空间广阔[1] - 地平线于2024年4月推出基于征程6系列芯片的城区辅助驾驶解决方案HSD,并于11月随星途ET5上市实现量产,同期搭载的深蓝L06也发售,两款车型上市两周后HSD激活量突破12000辆[1] - 公司通过生态拓展加速市场渗透,在12月初的技术生态大会上公布两大举措:新增算法服务模式"HSD Together",并与日本电装、大众的合资公司CARIZON、HCT达成合作;引入元戎启行、卓驭等更多生态合作伙伴[2] - 公司目标是将城区辅助驾驶功能下沉至10万元国民车型,并计划在未来3-5年内达成千万级量产规模[2] 技术路线与研发投入 - 地平线坚信端到端技术是基石,自2024年底便集中90%的研发人力投入到端到端方案的研发与量产落地工作中[2] - 公司认为,无论是世界模型(WA)还是视觉语言动作模型(VLA),都需建立在完整的端到端底座之上,若端到端做得不够坚固,则难以引入新模态解决问题[3] - 端到端被类比为人的直觉模型,若直觉模型不完善,仅靠思考推理难以解决复杂场景,甚至可能带来新问题[3] - 公司技术逻辑的核心在于软硬结合,通过更好的硬件支撑大算力,并借助软硬协同优化释放更多性能,最终在消费者体验端带来收益[4] 端到端技术详解 - 地平线是除特斯拉之外,少数拥有真正意义上最完整的一段式端到端系统的企业[4] - 一段式端到端可简单描述为“光子进,轨迹出”,其模型内部进行高维特征的无损传递,信息量更高[4][5] - 两段式端到端并非一个模型,而是感知模型加规控模型的组合,信息传递存在丢失,因为规控模型是依靠感知白名单的检测结果进行训练的[5] - 一段式端到端若做得不完善,输出轨迹会有缺陷导致无法控车,行业退而求其次增加后处理规则进行修正,但这些规则会限制模型上限,导致横纵向操作有割裂感[5] - 对于从业者,分辨一段式与两段式主要看模型输出轨迹的连贯性和拟人性,特别是在交互场景下动作是行云流水还是按步骤执行[6] - 在一段式端到端中,无法精确设定规定车速,模型只能接收期望车速并朝其逼近,但不一定完全达到[6] 行业竞争与未来展望 - 行业内存在不同技术路线,如理想、元戎启行选择VLA,华为和小鹏选择WA或VA模型,但地平线认为它们都基于端到端[7] - 公司认为模型不应以语言为核心进行开发,而应将其作为辅助项,结合端到端基座,这符合人类开车时95%以上时间依赖直觉、仅在极复杂场景加入思考推理的状态[7] - 随着端到端技术成熟,遇到问题的场景会越来越稀疏,仿真闭环对于生成稀疏场景的模拟和验证变得关键[8] - 未来理想的智驾方案是在直觉模型(解决95%甚至99%场景)足够强的基础上,为剩余需要认知推理的场景增加思维链理解能力[9] - 公司认为竞争核心应回归产品体验、安全性及市场认可度,技术上会做好预研和储备[9] - 公司明确表示,即使下一代智驾方案包含VLA技术,也不会抛弃当前的端到端技术,因为后者是前者的基础[10]
研究生实验到什么程度可以写小论文?
自动驾驶之心· 2025-12-22 11:23
公司业务与服务模式 - 公司提供针对学术论文发表的辅导服务,旨在帮助用户在有限时间内高效产出科研成果,避免自主写作的常见问题 [2] - 服务覆盖期刊论文、会议论文、学位论文(毕业论文),以及课题和项目,提供全方位的学术支持 [8] - 服务以结果为导向,配套代码提升指导,并提供持续的服务保障,全程陪伴直至论文中稿 [8] 目标客户与用户痛点 - 目标客户包括面临论文发表压力的研究生、博士生,以及有科研需求的在职人员 [1][7] - 用户常见痛点包括:研究方向不清晰、研究想法(idea)难产、代码复现困难、实验跑不通、论文写作障碍、缺乏系统科研训练与导师反馈 [5] - 用户可能陷入追求过高创新性(novelty)而忽视项目完整性的误区,导致进度拖延 [1] 服务领域与专业方向 - 服务专注于人工智能与自动驾驶相关的前沿技术领域,具体方向包括:端到端学习、视觉语言模型(VLA)、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅(3DGS)、鸟瞰图(BEV)感知、占据网络(Occupancy Network)、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配(Flow matching)、点云感知、毫米波雷达感知、单目感知、车道线/在线高精地图等 [3] - 公司支持用户自带课题或研究方向进行咨询 [3] 师资力量与资质 - 所有辅导老师均保证来自全球QS排名前100的大学或机构 [6] - 师资人均拥有多篇顶级会议(A会)论文发表经验,且项目经验丰富 [6] - 公司承诺老师简历真实可查,合作后用户可要求查验 [6] 服务成果与案例 - 公司展示了过往学员的成功案例,涵盖从本科大三到博士五年级的不同阶段学员 [7] - 案例成果包括在SCI期刊(2区、3区)、CCF推荐会议(B类、A类)、以及各类顶会(如CVPR, emnlp)上发表论文 [7] - 服务周期通常在2至4个月之间,例如有学员在2个月内于NEUROCOMPUTING(2区)发表论文,或在4个月内于CVPR(顶会)发表论文 [7] 附加价值与承诺 - 除了论文发表,公司承诺为优秀学员提供清华大学、北京大学、麻省理工学院(MIT)等名校的推荐信,并推荐至实验室实习 [11] - 表现突出的学员可直接获得内推机会,进入如阿里巴巴达摩院、华为诺亚方舟实验室等企业研发岗位 [11] - 公司强调其务实风格,承诺只说实话、做实事,不会夸大或打鸡血,会认真听取用户情况后提供可行路径 [3] 服务定价与入门门槛 - 服务收费根据目标论文的分区(如SCI分区、会议等级)不同而定价,公司会根据用户具体情况和发文目标提供详细报价 [11] - 公司声称零基础用户也能发表论文,通过提供基础课程,让用户从文献带读学起,若踏实跟进,可在6个月内完成一篇小论文 [11]
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?丨GAIR 2025
雷峰网· 2025-12-20 12:07
文章核心观点 - 具身智能领域仍处于技术路线发散探索阶段,尚未收敛,这为创新提供了机会,但最终目标是实现通用泛化智能,而非回归传统工业自动化 [3][4] - 世界模型在自动驾驶等特定场景已开始应用,主要用于生成海量合成数据以覆盖长尾场景和进行闭环测试,但其与具身智能的结合仍处于早期探索阶段,定义和技术范式尚未统一 [10][11][12][14] - 空间智能是机器人感知和理解环境的关键,其发展建立在SLAM等技术基础上,并引入AI以增强对语义和复杂空间关系的理解,但目前仍面临数据模态不足等挑战 [20][21][22][23] - 具身智能的落地应用面临技术、成本与商业化现实的巨大鸿沟,需在追求通用智能的“星辰大海”与解决工业自动化等迫切需求的“脚踏实地”之间找到平衡 [25][26][27][30] - 数据是驱动技术发展的关键,其获取方式(真机、仿真、生成)的有效性取决于具体任务,业界正在探索不同数据源的最优组合比例 [34][35][38] 具身智能技术发展现状 - 技术路线仍处于发散探索阶段,尚未收敛,高校与产业界需更好分工合作,高校应聚焦交互、人机协同、世界模型等核心问题突破 [3][4] - 单体机器人研究倾向于采用端到端技术路线以降低系统复合误差和延迟,决策层共识是放大视觉语言模型的能力 [5] - 群体机器人的基础是打造柔性、弹性、分布式、灵活的群体架构 [5] - 端到端是一种工程范式,强化学习是一种具体解法,黑箱是一种模式,三者概念不同,不应等同 [6][7] - 实际研究中采用多种解法,包括大量使用强化学习,并以解决问题为唯一目标 [8][9] 世界模型在自动驾驶领域的应用与挑战 - 世界模型在自动驾驶领域主要用于生成海量合成数据以覆盖数据飞轮积累的corner case和之前布局不到的场景 [11] - 与传统方案相比,世界模型能实现闭环测试,将决策链路放在模型内进行优化,这是最大的不同 [11] - 自动驾驶场景相对简单,且早有“闭环仿真器”概念,生成式AI能力的提升使生成的数据真假难辨,提供了大量有价值的训练样本 [12] - 世界模型的定义尚未统一,例如李飞飞侧重像素级重建,而LeCun认为潜在空间表达也算世界模型 [12] - 自动驾驶领域世界模型的状态表征主流仍是视频生成,同时结合雷达、点云等多模态数据以增强信息量和安全性 [13] - 将世界模型与视觉语言动作模型结合,旨在解决离线数据集无法通过模仿学习获得长程思维和未来预测能力的问题 [15][16] - 世界模型有助于解决长程任务的理解和预测难题,能赋能后续的策略学习 [17] 空间智能的定义与发展 - 空间智能定义尚不清晰,其发展部分源于SLAM技术的延续和演进,现在更多采用基于学习的方法 [20] - 空间智能不仅关注空间几何,还增加了对语义信息的关注,包括物体类别、用途、交互方式等 [21] - 机器人目前处理复杂空间关系(如“第一排左边数第四个瓶子”)的能力仍不成熟,这是空间智能需要解决的问题 [22] - 大模型因训练数据源于语言模态而存在空间关系上的“幻觉”,需构建专门数据集与传统SLAM的强空间能力对齐 [23] - 当前视觉语言模型中的视觉多为2D,3D模态较为欠缺,需补足3D信息以解决空间智能问题 [23] 具身智能的落地应用与商业化挑战 - 无人机应用生态中,航拍、农业植保等易落地应用占比可能不到1%,更多高空作业场景(如灭火、清洗、载人)尚未实现 [26] - 应用未普及的最大卡点之一是“不够智能”,依赖规则编写导致开发成本高,难以算过经济账,AI发展带来了解决希望 [27] - 通过AI与大模型结合改进决策能力,被视为实现通用泛化解决问题能力的关键希望 [29] - 产业界存在迫切需求,希望尽快将机器人用于工业自动化,这与技术创业者的通用智能愿景存在差距 [30] - 人形机器人硬件在负载能力、高负载平衡性、运动稳定性及灵巧手方案等方面仍有诸多挑战,离真正“干活”的应用落地尚有距离 [30] - 中美创业环境存在差异,例如Scale AI估值达140亿美元,而国内创业公司估值多在几亿人民币量级,需同时面对宏大愿景与短期商业化的矛盾 [31] - 创业者认为最终成功做成事情比估值高低更重要,并指出中国投资人对技术的耐心因DeepSeek等案例而有所增加 [31][32] 数据获取策略与有效性 - 机器人数据获取主要有真机采集、仿真和视频生成模型三种方式,其有效性需根据具体任务判断,并非真机数据一定最合理 [34][38] - 数据可视为金字塔结构:底层是大量、低成本的互联网或视频数据,用于预训练;中层是合成数据,用于提高任务泛化性;顶层是真机或遥操数据 [34] - 业界正在探索不同数据源的有效比例,例如一种说法是70%的网络视频数据、20%的合成数据和10%的真机数据 [35] - 合成数据是否有效,关键在于其是否针对特定任务有价值,且其表达形式不一定是视频,也可能是潜在的抽象表征 [35][36][37] - 对于足式机器人的基本运动控制任务,可能在纯仿真环境中无需真实数据即可完成,高度依赖任务形式本身 [38]