Workflow
自动驾驶之心
icon
搜索文档
千万美元奖金!2077AI启动Project EVA,邀全球超人挑战AI认知极限
自动驾驶之心· 2025-09-18 19:00
项目概述 - 2077AI开源基金会发起全球性AI评测挑战赛"EVA计划:超人试炼" (Project EVA),总奖金池高达1024万美元[1] - 项目旨在召集全球顶尖人才,共同探索当前大型语言模型(LLM)的真实能力边界[1] - 该项目并非编程竞赛,而是一场智慧与创造力的试炼,重点在于设计能挑战AI认知极限的难题[1] 项目背景与目标 - 随着GPT-4o、Claude 3.5 Sonnet等模型发展,传统AI评测基准逐渐失去挑战性[1] - 行业需要超越"刷题"式测试的新范式,以探测AI在复杂逻辑、深层因果、反事实思考和伦理困境等维度的真正极限[1] - 项目目标是寻找能定义AI未来的"问题"本身,而非问题的"答案"[1] 参赛者定位 - 项目寻找的"超人"包括顶尖的AI研究者、算法工程师[2] - 同时欢迎深耕于哲学、语言学、逻辑学、艺术等领域的跨界专家参与[2] - 目标群体是对AI能力边界怀有深刻好奇心与洞察力的探索者[2] 项目意义与愿景 - 参赛者设计的"极限难题" (The Prompt)可能成为未来AI评测体系的基石[2] - 项目成果有望启发下一代AI架构的演进方向[2] - 基金会相信真正的颠覆性思想源自开放的全球社区[2] 基金会信息 - 2077AI开源基金会是致力于推动高质量数据开源与前沿AI科研的非营利组织[3] - 基金会相信开放、协作与共享是驱动人工智能技术健康发展的核心动力[3] - 基金会致力于为全球AI研究者与开发者社区构建坚实的基础设施[3]
科研论文这件事,总是开窍后已太晚......
自动驾驶之心· 2025-09-18 11:40
公司业务模式与服务 - 公司提供个性化论文指导服务,服务内容包括导师实时互动、录播无限次回看、免费课后答疑以及24小时无时差上课 [6] - 服务涵盖从选题、调研、idea验证、代码、实验、润色、投稿直至中稿的一站式科研服务 [6] - 课程形式为腾讯会议在线1对1上课,日常通过微信群进行沟通答疑,并配备班主任全程督学跟进学习进度 [10] - 公司拥有超过300名导师,通过精准匹配系统,根据学员的研究方向、目标期刊和基础水平筛选出3至5位最契合的导师供学员选择 [11] 目标客户群体 - 主要目标客户为在读计算机专业的硕士、博士研究生,特别是那些导师指导不足、希望获取论文创新思路的学生 [6] - 服务也面向有科研需求以积累经验、提升职称或提高学术成就的人群,以及从事人工智能领域相关工作、希望升职加薪提高竞争力的人士 [7] - 此外,服务还针对计划考研、申博、留学,需要提升简历含金量的学生 [7] 服务价值主张与成果 - 公司承诺,即使是零基础的学员,只要跟随导师从文献带读学起,跟上课程节奏,6个月就能产出一篇小论文 [10] - 除了发表论文,优秀学员有机会获得清华大学、北京大学、麻省理工学院等名校的推荐信,并被推荐到实验室实习 [12] - 表现突出的学员可直接获得内推机会,进入如阿里巴巴达摩院、华为诺亚方舟等企业的研发岗位 [12] - 公司提供试听机会,预收定金可与名师进行会议沟通,并承诺若会议不满意可免费更换老师或退款 [12]
中国大模型的技术一号位们
自动驾驶之心· 2025-09-18 11:40
中国AI大模型领域领导者战略布局与技术成果 DeepSeek(梁文锋) - 团队在3年核心技术积累后产品上线 20天内连续更新50多个版本 [5] - 产品上线20天内获得全球3000万日活用户成为现象级产品 [5] - 展现中国AI创业公司技术实力和市场爆发力 加剧全球AI大模型领域竞争 [5] 通义千问(林俊旸) - 团队以周级迭代速度推进优化 半年内完成30余次版本升级 [9] - 成功适配制造、金融、政务、医疗、教育等20多个重点行业场景 [9] - 累计服务超10万家企业客户 成为国内产业级AI大模型标杆产品 [9] - 打破大模型只聚焦C端体验认知局限 大幅降低中小企业引入AI技术门槛 [10] 字节Seed(吴永辉) - 团队以快速响应用户反馈为导向 短期内密集迭代数十个版本 [14] - 产品短时间内突破千万日活 成为用户高频依赖的智能助手 [14] - 广泛应用于办公文档处理、学习答疑、生活服务咨询、创意内容辅助等日常场景 [14] - 推动AI技术从专业领域走向大众日常 加速AI在普通生活场景中的普及 [14] 腾讯混元大模型(薄列峰) - 团队半年内完成8次重大版本更新 实现代码生成精度提升等能力突破 [17] - 服务超20万家企业客户 赋能百度搜索、小度智能设备、自动驾驶等核心业务 [17] - 推动大模型技术从技术探索迈向产业实用 加速传统行业智能化转型 [17] 日日新大模型(徐立) - 构建国内领先AI大装置SenseCore 为模型研发提供算力算法数据协同底座 [22] - 持续迭代多模态能力 技术测评多次刷新通用AI能力榜单 [22] - 服务超1000家大型企业客户 覆盖全球超40个国家和地区 [22] - 打破AI技术单点应用局限 推动AI向全链条渗透升级 [23] Minimax(闫俊杰) - 推出国内首个商用万亿参数MoE架构大模型abab 6.5 [26] - 服务数万家企业客户 覆盖金融、教育、医疗等多个行业 [27] - 积累千万级C端用户 形成企业服务加C端应用双驱动产品矩阵 [27] - 为行业提供高效低成本大模型产业化路径 加速AI普惠进程 [27] 月之暗面Kimi(杨植麟) - 产品凭借超长文本处理差异化优势 早期支持20万字上下文后续升级至百万字级 [32] - 攻克传统大模型处理长篇文档痛点 快速覆盖科研辅助、法律文书分析等专业场景 [32] - 上线不久收获千万级用户关注 成为聚焦专业场景价值的现象级产品 [32] - 带动行业从通用对话向专业领域落地聚焦 推动AI技术在专业场景实用化进程 [32] 文心一言(王海峰) - 打造中国首个自主研发开源开放的产业级深度学习平台百度飞桨 [35] - 全面负责百度人工智能技术研发和商业化落地 包括百度大脑、文心大模型等核心体系构建 [35] - 推动百度AI在搜索、云计算、自动驾驶、智能硬件等众多业务领域应用 [35] - 飞桨平台降低中国AI开发者门槛 文心大模型推动生成式AI在国内普及发展 [35] 行业整体影响 - 这些领导者推动AI技术从实验室突破走向产业规模化落地 [2][37] - 中国AI企业展现技术深度与场景落地能力 提升全球AI产业应用领域竞争力 [10][23] - 带动AI产业链上下游协同发展 为全球AI产业提供技术产业双向驱动的中国样本 [17][23]
苦战七年卷了三代!关于BEV的演进之路:哈工大&清华最新综述
自动驾驶之心· 2025-09-18 07:33
BEV感知技术演进 - BEV感知已成为自动驾驶领域的基础范式,提供统一的空间表征,支持鲁棒的多传感器融合和多智能体协作[2] - 随着自动驾驶车辆从受控环境向现实世界部署过渡,复杂场景(如遮挡、恶劣天气和动态交通)中的安全性和可靠性仍是关键挑战[2] - 本文首次从安全关键视角对BEV感知进行全面综述,系统分析当前主流框架及实现策略,并将其划分为三个渐进阶段:单模态车载感知、多模态车载感知和多智能体协作感知[2] BEV感知的本质(What) - BEV感知是一种高效的空间表征范式,能够将来自多种传感器模态(如相机、激光雷达、毫米波雷达)的异构数据投影到统一的BEV坐标系中[6] - 通过这种投影,系统可构建周围环境的一致性结构化空间语义地图,消除传感器特有的视角差异[6] - 自上而下的视角能够帮助系统准确感知和理解物体间的空间关系,大幅降低多视角与多模态数据融合的复杂度[6] BEV感知的重要性(Why) - 凭借统一且可解释的空间表征,BEV感知成为自动驾驶中多模态融合与多智能体协作感知的理想基础[8] - 统一坐标系不仅简化了车载与路侧传感器的融合过程,还能支持多车辆与基础设施间的高效信息共享,突破单车辆感知的局限性[8] - BEV表征具备结构化、一致性的语义信息,能够为路径规划、车辆控制等下游任务提供支持,成为复杂协作驾驶场景中"感知-决策"环节的关键桥梁[8] BEV感知的实现方式(How) - 安全导向的BEV感知(SafeBEV)演进划分为三个主要阶段:SafeBEV 1.0(单模态车载感知)、SafeBEV 2.0(多模态车载感知)和SafeBEV 3.0(多智能体协作感知)[12] - 各阶段的特征与技术进展在后续章节详细阐述,包括单模态感知的局限性、多模态融合策略以及多智能体协作的优势[12] SafeBEV 1.0:单模态车载感知 - 该阶段采用单一传感器(如相机或LiDAR)实现基于BEV的场景理解,具有系统复杂度低、计算成本低的优势[13][20] - 基于相机的方法依赖单应性变换或数据驱动的BEV建模,分为稀疏范式与密集范式两类[13] - 基于激光雷达的方法通过点云体素化、稀疏卷积或PointNet等技术提取BEV特征,在空间分辨率与计算效率间取得平衡[13] - 但在恶劣条件下鲁棒性有限:相机方法对光照变化、遮挡和深度估计误差敏感,激光雷达方法面临点云稀疏性和天气导致的性能衰减问题[20][41] SafeBEV 2.0:多模态车载感知 - 该阶段通过集成相机、LiDAR、雷达等异构传感器提升BEV感知性能,突破单模态系统的局限性,增强遮挡与恶劣天气下的鲁棒性[14][42] - 融合策略分为五类:相机-雷达融合、相机-LiDAR融合、雷达-LiDAR融合、相机-LiDAR-雷达三模态融合及时间融合[14][42] - 根据融合阶段的不同,每类策略又可进一步分为单阶段融合(SSF)和多阶段融合(MSF)[42] - 这些策略共同增强了现实自动驾驶场景中BEV感知的安全性、适应性与可靠性[14] SafeBEV 3.0:多智能体协作感知 - 随着车联网(V2X)技术的发展,自动驾驶车辆可通过车-车、车-基础设施间的信息交互与联合推理,突破单智能体感知的局限性[15][72] - 通过在统一BEV空间中聚合多源传感器数据,协作感知能够实现全局环境建模,为动态交通中的安全导航提供关键支持[15][72] - V2VNet、DiscoNet、CoBEVT等代表性框架通过特征压缩、带宽高效协议及分布式推理技术,在降低通信成本的同时实现实时、可扩展的协作[15] - 多智能体观测的时空融合技术能够增强全局态势感知,提升对遮挡或远距离目标的感知能力[15] BEV感知数据集 - 高质量数据集是感知算法研发与评估的核心基础,设计完善的数据集对于提升BEV感知的鲁棒性与安全性至关重要[98] - 车载BEV数据集分为单模态与多模态两类,单模态数据集支持专项研究,多模态数据集支持传感器融合策略的研发[99][102] - 多智能体协作感知数据集在传感器多样性、协作能力及复杂交通场景表征方面取得显著进展,为基于BEV的协作感知研究提供了关键基础[104][105] - 路侧感知数据集利用固定路侧单元实现高精度、广范围的环境感知,具有稳定、抗遮挡的视角及广阔的时空覆盖范围[107] 挑战与未来方向 - BEV感知在开放世界场景下面临关键安全挑战,包括开放集识别、大规模未标注数据、传感器性能退化及智能体间通信延迟[2][16] - 未来研究方向包括与端到端自动驾驶系统的融合、具身智能及大型语言模型的应用[2][16] - 多模态融合仍面临标定与同步、环境干扰、实时性约束和视野局限等挑战[66][70] - 多智能体协作感知需解决通信可靠性、时空对齐及系统可扩展性三大关键挑战[97]
小鹏&理想全力攻坚的VLA路线,到底都有哪些研究方向?
自动驾驶之心· 2025-09-18 07:33
技术趋势分析 - 端到端与视觉语言动作模型标志着智能驾驶从规则驱动向数据驱动的根本性转变 [1] - 端到端模型虽能打通上下游视角,但在处理复杂困难场景时仍受限制,量产模型迭代陷入无限处理极端案例的循环 [1] - 视觉语言动作模型可视为一种更直白干净的端到端方法,取消了复杂的3D感知任务,凭借更强大的通用泛化能力为解决极端案例提供了可能性 [1] - 自动驾驶视觉语言动作模型技术栈尚未收敛,一系列算法如雨后春笋般出现 [2] 课程核心价值 - 课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员短时间内掌握核心技术栈 [3] - 课程帮助学员梳理自动驾驶视觉语言动作模型的研究发展脉络,掌握领域核心框架,学会将论文分类并提取创新点 [4] - 课程配有实战环节,完成从理论到实践的完整闭环 [5] - 课程涵盖视觉感知、语言模块、动作模块及大模型前沿技术,包括检索增强生成、思维链、强化学习、混合专家模型等广泛技术栈 [2] 课程内容架构 - 第一章概述自动驾驶视觉语言动作模型算法概念及发展历史,介绍开源基准和常见评测指标 [9][10] - 第二章讲解视觉、语言、动作三个模块的基础知识,以及大模型与自动驾驶视觉语言动作模型的结合,包括以Qwen 2.5VL-72为例的开源大模型部署使用 [11][12] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典及最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA等算法的动机、网络结构及核心 [13][14] - 第四章聚焦模块化与一体化视觉语言动作模型,讲解视觉感知、语言模型、动作模块的基础知识及检索增强生成、思维链、监督微调、强化学习、混合专家模型等技术 [15][16] - 第四章实战代码选取华科和小米最新提出的ReCogDrive,涵盖预训练、模仿学习训练和强化学习训练三个阶段的主流范式 [17] - 第五章聚焦推理增强视觉语言动作模型子领域,讲解长思维链推理、记忆和交互等趋势 [18][19] - 第五章实战代码选取清华AIR和博世提出的Impromptu视觉语言动作模型,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [19] - 第六章大作业基于ms-swift框架,从网络构建开始,自定义数据集和加载模型,开启训练任务并进行微调 [21] 学术前沿覆盖 - 课程覆盖慕尼黑工大提出的OpenDriveVLA、上海交通大学提出的DriveMoE、博世和清华AIR提出的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等前沿算法 [24] - 课程涵盖华科&小米 ICCV2025中稿的ORION、阿里&西交团队提出的FutureSightDrive、UCLA提出的AutoVLA、中科院和华为诺亚提出的Drive-R1等最新研究 [25] 教学团队与安排 - 讲师团队包括清华大学硕士生、QS30高校博士在读研究人员,在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表多篇论文,具备多模态感知、自动驾驶视觉语言动作模型、大模型Agent等前沿算法预研经验 [22] - 课程于10月20日开课,预计两个半月结课,采用离线视频教学结合VIP群内答疑及三次线上答疑的模式 [27]
揭秘小鹏自动驾驶「基座模型」和 「VLA大模型」
自动驾驶之心· 2025-09-18 07:33
小鹏自动驾驶技术方法论 - 提出自动驾驶软件3.0时代概念 即"AI模型即软件" 整个软件栈由端到端AI模型构成 基于以数据为中心的方法迭代[6] - 公司处于将整个自动驾驶软件栈构建为端到端AI模型驾驶汽车的阶段[8] - 基于规模定律(scaling law) 利用每天从数十万辆真实世界车辆收集的大量数据训练大型视觉模型作为"工厂"[8] 基础模型与部署架构 - 通过大数据构建基础模型 无需依赖三维空间先验知识和空间问题 类似世界模型概念[8] - 通过深度裁剪 量化 蒸馏将基础模型压缩为更小版本 部署到车端硬件[8] - 在云端构建VLA(视觉语言动作)基础模型 通过蒸馏剪枝和微调训练部署到车端[32] 内外循环训练机制 - 内循环为每个模型创建训练流 扩展数据后进行再训练和监督微调(SFT) 持续提升模型性能[9] - 外循环通过数十万辆车作为现实世界数据采样器 持续采样数据 根据返回数据持续训练(协同训练)[11] - 重复内外循环过程直至性能达到L4级自动驾驶 公司目标2026年实现L4级智驾车型量产[11][13] VLA模型训练方法 - 采用阿里Qwen作为原始VLM模型 使用公司整理的驾驶数据进行预训练和对齐[15] - 预训练数据分类包括静态交通元素 动态交通参与者 点对点轨迹数据 占用网络 交通信号灯和交通流信息[18] - 基于Chain-of-Thought思维链进行四步推理:提供基本驾驶知识 CoT SFT 强化学习CoT 考虑延迟的CoT SFT[22][23] 模型优化与安全强化 - 监督微调(SFT)建模为"指令遵循"任务 使用筛选的好数据专门训练导航 舒适刹车等专用指令[27] - 后期训练(post-training)采用强化学习解决长尾案例 建立奖励模型确保行动一致性[29] - 强化学习设计三重奖励机制:安全(避免碰撞) 效率(避免卡壳) 合规(遵守交通规则)[30] 行业竞争核心要素 - 底层算法和架构相通 行业差距取决于高质量数据 大算力以及算法产品化和工程落地能力[32] - VLA概念需要基础成熟的LLM作为底座 针对性训练交通驾驶行为[32] - 基础模型蒸馏上车思路可加速开发并快速部署到不同算力平台 但前提需要大算力和高质量数据[32]
超高性价比3D扫描仪!点云/视觉全场景厘米级重建
自动驾驶之心· 2025-09-18 07:33
产品核心特点 - 面向工业场景和教研场景的超高性价比3D扫描仪 轻量化设计 一键启动 实现高效实用的三维解决方案[1] - 以多模态传感器融合算法为核心 实现厘米级精度的三维场景实时重构 可广泛用于多种作业领域[1] - 每秒20万级点云成图 70米测量距离 360°全域覆盖 支持20万平米以上的大场景扫描[1][29][30] - 可选配3D高斯数据采集模块 实现高保真实景还原 支持跨平台集成[1][50] - 配备高带宽网口及双USB 3.0接口 为科研实验提供灵活扩展空间[1][22] 技术参数 - 系统运行于ubuntu 20.04 支持ROS 相对精度优于3cm 绝对精度优于5cm[22] - 尺寸14.2cm*9.5cm*45cm 重量1.3kg(不含电池) 续航时间约3-4小时 存储容量256G[22] - 采用Intel N5095处理器 4核2.0GHz 内存16G/硬盘256G 支持WIFI/蓝牙连接[22] - 配备Livox Mid-360激光雷达 Intel D435i深度相机 T-RTK UM982 Mobile定位模块[22][23] - 支持微秒级硬件同步触发 同步精度达微秒级 IMU频率最高800Hz[23][34] 操作特性 - 操作简单直观 一键启动即可执行扫描作业 扫描结果导出即用[5] - 设备自带手持Ubuntu系统和多种传感器 手柄集成电源系统[3] - 支持实时解算 输出数据格式包括pcd, las, plv等多种通用格式[22] - 提供彩色点云建图功能 支持高 中 低曝光参数调节[42] - 配备5.5寸触控屏(1280x720分辨率) 支持数据实时预览[22] 应用场景 - 适用于写字楼 停车场 工业园区 隧道 森林 矿场等复杂室内外场景[38][46] - 支持跨平台集成 适配无人机 无人车 机械狗 人形机器人等多种负载平台[44] - 可用于地理信息数据采集 城市规划 文物监测 工程监理等领域[52][54] - 支持20万平米以上大场景实时扫描 结果实时查看 支持彩色融合[30] 产品版本与定价 - 基础版本售价19800元 包含主机 软件 RTK配件和在线用户手册[57][58] - 深度相机版本售价23800元 在基础版上增加深度相机[57][58] - 3DGS在线版本售价39800元 包含3D高斯采集配件 赠送两个月云服务(月费5000元)[57][58] - 3DGS离线版本售价67800元 包含本地渲染软件 需客户自备高性能服务器[57][58] - 所有版本均提供专业工程师培训支持服务 购买后提供1年售后服务[58][60]
前理想CTO跨行具身创业,多家资本助力......
自动驾驶之心· 2025-09-17 11:26
具身智能行业动态 - 元璟资本投资合伙人、前理想汽车CTO王凯已投入具身智能创业 [2] - 某头部自驾技术高管即将参与具身智能创业 [2] 融资情况 - 成立数月便获得红杉资本、蓝驰资本等多家机构累计5000万美元投资 [3] 创始人背景与能力 - 王凯2020年加入理想汽车负责智能驾驶相关研究 涉及座舱、自驾、操作系统和平台 [3] - 王凯推动了地平线芯片方案量产 2022年离开理想加入元璟资本担任投资合伙人 [3] - 另一位自驾高管参与某头部新势力的端到端与VLA量产工作 [3] 资本关注重点 - 具身智能赛道目前比较火热 [3] - 创始人的量产能力是资本非常看好的关键因素 [3] - 具身智能领域需要量产能力强的人才推动商业化进程 [3]
自动驾驶之心企业合作邀请函
自动驾驶之心· 2025-09-17 10:01
公司业务与合作 - 公司是具身智能与自动驾驶领域的媒体平台,专注于内容创作与宣传 [1] - 近一年内公司与多家自动驾驶公司建立了长期合作关系,合作范围包括品牌宣传、产品宣传及联合运营 [1] - 公司团队持续扩大,期望与更多优秀公司建立业务联系,以推动自动驾驶领域的高速发展 [1] 合作联系方式 - 公司提供商务微信联系方式以进行进一步沟通 [2] - 公司期待与有相关业务需求的公司或团队展开进一步合作 [2]
那些号称端到端包治百病的人,压根从来没做过PnC......
自动驾驶之心· 2025-09-17 07:33
端到端自动驾驶技术发展现状 - 国内新势力车企正在推进VLA(Vision-Language-Action)技术的落地和优化 而另一部分企业则聚焦WA(World Model)路线 更多车企和Tier1供应商仍处于端到端技术攻坚阶段[2] - 端到端系统通过输入传感器原始数据直接输出控制信号或自车轨迹 代表性算法包括UniAD和Sparse系列[3] - 端到端本质是实现感知信息的无损传递 解决模块化方法中人工定义感知结果无法覆盖开集场景的问题 目前工业界普遍采用模仿学习方法进行优化[4] 端到端技术挑战与行业共识 - 端到端系统虽提高性能上限但下限稳定性不足 实际落地仍需传统规控方法兜底 learning-based输出轨迹仍需经过传统PnC处理[5] - 行业共识是自动驾驶从规则驱动转向认知驱动 但端到端技术距离成熟仍有较长距离 需要更多时间沉淀[5] - 车企为突破感知模型迭代瓶颈 积极布局VLA和WA技术路线 但需理性看待端到端替代传统规控的局限性[5] 自动驾驶技术社区生态 - 自动驾驶之心知识星球社区规模已超4000人 覆盖超300家机构与自动驾驶公司 目标两年内达到近万人规模[8][102] - 社区整合40+技术方向学习路线 包括VLA、端到端、多模态大模型等前沿领域 并提供与一线产业界/学术界大佬的直接交流渠道[8][9][17] - 社区提供岗位内推机制 成员来自蔚小理、地平线、华为、英伟达等头部企业 以及国内外顶尖高校实验室[17] 技术资源体系 - 社区汇总近60+自动驾驶数据集 涵盖VLM预训练/微调/思维链/强化学习等类型 并整合3D目标检测/BEV感知/Occupancy等开源项目[37][53][55] - 提供七大福利视频教程 内容覆盖世界模型、自动驾驶大模型、Transformer等 已举办超百场专业技术直播[88][91] - 详细梳理端到端自动驾驶技术体系 包括一段式/二段式量产方案、VLA算法及里程碑方法 兼顾学术界与工业界需求[39][47]