Workflow
大模型
icon
搜索文档
CVPR2025 WAD纯视觉端到端 | 冠军方案技术报告~
自动驾驶之心· 2025-06-29 19:33
技术方案 - 采用3B参数VLM模型解决视觉端到端自动驾驶长尾场景问题 [1] - 两阶段训练方法:阶段一预训练采用自监督方式,使用83小时CoVLA数据和11小时Waymo长尾数据集进行next-token prediction训练 [2] - 阶段二微调使用500段人工标注数据,采用GPRO强化学习方法增强模型鲁棒性 [2] 数据集 - 使用Qwen2.5-VL 72B Instruct模型自动标注WOD-E2E和CoVLA数据集,生成240.5K高质量caption [3] - CoVLA数据集包含10000张前视图片,30秒20Hz日本驾驶视频 [11] - WOD-E2E数据集提供4021段长尾驾驶场景,每段20秒10Hz,8个相机 [11] 模型训练 - 预训练采用Qwen-2.5-VL-3B-Instruct模型,CoVLA VLT训练24小时,WOD-E2E VLT训练10小时 [11] - RL后训练进行2000steps,8 rollouts per sample,耗时12小时 [11] - 推理阶段使用1e-6 temperature for CoT,Greedy decoding for trajectory prediction [11] 评估结果 - 在Waymo test set RFS评分达到7.99,排名第一 [2] - Poutine方案7.99分,Poutine-base 7.91分,RL提升效果不明显但解决头部困难问题 [13] - 验证集消融实验显示Poutine-base No CoVLA得分7.95,Poutine-base No Lang得分7.94 [15] 技术特点 - 将轨迹预测建模为四阶段COT推理序列问题 [9] - 预测5个waypoints后使用cubic-spiline插值生成密集轨迹 [9] - 评估采用RFS指标,通过三个专家打分构建信任区域计算 [11] 行业思考 - 基于VLM/LLM的轨迹预测方法在长尾场景表现优异,但对物理世界理解仍有限 [19] - 3B模型目前尚无法支持10Hz城区NOA,主要作为慢系统配合工作 [19] - VLM+Action model的VLA架构可能是更合理的解决方案 [19]
刚刚,OpenAI四位华人学者集体被挖,还是Meta重金出手
机器之心· 2025-06-29 10:21
Meta从OpenAI挖角人才 - Meta近期从OpenAI挖走四名核心研究人员,距离上次挖走苏黎世办公室团队仅隔几天[1] - 被挖人员包括GPT-4、GPT-4o及轻量化模型研发的中坚力量,涉及ViT等重要研究领域[5][8] - 具体人员为:余家辉(领导o3、o4-mini和GPT-4.1研发)、任泓宇(创建o3-mini/o1-mini)、毕书超(多模态组织负责人)、赵盛佳(GPT-4/o1关键贡献者)[6][8] 人才争夺战与行业竞争 - OpenAI CEO称Meta开出"1亿美元签约奖金"挖人,但强调顶尖人才未被挖走[3] - Meta CTO回应称实际报价条款复杂,非一次性现金支付[4] - 此次挖角可能强化Meta在大模型微调和多模态对齐的技术短板[8] 被挖研究人员背景 - 赵盛佳:清华本科/斯坦福博士,参与GPT-4/GPT-4o/o1训练,获ICLR 2022杰出论文奖[10][11][13] - 余家辉:中科大少年班/UIUC博士,曾任谷歌DeepMind Gemini多模态负责人,主导OpenAI图像生成等项目[16][17][21] - 毕书超:浙大本科/UC伯克利博士,研究方向涵盖多模态推理、智能体系统整合等前沿领域[23][24][27] - 任泓宇:北大本科/斯坦福博士,创建o3-mini/o1-mini,领导GPT-4o mini研发[28][29][31] Meta的AI战略动向 - 公司在4月发布Llama 4模型后启动大规模招聘,但模型表现未达CEO预期[2] - 行业质疑Meta在基准测试中使用特定版本Llama的做法[2] - 人才引进可能加速下一代模型Llama 5的研发进程[8]
马斯克再批特朗普政府税改法案;事关“对等关税”,商务部发声;特斯拉Model Y首次实现全自动驾驶交付;巴菲特捐赠60亿美元股票丨每经早参
每日经济新闻· 2025-06-29 06:38
国际贸易与地缘政治 - 商务部批评美国加征"对等关税"是单边霸凌行为,严重冲击多边贸易体制和国际贸易秩序,中方坚决反对并警告将反制任何牺牲中方利益的关税减免交易[3] - 中国驻加拿大使馆强烈反对加政府以"国家安全"为由命令海康威视停止在加运营,认为此举损害中国企业权益并干扰中加经贸合作,要求加方停止将经贸问题政治化[3] 资本市场改革 - 深交所正谋划创业板改革,考虑支持优质创新企业上市、提升股债融资灵活度、加大并购重组支持力度并促进投融资平衡[4] - 上交所"并购六条"实施以来沪市披露676单资产重组方案(同比增长15%),其中80单为重大资产重组(同比增长200%),将继续推进科创板"1+6"改革[4] 自然灾害应对 - 国家发改委紧急追加1亿元中央预算内投资支持贵州洪涝灾区应急恢复,累计安排2亿元用于交通、水利、医疗等基础设施重建[4] - 贵州榕江县启动防汛Ⅰ级响应,已组织撤离41574人(涉及11992户),全县拉响警报并公布七大洪区撤离路线[5] - 预报显示6月29日至7月1日我国将迎强降雨,长江上游、黄河下游等流域可能出现明显涨水,嘉陵江支流涪江可能发生超警洪水[6] 科技创新 - 国内首场机器人足球3V3 AI赛落幕,清华火神队以5:3夺冠,中国农业大学山海队获亚军[7] - 国家能源集团发布我国首个发电行业千亿参数大模型"擎源",为行业提供智能化解决方案[12] - 特斯拉完成Model Y全自动驾驶交付测试,车辆在无人控制情况下以115km/h最高时速完成30分钟路程[10] 汽车产业 - 小米YU7标准版实测综合续航达784km(CLTC标准835km),交付等待期最长57周(标准版),订单按锁单顺序排产[11] 消费与文娱 - 泡泡玛特因订单激增导致部分产品延迟发货,预计7天内完成积压订单处理[13] 资本市场事件 - *ST紫天因连续两年虚增收入近25亿元可能被强制退市,公司及相关人员被罚3840万元[14] - 巴菲特捐赠价值60亿美元伯克希尔股票,创单笔年度捐赠纪录,累计慈善捐赠超600亿美元[15] 企业人事变动 - 中国东方航空原董事长刘绍勇涉嫌严重违纪违法接受审查调查[6]
放榜了!ICCV 2025最新汇总(自驾/具身/3D视觉/LLM/CV等)
自动驾驶之心· 2025-06-28 21:34
自动驾驶技术研究 - DriveArena: 可控生成式自动驾驶仿真平台 支持自定义场景生成和闭环测试 [4] - Epona: 基于自回归扩散世界模型的自动驾驶系统 可预测复杂交通场景演变 [4] - SynthDrive: 高保真传感器仿真流水线 实现真实-仿真-真实数据闭环 [4] - StableDepth: 场景一致的单目深度估计模型 支持尺度不变性深度预测 [4] - U-ViLAR: 基于可微分关联的视觉定位系统 集成不确定性感知模块 [4] 3D重建与场景生成 - DiST-4D: 解耦时空扩散模型 结合度量深度生成4D驾驶场景 [4] - GaussianProperty: 通过LMMs整合物理属性的3D高斯模型 支持材质属性编辑 [4] - GS-Occ3D: 基于高斯泼墨的纯视觉占用重建框架 实现自动驾驶场景三维重构 [5] - Curve-Aware Gaussian Splatting: 参数化曲线重建技术 提升3D几何结构精度 [6] 多模态感知与决策 - CoopTrack: 端到端协同序列感知框架 优化多智能体协作效率 [4] - ETA: 基于大模型的双轨自动驾驶系统 通过前瞻性思维提升决策效率 [5] - CARP: 粗到细的视觉运动策略学习 实现分层动作预测 [5] - Detect Anything 3D: 开放词汇3D检测系统 支持野外场景任意物体识别 [5] 生成式模型应用 - TaxaDiffusion: 渐进式训练扩散模型 实现细粒度生物物种生成 [8] - Hi3DGen: 图像到3D几何生成框架 通过法向桥接保持高保真度 [5] - Aether: 几何感知的统一世界建模 集成物理规律与语义理解 [4] 机器人操作与导航 - A0: 分层 affordance 感知模型 支持通用机器人操作任务 [4] - MoMa-Kitchen: 超10万样本的移动操作基准 针对最后米导航场景 [4] - OVA-Fields: 弱监督开放词汇 affordance 场 用于机器人部件检测 [5] 视觉基础模型 - ReME: 无训练开放词汇分割框架 基于数据中心的约束解除技术 [5] - StruMamba3D: 自监督点云表征学习 探索结构Mamba架构优势 [5] - G2D: 梯度引导的多模态蒸馏 提升跨模态学习效果 [9]
最后机会~招商:第二届全球医疗科技大会
思宇MedTech· 2025-06-28 19:40
大会基本信息 - 第二届全球医疗科技大会将于2025年7月17日在北京中关村展示中心举行 聚焦"前沿技术·从研发走向临床应用"主题 [1][6] - 会议规模约500人 参会嘉宾包括政府、医院、龙头企业、技术初创、投资机构、科研院所等跨界代表 [8] - 大会议程包括主题演讲、品牌展位、企业宣传、奖项评选等环节 重点探讨医疗科技从研发到临床落地的实践路径 [4][6][8] 核心讨论方向 - AI与智能系统:医疗AI与大模型落地挑战、多模态数据融合、医生工作流嵌入等话题 [7][9] - 影像设备升级:国产影像系统机会与瓶颈、专科影像平台打造、数据闭环与术中集成趋势 [10][15] - 高值耗材创新:新一代介入产品系统设计、效率提升与学习曲线优化、影像引导新应用 [11][15] - 能量平台发展:超声刀/射频/高频电产品迭代、多能量平台整合、术中整体解决方案 [12][15] - 材料技术突破:可降解/智能响应材料临床挑战、材料器械融合机会、差异化产品验证 [13][15] 行业互动与展示 - 设置圆桌讨论环节 探讨创新产品如何进入科室、医企协作路径、临床流程重新设计等实际问题 [14][15] - 大会将评选全球医疗科技创新成果奖 在主舞台集中展示前沿技术 [8] - 提供品牌展位、宣传资料发放、活动环节标识嵌入等商业合作权益 [4]
中央企业千亿级大模型团队再添一员
环球网资讯· 2025-06-28 19:38
行业动态 - 中央企业加速拥抱人工智能,千亿级大模型出现在多个行业领域[1][2] - 截至今年3月下旬,中央企业在工业制造、能源电力、智能网联汽车等重点行业、超500个场景布局应用人工智能[2] 公司动态 - 国家能源集团发布全球首个千亿级发电行业大模型"擎源",涵盖火电、水电、新能源发电产业的15个业务域、75个关键应用场景[1] - "擎源"大模型构建了覆盖安全环保、电力交易、产调中枢、设备检修全链条的智能决策体系[1] - 目前"擎源"已在多个业务领域成功应用,覆盖13个场景,部署41个智能体[1] 技术应用 - "擎源"大模型可主动跟踪降雨、流量、负荷变化,快速生成精准的调度计划[1] - 以水电调度为例,"擎源"提前7天预测暴雨洪水,迅速决策水库拦蓄和泄洪时机[1] - 国家电网去年12月发布千亿级多模态行业大模型光明电力大模型,面向电力全产业链提供服务[2] - 中国石油今年5月发布3000亿参数昆仑大模型,应用于油气全产业链[2] 其他企业动态 - 中国移动、中国电信、中国联通分别发布九天大模型、星辰大模型、元景大模型[2]
我国首个发电行业大模型“擎源”发布 模型参数达千亿级别
快讯· 2025-06-28 17:58
行业技术突破 - 国家能源集团发布我国首个发电行业专业大模型"擎源",模型参数达千亿级别 [1] - "擎源"是全球首个千亿级发电行业大模型,显著提升模型推理能力 [1] - 该大模型为发电行业实现安全、高效、绿色、智慧发电提供技术支持 [1] 行业发展方向 - 大模型技术将推动发电行业向智能化、数字化方向升级 [1] - 技术应用聚焦于提升发电效率与绿色低碳发展目标 [1]
脑机接口产业最新趋势和挑战是什么?这场论坛划重点
第一财经· 2025-06-28 13:39
上海脑机接口技术发展现状 - 上海已形成覆盖侵入式、半侵入式和非侵入式技术的完整研发体系 [1] - 上海科研人员成功开展中国首例侵入式脑机接口前瞻性临床试验 [1] - 中国成为全球第二个进入脑机接口临床试验阶段的国家 [1] - 上海提出2027年前脑机接口创新生态初步构建的目标 [1][6] 技术研发与商业化进展 - 岩思类脑研究院首款非侵入式商业化大脑调控产品即将在年底推出 [3] - 脑机接口系统由硬件(电极/外设)和算法系统构成 [3] - 团队正以海量人类植入式脑电活动数据训练脑电大模型 [3] - 已建立起一定规模的侵入式脑电数据库并开发出基础模型 [3] - 阶梯医疗完成3.5亿元人民币B轮融资 [7] - 阶梯医疗建成2000平方米符合国际GMP标准的生产厂房 [7] 技术挑战与发展方向 - 脑机接口面临安全高效获取高质量信号的挑战 [5] - 需解决神经编解码机制理解和算法适应性问题 [5] - 需关注脑数据采集处理的伦理与法律规范 [5] - 近期目标集中在治疗神经类和精神类疾病 [4] - 未来愿景是构建类似互联网普及程度的"脑联网" [4] 产业规划与布局 - 上海建立专业化项目经理队伍实施全生命周期项目管理 [6] - 《上海市脑机接口未来产业培育行动方案》提出2027年前目标 [6] - 2030年前目标包括实现脑机接口产品全面临床应用 [7] - 浦东成为脑机接口基础研究与临床转化的核心枢纽 [7]
辅助驾驶,不再是性价比游戏
36氪· 2025-06-27 20:27
行业现状与问题 - 中国汽车产业进入智能化下半场,辅助驾驶成为核心竞争领域,但过去车企采用「伪性价比」路径,用少量硬件堆叠功能模块,导致体验不佳[1] - 这种低成本策略导致性能瓶颈、功能阉割、体验割裂和极端工况失效等问题,正在消耗用户信任[2] - 用户需求与市场供给出现「需求错位」:用户渴望「托付感」,而市场交付的是「Demo感」[3] 安全成为核心要求 - 安全不再是辅助驾驶的可选项,而是新阶段的入场券和及格线[4][5] - 所有AI能力最终必须落在「关键场景下能否保命」这一问题上[6] - 低成本方案在关键时刻表现不佳:高速NOA无法顺滑并道,城市NOA识别不了突发情况,感知融合在极端工况下失效[7] - 新出台的《智能网联汽车组合驾驶辅助系统安全要求》国家标准为行业划定了更清晰的安全底线,监管从「鼓励创新」转向「督促合规」[7] 技术发展趋势 - 行业正在形成新共识:算力冗余、模型冗余、决策冗余成为必需[9] - 特斯拉AI5芯片单颗算力达2000~2500 TOPS,是当前主流芯片的10倍[9] - 蔚来神玑NX9031芯片相当于4颗Orin-X,已在多款车型落地[10] - 小鹏G7 Ultra版搭载三颗自研图灵芯片,总算力超2200 TOPS,是同级车型的3~28倍[10] - 理想和比亚迪也纷纷采用高性能芯片提升系统稳定性[12] 规模化落地关键 - 辅助驾驶规模化落地关键在于「铁三角」架构:安全体系×性能支撑×成本规模化[15][16] - 安全平权是辅助驾驶平权的前提,需要在30万元级技术平台下沉能力,而非简单堆叠功能[16] - 量产化方案需具备三重能力:安全体系构建、高性能支撑(大算力解决长尾问题)、成本规模化(平台化设计)[17][18][19] - 从L2到L3的跨越带来算力需求的指数级跃升:L2需80~300 TOPS,L3需千TOPS级以上[21] 大模型的应用价值 - 大模型带来接近人类驾驶员的语义理解能力,能识别行为意图、理解非结构化障碍物、动态调整决策[25] - 小鹏VLA+VLM双大模型方案可应对极端场景,华为乾崑ADS 4号称端到端延迟降低50%,通行效率提升20%[26][28] - 大模型不是炫技,而是构建可信交付、持续进化平台的关键[28] 行业发展阶段 - 辅助驾驶发展分为三阶段:功能战(价格竞争)、体验战(流畅度竞争)、安全战(可信度竞争)[29] - 行业正从「体验战」迈入「安全战」,高安全与高算力成为辅助驾驶核心价值的「一体两面」[32][33] - 真正的安全平权是让每个人都能平等享受智能带来的安全红利[33]
6月27日电,马斯克表示将在7月4日之后发布GROK 4大模型。
快讯· 2025-06-27 19:42
人工智能行业动态 - 马斯克宣布GROK 4大模型发布时间为"7月4日之后" [1]