世界模型

搜索文档
华为车BU招聘(端到端/感知模型/模型优化等)!岗位多多~
自动驾驶之心· 2025-06-24 15:21
华为车BU招聘信息 - 端到端模型算法工程师岗位职责包括模型设计开发部署迭代、现网问题优化、新算法预研落地及数据分布分析[1] - 感知模型算法工程师负责视觉感知神经网络设计开发部署迭代及长期研发[1] - 人脸状态监测算法工程师专注于驾驶员乘客姿态行为视线监测算法研发部署[1] - 模型效率优化岗位聚焦AI模型车端推理效率优化及压缩算法开发[1] 自动驾驶技术发展趋势 - 2025年技术基调确定为VLA(视觉语言动作)驱动的端到端2.0系统[9] - 关键技术包括视觉大语言模型基座、扩散模型轨迹预测、3DGS闭环仿真及世界模型[9] - 技术迭代周期持续缩短,行业进入快速演进阶段[9] 自动驾驶之心知识星球概况 - 国内最大自动驾驶技术社区,成员近4000人[14] - 覆盖30+技术方向学习路线,包含感知定位规划控制等全栈内容[14] - 与数十家企业建立内推渠道,简历直达招聘方[14] - 每周活跃度居国内前20,日均成本不足1元[15] 技术资源体系 - 建立四大板块:学术进展追踪、专家答疑、内容下载、课程优惠[16] - 积累近5000份干货内容,每年举办100场行业直播[17] - 技术领域覆盖视觉大语言模型、世界模型、BEV感知等30+方向[19] - 视频直播涵盖50+子方向,年计划100场专业分享[21] 数据集与评估体系 - 视觉语言模型预训练数据集规模达5B图像文本对[29] - 自动驾驶专用数据集包含KITTI、NuScenes、Waymo等主流基准[34] - 语言增强驾驶数据集支持视觉问答、导航等复杂任务[35] - 评估指标覆盖图像分类、目标检测、语义分割等任务[30][33] 前沿技术应用 - 智能交通领域应用语言引导车辆检索、视觉问答等技术[36] - 自动驾驶感知方向实现开放词汇检测、语言引导跟踪等突破[37] - 定位规划领域探索语言条件导航、大模型轨迹生成等创新[38] - 决策控制方向开发基于LLM的可解释驾驶系统[39] 行业生态建设 - 嘉宾团队覆盖国内外顶尖高校和头部企业[112][114] - 成员来自地平线、蔚来、小鹏等企业及全球知名院校[117] - 日常维护包括论文分享、职位内推、技术问答等[120] - 持续邀请100+行业专家参与内容建设[112]
新股消息 | 斯坦德机器人递表港交所 为全球第五大工业智能移动机器人解决方案提供商
智通财经网· 2025-06-24 06:52
公司上市申请 - 斯坦德机器人向港交所主板提交上市申请,中信证券、国泰君安国际为其联席保荐人 [1] 公司业务与市场地位 - 公司为全球领先的工业智能移动机器人解决方案提供商,致力于赋能多种工业场景中的智慧工厂 [4] - 公司是提供工业具身智能机器人解决方案的先驱,提供一站式机器人解决方案包括核心机器人技术平台、多功能工业智能机器人产品系列以及all-in-one智能协同系统RoboVerse [4] - 按2024年销量计算,公司为全球第五大工业智能移动机器人解决方案提供商及第四大工业具身智能机器人解决方案提供商 [4] - 公司服务全球超过400名客户,其中许多是各自领域的龙头企业 [4] - 按2024年出货量计,公司在3C行业位居第二、汽车行业位居第二,半导体行业位居第五 [4] 技术优势 - 公司是行业内少数实现自主研发全栈技术的企业之一 [5] - 公司是中国工业智能机器人系统工程的先驱,也是中国首批自主开发适用于工业智能机器人的专有操作系统的企业之一 [5] - 公司是首批发布SLAM技术的企业之一,也是行业首批开发适用工业场景的VLA模型的企业之一 [5] - 公司在定位、导航、控制及感知与操作技术方面有顶尖突破 [5] - 公司为中国首家实现工业机器人系统世界模型及群体智能的公司 [5] - 公司为少数具备在单一模拟场景中调度超过2,000台机器人能力的公司之一 [5] 客户与市场 - 公司客户主要为3C、汽车和半导体等高科技行业的制造商,也包括系统集成商 [6] - 客户主要在中国内地 [6] 财务表现 - 2022年、2023年、2024年收益分别约为9627.5万元、1.62亿元、2.51亿元人民币 [7] - 同期年内亏损分别约为1.28亿元、1亿元、4514.4万元人民币 [7] - 2022年、2023年、2024年毛利分别为12,382千元、51,169千元、97,158千元人民币 [8] - 2022年、2023年、2024年研发开支分别为55,525千元、56,098千元、36,611千元人民币 [8]
商汤绝影世界模型负责人离职。。。
自动驾驶之心· 2025-06-21 21:15
商汤绝影人事变动 - 商汤绝影世界模型研发负责人离职,该负责人曾负责云端技术体系建设和生成式智驾方案R-UniAD研发 [2] - 传闻该离职负责人可能选择创业 [3] 中阶市场动态 - 商汤绝影已在广汽传祺量产交付基于J6M的中阶方案 [4] - 2025年中阶市场将迎来重大升级,从高速NOA升级为全域NOA [4] - 头部公司推出轻量版城区NOA方案,可适配100 TOPS算力芯片,并已向主机厂推广演示 [4] - 算法方案每年迭代升级,跟不上节奏的玩家可能被市场淘汰 [4] 高阶市场布局 - 2025年高阶市场重点是一段式端到端方案,主机厂招标普遍要求该技术 [5] - 商汤绝影UniAD一段式端到端方案已与东风汽车合作,目标2025年Q4量产交付 [5] - 商汤绝影过去两年高阶领域存在感较弱,当前需通过标杆项目证明实力 [6] - 2025年是关键窗口期,主机厂释放大量高阶车型项目,后续机会将向10万价位车型下沉 [6] 商汤绝影战略关键 - 一段式端到端方案的量产交付效果将决定公司能否在高阶市场站稳脚跟 [7] - 高阶业务表现将直接影响公司融资前景 [8]
人形机器人“闹展会”,量产易、应用难
36氪· 2025-06-20 20:15
行业动态 - 2025年世界移动通信大会(MWC25上海)成为人形机器人集中展示平台,智元、傅利叶、宇树、乐聚等公司产品同台竞技,展示运动、交互、作业等智能能力[1] - 2025世界机器人大赛首次亮相展会,通过编程对抗赛培养青少年科技人才,推动具身智能产业变革[1] - 人形机器人行业进入"拟人"向"类人"过渡阶段,需突破安全、情感、伦理、交互等关键技术难题才能实现"超人"愿景[8] 技术架构 - 智元机器人采用"本体-小脑-大脑"三层架构:本体和小脑实现断网基础操作,大脑通过云平台+具身算法实现复杂任务处理[4] - 通信技术为人形机器人提供实时信息获取能力,RAG技术构建的业务知识库使远征A2能胜任营业厅导览、营销等服务工作[4] - 世界大模型成为行业突破关键,需通过4S店销售等细分场景认知逐步构建物理世界理解能力[6][8] 应用场景 - 智元远征A2、精灵G1等产品已部署在通信行业展厅、营业厅、机房场景,提供导览、巡检、动环监测等服务[4][5] - 精灵G1可替代人工完成机房24小时巡检,具备资产盘点、应急操作等功能[5] - 5G-A/6G与边缘算力为人形机器人提供基础设施,其在养老陪护、高危作业等场景的需求将反向推动网络与AI技术革新[5] 行业挑战 - 当前行业尚无企业能整合OpenAI的精准控制、特斯拉的训练能力、Physical Intelligence的通用化大脑等四项核心技术[8] - 人形机器人在国际技能大赛中展现料箱搬运、衣物整理等能力,但实时感知与决策仍依赖人工遥控[11] - 北京已形成人形机器人全产业链体系,武汉预计2025年Q3实现量产,成都开展教育、安防等场景实景验证[12] 产品进展 - 智元灵犀X2展示太极拳和"内心戏"对话功能,远征A2具备毛笔书写和多轮语音对话能力[2][4] - 宇树科技参与机甲格斗赛,其动态平衡算法使机器人摔倒后数秒内自主站立[11] - 傅利叶机器人实现观众互动功能,开普勒等企业参与工业场景技能比拼[1][11]
北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈
雷峰网· 2025-06-20 19:54
核心观点 - 互联网视频数据是唯一可以规模化(scalable)的具身智能发展路径,通过标注人类动作数据训练模型是通向通用人工智能(AGI)的关键[1][6][25] - 当前多模态模型缺乏与世界物理交互的能力,需通过海量人类运动视频数据建立动作与世界的关联[2][19][29] - 公司技术路线与主流VLA/世界模型方案存在本质差异,坚持从人类行为数据预训练构建统一解决方案[5][55][56] 技术路线 - **数据采集**:已标注1500万条互联网视频中人类关节动作数据,聚焦全身运动控制与第一人称手部操作[6][28][34] - **模型架构**:基于语言模型backbone加入多模态信息,未来可能探索纯视频预训练模型[42][55] - **训练方法**:通过人类动作先验知识缩小状态-动作空间搜索范围,避免强化学习的无效遍历[29][30] - **硬件适配**:专注人形机器人/灵巧手形态,可向下兼容夹爪/轮式机器人[31][33] 行业竞争分析 - **主流方案缺陷**: - 遥操作/真机数据采集成本高且难以复用[33] - 自动驾驶系世界模型仅适用于建图导航,无法预测物理交互结果[45][48] - VLA方案在gripper形态有效但未触及人形机器人本质问题[53][57] - **差异化优势**: - 数据规模领先(1500万vs竞品数百条)[28] - 动作级标注精度(20+关节自由度vs物体轨迹分析)[25] - 预训练范式创新(action数据前置学习vs VLM+action head)[55] 公司发展 - **融资情况**:获联想之星/星连资本数千万人民币天使轮[9] - **团队规模**:5名全职+20名实习生,核心成员具备多年模型研究经验[76][78] - **产品规划**: - 第一代模型Being-M0定位验证性产品[73] - 运动控制模型将率先scale up至1.0版本[74] - 第二代模型Beyond系列代表全球领先水平[70] - **商业化节奏**: - 2-3年实现技术规模化[81] - 短期无商业化压力,保持非营利研究属性[64][65] - 长期目标2C通用机器人[83] 行业趋势判断 - 具身智能发展受限于视频数据贫乏,需突破语言模型依赖文字富矿的路径依赖[9][35] - 当前投资环境存在"非共识投资"与"确定性偏好"的矛盾,但机器人硬件进步带来信心[66] - 全球竞争格局下,技术路线终局思维比短期商业化更重要[67]
Midjourney发布视频模型:不卷分辨率,但网友直呼画面惊艳
虎嗅APP· 2025-06-20 17:47
以下文章来源于APPSO ,作者发现明日产品的 APPSO . AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 本文来自微信公众号: APPSO (ID:appsolution) ,作者:appso,原文标题:《这个AI生图神器首次发布视频模型:不卷分辨率,但网友直呼画面 惊艳超预期|附提示词》,题图来自:AI生成 面对迪士尼和环球影业的版权诉讼,老牌文生图"独角兽"Midjourney没有放慢节奏,反而于今天凌晨顶着压力推出了首个视频模型V1。 调色精准、构图考究、情绪饱满,风格依旧在线。 不卷分辨率、不卷长镜头、Midjourney卷的,是一股独有的氛围感和审美辨识度。Midjourney是有野心的,目标剑指"世界模型",但目前略显"粗糙"的 功能设计,能否让其走得更远,恐怕还是一个未知数。 你卷你的分辨率,我走我的超现实。 Midjourney一直以奇幻、超现实的视觉风格见长,而从目前用户实测的效果来看,其视频模型也延续了这一美学方向,风格稳定,辨识度高。 省流版如下: 上传或生成图像后点击"Animate"即可,单次任务默认输出4段5秒视频 ...
本周精华总结:Meta发布世界模型,下一个ChatGPT时刻何时来临?
老徐抓AI趋势· 2025-06-20 00:47
Meta世界模型技术突破 - Meta发布"世界模型"标志着AI技术从文本图像理解向物理世界规律认知的跃迁 核心在于让AI掌握重力 流体力学等物理常识 例如理解"拧开盖子才能倒水"的因果关系[1] - 当前AI物理常识准确率不足人类50% 但预示巨大进步空间 传统大语言模型在现实操作推理存在明显短板[1] - 世界模型将推动自动驾驶质变 需实现类似人类司机的场景预判能力 如识别被遮挡行人潜在位置[1] 量子计算与科技革命 - 量子计算发展临近拐点 英伟达CEO黄仁勋欧洲演讲指出该技术将加速AI与科研突破 未来几年可能涌现蒸汽机级别的颠覆性创新[2] - 科技革命节奏持续加快 全球经济和社会结构面临深刻重构 世界模型 自动驾驶 量子计算构成关键创新三角[2] 生产力变革与投资机会 - 成熟世界模型将重塑运输 物流 公共交通行业生产力 技术领先企业有望获得超额市场收益[2] - 建议重点关注世界模型 自动驾驶 量子计算三大领域的产业布局动态 把握技术商业化窗口期[2] 会员服务推广 - 提供特斯拉 AI领域投资信息差分析服务 年度会员限时优惠价1199元 附赠线下活动门票或凯文凯利未来学著作[4]
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 19:54
视觉语言模型在自动驾驶领域的应用 - 大模型技术正在智能驾驶领域快速落地,VLM(视觉语言模型)和VLA(视觉语言动作模型)成为关键技术方向 [2] - VLM侧重基础能力如检测、问答、空间理解和思维链推理,VLA更关注动作生成如轨迹预测 [4] - 学习路径建议先掌握VLM再扩展到VLA,VLM结合扩散模型可实现多模态轨迹预测 [4] 技术社区与资源 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息,已吸引华为天才少年等专家加入 [4] - 社区覆盖四大板块:技术分类汇总、顶级学者直播、求职资源、问题解答,形成"课程+硬件+问答"闭环 [5] - 目标3年内建成万人规模的智能驾驶与具身智能社区,已与多家企业建立学术-产品-招聘全链路合作 [4] 前沿技术方向与数据集 视觉大语言模型 - 汇总10个Awesome资源库,涵盖智能交通LLM、AIGC、CLIP提示学习、模型安全等领域 [6] - 基础理论包括预训练、迁移学习、知识蒸馏三大方向 [7][10][11] 数据集规模 - VLM预训练数据集从SBU Caption(2011年1M图文)发展到LAION5B(2022年5B图文) [13] - 自动驾驶专用数据集包括NuScenes(2020年多模态)、Waymo Open Dataset(2020年)等19个主流数据集 [19] 关键技术应用 智能交通系统 - 2022-2023年出现多模态车辆检索系统,支持自然语言查询跟踪车辆 [21] - Tem-adapter等模型将图文预训练迁移到视频问答任务 [21] 自动驾驶感知 - VLPD(2023)通过视觉语言自监督提升行人检测 [22] - OpenScene(2023)实现开放词汇的3D语义分割 [22] 轨迹预测与规划 - GPT-Driver(2023)、DRIVEVLM(2024)等模型将LLM融入运动规划 [23] - 扩散模型应用显著,如DiffusionDrive(端到端驾驶)、MagicDriveDiT(高分辨率视频生成) [37] 世界模型研究进展 - 2024年涌现DriveWorld、Vista等模型,实现4D场景理解与高保真可控生成 [30] - 核心突破包括:InfinityDrive突破时间泛化限制、DriveDreamer4D增强4D重建 [30] - 17篇顶会论文覆盖物理仿真、多模态LLM融合等方向 [28][29][30] 端到端自动驾驶 - 两大资源库汇总200+篇论文,跟踪E2E驾驶最新进展 [39][43] - 关键挑战包括长尾分布处理、多任务学习、安全验证等 [43][53] - SparseAD(稀疏query范式)、GenAD(新范式)等2024年新方法提升性能25% [46]
Midjourney发布视频模型:不卷分辨率,但网友直呼画面惊艳
虎嗅· 2025-06-19 14:56
产品发布 - Midjourney推出首个视频模型V1,具备调色精准、构图考究、情绪饱满的特点,延续了其独特的超现实视觉风格[1][2][8] - 视频模型支持上传或生成图像后点击"Animate"按钮转换,单次任务默认输出4段5秒视频,最长可扩展至21秒[5][29][30] - 提供手动和自动两种模式,用户可通过提示词设定画面效果,并选择低运动或高运动选项以适应不同场景需求[5][33][37] 技术表现 - 视频生成保持高辨识度的美学风格,如博主@EccentrismArt展示的坠落少年动态流畅,城市街区空间扭曲效果稳定[9][10] - 成功处理复杂场景如极光雪地车灯的多重光源干扰,雪地粒子、运动模糊等要素一致性较强[19][22] - 静物表现力方面,奶油动态自然,杯体旋转时标签未扭曲,但写实风格中孩童左手存在不协调问题[21][24] 商业模式 - 视频功能纳入现有订阅体系(10美元/月),GPU消耗为图像任务的8倍,但生成长视频时每秒成本与图像生成接近[11][36] - 相比竞品如OpenAI Sora(20美元/月起)、Google Veo(249.99美元/月),性价比处于第一梯队[38] - 面向Pro用户测试"Relax Mode"以降低算力消耗,其他用户仍按GPU时间和会员等级计费[38] 功能局限 - 仅支持480p分辨率,长宽比自动适配图像原尺寸(如1:1输出624×624像素,16:9输出832×464像素)[11][43][44] - 缺乏音效、时间轴编辑、片段过渡及API接入能力,片段间为跳切衔接难以控制剧情节奏[40][41][42] - 官方承认当前版本属早期探索阶段,重在易用性和可扩展性[45] 战略规划 - 视频模型是构建"世界模型"的第二步,后续将推出3D模型与实时系统,最终整合图像生成、动画控制、3D导航与实时渲染[46][47][48] - 产品路线图分为四阶段:图像模型→视频模型→3D模型→实时模型,最终实现交互式内容生产体系[48][49]
Midjourney 推出其首个图生视频模型 V1:延续美学风格,目标是构建「世界模型」
Founder Park· 2025-06-19 13:52
Midjourney视频生成模型V1发布 - 推出高性价比、易于上手的视频生成功能,定位为有趣、易用、美观且价格亲民 [1] - 采用"图像转视频"(Image-to-Video)工作方式,用户可生成满意图片后点击"Animate"按钮动画化 [5] - 支持上传外部图片并通过输入运动提示词生成视频 [6] 产品功能特点 - 提供自动和手动两种动画模式:自动模式由AI生成运动提示,手动模式可精确描述运动方式 [7] - 支持两种运动幅度设置:低运动适合静态场景,高运动适合动态场景但更容易出错 [11] - 视频可被"扩展",每次延长约4秒,最多延长四次,目前分辨率480p [8] 定价与商业模式 - 入门价格每月10美元,初期仅限网页版使用 [9] - 一个视频任务成本约等于8个图像任务,生成四个5秒视频,官方称价格比市场同类产品便宜超过25倍 [12] - Pro用户可测试"放松模式"无限量生成视频,未来一个月将根据使用情况调整价格 [13] 公司战略愿景 - 视频模型是实现"实时模拟世界"愿景的第一步 [1] - 最终目标是构建能够实时交互的开放世界模拟系统,未来将继续开发3D模型、实时渲染模型等模块并整合 [13] 市场推广 - 通过7000人规模的"AI产品市集"社群进行推广,提供最新AI新品资讯和产品曝光渠道 [4]