Transformer架构

搜索文档
特斯拉、英伟达机器人背后的“卖水人”
虎嗅· 2025-07-06 07:01
具身智能行业现状 - 具身智能行业目前处于早期发展阶段,被称为"乱世"阶段[1] - 珠三角地区是全球机器人供应链的核心区域,聚集了大量硬件供应链和数据提供商[1] - 数据类"卖水人"正在崛起,专注于提供机器人与真实物理交互的数据[1] - 真实物理交互数据成为具身智能军备竞赛的核心资源,被比喻为"机器人是引擎,数据是石油"[3] 赛源公司概况 - 赛源是特斯拉、英伟达等公司在人形机器人领域的合作商之一[1] - 公司专注于提供机器人与真实物理交互的数据服务[1] - 客户包括英伟达、特斯拉、OpenAI的人形机器人项目,以及谷歌和斯坦福李飞飞的机器人模型训练实验室[1] - 公司计划成为特斯拉最大的数据端供应商[3] - 目前拥有约十万小时的真实场景数据,计划扩大到100万小时量级[29] 技术路线分析 - Transformer架构实现了具身智能的质变,主要体现在空间理解能力、泛化能力和范式转变等方面[10][11] - 特斯拉率先将Transformer架构应用于自动驾驶,为具身智能提供了重要借鉴[14][15] - 当前机器人模型主要分为两类:世界模型和分层混合架构模型,各有优劣[18][19] - 中国在硬件制造和快速迭代方面具有优势,美国更擅长大脑模型开发,两者可形成互补[20] 数据采集策略 - 公司专注于真实场景数据采集,而非仿真数据[25][26] - 通过开源社区和设备供应商合作建立数据采集共享平台[26] - 在工厂等真实生产环境中采集高密度数据,每小时可采集500-1000条有价值数据[28] - 已建立包含几十家合作公司的生态网络,包括工厂和小作坊等[29] 商业模式与竞争 - 数据可能是具身智能中最快完成商业闭环的环节[21][22] - 公司定位为具身智能界的Scale AI,但更注重数据采集和验证[24] - 商业模式包括数据采集、标注、清洗和模型初期验证等环节[24] - 面对大公司竞争,采取与头部机器人公司建立友好合作关系的策略[22][23] 创业历程与团队 - 创始人具有学术背景,曾参与NASA火星登陆项目和DARPA挑战赛[4] - 创业动机是获取更快速真实的业界反馈,推动具身智能发展[30] - 获得香港科技大学教授高秉强的天使投资[33] - 团队搭建耗时半年,注重成员适应能力和内驱力[40] - 采用"创始人模式",强调对行业的深入理解和清晰战略方向[34] 行业发展趋势 - 具身智能行业正在经历从"专用AI"向"通用AI"的转变[13] - 数据的重要性已成为行业共识,吸引更多公司进入该领域[48] - 行业仍处于早期阶段,存在大量机会和挑战[1][48] - 需要找到独特定位,专注于核心优势领域才能在竞争中脱颖而出[48]
华尔街嗅到量子投资机遇 热门“量子计算概念股”Rigetti Computing喜获“增持”
智通财经· 2025-07-02 22:20
量子计算行业动态 - 华尔街顶级投资机构Cantor Fitzgerald首次覆盖Rigetti Computing并给予"增持"评级 目标价定为15美元 盘初股价涨幅一度达6%至12美元 [1] - 全球量子计算仍处于萌芽阶段 但被视为最具潜力的技术里程碑之一 未来将产生巨大经济影响 [1] - 英伟达 微软 IBM等科技巨头已斥巨资布局量子计算赛道 相关公司股价与市值出现显著扩张 但当前估值处于"高企"模式 [1] - Rigetti Computing近期完成3 5亿美元按市价增发的新股发行 以增强资产负债表基本面 [2] 量子计算技术进展 - 谷歌Willow量子芯片在基准测试中展示惊人性能 5分钟内完成传统超级计算机需10^25年完成的任务 [3] - 目前尚未实现可精准控制量子态且能大规模商业化的量子计算 距离"最终形态"仍有很大差距 [3] - 量子纠缠是实现海量并行计算的关键 但当前技术无法实现大规模 长期稳定的量子纠缠 [4] - 英伟达CEO黄仁勋预测量子计算机处理能力将每5年增加10倍 每10年增加100倍 [4] - 思科推出用于量子计算机互联的芯片原型 并设立新实验室探索量子计算领域 [6] 科技巨头布局 - 英伟达宣布举办"量子日"活动 并计划与全球量子计算公司深度合作 [5] - 微软预测2025年为"量子就绪之年" IBM则致力于融合量子比特与传统算力硬件 [5] - 谷歌 IBM 微软 亚马逊等科技巨头持续深耕量子计算底层理论与硬件体系 [8] - IonQ新任CEO表示希望成为量子计算领域的英伟达 推动整个生态系统发展 [8] 商业化前景 - 量子计算领域可能出现类似AI领域Transformer架构的范式转变 从理论走向商业化应用 [7] - 离子阱技术 量子退火计算机等领域取得突破性进展 为商业化奠定基础 [7] - 科技巨头的人才储备 资金实力及政府支持或将加速量子计算商业化进程 [8]
画到哪,动到哪!字节跳动发布视频生成「神笔马良」ATI,已开源!
机器之心· 2025-07-02 18:40
视频生成技术发展 - 近年来视频生成任务取得显著进展,尤其是从静态图像生成视频(Image-to-Video generation)因其能以最小信息输入生成具有时间连续性与空间一致性的动态内容而受到关注 [1] - 扩散模型(Diffusion Models)、Transformer架构与高性能视觉理解模型的发展推动了视频生成技术的进步 [1] 当前视频生成技术瓶颈 - 当前主流方法缺乏有效、直观、用户友好的运动控制方式,限制了创意表达和实际应用价值 [2] - 现有方法依赖预设模板、动作标签或风格提示,缺少自由又精准的方式来指定对象与摄像机的运动路径 [2] ATI框架核心创新 - ATI是一种以"轨迹为指令"的可控视频生成框架,将用户手绘轨迹转化为显式控制信号 [2] - ATI使视频创作从"参数调控"转变为"可视化创意",实现"画到哪,动到哪"的帧级精准控制 [2] - ATI通过高斯运动注入器将轨迹编码为潜在空间中的运动向量,注入扩散生成流程 [6] ATI技术实现细节 - ATI接受静态图像和用户手绘轨迹作为输入,支持任意形状轨迹 [6] - 采用高斯运动注入器在特征图上创建移动的"亮点",使模型理解轨迹与生成视频的关联 [8] - 通过编码图像、采样特征、生成高斯权重和注入特征四个步骤实现轨迹控制 [11][12][13][14] - 支持统一控制对象级动作、局部身体部位运动与摄像机视角变化,无需切换模型或模块结构 [14] ATI应用表现 - 可实时捕捉任意轨迹路径并生成连贯自然的动态视频 [17] - 在人物或动物肖像场景中能准确还原关节弧度与质心移动,生成符合生物力学规律的运动 [19] - 最多可并行处理8条独立轨迹,保证多对象身份信息互不干扰 [21] - 支持同步驱动摄像机视角,生成包含电影级镜头语言的视频 [23] - 物体与摄像机轨迹可同时注入,实现多条运动指令的无缝融合 [25][26] - 展示出良好的跨领域泛化能力,覆盖多种艺术风格 [28] - 支持生成超越物理边界的非现实动作效果 [29] - 提供高精度模型和轻量级版本满足不同需求 [30] ATI开源与生态 - Wan2.1-I2V-14B模型版本已在Hugging Face社区开源 [32] - 社区生态快速完善,包括ComfyUI-WanVideoWrapper插件和教学视频等资源 [32] - 完整代码与模型可在GitHub和Hugging Face模型库获取 [32]
盘一盘,2017年Transformer之后,LLM领域的重要论文
机器之心· 2025-06-29 12:23
软件3.0与AI范式变革 - Andrej Karpathy提出「软件3.0」概念,自然语言成为新编程接口,AI模型直接执行任务,标志着计算范式的根本转变[1][2] - 自2017年Transformer架构问世后,LLM领域快速发展,GPT系列和多模态应用迅速崛起[3] - 技术演进从传统编程转向自然语言交互,关键论文揭示了这一转变的内在逻辑[5] 奠基性论文与技术突破 Transformer架构 - 《Attention Is All You Need》提出Transformer架构,完全摒弃循环和卷积网络,依靠自注意力机制高效处理序列数据,成为现代AI基石[8][10] - Transformer的并行计算和位置编码能力使其在机器翻译等任务中表现优异,并广泛应用于NLP和计算机视觉领域[11] GPT系列与缩放定律 - GPT-3拥有1750亿参数,通过少样本学习在翻译、问答等任务中表现优异,确立了「大模型+大数据」的缩放定律[12][13] - GPT-3开创提示工程新范式,降低AI开发门槛,引领生成式AI浪潮[13] 强化学习与人类反馈 - 《Deep Reinforcement Learning from Human Preferences》提出RLHF技术,通过人类偏好训练奖励模型,成为对齐ChatGPT等LLM的关键[14][15] - InstructGPT结合RLHF技术,即使参数更小也能更好遵循指令,催生ChatGPT并确立行业标准[16][17][18] 高效训练与推理技术 计算优化 - Chinchilla论文挑战「模型越大越好」认知,提出计算最优缩放法则,模型参数与训练数据应同步增长[22][23] - LLaMA证明小模型通过更长时间训练可超越大模型,推动开源生态繁荣[27] 注意力与内存优化 - FlashAttention通过融合计算内核和优化内存使用,提升长序列处理效率,成为行业标准[29][30] - PagedAttention借鉴操作系统分页思想,提升LLM服务内存利用率,显著增加吞吐量[51][52] 多模态与开源生态 - LAION-5B提供58.5亿图文对数据集,推动多模态模型发展并降低研发门槛[56][58] - Mistral 7B通过GQA和SWA架构实现高效推理,成为开源社区标杆[55] 新兴趋势与前沿探索 - Mamba架构通过选择性状态空间实现线性时间序列建模,挑战Transformer地位[44][45] - QLoRA技术使消费级GPU可微调数十亿参数模型,推动社区创新[47][49][50] - 思想树(ToT)框架增强LLM复杂问题解决能力,推动推理技术发展[60][61] 行业影响与未来方向 - LLM能力随规模「涌现」,不可预测的新能力推动模型持续扩大[62][63] - 稀疏门控专家混合层(MoE)实现万亿参数模型训练,成为顶尖LLM核心技术[70][71][72] - 开源框架如DeepSpeed和Megatron-LM突破硬件限制,支撑超大规模模型训练[65][67][68]
新紫光集团董事、联席总裁陈杰:我国有移动互联网时代的成功经验,最有能力做好AI应用创新
每日经济新闻· 2025-06-28 18:33
中国AI产业发展策略 - 针对国际已达成共识且有效的技术卡点,如Transformer架构和COT技术,需集中力量进行正面突破 [1] - 在跟踪国际技术的同时,必须采用创新方式以避免长期落后 [1] 半导体领域创新方向 - 中国半导体工艺目前基本停留在7纳米节点,且将维持较长时间 [4] - 在工艺受限的情况下,应重视系统和芯片架构创新,如3D堆叠和存算一体,以缩小与国外大算力芯片的差距 [4] 端侧AI技术优势 - 端侧AI技术难度相对较低,可发挥中国研发人员众多和对应用场景理解深刻的优势 [4] - 端侧AI传统应用包括翻译、语音识别和目标检测,新兴应用包括智能驾驶、服务机器人和智能场景感知 [4] AI应用创新建议 - 中国在移动互联网时代的产业规模和应用场景创新表现突出,未来可借鉴此经验推动AI应用创新 [4] - 建议更多关注行业垂直领域AI应用,结合行业特性和需求进行定制化研发,以落地实践引领技术发展 [4]
你的扫描全能王,作价217亿冲刺港股IPO
量子位· 2025-06-27 18:57
公司概况 - 名片全能王、扫描全能王母公司上海合合信息科技计划以217亿市值赴港上市,实现"A+H"双重上市[2][3] - 公司2024年营收14.38亿元,净利润4亿元,毛利率高达84.3%[4] - 公司C端产品月活跃用户达1.71亿,在全球C端效率类AI"超级APP"公司中排名第五[5][6] 产品与技术 - 公司定位为人工智能及大数据科技企业,专注多模态大模型文本智能技术[7] - C端核心产品包括扫描全能王、名片全能王和启信宝,B端产品包括TextIn和启信慧眼[8][9][10][12] - 扫描全能王覆盖超200个国家和地区的10亿多用户,是全球最大图像文本处理AI产品[11] - 技术底座以文本智能感知与认知技术为核心,构建天枢、天璇、天玑三大技术平台[14][16] 商业模式 - C端产品主要通过付费订阅实现商业化,2024年付费用户占比4.3%[18][21] - B端产品将场景knowhow转化为标准化AI模块,覆盖近30个行业约160家世界500强公司[19][20] - 2024年C端业务占总收入83.8%,其中扫描全能王贡献77.3%[27][28] 财务表现 - 2022-2024年营收复合年增长率21%,分别为9.89亿、11.87亿和14.38亿元[25] - 同期净利润分别为2.84亿、3.23亿和4亿元[36] - 研发投入持续增加,2024年达3.9亿元占营收27.2%,研发人员占比60.6%[33][35] 市场地位 - 按2024年收入计,在中国MAU超1亿的C端效率类AI产品公司中排名第一[21] - 全球市场份额2.5%,排名第五,前四位为OpenAI、谷歌、Adobe和微软[22][23] 行业前景 - 全球AI产品市场规模预计从2024年465亿美元增长至2029年2280亿美元,复合增长率37.4%[66] - 中国B端AI市场2024年规模52亿美元,预计2029年达257亿美元,复合增长率37.6%[69][70]
上海AI Lab主任周伯文:关于人工智能前沿的十个问题
机器人圈· 2025-06-26 18:46
上海人工智能实验室定位与目标 - 公司是我国人工智能领域新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地 [1] 明珠湖会议核心观点与机制 - 会议核心观点强调"对发现问题的投入与解决问题同样重要",通过科学社区力量推动创新,历史案例包括英国皇家学会、"月光社"及美国"阿帕社区" [3][10][12] - 会议采用创新组织形式:引导报告提出关键问题、"结对报告"凝练问题、平行论坛深化问题,聚焦18-36个月技术窗口期,产出颠覆性关键问题清单和敏捷部署提案 [17][18] - 首届会议吸引全球近60位青年学者和产业领袖参与,凝练出14个提案和39个关键问题清单,主题为"人工智能的多维突破与协同创新" [5][19] 人工智能前沿十大关键问题 1. **智能效率平衡**:提出"单位智能"(IQ per token)概念,定义数据思维密度(IQPT)衡量大模型训练数据的投入产出比,2025年1月由公司正式提出 [21][22] 2. **深度强化学习资源分配**:探讨Deep RL算力在数据合成与算法训练间的平衡,追求效率飞轮实现AI自我训练 [23][25] 3. **软硬协同路径**:对比国际"软件兼容硬件"(如英伟达CUDA生态)与国内"硬件兼容软件"模式,需探索更高效协同路径 [26][28] 4. **算力配置策略**:划分应用算力、迭代算力和创新算力,指出当前创新算力严重不足制约颠覆性技术发展 [29] 5. **智能体进化机制**:探讨Agent与基座模型关系,需突破"僵化学习"实现持续自主进化,需构建环境预测模型(世界模型) [30][32] 6. **具身智能突破**:研究大脑与本体最优关系,避免"超级大脑-弱本体"或"高级本体-简单决策"陷阱 [34] 7. **AI安全范式转变**:从"弥补安全漏洞"(Make AI Safe)转向"构建本质安全AI"(Make Safe AI),提出"人工智能45°平衡律" [35][37] 8. **评测体系重构**:从静态"高分低能"转向动态"训练-评测-解决问题一体化",公司2025年4月发布TTRL框架 [38][40] 9. **AI科研革命**:推动AI for Science从"工具的革命"升级为"革命的工具",需突破多模态统一表征 [41][43] 10. **架构颠覆创新**:分析Transformer局限性(计算效率/上下文理解等),探索下一代架构应对决策智能、生物智能等领域需求 [44] 人工智能发展趋势"三化"框架 - **技术体系化**:需完善智能本质理论体系,弥补应用先行的学科短板 [19] - **形态多元化**:强调与实体经济融合,因场景丰富度与技术不完备性将催生多元形态 [19] - **能力高阶化**:需基于技术体系化和要素突破推动智能水平持续升级 [20] 战略科学家培养模式 - 公司通过"高强度要素投入+高集中任务攻关+高密度人才历练场"三位一体模式培育战略科学家,链接国内外团队构建人才蓄水池 [47] - 历史案例显示战略科学家多在承担重大任务时涌现,如美国"阿帕社区"产生7位图灵奖得主,匈牙利"黄金一代"科学家等 [12][46]
致敬钱学森,我国学者开发AI虚拟现实运动系统——灵境,解决青少年肥胖难题,揭示VR运动的减肥及促进大脑认知作用机制
生物世界· 2025-06-24 11:56
青少年肥胖问题 - 青少年肥胖已成为全球性公共卫生危机,发病率迅速上升,增加心血管代谢疾病风险并导致持久认知变化[2] - 青少年大脑对肥胖相关认知障碍特别敏感,可能损害工作记忆等执行功能[2] - 体力活动是一线治疗方法,但运动积极性低、不良同伴经历和缺乏个性化指导等障碍限制了参与度[2] REVERIE系统开发 - 研究团队开发全球首个面向超重/肥胖青少年的VR智能运动干预系统REVERIE(灵境)[4] - 系统采用深度强化学习驱动和Transformer架构的虚拟教练智能体,通过迭代用户交互优化[4] - 系统提供安全、有效、沉浸式且富有同理心的运动指导,生物力学表现和心率响应与真实运动无显著差异[4] - 系统中文名"灵境"致敬钱学森1990年对VR技术的预见性命名[6][8] 临床试验设计 - 研究完成全球首例针对超重/肥胖青少年的VR运动干预随机对照试验,纳入227名参与者[11] - 参与者随机分为对照组、真实乒乓球组、真实足球组、VR乒乓球组和VR足球组[11] - 运动组每周增加三次干预课程,运动强度通过心率监测控制在相同区间[11] - 主要终点为体脂含量变化,次要终点包括体成分、糖脂代谢、体适能、心理健康和认知功能等[11] 临床试验结果 - 八周干预后,VR运动组体脂量平均减少4.28千克,真实运动组减少5.06千克,效果相当[13] - VR和真实运动组肝酶水平和低密度脂蛋白胆固醇均下降,身体素质和心理健康均改善[13] - 6个月随访显示VR运动组的改善更为持久[13] - VR运动在认知功能增强方面表现更优,嗅觉测试和反应工作记忆测试证实[14] - fMRI显示VR运动增强神经效率和可塑性,多组学分析揭示与认知能力提升相关的独特变化[14] - VR运动组轻微受伤率7.69%,低于真实运动组的13.48%,均无严重不良事件[15] 行业意义 - REVERIE系统为解决青少年缺乏运动和肥胖问题提供富有同理心的方案[16] - 系统不仅能减重,还能全面改善身体、心理和认知健康[16] - Nature Medicine评论指出VR运动为超重/肥胖青少年提供新颖有效策略,某些方面优于传统运动[17]
Transformer 在具身智能“水土不服”,大模型强≠机器人强
36氪· 2025-06-18 19:55
具身智能行业发展现状 - 2025年被业界称为"具身智能元年",宇树机器人等产品频繁登上热搜并走向全球[1] - 技术大佬纷纷投身机器人创业,大批创业项目集中涌现,行业进入爆发期[1] - 英伟达CEO黄仁勋宣称"通用机器人时代已经到来",但知名投资人朱啸虎却批量退出人形机器人公司,显示行业存在泡沫争议[1] 技术发展路径与挑战 - 从多模态大模型到具身智能是自然的技术演化,需要海量数据积累和底层基础设施支持[3] - 当前大模型面临高能耗问题,作为机器人"智能大脑"可能导致开机一分钟耗尽电量[4] - 模型在多任务场景下泛化能力弱,遇到新任务时快速适应能力差,导致需要专用机器人完成不同家务[5] - Transformer架构已近十年无革命性变化,依赖庞大参数导致巨大训练成本和能耗[5] - 大模型与机器人多模态感知体系不匹配,结合深度较浅,落地面临技术难题[6] 技术实现路线 - 行业存在模块化分层思维和端到端架构两种技术路线,尚未形成统一标准[7] - 硬件不成熟导致数据采集困难,形成"硬件不稳定-落地困难-数据不足-模型优化受限"的恶性循环[8] - 从Pipeline向端到端演进是AI各领域的共同趋势,包括信息检索、聊天系统、自动驾驶等[14] - 智源研究所发布RoboOS和RoboBrain框架,兼容主流机器人设备,实现一站式服务[11] 行业痛点与未来展望 - 当前具身智能水平仅能完成预设任务,无法真正理解人类意图并自主执行[18] - 人脑、AI大脑与机器人三者之间存在显著Gap,缺乏有效协同机制[16] - 语音交互存在延迟问题,探索人脑意图信号直连AI的可能性[19] - 大模型在空间感知和物理世界理解方面存在重大缺陷[21] - 未来5-10年是软硬件交替迭代关键期,算法升级将推动硬件进步,反之亦然[31] - 多任务混合训练趋势初现,机器人可能从专用型向通用型转变[32]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
核心观点 - AI技术正在重新定义商业创新模式,企业需转变思路以保持竞争力 [1][2] - OpenAI和DeepSeek分别通过不同路径实现AI技术突破,为行业提供创新范式 [3][4] - AI能力的"涌现"现象成为技术跃迁的关键特征 [19][20][21] - 人机交互范式因ChatGPT发生根本性变革 [22][23][24] - 中国公司DeepSeek打破"美国原创、中国应用"的思维定式,展现基础研究实力 [75][77][78] OpenAI的创新路径 创立背景 - 2015年由马斯克和奥特曼创立,初衷是防止AI技术被巨头垄断 [9] - 从谷歌挖来核心科学家伊利亚·苏茨克维尔,坚持开源、安全、普惠理念 [10][12] 技术突破 - 基于Transformer架构的"自注意力机制"大幅提升语言理解能力 [13] - Scaling Law揭示模型规模与性能的线性关系,指导大规模投入 [15][16] - GPT系列模型通过"涌现"现象实现能力跃升,参数量临界点触发智能爆发 [19][20] 产品里程碑 - ChatGPT通过自然语言交互降低使用门槛,引发全球现象级应用 [22][23] - 推理模型o1实现从直觉思维(系统1)到理性推理(系统2)的认知跃迁 [26][30] DeepSeek的逆袭战略 技术路线 - 提出"有限Scaling Law",在资源受限下追求高性能 [32][33] - MLA技术优化内存效率,MoE架构实现计算资源动态分配 [38][39][42] - V3模型6710亿参数仅激活37亿,训练成本5557万美元(行业1/10) [44] 核心突破 - R1模型采用纯强化学习(类似AlphaGo Zero),展示完整推理过程 [45][47][49] - 在奥数竞赛中与OpenAI o1准确率相当,登顶美国应用榜单 [50][51] 组织创新 - 动态团队构成和自组织管理激发"涌现"式创新 [55][56][57] - 研究员自主提出MLA架构和训练公式,体现扁平化协作 [59][60] - 150人论文署名包含数据标注员,打破传统KPI束缚 [61][62] 行业启示 技术趋势 - AI从专用工具向通用智能演进,"涌现"成为能力突破关键指标 [20][21] - 对话式交互(ChatGPT)和推理能力(o1/R1)定义下一代AI标准 [23][26][45] 创新生态 - 中国公司首次在基础研究领域实现全球领先,打破技术跟随惯性 [75][77] - 资源效率(DeepSeek)与规模投入(OpenAI)并存,拓宽行业可能性 [32][44] 组织变革 - 传统金字塔管理让位于开放协作和资源自由调配的新型研发模式 [55][63][68] - "非标准人才"和纯粹技术热情成为创新核心驱动力 [66][67]