Workflow
transformer架构
icon
搜索文档
上海AI Lab主任周伯文:关于人工智能前沿的十个问题
机器人圈· 2025-06-26 18:46
上海人工智能实验室定位与目标 - 公司是我国人工智能领域新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地 [1] 明珠湖会议核心观点与机制 - 会议核心观点强调"对发现问题的投入与解决问题同样重要",通过科学社区力量推动创新,历史案例包括英国皇家学会、"月光社"及美国"阿帕社区" [3][10][12] - 会议采用创新组织形式:引导报告提出关键问题、"结对报告"凝练问题、平行论坛深化问题,聚焦18-36个月技术窗口期,产出颠覆性关键问题清单和敏捷部署提案 [17][18] - 首届会议吸引全球近60位青年学者和产业领袖参与,凝练出14个提案和39个关键问题清单,主题为"人工智能的多维突破与协同创新" [5][19] 人工智能前沿十大关键问题 1. **智能效率平衡**:提出"单位智能"(IQ per token)概念,定义数据思维密度(IQPT)衡量大模型训练数据的投入产出比,2025年1月由公司正式提出 [21][22] 2. **深度强化学习资源分配**:探讨Deep RL算力在数据合成与算法训练间的平衡,追求效率飞轮实现AI自我训练 [23][25] 3. **软硬协同路径**:对比国际"软件兼容硬件"(如英伟达CUDA生态)与国内"硬件兼容软件"模式,需探索更高效协同路径 [26][28] 4. **算力配置策略**:划分应用算力、迭代算力和创新算力,指出当前创新算力严重不足制约颠覆性技术发展 [29] 5. **智能体进化机制**:探讨Agent与基座模型关系,需突破"僵化学习"实现持续自主进化,需构建环境预测模型(世界模型) [30][32] 6. **具身智能突破**:研究大脑与本体最优关系,避免"超级大脑-弱本体"或"高级本体-简单决策"陷阱 [34] 7. **AI安全范式转变**:从"弥补安全漏洞"(Make AI Safe)转向"构建本质安全AI"(Make Safe AI),提出"人工智能45°平衡律" [35][37] 8. **评测体系重构**:从静态"高分低能"转向动态"训练-评测-解决问题一体化",公司2025年4月发布TTRL框架 [38][40] 9. **AI科研革命**:推动AI for Science从"工具的革命"升级为"革命的工具",需突破多模态统一表征 [41][43] 10. **架构颠覆创新**:分析Transformer局限性(计算效率/上下文理解等),探索下一代架构应对决策智能、生物智能等领域需求 [44] 人工智能发展趋势"三化"框架 - **技术体系化**:需完善智能本质理论体系,弥补应用先行的学科短板 [19] - **形态多元化**:强调与实体经济融合,因场景丰富度与技术不完备性将催生多元形态 [19] - **能力高阶化**:需基于技术体系化和要素突破推动智能水平持续升级 [20] 战略科学家培养模式 - 公司通过"高强度要素投入+高集中任务攻关+高密度人才历练场"三位一体模式培育战略科学家,链接国内外团队构建人才蓄水池 [47] - 历史案例显示战略科学家多在承担重大任务时涌现,如美国"阿帕社区"产生7位图灵奖得主,匈牙利"黄金一代"科学家等 [12][46]
致敬钱学森,我国学者开发AI虚拟现实运动系统——灵境,解决青少年肥胖难题,揭示VR运动的减肥及促进大脑认知作用机制
生物世界· 2025-06-24 11:56
青少年肥胖问题 - 青少年肥胖已成为全球性公共卫生危机,发病率迅速上升,增加心血管代谢疾病风险并导致持久认知变化[2] - 青少年大脑对肥胖相关认知障碍特别敏感,可能损害工作记忆等执行功能[2] - 体力活动是一线治疗方法,但运动积极性低、不良同伴经历和缺乏个性化指导等障碍限制了参与度[2] REVERIE系统开发 - 研究团队开发全球首个面向超重/肥胖青少年的VR智能运动干预系统REVERIE(灵境)[4] - 系统采用深度强化学习驱动和Transformer架构的虚拟教练智能体,通过迭代用户交互优化[4] - 系统提供安全、有效、沉浸式且富有同理心的运动指导,生物力学表现和心率响应与真实运动无显著差异[4] - 系统中文名"灵境"致敬钱学森1990年对VR技术的预见性命名[6][8] 临床试验设计 - 研究完成全球首例针对超重/肥胖青少年的VR运动干预随机对照试验,纳入227名参与者[11] - 参与者随机分为对照组、真实乒乓球组、真实足球组、VR乒乓球组和VR足球组[11] - 运动组每周增加三次干预课程,运动强度通过心率监测控制在相同区间[11] - 主要终点为体脂含量变化,次要终点包括体成分、糖脂代谢、体适能、心理健康和认知功能等[11] 临床试验结果 - 八周干预后,VR运动组体脂量平均减少4.28千克,真实运动组减少5.06千克,效果相当[13] - VR和真实运动组肝酶水平和低密度脂蛋白胆固醇均下降,身体素质和心理健康均改善[13] - 6个月随访显示VR运动组的改善更为持久[13] - VR运动在认知功能增强方面表现更优,嗅觉测试和反应工作记忆测试证实[14] - fMRI显示VR运动增强神经效率和可塑性,多组学分析揭示与认知能力提升相关的独特变化[14] - VR运动组轻微受伤率7.69%,低于真实运动组的13.48%,均无严重不良事件[15] 行业意义 - REVERIE系统为解决青少年缺乏运动和肥胖问题提供富有同理心的方案[16] - 系统不仅能减重,还能全面改善身体、心理和认知健康[16] - Nature Medicine评论指出VR运动为超重/肥胖青少年提供新颖有效策略,某些方面优于传统运动[17]
Transformer 在具身智能“水土不服”,大模型强≠机器人强
36氪· 2025-06-18 19:55
具身智能行业发展现状 - 2025年被业界称为"具身智能元年",宇树机器人等产品频繁登上热搜并走向全球[1] - 技术大佬纷纷投身机器人创业,大批创业项目集中涌现,行业进入爆发期[1] - 英伟达CEO黄仁勋宣称"通用机器人时代已经到来",但知名投资人朱啸虎却批量退出人形机器人公司,显示行业存在泡沫争议[1] 技术发展路径与挑战 - 从多模态大模型到具身智能是自然的技术演化,需要海量数据积累和底层基础设施支持[3] - 当前大模型面临高能耗问题,作为机器人"智能大脑"可能导致开机一分钟耗尽电量[4] - 模型在多任务场景下泛化能力弱,遇到新任务时快速适应能力差,导致需要专用机器人完成不同家务[5] - Transformer架构已近十年无革命性变化,依赖庞大参数导致巨大训练成本和能耗[5] - 大模型与机器人多模态感知体系不匹配,结合深度较浅,落地面临技术难题[6] 技术实现路线 - 行业存在模块化分层思维和端到端架构两种技术路线,尚未形成统一标准[7] - 硬件不成熟导致数据采集困难,形成"硬件不稳定-落地困难-数据不足-模型优化受限"的恶性循环[8] - 从Pipeline向端到端演进是AI各领域的共同趋势,包括信息检索、聊天系统、自动驾驶等[14] - 智源研究所发布RoboOS和RoboBrain框架,兼容主流机器人设备,实现一站式服务[11] 行业痛点与未来展望 - 当前具身智能水平仅能完成预设任务,无法真正理解人类意图并自主执行[18] - 人脑、AI大脑与机器人三者之间存在显著Gap,缺乏有效协同机制[16] - 语音交互存在延迟问题,探索人脑意图信号直连AI的可能性[19] - 大模型在空间感知和物理世界理解方面存在重大缺陷[21] - 未来5-10年是软硬件交替迭代关键期,算法升级将推动硬件进步,反之亦然[31] - 多任务混合训练趋势初现,机器人可能从专用型向通用型转变[32]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
核心观点 - AI技术正在重新定义商业创新模式,企业需转变思路以保持竞争力 [1][2] - OpenAI和DeepSeek分别通过不同路径实现AI技术突破,为行业提供创新范式 [3][4] - AI能力的"涌现"现象成为技术跃迁的关键特征 [19][20][21] - 人机交互范式因ChatGPT发生根本性变革 [22][23][24] - 中国公司DeepSeek打破"美国原创、中国应用"的思维定式,展现基础研究实力 [75][77][78] OpenAI的创新路径 创立背景 - 2015年由马斯克和奥特曼创立,初衷是防止AI技术被巨头垄断 [9] - 从谷歌挖来核心科学家伊利亚·苏茨克维尔,坚持开源、安全、普惠理念 [10][12] 技术突破 - 基于Transformer架构的"自注意力机制"大幅提升语言理解能力 [13] - Scaling Law揭示模型规模与性能的线性关系,指导大规模投入 [15][16] - GPT系列模型通过"涌现"现象实现能力跃升,参数量临界点触发智能爆发 [19][20] 产品里程碑 - ChatGPT通过自然语言交互降低使用门槛,引发全球现象级应用 [22][23] - 推理模型o1实现从直觉思维(系统1)到理性推理(系统2)的认知跃迁 [26][30] DeepSeek的逆袭战略 技术路线 - 提出"有限Scaling Law",在资源受限下追求高性能 [32][33] - MLA技术优化内存效率,MoE架构实现计算资源动态分配 [38][39][42] - V3模型6710亿参数仅激活37亿,训练成本5557万美元(行业1/10) [44] 核心突破 - R1模型采用纯强化学习(类似AlphaGo Zero),展示完整推理过程 [45][47][49] - 在奥数竞赛中与OpenAI o1准确率相当,登顶美国应用榜单 [50][51] 组织创新 - 动态团队构成和自组织管理激发"涌现"式创新 [55][56][57] - 研究员自主提出MLA架构和训练公式,体现扁平化协作 [59][60] - 150人论文署名包含数据标注员,打破传统KPI束缚 [61][62] 行业启示 技术趋势 - AI从专用工具向通用智能演进,"涌现"成为能力突破关键指标 [20][21] - 对话式交互(ChatGPT)和推理能力(o1/R1)定义下一代AI标准 [23][26][45] 创新生态 - 中国公司首次在基础研究领域实现全球领先,打破技术跟随惯性 [75][77] - 资源效率(DeepSeek)与规模投入(OpenAI)并存,拓宽行业可能性 [32][44] 组织变革 - 传统金字塔管理让位于开放协作和资源自由调配的新型研发模式 [55][63][68] - "非标准人才"和纯粹技术热情成为创新核心驱动力 [66][67]
大模型专题:大模型架构创新研究报告
搜狐财经· 2025-06-06 19:38
大模型架构创新研究核心观点 - Transformer架构目前仍占据行业绝对主导地位,但面临二次计算复杂度高、长序列处理效率低、端侧部署受限等局限性 [1][9][16] - 行业正从两条路径突破:Transformer架构改进(Attention机制、FFN层优化)和非Transformer架构探索(新型RNN/CNN) [1][7][18] - 技术发展呈现混合架构趋势,如Mamba+MoE等组合,兼顾性能与效率 [2][9][18] - 2023年后进入架构创新密集期,学术界聚焦理论突破,工业界加速工程验证 [2][14] Transformer架构现状与挑战 - 当前占据大模型架构90%以上市场份额,通用性和可扩展性优势明显 [9][10] - 核心问题:计算复杂度O(n²)导致算力消耗激增,GPT-4推理成本达GPT-3的7倍 [16] - 长序列处理效率低下,KV缓存内存占用限制端侧部署 [16] - 预训练+微调范式见顶,效果提升边际递减(Grok3资源增10倍效果仅提升2%) [16] Transformer架构改进路径 Attention机制优化 - 稀疏注意力:采用局部窗口/块状计算降低复杂度至O(n log n),代表技术有Sliding Window、MoBA [24][25][26] - 动态注意力:NSA等新技术实现可学习动态路径,替代预定义结构 [27][28][32] - 线性注意力:将点积计算线性化降为O(n)复杂度 [24] FFN层改进 - 从Dense结构演进为MoE混合专家系统,提升稀疏连接效率 [1][21] - 持续探索动态化、稀疏化下一代技术 [21][23] 其他改进 - 位置编码优化:LongRoPE增强长序列建模 [1] - 归一化层与残差连接改进 [22] 非Transformer架构探索 - 新型RNN:RWKV通过广义Delta Rule优化状态演化,Mamba利用状态空间模型提升训练效率 [1][14] - 新型CNN:Hyena Hierarchy等架构尝试 [1] - 混合架构:2025年MiniMax-01实现456B参数工业级落地,采用Transformer+Mamba组合 [9][14] 行业发展趋势 - 混合架构成为主流选择,字节跳动、阿里等企业加速布局 [2][10] - 研究方向聚焦:算力适配(FP8混合精度)、多模态融合、端侧部署能力 [2][18] - 参数规模持续突破,2025年出现万亿级非Transformer架构 [9][14] - 训练范式革新:从预训练转向多阶段训练、RL优化等后训练技术 [16][18]
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
36氪· 2025-05-28 19:59
AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑,OpenAI前首席科学家公开认为"预训练已走到尽头",而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示,行业分化成两派:曹越、孔令鹏等通过跨架构创新(如语言模型应用Diffusion、视频模型采用自回归)实现突破,阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势,参与者形容为"摸彩票",不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新:Dream 7B以7B参数量超越671B的DeepSeek V3,通过双向学习处理并行任务,在数学/代码任务表现突出[3][8][17] - 视频模型革新:曹越团队将自回归应用于视频生成,突破Sora无时序先验的限制,通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导:阿里内部多次"魔改"Transformer后仍确认其最优性,但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展:DeepSeek实现1:20+稀疏比,阿里测试显示1:10-1:20区间效果最佳,但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新:通过Attention稀疏化提升跨模态效率,端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显:GPU对Transformer训练非最优,行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧:2024年认为数据枯竭是共识,2025年美国新观点认为仍有潜力,阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新:历史显示算力增长可激活曾被放弃的技术,当前需重点优化算力利用率[40][41] - 创造本质探索:将创作定义为搜索问题,通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题:强化学习可能加剧错误推理模式,阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本:模型结构需同时兼容预训练与强化学习,当前每次技术押注成本显著上升[20][33] - 技术迭代哲学:行业进步类似飞机航道调整,需动态修正而非预测终极形态[44][45]
自动驾驶未来技术趋势怎样?李想:现阶段VLA是能力最强的架构
快讯· 2025-05-07 21:27
今晚在《理想A Talk第二季》节目中,理想汽车CEO李想谈及辅助驾驶系统转向VLA架构时表示,VLA 能够解决到全自动驾驶,但是它是否是一个效率最高的方式?是否有效率更高的架构出现?我打个问 号,我认为大概率还是会有的。李想分析指出,因为VLA还是基于transformer架构的。那Transformer是 不是效率最高的一个架构?我觉得这其实后边不知道,它是现阶段效率最高的架构,现阶段VLA是能 力最强的架构。(新浪科技) ...
深度|对话Cerebras CEO:3-5年后我们对Transformer依赖程度将降低,英伟达市占率将降至50-60%
Z Potentials· 2025-04-06 12:55
AI对芯片需求的改变 - AI运算的核心挑战在于海量简单计算伴随频繁数据转移 传统芯片架构在内存带宽和通信效率上存在瓶颈[4][5] - 生成式推理对内存带宽提出极高要求 例如700亿参数模型生成单个词需移动140GB数据[5] - 晶圆级集成技术突破SRAM容量限制 单个晶圆即可承载4000亿参数模型 相比传统方案需4000枚芯片的复杂度实现数量级提升[6][7] 技术架构创新 - Cerebras采用晶圆级SRAM阵列 相比HBM方案在推理效率上具有显著优势 第三方测试显示其保持多个模型的最快推理记录[9][10][11] - 独创冗余tile设计解决晶圆良品率难题 实现70年来首个完整晶圆交付 良品率甚至超越传统小芯片厂商[12][13] - 架构设计针对不同场景优化:批处理任务优先成本控制 交互场景追求极致延迟 如将45秒响应缩短至毫秒级可显著改善用户体验[14][15] 行业发展趋势 - 推理市场呈现"三增长"特征:用户数×使用频率×单次算力需求同步爆发 未来五年规模或超当前100倍[16][19] - 2024年末AI应用完成从"新奇玩具"到"工作流必备"的转变 普通用户依赖度推动市场质变[18] - 算法效率存在巨大优化空间 当前GPU推理利用率仅5%-7% 未来通过芯片能效提升+算法改进可实现同等功耗下更高输出[23][24] 竞争格局分析 - 推理领域不存在CUDA生态锁定效应 用户可快速切换不同硬件平台 英伟达护城河主要来自市场主导地位而非技术不可替代性[36][37] - 硬件领域资本密集度构成天然壁垒 预计五年后英伟达训练领域保持优势但推理市占率降至50%-60%[38][39] - 模型公司短期高估值源于不确定性溢价 长期将回归盈利能力评估 硬件供应商企业价值可能持续领先[40] 技术突破方向 - Transformer架构存在二次计算缺陷 未来3-5年内将被基于状态的新架构取代 注意力机制仍有改进空间[32] - 合成数据填补高危场景训练空白 如自动驾驶中的暴雪天气无保护左转等极端情况模拟[26] - 传感器端毫瓦级推理芯片将成为机器人技术基石 虽单芯片价值低但出货量潜力巨大[63] 企业战略部署 - Cerebras通过G42合作积累三大能力:超大规模算力部署经验 软件集群验证 供应链产能跃升 该订单规模超10亿美元[42][46] - 选择IPO的核心考量包括行业首批上市企业溢价 以及满足大客户对合作方透明度的要求[45] - 技术不对称优势是应对竞争的关键 晶圆级集成方案目前全球独家 良品率控制技术构筑壁垒[12][37]
湖南95后女博士,力挑谷歌,要造思考时"不发烧"的AI
创业邦· 2025-03-19 17:28
公司背景与技术路线 - 陆兮科技由两位95后女性于2023年创立,是国内首家"类脑计算生态链"企业,专注于非Transformer架构的类脑技术路线 [2] - 2024年推出国产自研大模型NLM,推理效率提升数倍,能耗降低80%以上,并通过国家网信办两项备案 [2][12] - 创始人兼CTO周芃为类脑智能领域专家,16岁考入华中科技大学,27岁获IEEE达灵顿奖,拥有软硬件协同研发的全球独家成果 [6][7] 技术架构创新 - 类脑算法模仿人脑神经元结构,采用稀疏激活机制和存算一体设计,仅激活相关神经元,减少无效计算,对比Transformer架构可定位特定信息无需全局回溯 [4][12] - 自研NEURARK类脑架构突破传统矩阵乘法,实现隐状态管理和无矩阵乘法架构,在算力消耗、存储占用等维度性能提升数倍 [12][17] - 模型支持10B量级参数在FPGA等低制程芯片部署,摆脱对英伟达GPU依赖,可在手机CPU等终端设备离线运行 [10][13] 商业化与行业应用 - 类脑大模型已预部署于医疗、水利、能源等20余个基础设施行业,与国央企合作落地三甲医院、洪涝预警等场景 [15] - 端侧模型覆盖手机、智能家居等消费电子产品,实现百元级设备100%离线部署,如NLM-GPT仅需手机处理器即可运行 [15] - 当前参数规模580亿,计划2025年提升至6000亿,目标逼近人脑100万亿参数规模,推动类脑架构爆发式发展 [16] 行业竞争与战略定位 - 挑战Transformer架构垄断地位,与微软RetNet、Mamba等共同探索降本增效路径,定位为"主权AI"核心自研技术 [3][7] - 联合华为、海光等国产芯片厂商,通过FPGA和ASIC芯片设计唤醒成熟制程性能冗余,突破先进制程限制 [9][10] - 公司女性员工占比超50%,倡导包容性文化,创始人认为女性领导力是长期稳健发展的优势 [16]