AI科技大本营
搜索文档
阶跃星辰 Tech Fellow 段楠:Step-Video 系列模型的关键技术解读
AI科技大本营· 2025-03-21 14:35
2025全球机器学习技术大会 - 大会将于4月18-19日在上海虹桥西郊庄园丽笙大酒店举行 设有12大技术专题 汇聚50+位院士 IEEE Fellow等顶尖专家 [2] - 专题涵盖智能体 联邦学习 多模态大模型 强化学习等前沿议题 [2] - 大会设置AI企业创新展区 展示产业链技术产品方案 展位所剩不多 [9][11] 段楠博士技术分享 - 阶跃星辰Tech Fellow段楠博士将在「多模态大模型前沿」专场分享《视频生成基础模型进展 挑战和未来》 [2] - 段楠博士曾任微软亚洲研究院资深首席研究员12年 专注自然语言处理 多模态基础模型等领域 [4] - 分享将围绕开源Step-Video系列模型 剖析文生视频 图生视频等任务的最新进展 [6] 阶跃星辰开源模型 - Step-Video-T2V为300亿参数视频生成模型 支持8-10秒540P视频 覆盖11类内容生成需求 中英双语输入 [5][6] - Step-Audio是首款工业级开源语音交互模型 支持多语种实时高保真生成 适用于客服 翻译等场景 [5][6] - 两款模型在多项指标上超越现有开源模型 已应用于自动驾驶 影视创作等领域 [6] 行业影响与参与 - 大会为科研学者 技术专家提供前沿洞见 推动AI技术变革与应用落地 [8] - 活动旨在促进AI生态融合 探索产业升级路径 拓展应用场景 [9][11]
3小时复刻传奇,OpenManus一作梁新兵:通用Agent的构建与赋能
AI科技大本营· 2025-03-20 17:07
2025全球机器学习技术大会(ML-Summit 2025) - 大会将于4月18-19日在上海虹桥西郊庄园丽笙大酒店举行 [2] - 汇聚50余位重磅嘉宾包括院士、IEEE Fellow及企业技术专家 [2] - 专题涵盖智能体、联邦学习、多模态大模型等前沿技术领域 [2] - 设置AI创新展区展示产业链优秀企业技术方案 [9][11] OpenManus项目 - 开源框架采用模块化架构结合Computer Use和MCP执行机制 [7] - 突破传统function calling模式实现智能任务拆解与工具协同 [7] - 具备自主规划能力与策略自适应特性 [7] - 已在数据分析、信息处理等场景实现落地应用 [7] 梁新兵技术贡献 - MetaGPT核心贡献者主导OpenManus项目开发 [5][6] - 团队仅用3小时完成对Manus的复刻并在GitHub走红 [5] - 研究成果包括Data Interpreter/Self-Supervised Prompt Optimization论文 [5] - 将分享通用Agent构建的技术创新与实践经验 [7]
基辛格遗世之作:AI 吞噬世界下的人类
AI科技大本营· 2025-03-19 09:49
人工智能与人类价值的定义 - 随着机器具备更多人类特质,人类与机器的界限将变得模糊,需要明确区分人类与人工智能的定义[3] - 建议通过定义"尊严"作为人类的核心属性,为人类价值设定底线而非上限[3] - 康德的尊严概念强调人类作为道德推理主体的固有价值,人工智能是否能满足这一要求尚待探讨[3] - 人类需要重新界定自身属性,包括能动性、好奇心和自由等特质,以确保在机器学习过程中传递适当的人类概念[3] 人工智能的局限性 - 人工智能本身可能无法拥有尊严,因为它们不具备出生、死亡、不安全感或恐惧等人类特质[4] - 即使未来人工智能能展现个性、情感等特质,从道德意义上讲它们仍非真实人类,类似于文学角色[4] - 人工智能无法真正体验人类的生理感受或做出全新选择,它们受限于代码和硬件构成[4] 人机协作的未来方向 - 需要在战略层面以人类道德为基础进行控制,同时将战术控制权交给更高效的人工智能系统[5] - 过度依赖不可扩展的控制形式可能助长不安全人工智能的发展,建议将人类融入人工智能团队内部工作[5] - 开发人性化人工智能是首要任务,但也需探索"人造人类"的潜在作用,前提是出于个人选择[5] - 在人工智能时代,需要在"自我设计"与"与创造物相一致"之间找到平衡,避免陷入被动或限制潜能[5] - 理想未来是人类智能与机器智能相互赋能,这需要双方充分了解对方,并持续定义和共享人类概念[5]
黄仁勋年度演讲来了,Scaling Law失效只是假象,推理需求暴涨100倍,AI模型优化迎来新挑战|GTC 2025
AI科技大本营· 2025-03-19 09:49
演讲核心观点 - 英伟达推出下一代Blackwell Ultra芯片,提升AI训练和推理能力,并规划至2028年的芯片路线图[7][11][16] - 公司提出"AI工厂"概念,强调数据中心将从检索计算转向生成计算,预计到2028年数据中心资本支出超1万亿美元[43][69][71] - 发布个人AI超级计算机DGX Spark和DGX Station,面向模型微调与推理市场[19][21] - 布局量子计算领域,设立加速量子研究中心(NVAQC),推动量子计算与AI融合[23][25] - 推出人形机器人基础模型Isaac GR00T N1和开源物理引擎Newton,宣布"通用机器人时代已经到来"[31][33][165] 芯片与技术发布 - Blackwell Ultra芯片包含GB300 NVL72和HGX B300 NVL16两个版本,相比前代Hopper GPU,大语言模型推理速度提升11倍,算力增加7倍,内存容量扩大4倍[8] - 公布未来芯片路线图:2026年推出Rubin架构,2027年更新Rubin Ultra,2028年推出Feynman架构[11][14][16] - Rubin性能可达Hopper的900倍,Blackwell是Hopper的68倍[16] - 推出基于硅光子技术的Spectrum-X和Quantum-X交换机,能效提升3.5倍,信号稳定性提高63倍[28][30] AI与计算趋势 - 计算领域迎来拐点,AI增长加速,推理所需计算量比预期多100倍[43][63] - 从感知AI、生成式AI到自主式AI和物理AI的演进,每个阶段都带来新的市场机会[56] - 推出分布式推理服务库NVIDIA Dynamo,作为AI工厂的操作系统,并宣布开源[111][113] - 强调合成数据的重要性,需要生成万亿级token来训练AI模型[67] 行业应用与合作 - 与AWS、谷歌云、微软Azure等云服务商合作,将率先提供Blackwell Ultra实例[12] - 与戴尔、惠普、联想等服务器厂商合作,计划2025年底推出基于Blackwell Ultra的AI基础设施[12] - 与通用汽车(GM)合作构建未来自动驾驶车队,推出自动驾驶安全系统NVIDIA Halos[82][84] - 与思科、T-Mobile合作构建AI边缘计算无线网络堆栈[80] 机器人技术 - Isaac GR00T N1是全球首个开放且完全可定制的人形机器人基础模型,配套Isaac GR00T蓝图技术生成合成数据[31] - 开源物理引擎Newton由Google DeepMind和迪士尼共同开发,专为机器人设计[33] - 机器人Blue亮相,由Newton物理引擎驱动,展示具身智能技术进展[35][171] - 预测物理AI和机器人学将成为最大行业之一,机器人将作为数字工作者与人类并肩工作[148][165]
诺奖采访深度学习教父辛顿:最快五年内 AI 有 50% 概率超越人类,任何说“一切都会好起来”的人都是疯子
AI科技大本营· 2025-03-18 11:29
作者 | 诺贝尔奖官方 采访中,辛顿表达了对人工智能未来发展的担忧。他认为, 人工智能可能在短短五年内超越人类智慧 ,并就此可能引发的社会风险,例如大规模失业 和虚假信息等问题,提出了警告。更令人深思的是,辛顿暗示,人工智能的潜在风险可能远超我们目前的认知。 编译 | 王启隆 出品丨AI 科技大本营(ID:rgznai100) 杰弗里·辛顿(Geoffrey Hinton),这位被誉为"人工智能教父"的科学家,于去年获得了诺贝尔物理学奖,引起了全网一阵讨论。 最近辛顿接受了诺贝尔奖官方的专访,他回忆起接到诺奖电话时的趣事时,第一反应竟然是疑惑,因为自己研究的并非物理学(这点和全网的疑惑倒是 一样)。 作为深度学习领域的先驱,辛顿最广为人知的成就是神经网络。但很多人其实不知道, 他曾说过自己这辈子"最自豪"也是"最失败"的成就,其实是与 特里·塞诺夫斯基(Terry Sejnowski)共同提出了玻尔兹曼机理论。 详见: 《 深度学习之父 Hinton 万字访谈录:中美 AI 竞赛没有退路可言 》 他们的工作,以及另一位诺奖物理学奖得主约翰·霍普菲尔德(John Hopfield)等神经网络先驱的早期研究,共同 ...
全栈自研,理想发布下一代自动驾驶架构 MindVLA
AI科技大本营· 2025-03-18 11:29
核心观点 - 理想汽车发布下一代自动驾驶架构MindVLA,融合视觉、语言和行为智能,赋予车辆3D空间理解、逻辑推理和行为生成能力,实现从运输工具到智能司机的转变[1][13][15] - MindVLA采用3D高斯表示、MoE混合专家架构LLM基座模型、Diffusion轨迹优化等关键技术,平衡模型参数规模与实时推理性能[1][4][7] - 该架构基于全栈自研,深度融合空间、语言及行为智能,通过端到端+VLM双系统架构实现感知、思考和适应环境的能力[1][3] 技术架构 - 采用3D高斯作为中间表征,提升多粒度、多尺度3D几何表达能力,利用海量数据自监督训练提升下游任务性能[4] - 自研MoE混合专家架构LLM基座模型,引入稀疏注意力实现模型稀疏化,加入3D数据训练使模型具备空间理解和推理能力[7] - 通过Diffusion将Action Token解码为优化轨迹,采用常微分方程采样器实现2-3步完成高质量轨迹生成,结合RLHF微调提升安全下限[7] 功能特性 - 实现"听得懂":支持语音指令改变路线和行为,如自主寻找超市或调整行驶速度[13] - 实现"看得见":具备通识能力识别商业招牌,通过环境照片定位用户位置[15] - 实现"找得到":自主漫游寻找车位,不依赖地图信息完成复杂空间推理[15] 性能突破 - 3D GS训练速度提升至7倍以上,显著优化场景重建与生成效率[10] - 采用并行解码技术和投机推理,充分发挥NVIDIA Drive AGX性能,实现实时推理[7] - 通过世界模型构建仿真环境,完成大规模闭环强化学习,实现"从错误中学习"[10] 行业影响 - 重新定义自动驾驶,如同iPhone 4重新定义手机,将汽车转变为能与用户沟通的智能体[15] - 探索物理世界与数字世界结合范式,未来有望赋能多个行业发展[1][15] - 展示跨场景适应性,不仅在驾驶场景优异,在室内环境也表现出延展性[12]