AI科技大本营 - 财报，业绩电话会，研报，新闻

AI科技大本营

搜索文档

阶跃星辰 Tech Fellow 段楠：Step-Video 系列模型的关键技术解读

AI科技大本营· 2025-03-21 14:35

2025全球机器学习技术大会 - 大会将于4月18-19日在上海虹桥西郊庄园丽笙大酒店举行设有12大技术专题汇聚50+位院士 IEEE Fellow等顶尖专家 [2] - 专题涵盖智能体联邦学习多模态大模型强化学习等前沿议题 [2] - 大会设置AI企业创新展区展示产业链技术产品方案展位所剩不多 [9][11] 段楠博士技术分享 - 阶跃星辰Tech Fellow段楠博士将在「多模态大模型前沿」专场分享《视频生成基础模型进展挑战和未来》 [2] - 段楠博士曾任微软亚洲研究院资深首席研究员12年专注自然语言处理多模态基础模型等领域 [4] - 分享将围绕开源Step-Video系列模型剖析文生视频图生视频等任务的最新进展 [6] 阶跃星辰开源模型 - Step-Video-T2V为300亿参数视频生成模型支持8-10秒540P视频覆盖11类内容生成需求中英双语输入 [5][6] - Step-Audio是首款工业级开源语音交互模型支持多语种实时高保真生成适用于客服翻译等场景 [5][6] - 两款模型在多项指标上超越现有开源模型已应用于自动驾驶影视创作等领域 [6] 行业影响与参与 - 大会为科研学者技术专家提供前沿洞见推动AI技术变革与应用落地 [8] - 活动旨在促进AI生态融合探索产业升级路径拓展应用场景 [9][11]

多模态大模型

视频生成基础模型

Artificial Intelligence

Artificial Intelligence

Step-Video-T2V

Step-Audio

3小时复刻传奇，OpenManus一作梁新兵：通用Agent的构建与赋能

AI科技大本营· 2025-03-20 17:07

2025全球机器学习技术大会(ML-Summit 2025) - 大会将于4月18-19日在上海虹桥西郊庄园丽笙大酒店举行 [2] - 汇聚50余位重磅嘉宾包括院士、IEEE Fellow及企业技术专家 [2] - 专题涵盖智能体、联邦学习、多模态大模型等前沿技术领域 [2] - 设置AI创新展区展示产业链优秀企业技术方案 [9][11] OpenManus项目 - 开源框架采用模块化架构结合Computer Use和MCP执行机制 [7] - 突破传统function calling模式实现智能任务拆解与工具协同 [7] - 具备自主规划能力与策略自适应特性 [7] - 已在数据分析、信息处理等场景实现落地应用 [7] 梁新兵技术贡献 - MetaGPT核心贡献者主导OpenManus项目开发 [5][6] - 团队仅用3小时完成对Manus的复刻并在GitHub走红 [5] - 研究成果包括Data Interpreter/Self-Supervised Prompt Optimization论文 [5] - 将分享通用Agent构建的技术创新与实践经验 [7]

通用智能体

Artificial Intelligence

OpenManus

通用智能体

Artificial Intelligence

OpenManus

基辛格遗世之作：AI 吞噬世界下的人类

AI科技大本营· 2025-03-19 09:49

人工智能与人类价值的定义 - 随着机器具备更多人类特质，人类与机器的界限将变得模糊，需要明确区分人类与人工智能的定义[3] - 建议通过定义"尊严"作为人类的核心属性，为人类价值设定底线而非上限[3] - 康德的尊严概念强调人类作为道德推理主体的固有价值，人工智能是否能满足这一要求尚待探讨[3] - 人类需要重新界定自身属性，包括能动性、好奇心和自由等特质，以确保在机器学习过程中传递适当的人类概念[3] 人工智能的局限性 - 人工智能本身可能无法拥有尊严，因为它们不具备出生、死亡、不安全感或恐惧等人类特质[4] - 即使未来人工智能能展现个性、情感等特质，从道德意义上讲它们仍非真实人类，类似于文学角色[4] - 人工智能无法真正体验人类的生理感受或做出全新选择，它们受限于代码和硬件构成[4] 人机协作的未来方向 - 需要在战略层面以人类道德为基础进行控制，同时将战术控制权交给更高效的人工智能系统[5] - 过度依赖不可扩展的控制形式可能助长不安全人工智能的发展，建议将人类融入人工智能团队内部工作[5] - 开发人性化人工智能是首要任务，但也需探索"人造人类"的潜在作用，前提是出于个人选择[5] - 在人工智能时代，需要在"自我设计"与"与创造物相一致"之间找到平衡，避免陷入被动或限制潜能[5] - 理想未来是人类智能与机器智能相互赋能，这需要双方充分了解对方，并持续定义和共享人类概念[5]

黄仁勋年度演讲来了，Scaling Law失效只是假象，推理需求暴涨100倍，AI模型优化迎来新挑战｜GTC 2025

AI科技大本营· 2025-03-19 09:49

演讲核心观点 - 英伟达推出下一代Blackwell Ultra芯片，提升AI训练和推理能力，并规划至2028年的芯片路线图[7][11][16] - 公司提出"AI工厂"概念，强调数据中心将从检索计算转向生成计算，预计到2028年数据中心资本支出超1万亿美元[43][69][71] - 发布个人AI超级计算机DGX Spark和DGX Station，面向模型微调与推理市场[19][21] - 布局量子计算领域，设立加速量子研究中心(NVAQC)，推动量子计算与AI融合[23][25] - 推出人形机器人基础模型Isaac GR00T N1和开源物理引擎Newton，宣布"通用机器人时代已经到来"[31][33][165] 芯片与技术发布 - Blackwell Ultra芯片包含GB300 NVL72和HGX B300 NVL16两个版本，相比前代Hopper GPU，大语言模型推理速度提升11倍，算力增加7倍，内存容量扩大4倍[8] - 公布未来芯片路线图：2026年推出Rubin架构，2027年更新Rubin Ultra，2028年推出Feynman架构[11][14][16] - Rubin性能可达Hopper的900倍，Blackwell是Hopper的68倍[16] - 推出基于硅光子技术的Spectrum-X和Quantum-X交换机，能效提升3.5倍，信号稳定性提高63倍[28][30] AI与计算趋势 - 计算领域迎来拐点，AI增长加速，推理所需计算量比预期多100倍[43][63] - 从感知AI、生成式AI到自主式AI和物理AI的演进，每个阶段都带来新的市场机会[56] - 推出分布式推理服务库NVIDIA Dynamo，作为AI工厂的操作系统，并宣布开源[111][113] - 强调合成数据的重要性，需要生成万亿级token来训练AI模型[67] 行业应用与合作 - 与AWS、谷歌云、微软Azure等云服务商合作，将率先提供Blackwell Ultra实例[12] - 与戴尔、惠普、联想等服务器厂商合作，计划2025年底推出基于Blackwell Ultra的AI基础设施[12] - 与通用汽车(GM)合作构建未来自动驾驶车队，推出自动驾驶安全系统NVIDIA Halos[82][84] - 与思科、T-Mobile合作构建AI边缘计算无线网络堆栈[80] 机器人技术 - Isaac GR00T N1是全球首个开放且完全可定制的人形机器人基础模型，配套Isaac GR00T蓝图技术生成合成数据[31] - 开源物理引擎Newton由Google DeepMind和迪士尼共同开发，专为机器人设计[33] - 机器人Blue亮相，由Newton物理引擎驱动，展示具身智能技术进展[35][171] - 预测物理AI和机器人学将成为最大行业之一，机器人将作为数字工作者与人类并肩工作[148][165]

诺奖采访深度学习教父辛顿：最快五年内 AI 有 50% 概率超越人类，任何说“一切都会好起来”的人都是疯子

AI科技大本营· 2025-03-18 11:29

作者 | 诺贝尔奖官方采访中，辛顿表达了对人工智能未来发展的担忧。他认为，人工智能可能在短短五年内超越人类智慧，并就此可能引发的社会风险，例如大规模失业和虚假信息等问题，提出了警告。更令人深思的是，辛顿暗示，人工智能的潜在风险可能远超我们目前的认知。编译 | 王启隆出品丨AI 科技大本营（ID：rgznai100）杰弗里·辛顿（Geoffrey Hinton），这位被誉为"人工智能教父"的科学家，于去年获得了诺贝尔物理学奖，引起了全网一阵讨论。最近辛顿接受了诺贝尔奖官方的专访，他回忆起接到诺奖电话时的趣事时，第一反应竟然是疑惑，因为自己研究的并非物理学（这点和全网的疑惑倒是一样）。作为深度学习领域的先驱，辛顿最广为人知的成就是神经网络。但很多人其实不知道，他曾说过自己这辈子"最自豪"也是"最失败"的成就，其实是与特里·塞诺夫斯基（Terry Sejnowski）共同提出了玻尔兹曼机理论。详见：《深度学习之父 Hinton 万字访谈录：中美 AI 竞赛没有退路可言》他们的工作，以及另一位诺奖物理学奖得主约翰·霍普菲尔德（John Hopfield）等神经网络先驱的早期研究，共同 ...

全栈自研，理想发布下一代自动驾驶架构 MindVLA

AI科技大本营· 2025-03-18 11:29

核心观点 - 理想汽车发布下一代自动驾驶架构MindVLA，融合视觉、语言和行为智能，赋予车辆3D空间理解、逻辑推理和行为生成能力，实现从运输工具到智能司机的转变[1][13][15] - MindVLA采用3D高斯表示、MoE混合专家架构LLM基座模型、Diffusion轨迹优化等关键技术，平衡模型参数规模与实时推理性能[1][4][7] - 该架构基于全栈自研，深度融合空间、语言及行为智能，通过端到端+VLM双系统架构实现感知、思考和适应环境的能力[1][3] 技术架构 - 采用3D高斯作为中间表征，提升多粒度、多尺度3D几何表达能力，利用海量数据自监督训练提升下游任务性能[4] - 自研MoE混合专家架构LLM基座模型，引入稀疏注意力实现模型稀疏化，加入3D数据训练使模型具备空间理解和推理能力[7] - 通过Diffusion将Action Token解码为优化轨迹，采用常微分方程采样器实现2-3步完成高质量轨迹生成，结合RLHF微调提升安全下限[7] 功能特性 - 实现"听得懂"：支持语音指令改变路线和行为，如自主寻找超市或调整行驶速度[13] - 实现"看得见"：具备通识能力识别商业招牌，通过环境照片定位用户位置[15] - 实现"找得到"：自主漫游寻找车位，不依赖地图信息完成复杂空间推理[15] 性能突破 - 3D GS训练速度提升至7倍以上，显著优化场景重建与生成效率[10] - 采用并行解码技术和投机推理，充分发挥NVIDIA Drive AGX性能，实现实时推理[7] - 通过世界模型构建仿真环境，完成大规模闭环强化学习，实现"从错误中学习"[10] 行业影响 - 重新定义自动驾驶，如同iPhone 4重新定义手机，将汽车转变为能与用户沟通的智能体[15] - 探索物理世界与数字世界结合范式，未来有望赋能多个行业发展[1][15] - 展示跨场景适应性，不仅在驾驶场景优异，在室内环境也表现出延展性[12]

Previous Next