大语言模型
搜索文档
GPU又赢了?苹果临阵倒戈!
半导体行业观察· 2025-03-28 09:00
核心观点 - 苹果向NVIDIA订购10亿美元的GB300 NVL72 GPU集群服务器系统,标志着其在AI战略上的重大转变,从依赖自研芯片转向商用GPU [1][3] - 这一决策反映了GPU在生成式AI领域的统治地位,以及NVIDIA在AI硬件生态中的不可替代性 [8][14] - 苹果的转向凸显了在AI竞赛中时间优先级的重要性,自研ASIC的开发周期无法满足当前市场需求 [16][19] - NVIDIA的财务表现和产品性能进一步巩固了其在AI硬件领域的领先地位 [8][11] - 尽管ASIC在特定场景下仍有优势,但在当前Gen AI浪潮中,GPU的通用性和生态成熟度使其成为首选解决方案 [16][19] 苹果的AI战略转变 - 苹果长期依赖自研芯片,但在生成式AI领域转向NVIDIA商用GPU,订购约250台NVL72服务器,每台成本370万至400万美元,总价近10亿美元 [3] - 这一转变可能源于自研芯片开发周期长、优化成本高,无法满足市场对高性能计算的迫切需求 [3][16] - 苹果可能采取混合策略:利用NVIDIA GPU进行模型训练,Apple Silicon专注于推理和边缘设备 [6][19] - Siri竞争力下降和生成式AI的快速发展是促使苹果调整AI战略的重要因素 [4][5] NVIDIA的统治地位 - NVIDIA的GPU搭配CUDA生态已成为训练大语言模型的事实标准 [8] - 在截至1月26日的第四季度,NVIDIA实现营收393亿美元,同比增长78%,毛利率高达70%以上 [8] - 约41%的收入来自微软、谷歌、亚马逊和Meta四大客户,这些公司表示GPU供应不足是构建AI数据中心的瓶颈 [9] - GB300 NVL72平台集成了72个Blackwell Ultra GPU和36个Grace CPU,与前代相比响应速度提升10倍,能效吞吐率提升5倍,整体AI产出能力跃升50倍 [11] GPU vs ASIC的技术路线之争 - GPU在通用性、灵活性和生态成熟度方面具有明显优势,特别适合快速迭代的AI市场 [16][17] - ASIC虽然在某些特定任务上效率更高,但开发周期长(通常需要数年),难以跟上AI领域的快速发展节奏 [16] - 博通和Marvell等ASIC厂商在AI训练领域的竞争力无法与NVIDIA抗衡 [17][18] - 时间窗口成为关键因素,在Gen AI竞争中速度比性能稍逊更为重要 [16][19] 行业趋势与市场动态 - 科技巨头在AI基础设施上的投入持续增加:Meta计划今年斥资650亿美元建设AI基础设施,全球九大科技公司预计2025年AI总支出达3710亿美元,同比增长44% [9] - 尽管有DeepSeek等初创公司尝试低成本AI方案,但这反而可能增加全球对AI服务和硬件的需求 [9][10] - Blackwell平台的需求强劲,NVIDIA预计2026财年第一季度营收达430亿美元 [14] - AI推理和训练的双轮驱动逻辑进一步强化了NVIDIA的增长势头 [14]
科学家企业家畅议科技创新
北京商报· 2025-03-28 04:01
2025中关村论坛年会核心观点 - 多位顶尖科学家与企业家分享了前沿科技与产业发展的深刻见解,内容覆盖罕见病治疗、激光科学、人工智能、汽车智能化、人形机器人及量子技术等多个领域,强调了全球合作、基础研究与应用转化的重要性 [1][3][5][7][9][11][13][15] 生物制药与罕见病治疗 - 全球约有7000种罕见疾病缺乏或基本没有有效疗法,吸引了研究人员的极大关注 [3] - 生物药物对全球患者普遍有效,当产品在多个地区销售时,商业成功可实现最大化,这为罕见病治疗领域带来了更大的投资吸引力 [3] - 尽管面临知识产权确认及美国新关税政策等潜在全球性挑战,生物制药行业仍被视为一个非常有回报的行业,能在改善公共健康和生活质量的同时获得合理利润 [3] 激光科学与应用 - 研究团队建造了世界上第一台激光质子加速器装置,可将加速距离缩短数千倍,并将峰值电流提高数千倍,从而实现质子湍流加速器的小型化和推广 [5] - 未来,随着闪流技术的推广,该技术可能用于弥漫性肿瘤的治疗,以造福更多患者 [5] - 将利用北京独特的前沿设施和学术资源,推动激光科学及其工业应用的突破 [5] 人工智能与数学基础 - 大语言模型(如ChatGPT、DeepSeek)的开发依赖于数学工具 [7] - 当前对神经网络和大语言模型为何如此有效尚未充分理解,目前仅观察到其能产生非常有效的产出结果 [7] - 强调数学是普遍语言,科学家和数学家需要自由合作来研究和解决这些技术快速进展带来的新挑战 [7] 汽车行业智能化 - 汽车行业正从单纯的交通工具向人工智能终端转变 [9] - 一个能够以最高效率、最强性能管理全车资源的汽车操作系统是汽车行业智能化下半场的中枢,也是通往高阶智能体的基座 [9] - 理想汽车决定将汽车操作系统进行全面开源,旨在放大基数而非仅放大系数,并计划在4月底于开源社区发布,欢迎更多品牌及产业链伙伴加入生态建设 [9] 人形机器人发展 - 人形机器人已步入运动时代,即将展开最激动人心的生产力时代 [11] - 具身大模型发展面临的主要困难是数据缺乏 [11] - 公司正通过大规模生产和使用合成数据来破解难题,即制造大量数字物体资产,并合成复合物理解、仿真模拟的抓取标签和操作轨迹,通过视觉驱动的强化学习探索物体操作方式,为未来家庭应用训练有价值的技能 [11] 量子技术革命 - 人类正迎来第二次量子革命,涵盖量子计量学、量子通信、量子模拟和量子计算四个研究方向 [13] - 不同量子技术的发展时间线难以精确预测,部分可能在几年内取得成果,而另一些可能需要数十年 [13] - 推动量子技术成功需要多个条件:强大的基础研究以发现新平台、推动跨学科研究以及促进科学家自由交流与分享想法的国际合作 [13] - 通用量子计算机的研制挑战人类最高智慧,其研发难度被认为高于人类首次登月,是一个国家最强科技实力的象征之一 [15] - 在AI及相关技术爆发式发展阶段,存在对更高算力、更高存储密度和更低能耗的刚性需求 [15] - 从科学发现到产业落地需要很长时间,需要统筹好基础研究、应用基础研究、产业商业化以及长期与短期的人才规划 [15]
简讯:新加坡副总理热情表态 为百度萝卜快跑落地狮城铺路
BambooWorks· 2025-03-27 08:38
百度自动驾驶业务进展 - 新加坡副总理王瑞杰表示欢迎百度萝卜快跑自动驾驶出租车服务进入新加坡 此举可能成为百度自动驾驶出行服务全球扩张的重要里程碑 [1] - 百度CEO李彦宏与王瑞杰会面 后者试乘了采用L4技术的第六代萝卜快跑自动驾驶出租车 [1] - 百度自动驾驶车队累计完成1.5亿公里无人员伤亡的自动驾驶里程 保险理赔率仅为人类驾驶员的1/14 [1] 百度业务布局 - 萝卜快跑已在中国北京、上海、广州、深圳、武汉和重庆等城市运营 [1] - 百度去年底获得香港首张自动驾驶测试牌照 近期已在该市启动道路测试 [1] - 若成功进入新加坡 将是百度在大中华区以外的首个重要布局 公司还在探索中东和欧洲市场 [1] 资本市场动态 - 知名投资人凯西·伍德旗下ARK Invest管理的两只ETF近期增持129,451股百度股票 [2] - 百度被认为是中国大语言模型和自动驾驶领域的领军企业之一 [1]
后DeepSeek时代,中国AI初创企业商业模式大调整
硬AI· 2025-03-25 20:41
中国AI初创企业战略调整 - DeepSeek的崛起正在重塑中国AI行业,迫使各家初创企业调整战略,包括尝试多条业务线、削减支出、停止大语言模型预训练并采用DeepSeek模型 [1] - 中国LLM市场正在迅速整合,集中在少数几家领先者手中,DeepSeek促使许多公司将资源重新导向应用而非基础模型开发 [2] - 零一万物停止预训练并转向销售基于DeepSeek模型的定制化AI解决方案,将其在混合专家模型方面的专业知识作为竞争优势 [4] - 月之暗面削减Kimi营销支出,专注于模型训练以复制DeepSeek的成功,并尝试通过虚拟礼物变现,此前已融资超13亿美元 [5] - 百川智能将业务重心转向医疗保健领域,专注于为医院开发AI医生技术 [5] - 智谱AI尝试多条业务线并建立企业销售业务,2024年销售额3亿元人民币但亏损20亿元,员工规模达800人 [6] 行业整合与竞争格局 - 行业呈现整合趋势,资源向DeepSeek等领先企业集中 [2] - 零一万物基础模型团队已转移至阿里巴巴 [4] - 阿里巴巴曾考虑收购月之暗面并获得优先购买权,但未来收购可能性降低 [5] - 智谱AI考虑年底前上市,但DeepSeek发展可能影响其IPO进程 [6] 企业融资与财务状况 - 月之暗面在去年两轮融资中筹集超过13亿美元 [5] - 智谱AI2024年销售额3亿元人民币(4100万美元),亏损20亿元人民币 [6]
外媒称DeepSeek爆火后,中国AI创企正彻底调整商业模式
观察者网· 2025-03-25 20:29
DeepSeek引发的行业格局变化 - 随着DeepSeek技术在全国广泛采用 中国AI初创企业正在彻底调整商业模式以保持竞争力[1] - 中国大语言模型市场正迅速集中在少数几家领军企业手中 DeepSeek促使许多公司将资源转向应用程序而非基础模型开发[1] 零一万物业务转型 - 公司业务转型进入"DeepSeek时代" 已停止预训练大型语言模型 基础模型团队在交易中转移到阿里巴巴[1] - 2024年底停止预训练大型语言模型 因竞争对手模型越来越大导致成本上升[1] - 3月17日宣布可提供企业级DeepSeek部署定制解决方案 将"混合专家模型"专业知识作为竞争优势[1] 月之暗面战略调整 - 正在削减聊天机器人Kimi营销预算 转而专注于模型训练以复制DeepSeek成功[2] - 2024年通过两轮投资筹集超过13亿美元(约94亿元人民币)融资 包括阿里巴巴计算资源和风投资金[2] - 阿里巴巴曾将月之暗面视为潜在收购目标 在8亿美元投资中获得优先购买权 但近期重点转向内部AI工作[2] 百川智能业务聚焦 - 正加倍投入医疗保健业务 解散专注于向银行和投资基金销售定制金融AI应用程序的销售团队[3] - 2月份终止金融业务线 公司领导层宣布专注于开发医疗技术 包括协助诊断的AI医生[3] 智谱AI多元化发展 - 仍在寻求多种业务 拥有约800名员工 是员工人数最多的大语言模型初创公司[3] - 已推出多款消费者应用程序 以及向地方政府和企业销售个性化AI应用程序的企业业务[3] - 目标在2025年年底前在科创板上市 但DeepSeek发展可能对IPO产生影响[3] - 2024年销售额为3亿元人民币 亏损20亿元人民币[3]
活动回顾 | DeepSeek:AI大模型开启金融数据领域的智能变革
Refinitiv路孚特· 2025-03-24 13:44
引言 - 金融行业作为数据密集型产业,正面临技术与金融深度融合带来的机遇和挑战,人工智能正在重塑行业格局 [1] - DeepSeek作为新一代开源大语言模型,凭借低成本、高效推理能力和技术创新,为金融企业提供强大技术支持,成为金融数据领域的重要变革因素 [1] - LSEG Academy举办网络研讨会,从技术突破、应用场景、合规挑战及未来趋势四方面解析DeepSeek如何推动金融数据领域智能化转型 [1] DeepSeek的核心技术优势 开源战略构建全球生态系统 - DeepSeek采用最宽松的开源策略(MIT License),技术在全球范围内快速传播和应用,吸引众多企业和开发者参与,构建全球开发者生态系统 [3] - 中小企业得以以极低成本引入AI能力,快速实现智能化数字化转型,满足大模型私有化部署诉求 [3] - 开源模式打破大模型技术被闭源公司垄断的格局,使中国在全球AI竞争中占据一席之地 [4] 推理模型打开大语言模型黑盒子 - 传统大模型依赖海量文本训练,相当于"知识存储库",随着训练语料枯竭陷入发展瓶颈 [5] - DeepSeek通过改进强化学习训练方法赋予大模型"主动学习"能力,类似于人类从"死记硬背"到主动"实践技能"的进化 [5] - 模型可通过反复试错学习金融数据分析,逐步提升决策能力,根据市场变化优化自身性能,主动适应复杂场景 [5] - 推理模型的可解释性满足金融行业对透明度的要求,清晰展示分析逻辑,助力风控与合规 [6] 全流程的工程优化 - DeepSeek通过优化混合专家模型(MoE),将普通专家分为共享专家与领域专家,优化分工,减少训练冗余 [7] - 路由优化使训练数据到达正确专家,数据压缩和并行预测技术进一步降低资源消耗,提升效率 [7] - 追求极致的工匠精神使训练成本降至"白菜价",降低私有化部署门槛,推动AI技术普及和行业应用广泛落地 [7] AI在金融行业的应用场景 降本增效:提升运营效率 - AI通过智能客服、编程助手等工具化身数字员工,大幅提升运营效率,降低人力成本 [9] - 伦交所集团采用大模型技术将客服效率提升50%以上,且持续优化中 [9] - 高盛利用大语言模型自动化生成代码,大大缩短业务系统开发时间 [9] 风险管理:优化风控模型 - AI凭借强大语言能力优化风控模型,自动生成风险提示与报告 [10] - 通过对大量数据和非结构化文本的监测、分析和处理,精准识别潜在风险,提供及时风险评估和预警 [10] 投资决策:优化投资策略 - AI通过智能投顾提升研究能力,帮助金融机构优化投资策略,生成个性化投资建议 [11] - 对投资组合进行实时监控和分析,及时调整以应对市场变化,提升投资收益 [11] - 对冲基金TwoSigma利用大模型分析财报、新闻与社交媒体,识别潜在投资机会和风险 [11] 客户服务:提升客户体验 - AI支持个性化推荐和智能交互,根据客户兴趣和需求提供个性化金融产品和服务 [12] - 渣打银行与伦交所集团合作推出全球首个外汇市场AI视频自动生成的获客工具,大大提升财富管理客户满意度 [12] 合规挑战与应对策略 数据隐私与安全风险 - 金融行业高度依赖敏感数据,大模型应用可能加剧隐私泄露风险,如生物识别信息滥用导致身份盗用,钓鱼邮件和深度伪造技术威胁资金安全 [13] - DeepSeek的本地化部署和数据加密技术可保证数据安全性和隐私性,确保金融机构对数据的合法合规使用 [14] 智能时代的用户教育 - 金融投资者、消费者需警惕过度暴露个人信息,如随意授权生物信息可能被用于伪造交易行为 [15] - 金融机构可通过AI反钓鱼模型实时监控,识别异常行为,向用户推送风险提示,形成"技术+教育"双重防线 [15] 未来趋势 智能体(AI Agent) - AI Agent将替代人工,根据预设规则和任务要求自动完成复杂业务操作,提高效率,减少人为错误 [16] - 基本面分析、技术分析和宏观研判可由不同Agent分工协作,最终生成交易信号,改变投研、客服等岗位运作方式 [16] 多模态 - DeepSeek R1模型以文本处理为主,未来可能发展多模态大模型,支持图像(如K线图解读)、语音(如财报电话会实时解读)等场景 [17] Smart data+NLP编程 - 未来大语言模型开发人员可能使用中文等自然语言"编写代码",用少量优质数据训练垂直领域小模型,降低AI开发技术门槛 [18] AI平权与生态重构 - DeepSeek的低成本AI发展路径将持续降低算力成本,使中小机构获得顶级投行分析能力,推动行业竞争战国时代 [19] - 传统金融数据服务商面临业态重构压力,DeepSeek擅长处理非结构化数据,将其转化为结构化洞察,改变传统数据服务模式 [19] 结语 - DeepSeek的横空出世被称为"AI界的斯普特尼克时刻",更像15世纪的古登堡自动印刷机,通过开源与技术创新打破算力垄断,推动AI普惠 [21] - DeepSeek开启AI领域"战国时代",促使金融领域从降本增效走向核心业务重塑,智能体、多模态技术成熟将更深层次重构金融价值链 [21]
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
量子位· 2025-03-20 18:56
算法突破 - 一种名为DAPO的新型强化学习算法出现,在相同设置下,其性能超越了DeepSeek的GRPO算法 [1] - 使用DAPO算法后,Qwen2.5-32B模型仅经过RL训练,在AIME 2024基准上获得50分,优于使用GRPO的DeepSeek-R1-Zero-Qwen模型,且训练步数减少了50% [1] - 该算法由字节跳动与清华大学AIR联合实验室SIA Lab共同研发,目前已经开源 [2] 核心人物背景 - 算法论文通讯作者及开源项目负责人是禹棋赢(Qiying Yu)[3] - 禹棋赢出生于2001年,本科毕业于哈尔滨工业大学,后直博进入清华大学AIR,目前博士三年级在读 [4] - 他于2023年年中以研究实习生身份加入字节跳动的“Top Seed人才计划” [4] - 在字节大模型团队内部负责打造下一代语言模型的攻坚小组中,禹棋赢是唯一的实习生,并被委以重任,直接负责强化学习方向的研究 [6][7] 技术探索历程 - 2023年5月,禹棋赢通过“Top Seed人才计划”加入字节,经过2个月适应期后,锚定大语言模型推理为研究方向 [9] - 他观察到“采样更多,弱模型准确率也可以很高”的现象后,坚定选择使用强化学习技术路径 [9] - 基于对OpenAI o1模型的分析,禹棋赢团队判断其基于结果监督训练,从而确立了使用基于结果的奖励进行强化学习的技术路线,这与当时主流思路不同 [12][13] - 使用内部小模型和开源数据集进行迭代后,成功将小模型的数学能力提升几十分,超过了内部最大最强的模型,并观察到模型不断涌现新能力 [14][15] - 2023年10月中旬,团队观察到模型在遇到复杂数学问题时能进行反思并转换思路,这被认为是所追求能力的雏形,也是其内部的“Aha Moment” [20][21] 行业人才趋势 - 大模型行业经验不再是唯一筹码,好奇心与执行力成为通行证 [53] - 行业更看重实际解决问题的能力而非资历,这一逻辑正在重塑AI产业的人才坐标系 [50] - 年轻人虽然经验相对缺乏,但不受既有范式束缚,拥有对技术直觉的信任、极高的热情与好奇心,以及对试错成本的高耐受度,这些特质对探索AGI非常珍贵 [55] - 学界和工业界都认可这一趋势,工业界如字节跳动的“Top Seed”项目为年轻人提供充分算力资源、顶级待遇和探索空间 [58] 公司战略与项目 - 字节跳动的“Top Seed人才计划”旨在招募顶尖应届和在读博士组成AI研究团队,禹棋赢是首批成员之一 [9][31] - 与禹棋赢同期的Top Seed实习生包括两届国际数学奥林匹克竞赛满分选手、LLaDA一作、Buffer of Thoughts一作等顶尖人才 [32] - 字节跳动对禹棋赢的重用,体现了顶尖大模型团队对“解决前沿问题能力”的极致追求 [48] - 2024年,字节跳动将继续推进Top Seed项目,并由原谷歌DeepMind副总裁、现负责豆包大模型AI基础研究探索的吴永辉亲自带队 [61][62]
AI大家说 | 从“搜一搜”到“问一问”,搜索引擎正被重新定义
红杉汇· 2025-03-16 15:44
文章核心观点 AI搜索凭借技术优势提升用户体验,改变搜索行业格局,未来发展趋势多样且充满机会,传统搜索引擎面临挑战需创新[1][3][5] AI搜索特点及格局变化 - AI搜索能精准捕捉用户查询意图,提供定制化结果,打破传统线性检索模式,提升用户体验 [1] - AI重新定义信息获取范式,搜索与AI融合,AI搜索朝着一站式平台发展 [3] - 封闭式AI存在内容幻觉和过程失控短板,“LLM +搜索”模式完成搜索到创作闭环,改变搜索行业竞争格局,预计到2026年传统搜索引擎访问量下降26%,新玩家入场打破“寡头效应” [4][5] AI搜索未来趋势与机会 产品力是竞争力 - 简约化产品设计和一站式服务满足用户需求,是AI搜索发展重要趋势 [7] 信息一体化处理产品形态 - AI搜索与其他AI工具跨界融合,提供实用个性化功能,升级用户体验 [8] - AI搜索突破传统文字搜索束缚,提供跨模态搜索体验,演化为全能型智能助手 [8] - AI搜索呈现多端协同趋势,突破设备边界,走进全新应用场景 [8] 场景垂直“专、精、深” - 用户需求推动AI搜索场景垂直化,垂直搜索满足细分需求,构建企业“护城河” [9] 新商业模式的探索 - 商业化能力创新是AI搜索待解决问题,用户通过AI搜索形成入口导购商业化已有先例 [10] - AI搜索与企业级市场结合,为企业提供定制化搜索解决方案,提供新盈利渠道 [10] 传统搜索引擎的挑战 - 传统搜索引擎需创新,加入AI模型插件提升用户体验,稳固行业心智地位 [12] - AI助手是传统搜索引擎最强挑战者,具备深度思考和联网搜索功能,承载泛搜索需求 [12] - AI搜索新势力提供全新搜索体验,理解自然语言,提供实时准确答案 [12] - 平台型互联网企业扩张搜索市场心智,接入大模型发挥内容潜力 [13] - AI搜索发展关键在于通过RAG解决问题,但依赖传统搜索引擎信息,数据处理难度大 [13]
深度|MiniMax加速调整,收购AI视频创业公司,海螺ai正式改名,或是受DeepSeek影响最小的六小虎
Z Finance· 2025-03-14 19:39
文章核心观点 AI行业呈现加速整合态势,多家初创企业因融资困境或技术商业化瓶颈选择被收购,MiniMax收购鹿影科技是技术互补与市场扩张的战略选择,同时其自身也在进行内部调整,凭借技术优势与全球化战略在竞争中受冲击较小 [1][2][3] 分组1:MiniMax收购鹿影科技 - MiniMax将收购深圳AI视频生成创企鹿影科技,双方已敲定收购意向 [1] - 鹿影科技成立于2023年9月,专注开发以自研LCM视觉大模型为核心的AIGC工具与内容平台,核心产品为二次元动漫AI视频生成平台YoYo,主要面向二次元创作者市场 [1] - 鹿影科技CTO王超奇已退出团队加入xAI,或为公司寻求收购的关键原因 [2] - MiniMax收购鹿影科技核心动机是技术互补与市场扩张,可弥补其在长视频流畅度与细节控制上的不足,加速下一代Video - 02系列模型开发 [2] - 收购是国内AI公司应对行业竞争与资本压力的战略选择,鹿影技术积累为MiniMax对抗大厂提供技术弹药,且收购成本低,可节省数千万美元投入,加速其向“全栈式AI内容平台”转型,预示AI创企“技术并购潮”加速 [2] 分组2:国内AI创业公司被收购案例 - 边塞科技由吴翼于2023年3月创立,专注大语言模型与强化学习融合技术开发,获超千万美元融资,天使轮投后估值达8000万美元,运营1年多被蚂蚁集团以低于8000万美元价格收购,因技术商业化遇瓶颈,交易后公司独立运营,吴翼入职蚂蚁集团强化学习实验室任首席科学家 [3] - 波形智能由姜昱辰创立,专注垂直领域长文本生成技术,核心产品“蛙蛙写作”生成文本量超200亿字,完成两轮融资后被OPPO收购,团队核心成员入职OPPO,OPPO看中其技术对AI手机赋能潜力以完善安第斯大模型应用场景 [4] - Voyage AI由马腾宇创立,凭借技术成果成立1年以2.2亿美元估值被MongoDB收购 [4] 分组3:MiniMax内部调整 - 高管侧,联合创始人、副总裁魏伟近期离职,此前负责To B商业化及开放平台业务,这是继2024年9月产品负责人张前川转任顾问后再次出现高管变动 [5] - 产品侧,核心产品「海螺AI」更名为「MiniMax」,原域名转向专用于视频生成业务「海螺视频」,目前仅网页端更名,APP端保留原名,实验产品「万物追踪」正在调整 [5] - 更名与公司战略重心调整有关,一方面01系列开源模型技术突破需更直接品牌关联,另一方面全球化布局要求简化品牌认知,更名后将整合多模态技术能力,以“AI智能助手”定位深化C端与B端应用 [6] 分组4:MiniMax优势 - MiniMax多模态模型技术实力显著领先,01系列模型在文本、视觉和视频生成领域取得突破,长上下文处理能力和视频生成一致性追平甚至超越国际顶尖水平 [6] - MiniMax是六小虎中唯一在全球化市场取得显著成功的企业,旗下「Talkie」国内外市场表现亮眼,去年收入可能接近数千万美元,提供稳定现金流支撑 [7]
提出机器人自主学习新范式,深大团队最新顶会论文,刷新6大复杂任务SOTA
量子位· 2025-03-14 19:22
文章核心观点 - 深圳大学李坚强教授团队联合鹏城国家实验室、北京理工莫斯科大学提出奖励函数与策略协同进化框架ROSKA,该框架在多个高维度机器人任务中表现优异,相比现有SOTA方法有显著性能提升,成果被人工智能顶级会议AAAI 2025收录 [1][2][3] 分组1:ROSKA框架提出背景 - 机器人技术应用广泛,但多自由度机器人控制领域传统强化学习方法依赖人工设计奖励函数,对开放环境下机器人自主学习构成挑战 [3] - 传统奖励函数设计依赖专家经验,周期长、成本高,大语言模型虽提供新思路,但现有方法训练效率低、浪费计算资源 [5] 分组2:ROSKA框架特点 - 创新融合大语言模型推理与代码生成能力,实现奖励函数与强化学习策略协同进化 [3] - 采用奖励 - 策略协同进化机制,将奖励函数设计与策略优化紧密结合形成动态闭环,减少数据使用量并提升策略性能 [6] - 通过将奖励函数和策略进化过程结合,相互促进、共同优化,提高训练效率和策略适应性、可塑性 [8] - 在策略进化部分融合历史最优策略和随机策略生成新策略候选,用贝叶斯优化方法确定最优融合比例 [9][10] 分组3:实验情况 - 在Isaac Gym仿真环境中对六个代表性机器人任务评估,涵盖简单运动控制到复杂物体操作 [11] - 采用人类归一化得分作为评价指标,ROSKA在所有任务中HNS超人类专家基线,性能优于人类设计奖励函数 [12] 分组4:实验结果 - 相比SOTA方法Eureka,ROSKA在HNS指标上平均改进率达95.3%,在ShadowHand任务提升154.6%,在ShadowHandUpsideDown任务提升184.07% [13] - 在仅使用89%训练样本情况下,相比现有SOTA方法在多个高维度机器人任务上平均性能提升95.3%,验证强大适应能力 [2][14]