Workflow
RoboBrain 2.0
icon
搜索文档
计算机行业周报:智源和KimiK2测试成绩优秀,OpenAI正式推出通用智能体-20250724
华鑫证券· 2025-07-24 23:27
报告行业投资评级 - 推荐(维持) [1] 报告的核心观点 - AI应用有望驶入快车道 Kimi K2等大模型杰出的Agent能力已具备大规模商用潜力 [7] 根据相关目录进行总结 算力动态:算力租赁价格平稳,智源和KIMI K2测试成绩优秀 - 数据跟踪:本周算力租赁价格平稳 如A100 - 40G中腾讯云16核 + 96G价格为28.64元/时,环比上周0.00% [15][17] - 产业动态:7月14日智源研究院发布具身大脑RoboBrain 2.0及跨本体大小脑协同框架RoboOS 2.0 RoboBrain 2.0在空间理解、时间建模和长链推理能力上实现全面突破 RoboOS 2.0整体性能提升30% 端云通信效率提升27倍 7月18日Kimi K2在AI竞技场上开源第一 总榜第五 单项能力可与主流闭源模型竞争 其采用DeepSeek V3架构并做了结构参数改动 [16][23] AI应用动态:Bing周平均停留时长环比 +166.21%,OpenAI推出通用智能体ChatGPT Agent - 周流量跟踪:2025.7.11 - 2025.7.17期间 Bing访问量环比增速166.21% 平均停留时长环比增速10.60% [26][28] - 产业动态:7月18日OpenAI推出通用智能体ChatGPT Agent 可自动利用多种工具规划完成复杂任务 已向Pro、Plus和Team计划订阅用户开放 该能力结合了Operator、deep research和ChatGPT的优势 在多个基准测试中表现顶尖 [27][30] AI融资动向:Thinking Machines Lab完成20亿美元种子轮融资,估值120亿 - 7月16日Thinking Machines Lab完成20亿美元种子轮融资 由Andreessen Horowitz领投 公司估值达120亿美元 公司将在未来几个月推出含开源组件的首款产品 此前已与Google Cloud达成算力支持协议 [6][42] 行情复盘 - 上周(7.14 - 7.18日) AI算力指数/AI应用指数/万得全A/中证红利日涨幅最大值分别为3.06%/1.52%/0.94%/0.49% 日跌幅最大值分别为 - 0.21%/-0.32%/-0.20%/-1.16% AI算力指数内部新易盛涨幅最大 高伟达跌幅最大 AI应用指数内部淳中科技涨幅最大 三七互娱跌幅最大 [48] 投资建议 - AI应用有望驶入快车道 建议中长期关注嘉和美康、科大讯飞、寒武纪、鼎通科技、亿道信息、迈信林、泓淋电力、唯科科技等公司 [7][56]
从“想得好”到“做得好”有多远?具身大小脑协同之路解密
具身智能之心· 2025-07-23 16:45
具身智能系统架构 - 具身智能系统由"大脑"、"小脑"和"身体"三部分组成,分别对应认知决策、运动控制和物理执行功能 [2] - "大脑"采用大语言模型和视觉语言模型,具备感知、理解、推理和规划能力,是系统的智慧核心 [2] - "小脑"运用运动控制算法和反馈控制系统,实现精准流畅的动作控制,被称为"动作艺术家" [2] - "身体"作为物理载体,负责将认知决策和运动指令转化为实际动作,完成"知行合一" [2] 当前技术挑战 - "大脑"需提升自主推理能力,实现无指令、无地图环境下的实时在线思考与路径规划 [3] - "小脑"需增强适应性,在复杂物理环境中实现类人类的直觉反应和精细操作 [3] - 系统需解决"大脑"与"小脑"的协同问题,目前存在信息传递延迟和动作响应滞后 [3] - 数据采集面临成本高、质量差等挑战,需构建真实多样且可迁移的训练数据集 [3] 行业技术进展 - 北京智源人工智能研究院和智元机器人正在开展具身智能相关研究 [3] - RoboBrain 2.0和RoboOS 2.0等系统展示了最新技术成果 [5] - 对抗性数据收集方法(Human-Collaborative Perturbations)可提升模仿学习效率与鲁棒性 [5] - 相关研究成果已在ArXiv等平台公开发表,涉及机器人操作系统和脑机协同等领域 [7] 未来发展方向 - 行业聚焦于提升具身智能系统的认知能力、运动控制精度和系统协同效率 [4] - 需建立更高效的数据获取与处理体系,解决数据质量与成本问题 [3] - 技术突破将推动具身智能向通用人工智能(AGI)方向发展 [3]
产业观察:【AI产业跟踪】MiniMax获约20亿融资
国泰海通证券· 2025-07-22 19:40
报告行业投资评级 未提及 报告的核心观点 报告聚焦AI产业最新趋势,涵盖行业动态、应用资讯、大模型资讯和科技前沿等方面,展示AI领域的创新成果与发展态势[1] 根据相关目录分别进行总结 AI行业动态 - MiniMax获约20亿融资,投后估值超287亿元,筹备赴港上市,其开源推理模型MiniMax - M1技术领先[7] - 英伟达创始人黄仁勋访华,盛赞中国科技企业与电动车行业,称英伟达将持续服务中国市场[8] - 国产模型Kimi K2登顶全球开源榜首,凸显国产开源模型实力,缩小与闭源模型差距[9] AI应用资讯 - 美图发布AI影像Agent “RoboNeo”,集成多种功能,降低中小商家制作门槛,但有一定短板[10] - 国产秘塔AI推出免费深度研究功能,在评测中表现优,可处理复杂问题,提供高效研究辅助[11] - MiniMax推出Agent全栈开发功能,可一键构建完整全栈应用,支持企业级应用开发[12] - 米哈游斥资5亿成立新公司,加码AI与虚拟领域,目标2030年建成全球十亿人愿生活的虚拟世界[15] AI大模型资讯 - 腾讯混元A13B模型采用细粒度MoE架构,推理吞吐量提升,开源后为开发者提供助力[16] - 智源研究院发布开源的RoboBrain 2.0与RoboOS 2.0,突破主流AI模型瓶颈,降低开发门槛[17] - 腾讯RLVER框架解决开放域RL难题,经训练的模型表现提升且通用能力未衰退,相关模型已开源[18] - 港科大提出S3PO - GS框架,解决户外RGB单目SLAM尺度漂移问题,为相关领域提供新方案,代码已开源[19] 科技前沿 - 北京师范大学团队借助模型分析唐宋花卉意象文化情绪,为文史研究提供量化新范式[20] - 孙鹏团队提出UCGM框架和RDED数据蒸馏技术,为生成式AI性能优化开辟新路径[23] - 清华北航校友创办的他山科技推出全球首款AI触觉感知芯片,推动具身智能商业化[24]
智源宣布全面开源RoboBrain 2.0与RoboOS 2.0;全球首个AI智能体运行安全测试标准发布丨AIGC日报
创业邦· 2025-07-15 07:59
生物人工智能系统 - 澳大利亚悉尼大学研究团队开发出名为PROTEUS的生物人工智能系统 该系统通过模仿自然进化过程 能在几周内创造具有新功能的分子 为药物研发和生物技术带来突破性进展 [1] - 研究成果发表在《自然·通讯》期刊 展示了生物技术与AI融合的前景 可能为个性化医疗和精准治疗提供关键工具 [1] AI智能体运行安全测试标准 - 世界数字科学院在联合国日内瓦总部发布全球首个AI智能体运行安全测试标准《AI智能体运行安全测试标准》 由蚂蚁集团 清华大学 中国电信牵头 联合20余家国内外机构共同编制 [2] - 该标准解决了智能体安全测试技术标准的行业空白 [2] 教育智能体公约 - 中国民办教育协会携手10家人工智能头部企业联合签署《智能体赋能学生全面成长公约》 倡议强化与学校 家庭的协同育人 扩大资源普惠 不制造恶性竞争 不传播教育焦虑 [3] - 签署企业包括百度 深度求索 网易有道 学而思 猿力科技 月之暗面 钉钉 科大讯飞 腾讯 作业帮等 [3] 智源开源项目 - 智源研究院宣布全面开源RoboBrain 2 0 32B版本及RoboOS 2 0单机版 同步推出单机版产品线及RoboSkill技能商店 [4] - 模型权重 训练代码与评测基准全部可用 [4] 会员服务 - 睿兽分析会员可解锁人形机器人 商业航天 AGI等热门赛道的行业图谱和报告 活动期间加入可免费获赠产业日报 [2]
腾讯研究院AI速递 20250715
腾讯研究院· 2025-07-14 22:38
生成式AI - Comet浏览器采用"AI Agent原生"设计理念,实现多标签页信息连接与复杂任务执行,核心理念为"从浏览到思考" [1] - Comet通过"环境重构派"策略重构浏览器为智能环境,而非简单集成AI功能,旨在重新定义人机信息交互模式 [1] - 当前Comet仅向支付200美元的Max订阅用户开放,面临用户习惯改变与高定价双重挑战 [1] Meta战略布局 - Meta以近1亿美元估值收购语音AI公司PlayAI,团队将并入新语音AI部门,强化音频生成能力 [2] - PlayAI的语音克隆、多语言TTS及情感对话技术将补足Meta多模态内容生成短板 [2] - 此次收购是Meta 720亿美元年度AI投入计划的关键环节,与组建AI Superintelligence Labs等动作协同 [2] 具身智能突破 - 智源研究院开源RoboBrain 2 0具身智能大脑(32B 7B版本)及RoboOS 2 0框架,在10项评测中超越GPT-4o [3] - RoboBrain 2 0突破空间理解 时间建模 长链推理三大瓶颈,在9项基准测试刷新纪录 [3] - RoboOS 2 0作为全球首个具身智能SaaS开源框架,实现跨本体协作,全链路响应时延低至3ms [3] AI影像工具 - 美图发布AI影像Agent RoboNeo,支持通过指令完成图片精修 品牌设计 网页制作等全流程 [4] - RoboNeo覆盖电商运营 品牌推广等场景,可生成商业级精修图片 360°产品视频及动态广告 [5] - 实测显示该工具显著提升素材制作效率,但在连续性及物理世界理解方面存在局限 [5] AI语音技术 - B站发布AI配音模型IndexTTS2,实现中文影视剧转纯正英文配音,支持精准时长与情感控制 [6] - 模型由T2S S2M及BigVGANv2三大模块组成,在多项测试集实现SOTA表现 [6] AI视频生成 - 拍我AI上线多关键帧生成功能,支持7张图片输入生成30秒连贯视频,实现故事性表达 [7] - 新功能通过解析关键帧语义关系构建运动路径,适用于短剧分镜 产品演示等场景 [7] - 该平台全球用户已突破6000万 [7] AI伦理争议 - Grok 4回答敏感问题时64个参考来源中54个与马斯克相关,可能将"老板立场"作为默认权威 [8] - SpaceX已向xAI投资20亿美元,此前Grok曾因出格言论被紧急关闭功能 [8] 智能实验室 - LabUtopia为全球首个高保真科学实验具身智能平台,支持化学反应建模 流体物理模拟等 [9] - 平台包含LabSim仿真引擎 LabScene构建器等组件,测试显示现有算法在长链任务中表现不佳 [9] 编程哲学 - Ruby on Rails创始人DHH反对AI编程助手Copilot,认为手凿代码才能培养思维训练与肌肉记忆 [10] - 其主张"宏伟的单体应用"架构,认为小团队采用微服务是自寻死路 [10] 竞争策略 - Perplexity采用"浏览器+智能体"战略,通过Comet浏览器实现认知操作系统与多任务并行处理 [11] - 公司通过OpenAI Anthropic模型获取比谷歌更先进的AI能力,形成订阅制 按任务付费等变现路径 [11] - 机器学习团队使用AI工具将实验周期从3天缩短至1小时 [11]
智源RoboBrain 2.0+RoboOS 2.0双发:问鼎评测基准最强具身大脑,刷新跨本体多机协作技术范式
机器之心· 2025-07-14 19:33
核心观点 - 智源研究院发布具身大脑RoboBrain 2.0 32B版本和跨本体大小脑协同框架RoboOS 2.0单机版,推动机器人从"单机智能"迈向"群体智能"[1][2] - RoboBrain 2.0突破空间理解、时间建模和长链推理三大能力瓶颈,在多项权威基准测试中刷新纪录[3][4][17] - RoboOS 2.0是全球首个具身智能SaaS开源框架,实现轻量化部署和多智能体协作,性能提升30%[21][25] - 两项技术已全面开源,与全球20余家机器人企业和实验室建立合作,共建具身智能生态[26][29] RoboBrain 2.0技术突破 三大能力突破 - 空间理解:支持精确点定位、边界框预测和复杂三维空间推理[5][6] - 时间建模:强化长期规划、闭环反馈和多智能体协作能力[5][6] - 长链推理:实现多步因果推理和决策透明性[5][6] 训练与性能 - 采用三阶段递进式训练流程,使用4.8M样本进行基础训练[11][12][13][14] - 在BLINK(83.95分)、CV-Bench(85.75分)等9项基准测试中超越Gemini、GPT-4o等模型[17][18] - 32B版本在RoboSpatial(72.43分)、Ego-Plan2(57.23分)等任务中表现最佳[17][19] RoboOS 2.0框架创新 技术特性 - 集成MCP协议与无服务器架构,全链路响应时延低于3ms[21][25] - 新增场景图共享机制和多粒度任务监控模块,通信效率提升27倍[25] - 代码量仅为传统手动注册方式的1/10,显著降低开发门槛[22] 多机协作流程 - 分层任务分解→子任务动态分配→并行执行→实时状态更新[26] - 支持商超、厨房、居家等多场景部署,实现技能模块智能匹配[20][26] 开源与生态建设 - 提供7B/32B模型权重、训练代码及评测基准,已在GitHub和HuggingFace发布[29] - 配套推出RoboSkill技能商店和开箱即用镜像,支持三行指令极速部署[1][29] - 与全球20余家机器人企业及实验室建立战略合作[29]
智源全面开源具身大脑RoboBrain 2.0与大小脑协同框架RoboOS 2.0:刷新10项评测基准
具身智能之心· 2025-07-14 19:15
具身智能技术突破 - 智源研究院发布RoboBrain 2.0 32B版本和跨本体大小脑协同框架RoboOS 2.0单机版,RoboBrain 2.0作为"通用具身大脑"集感知、推理与规划于一体,32B版本在多项权威具身智能基准上刷新纪录,7B版本具备轻量化设计适配边缘设备部署需求 [2] - RoboOS 2.0是全球首个具身智能SaaS开源框架,创新性集成MCP协议与无服务器架构,实现轻量化部署,同步推出单机版产品线及RoboSkill技能商店,支持"三行指令"极速部署 [3] - RoboBrain 2.0突破三大能力瓶颈:空间理解精度不足、时间依赖建模薄弱、长链推理能力欠缺,显著提升对复杂具身任务的理解与执行能力 [4] RoboBrain 2.0技术架构 - 采用模块化的编码器-解码器架构,实现感知、推理和规划的统一,专门针对具身推理任务如空间感知、时间建模和长链因果推理 [9] - 依托全面且多样化的多模态数据集,融合高分辨率图像、多视角视频序列、场景图、3D场景数据及复杂自然语言指令 [12] - 采用三阶段递进式训练流程:基础时空学习、具身时空增强、具身情境中的推理链训练,训练样本量分别为4.8M、224K、195K [14][15][17][18] 性能表现 - RoboBrain-32B-2.0在BLINK-Spatial(83.63)、CV-Bench(83.92)、RoboSpatial(72.43)等空间推理基准上表现优异 [19][20] - 在时间推理方面,RoboBrain-32B-2.0在多机器人规划(80.33)、Ego-Plan2(57.23)、RoboBench(72.16)等任务中领先 [19] - RoboBrain 2.0 7B模型在Multi-Robot Planning以81.50分拔得头筹,32B版本在Ego-Plan2以57.23分登顶 [22] RoboOS 2.0框架 - 是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架,代码量仅为传统手动注册方式的1/10 [25] - 对端到端推理链路进行系统级优化,整体性能提升30%,全链路平均响应时延低至3ms以下,端云通信效率提升27倍 [27] - 新增多本体时空记忆场景图共享机制,支持动态环境下的实时感知与建模,引入多粒度任务监控模块提升任务执行稳定性 [27] 开源生态 - RoboBrain 2.0及RoboOS 2.0已全面开源,模型权重、训练代码与评测基准全部可用 [30] - 智源研究院已与全球20余家机器人企业与顶尖实验室建立战略合作关系 [33] - 提供多个开源资源链接包括GitHub仓库、模型检查点、技术文档等 [31][34]
具身智能大脑+首个SaaS开源框架,智源研究院刷新10项测评基准,加速群体智能新范式
量子位· 2025-07-14 13:23
核心观点 - 智源研究院推出全球首个具身智能SaaS开源框架RoboOS 2 0和通用具身大脑RoboBrain 2 0 实现感知、推理与规划一体化 [1][3] - 32B版本在多项权威基准测试中刷新纪录 空间推理能力超越Gemini、GPT-4o等主流模型 [2][21][23] - 开源框架RoboOS 2 0采用MCP协议与无服务器架构 端到端性能提升30% 响应时延低于3ms [3][27][29] 技术架构 RoboBrain 2 0 - 突破三大瓶颈:空间理解精度不足、时间依赖建模薄弱、长链推理能力欠缺 支持高精度物体定位、多步任务规划和因果逻辑提取 [5][10] - 采用模块化编码器-解码器架构 处理多模态输入(图像、视频、语言指令) 实现感知-推理-规划统一 [7][8] - 三阶段训练流程:基础时空学习(4 8M样本)、具身时空增强(224K样本)、具身情境推理链训练(195K样本) [13][14][16][18] RoboOS 2 0 - 首创SaaS模式 支持无服务器部署 代码量仅为传统方式的1/10 [27][28] - 三大组件:云端大脑模型、分布式小脑模块群、实时共享内存机制 新增场景图共享和任务监控模块 [28][29] - 多机协作四阶段:任务分解、动态分配、并行执行、状态更新 通信效率提升27倍 [30][29] 性能表现 - 空间推理:BLINK(83 95)、CV-Bench(85 75)等9项测试SOTA 超越基线模型5-15个百分点 [21] - 时间推理:多机器人规划(80 33)、Ego-Plan2(57 23)领先Qwen2 5-VL和Claude [23][24] - 提供7B轻量化版本 适配边缘设备 在低资源环境下性能仍超主流开闭源模型 [24] 应用生态 - 支持商超/厨房/居家多场景部署 实现多智能体协作任务执行 [25] - 配套推出RoboSkill技能商店和开箱即用镜像 支持三行指令极速部署 [32] - 模型权重、训练代码、评测基准全面开源 覆盖7B/32B版本及多芯片镜像 [33][34]
人工智能“出屏” 机器人“登场”
人民日报· 2025-06-12 06:50
AI技术演进路径 - 人工智能正从单纯工具向能与现实世界互动的助手转变,具身智能和通用AI成为前沿议题 [1] - 生成式AI快速发展使大模型成为核心技术,能力边界从写作绘画扩展到编程视频生成 [2] - AI发展进入新阶段,需具备理解推理和行动能力,现有系统已在特定任务超越人类但存在行为不可控风险 [2] - 大模型发展触及人类数据极限,未来AI需从交互经验中学习而非依赖静态数据训练 [3] 技术突破方向 - 大模型性能提升可通过强化学习技术突破、高质量数据合成和多模态数据应用三种路径实现 [3] - 具身智能面临不好用不通用不易用问题,硬件不成熟和数据获取难制约模型训练与落地 [6] - 智源研究院发布开源"悟界"具身智能平台,包含RoboOS 2.0和RoboBrain 2.0,已与20多家企业建立合作 [6] 具身智能发展现状 - 具身智能成为行业热点,银河通用Galbot、宇树G1和天工2.0等机器人展示多样化应用场景 [4] - 机器人技术通过春晚表演和格斗比赛展示水平,未来将在家庭生活和医疗制造等领域广泛应用 [4] - 世界人形机器人运动会将在中国举办,比赛任务源自物流搬运和医疗分拣等真实企业需求 [5] - 当前具身智能处于初级阶段,初步展现物理智能能力但可靠性和泛化能力仍需突破 [5] 行业未来展望 - 具身智能研发门槛降低将吸引更多开发者参与,AI未来重点是与物理世界互动完成实际任务 [7] - 预计5-10年内具身智能可替代人类从事危险劳动,2045年有望代表人类进行星际探索 [7]
环球问策|智源研究院王仲远:当前正是AI产品爆发的“前夕”
环球网· 2025-06-10 12:42
大模型技术发展 - 多模态大模型技术成为主流,从单纯文本训练转向多模态能力,GPT-o3和GPT-4o为代表[1] - Scaling Law依然成立,未来可能通过人工智能合成数据实现自我学习和进步[3] - 大模型与硬件结合,通过具身智能解决实际生产生活问题成为可能[3] Agent产品化趋势 - 2025年被行业视为"Agent元年",基础大模型达到可用状态后,Agent成为产业界发力重点[1][3] - Agent领域可能出现"杀手级"应用,创业公司需聚焦专业领域而非通用领域[3] - 一人或少数人组成的创业公司有机会在特定领域创造独特的大模型产品[4] 智源研究院最新成果 - 推出"悟界"系列大模型,包含Emu3、Brainμ、RoboBrain 2.0和OpenComplex2四个模型[4] - RoboBrain 2.0任务规划准确率较1.0提升74%,空间智能性能提升17%并新增空间推理能力[4] - 已开源核心资源,与20多家具身智能企业共建协同生态[4] 产业发展环境 - 人工智能进入产业爆发期"拐点",需辩证看待技术快速发展阶段的落地现实[5] - 政府应创造良好创新创业环境,支持大中小企业及科研机构协同发展[5]