Workflow
悟界·Emu3.5
icon
搜索文档
训练仍有巨大的Scaling空间!智源研究院王仲远:视频数据还未被充分利用 | MEET2026
新浪财经· 2025-12-24 17:47
行业趋势与战略定位 - 人工智能正处于第三次浪潮的关键拐点,大模型正推动AI从弱人工智能迈向通用人工智能,并有望推动机器人从1.0专用时代进入2.0通用具身智能时代 [1][3][5] - 全球互联网的文本数据已基本挖掘完毕,大语言模型的预训练进入缓慢阶段,而海量的视频等多模态数据尚未被充分利用,这构成了下一代AI发展的关键 [1][9][27] - 公司判断AI正从数字世界进入物理世界,并为此发布了“悟界”系列大模型,其名称中的“界”代表对虚实世界边界的突破,以区别于此前开启中国大模型时代的“悟道”系列 [5][28][33] 多模态世界模型:悟界·Emu3.5 - Emu3.5是一个从长视频中学习的多模态世界模型基座,其核心是将大语言模型的Next-Token Prediction范式升级为在多模态数据上进行Next-State Prediction,以预测下一个时空状态 [8][12][37] - 与上一版本相比,Emu3.5的训练数据集中视频总量从15年大幅提升至790年,参数量从8B提升至34B [13][38] - Emu3.5采用全自回归架构,并通过自研的DiDA技术将每张图片的生成速度提升约20倍,使其文生图速度可与世界顶级模型媲美 [13][38] - 该模型具备强大的多模态理解与生成能力,例如图像编辑中的语义推理、视角转换,以及在虚拟转现实、预测下一状态等任务上表现优于部分业界知名模型 [14][16][18][41][43] - 公司认为Emu3.5开启了第三代Scaling范式,即多模态Scaling,由于自回归架构可复用大语言模型基础设施,且参数量仅34B,未来仍有巨大扩展空间 [13][14][39] 具身智能与全栈技术体系 - 当前具身大模型面临“不好用、不通用、不易用”三大难题,即未达“ChatGPT时刻”、仅适用特定机器人本体、以及大脑/小脑/本体间适配难度高 [3][21][46] - 公司构建了以具身大脑Robo Brain为核心的自底向上全栈技术体系,涵盖跨异构本体的数据采集与标准化、具身大脑/小脑模型、评测及部署框架 [22][47] - 已发布RoboBrain2.0,能拆解人类复杂指令并根据环境分配给不同类型机器人执行,同时发布了具身小脑基座模型RoboBrain-X0及其升级版X0-Pro,支持零样本泛化与跨本体控制 [22][23][47] - 在人形机器人全身控制领域,公司的BAAI Thor框架驱动了35千克的G1机器人拉动1.4吨汽车,并实现了连续28个空翻 [23][48] 开源开放与产业合作 - 公司坚持开源开放,过去两年多已开源200多个模型,全球下载量突破6.9亿次,并开源了100多个数据集,全球下载量超过400万次 [3][25][50] - 近期开源的具身智能数据集表现突出,例如一个双臂操作数据集在20天内全球下载量突破130万次,11月底开源的一个具身数据集下载量已超百万次 [3][24][49] - 在产业合作方面,公司已与国内头部30余家机器人企业和机构在具身智能领域开展合作,旨在共同推动技术发展 [25][50]
训练仍有巨大的Scaling空间!智源研究院王仲远:视频数据还未被充分利用 | MEET2026
量子位· 2025-12-24 15:20
行业趋势与拐点 - 人工智能正处于第三次浪潮的关键拐点,大模型正推动AI从弱智能向通用智能跨越,并有望推动机器人从1.0专用时代迈入2.0通用具身智能时代 [3][13][17] - 行业发展的核心方向是推动人工智能从数字世界进入物理世界,实现深度交互需突破多模态理解与具身执行的核心技术瓶颈 [4][7] - 2025年往后,第三代Scaling范式的关键在多模态,人工智能将从“语言学习”进入“多模态世界学习”的新阶段 [17][23] 多模态世界模型:悟界·Emu3.5 - 全球互联网的文本数据已基本挖掘完毕,但视频作为包含时间、空间、物理、因果关系及意图的高效载体,其数据尚未被充分利用,是多模态Scaling的广阔空间 [1][17][20][24] - Emu3.5是一个从长视频中学习的多模态世界模型基座,其核心是将大语言模型的Next-Token Prediction升级为在多模态数据上的Next-State Prediction [2][17][22] - 相比上一版本,Emu3.5训练数据集中视频总量从15年提升至790年,参数量从8B提升至34B [23] - 模型采用全自回归架构,并通过自研的DiDA技术将每张图片的生成速度提升约20倍,使文生图速度媲美世界顶级模型 [23] - 在图像编辑、虚拟转现实、视角转换及下一个状态预测等任务上,Emu3.5展现出强大的多模态理解、推理与生成能力,与业界领先模型相比表现可圈可点 [25][27][28][29] - 该模型具备长时空序列视觉故事生成、视觉指导生成等能力,并且已全开源 [31][32] 具身智能与全栈技术 - 当前具身大模型面临“不好用、不通用、不易用”的挑战,即未达ChatGPT时刻、跨本体适配性差、大脑小脑与本体适配难度高 [17][34] - 公司构建了以具身大脑Robo Brain为核心的自底向上全栈技术体系,旨在破解上述难题 [35] - 发布了RoboBrain2.0,能拆解人类复杂指令并根据环境分配给不同类型机器人执行 [35] - 发布了具身小脑基座模型RoboBrain-X0及其升级版X0-Pro,为零样本泛化和少样本微调下驱动多种真实机器人完成复杂任务提供了跨本体基座 [36] - 在人形机器人全身控制方面,其BAAI Thor框架驱动35千克的机器人拉动了1.4吨的汽车,并实现了连续28个空翻 [36] 开源开放与产业贡献 - 公司坚持开源开放,过去两年多开源了200多个模型(涵盖语言、多模态、具身模型等),全球下载量突破6.9亿次 [17][38] - 开源了100多个数据集(涵盖语言、语音、图像、视频和具身智能等),全球下载量超过400万次 [17][38] - 近期开源的一个高质量双臂操作数据集,在20天内全球下载量突破130万次 [37] - 在具身智能领域,已与国内头部30余家机器人企业和机构开展合作,旨在协同推动产业发展 [38]
2025,中国大模型不信“大力出奇迹”?
36氪· 2025-12-19 19:06
文章核心观点 - 2025年生成式AI发展进入新阶段,其演进围绕认知深化、维度突破和效率重构三条核心脉络交织进行,开始定义AI进化的新范式 [1] - 单纯依赖算力和参数规模扩张的Scaling Law边际效益递减,行业正通过架构创新(如MoE、稀疏注意力)和多模态数据(尤其是视频)利用来寻求新的性能提升路径 [1][8] - 大模型行业的竞争格局呈现中美、开源与闭源“双核驱动”的态势,商业化成功的关键在于构建算力、能力、生态三层“护城河”,并聚焦于高价值的专业用户(ToP)市场 [3][7][10] - 智能体(Agent)和具身智能(Embodied AI)是重要的演进方向,但面临商业化、技术成熟度及软硬件协同的挑战,端云协同与模型“能力密度”提升是未来发展核心 [3][11][17][19] - 中国AI产业有望通过开源生态和专注于提升模型效率(如“密度法则”)的路径,在算力受限环境下实现突围 [3][20] 2025年大模型进化三大脉络 - **认知深化:从“直觉”到“逻辑”**:一线模型通过强化学习(RL)和更长的中间推理,从快速的模式匹配(System 1)向多步深度推理(System 2)演进 [1] - **维度突破:从“语言”到“物理空间”**:AI演进逻辑从理解语言符号进化到理解物理世界本身,“空间智能”成为关键,视频数据因其蕴含的丰富时空信息成为迈向物理世界的关键桥梁 [1][2] - **效率重构:从“暴力美学”到“性价比”**:产业落地回归极致的算力效能比,采用混合专家模型(MoE)、稀疏注意力等架构革新使模型变“轻”,以解决无限上下文带来的算力挑战 [1] Scaling Law与模型迭代新范式 - **Scaling Law面临瓶颈**:在大语言模型领域,由于互联网文本数据枯竭,单纯堆算力、堆参数的边际效益在递减 [8] - **多模态数据成为新红利**:视频数据的量级是互联网文本数据的百倍、千倍乃至万倍,从视频中学习(Learning from Video)成为大模型新的性能提升机会 [8] - **“密度法则”成为新方向**:类似于芯片摩尔定律,行业追求在单位参数内提升“智能密度”,通过技术创新实现模型能力压缩,预计每100天模型密度变得更高 [3][9] - **端云协同成为未来格局**:未来算力格局将是云端负责规划,端侧负责执行(做事),预计到2030年,端侧设备可承载GPT-5级别的模型能力 [3][18] 大模型公司的竞争“护城河” - **三层金字塔结构**:最底层是算力的获取、组织和有效利用;中间层是维持SOTA水平的模型能力;最上层是触达用户、获得数据反馈的生态 [9][10] - **“双核驱动”格局已定**:开源与闭源大模型、中国与美国的企业和人才,形成双核驱动格局,2025年被视为中国大模型的破局之年 [3][7] - **赢家通吃**:大模型是一个全球留不下几家公司的赢家通吃行业 [9] 智能体(Agent)的商业化现状与瓶颈 - **从玩具到工具的挑战**:智能体商业化面临三大技术瓶颈:基础模型推理能力仍有欠缺、领域适配时的“翘翘板效应”(能力此消彼长)、模型的记忆和遗忘机制不完善 [11][12][13] - **端侧与云端智能体的区别**:端侧智能体需满足隐私、实时、稳定需求,并对全模态数据有感知理解与个性化服务能力;云端智能体主要处于数字世界 [13] - **商业化变现聚焦ToP市场**:在ToB(企业)和ToC(消费者)之间,面向专业型用户(ToP)的市场是目前中美AI行业变现效率最高的地带,如AI编程和创作者付费工具 [14] - **ToB与ToC市场挑战**:ToB是门槛高的“攻坚战”,落地较好的是嵌入特定环节的流程型Agent;ToC则因能力不足、缺乏新硬件载体及商业模式(Token成本高于广告收益)的悖论而尚需时日 [15] 具身智能(Embodied AI)的发展与挑战 - **产业处于早期阶段**:需要足够耐心,其发展依赖于世界模型和具身大脑等基础模型的进步 [17] - **世界模型是关键底座**:如智源的多模态世界模型Emu3.5,从视频中学习时空、因果等信息,致力于预测下一个时空状态,为具身智能构建“世界模型”底座 [2][17] - **“大小脑”协同架构**:未来机器人将采用类似“大小脑”的分工,实时感知与行动留在本地(小脑),深度思考可借助云端(大脑) [17] - **软硬结合是理想路径**:大模型AI走向物理世界,智能(软件)至关重要,但在中国环境下,硬件比重可能更重,最理想的模式是软硬结合 [19] 开源生态与中国AI的突围之路 - **开源开放推动行业进步**:人工智能行业的快速发展离不开开源开放生态,这推动了技术普惠和产业化落地 [20] - **高效模型是突围关键**:通过“密度法则”等技术提升模型效率,降低训练和使用成本,是中国在算力存在短板情况下的重要突围路径,适用于端侧和云侧 [20] - **开源模型是国运级机会**:集全国之力支持优秀开源模型,在此基础上比拼应用和生态,是中国AI发展的良好路径 [20] - **给创业者的关键建议**:在大模型难以触及的行业深处寻找机会,并建立能够跨越模型迭代周期的商业结构,避免做过于通用的产品 [21]
【产业互联网周报】 “十五五”规划建议:全面实施“人工智能+”行动,抢占人工智能产业应用制高点;黄仁勋GTC大会最新演讲勾勒AI蓝图;退出中国市场?SA...
钛媒体APP· 2025-11-03 10:12
大模型与生成式AI技术进展 - 智源发布多模态世界大模型悟界·Emu3.5,通过自回归方式实现多模态序列的“Next-State Prediction”,获得可泛化的世界建模能力,能实现跨场景具身操作、泛化动作规划与复杂交互 [2] - 美团LongCat团队发布并开源LongCat-Video视频生成模型,通过“二阶段粗到精生成+块稀疏注意力+模型蒸馏”三重优化,视频推理速度提升至10.1倍 [6][7] - 火山引擎上线豆包视频生成模型1.0 pro fast,生成速度最高提升约3倍,价格直降72% [10] - MiniMax发布海螺2.3视频生成模型,在动态表现力、风格化呈现及人物表演细腻度方面较上一代提升,并将海螺Video Agent迭代为支持全模态创作的Media Agent [15] - OpenAI推出由GPT-5驱动的自主网络安全研究代理Aardvark [29] AI平台与开发生态 - 零一万物联合开源中国发布Open AgentKit平台,该平台为开发者提供一站式开源解决方案,通过Framework、Runtime、Builder和Studio四大核心模块覆盖AI Agent全开发周期 [3] - 探迹科技推出针对AI数字员工打造的大模型智能体平台,AI数字员工具备类人思考、自主执行等特征,覆盖B2B、B2C核心业务场景,已与华为、小米、vivo等头部硬件厂商达成合作 [17] - 全球人工智能平台MAI推出旗舰产品“营销AI Agent”,可自主管理与优化效果营销,已帮助一些客户提升超过40%销售额,并每月管理数百万美元的谷歌广告支出 [34] - 前字节剪映、火山AI产品负责人创业项目“极致上下文”科技获硅谷美元基金与BV百度风投数百万美元投资,早期目标为打造面向营销场景的多模态Agent [36] 量子计算与前沿技术应用 - 玻色量子中标招商银行量子计算采购项目“天秤AI”,将基于自研的1000量子比特相干光量子计算机真机,为招行提供量子组合优化算法方案及量子真机算力服务 [4] - 一目科技在IROS展示自主研发的仿生视触觉传感器,传感器厚度仅为行业同类产品的一半,可同步“感受”物体软硬、表面纹理及滑动趋势,使机器人能完成精细操作 [11] - 全球首款进入课堂教学场景的全尺寸仿生机器人在合肥市师范附属小学正式“开讲”,身高1.4米的机器人“小安”作为助教参与科学教育课 [12] - 深圳鹏脑科技完成数千万元天使轮融资,资金将重点用于脑机接口技术的深化研发与产品迭代升级 [31] 企业合作与行业解决方案 - 汉得信息在电话会议中表示,今年计划努力完成3亿元AI相关收入,订单规模争取达到4-5亿元,明年希望实现规模翻倍,将AI收入目标设定在5-6亿元 [5] - 钉钉发布“1+4+N”矿业AI解决方案,钉钉大制造与矿业总经理表示近50%的中国五百强涉矿企业正在使用钉钉 [9] - 里伍铜业与华为签署框架合作协议,双方将在数字化基础设施、数智平台、智慧矿山大模型等方向深度合作,利用AI和5G技术推动高原地下铜矿的智能化转型 [13] - 中国科学院香港创新研究院与华为达成合作,联合推出新一代医疗AI大模型CARES 3.0,该模型在华为AI算力集群平台上训练完成,覆盖12+原生多模态医学数据集,能理解CT、MRI等影像并完成智能诊断 [14] 基础设施与安全 - 盛邦安全发布200G高速链路加密网关产品,整机加解密能力高达200Gbps以上,加密时延低于3微秒,经检测整机加解密吞吐能力达200Gbps,时延性能较现存纪录提升300倍,可应用于国家“东数西算”、智算中心等场景 [8] - 钉钉AI录音卡片DingTalk A1青春版正式上市,售价499元,依托钉钉AI听记和AI大模型能力,用户可实现语音内容记录、转写、总结分析并与钉钉工作流程打通 [20] - 黑石支持的数据中心平台AirTrunk与沙特人工智能公司达成战略合作,将在沙特投资约30亿美元建设数据中心园区 [27] - 国家发改委表示将以算力基础设施规模化、集约化、绿色化发展为重点,鼓励小、散、低效的存量算力设施向集约化、高效率转变 [50] 资本市场与融资并购 - 人形机器人研发制造企业松延动力完成近3亿元Pre-B轮融资,由方广资本领投,其旗下人形机器人“Bumi 小布米”定价9998元,10月23日晚一小时内订单突破100台,2天内首批500台售罄 [33] - 蚂蚁集团入股AI硬件研发商艾德未来智能,安徽艾德未来智能科技有限公司发生工商变更,新增蚂蚁集团旗下公司为股东,注册资本由约2512万人民币增至约2809万人民币 [32] - 英伟达计划向AI初创公司Poolside投资高达10亿美元,该交易将使Poolside估值飙升至原来的四倍,其正以120亿美元估值融资20亿美元进行谈判 [40] - 中金智算(安徽)科创投资基金合伙企业成立,出资额10亿人民币,经营范围为私募股权投资基金管理、创业投资基金管理服务 [38][39] 政策与行业趋势 - 山东省通信管理局等部门印发专项规划,提出到2030年底实现山东省低空通信网络全城全域连续覆盖和载人无人机航路全场景互联互通,到2035年底构建“空天地一体、通感算智融合”的低空通信网络数字基础设施 [41][42] - 上交所理事长邱勇表示,将支持人工智能、商业航天、低空经济等更多前沿科技领域适用第五套标准,支持具有参与全球竞争潜力的硬科技企业上市 [43] - “十五五”规划建议指出,将全面实施“人工智能+”行动,以人工智能引领科研范式变革,加强人工智能同产业发展相结合,抢占人工智能产业应用制高点 [46] - 上海市通信管理局等部门发布通知,开展城域“毫秒用算”专项行动,力争到2027年基本形成全域覆盖、高效畅通的城域毫秒用算网络能力体系,实现算力应用毫秒可达(网络时延<10毫秒) [48] 海外动态与国际合作 - OpenAI为印度用户提供为期一年的免费ChatGPT Go服务,该服务年费为399卢比(不到5美元) [21][22] - 英伟达GTC大会公布多项进展,包括与甲骨文为美国能源部建造最大AI超算Solstice系统,配备10万块英伟达Blackwell GPU;与CrowdStrike在AI网络安全模型方面合作;与Palantir整合GPU加速计算能力到其AI平台 [23] - 富士康董事会批准一项投资计划,将花费高达13.7亿美元用于人工智能计算集群和超级计算中心采购设备,投资将在2025年12月至2026年12月期间进行 [24] - 亚马逊宣布计划裁减约1.4万名公司职员,以精简运营、加快人工智能部署,自2022年以来亚马逊已累计裁员超过2.7万人 [28]
智源研究院王仲远:世界模型的关键是真正预测下一个状态
经济观察网· 2025-11-01 18:51
世界模型成为AI新焦点 - 2025年“世界模型”成为AI领域最受关注的词汇之一 其核心是让AI理解世界运作规律 实现从识别生成到想象预测的跨越 [2] - 随着大模型红利减弱 行业正寻找新增长点 世界模型被视为重要方向 [2] 智源研究院Emu3.5模型技术突破 - 智源研究院发布悟界·Emu3.5多模态世界大模型 采用自回归架构统一了图像 文本与视频的生成和理解 能够预测下一个状态 [2] - 模型基于超过10万亿token的多模态数据训练 视频数据累计时长达790年 参数规模为340亿 [3] - 通过“离散扩散自适应”推理方法 图像生成速度提升近20倍 同时保持高质量输出 [3] - 模型在三个维度实现突破 理解高层级人类意图并生成多步骤行动路径 动态模拟物理世界 提供泛化交互能力 [3] 世界模型的核心价值与应用 - 世界模型核心是对因果与物理规律的理解 而非简单的视频生成 [3] - Emu3.5不限定用途 既可支撑具身智能 也能生成多模态训练数据 展示了中国科研团队的原创路线 [4] - 未来AI的发展方向是理解世界本身并在其中行动 [4] 行业巨头布局世界模型 - DeepMind推出可生成交互式3D世界的Genie 3 OpenAI强化Sora的物理一致性 [2] - 英伟达 华为 百度等公司正从机器人与自动驾驶场景切入 让AI从看懂迈向参与 [2]
智源悟界·Emu3.5发布,开启“下一个状态预测”!王仲远:或开启第三个 Scaling 范式
AI前线· 2025-11-01 13:33
模型核心创新与定位 - 悟界·Emu3.5是全球首个基于"Next-State Prediction"范式的原生多模态世界模型,通过自回归架构实现对多模态序列的预测,模拟人类自然学习方式[2] - 模型核心能力是预测下一个时空状态,这对于具身智能至关重要,使其能理解世界运行规律并进行因果推理[2] - 该模型代表了一项融合算法、工程架构、数据训练范式与模型思想的综合性原始创新,而非单一的算法或工程改进[9] 核心技术特点与能力 - 具备三大核心能力:从高层级人类意图自主生成详细连贯的多步骤行动路径、在统一框架内动态模拟世界并预测物理动态与长时程因果关系、作为泛化交互基础提供关键的认知基础[3] - 采用自回归架构实现多模态数据大一统,能够大规模复用现有计算基础设施,其Next Token可以是视觉和文字Token且性能无损[8][10] - 通过自研DiDA技术将自回归模型的推理速度提升20倍,实现了可媲美闭源系统最强图像生成的能力,大幅降低了原生多模态的成本[17][19] 训练方法与数据规模 - 训练分为两阶段:首先在约13万亿tokens上进行端到端预训练,随后在1500亿样本上进行有监督微调,再通过大规模强化学习提升多模态推理与生成能力[12] - 预训练消耗超过10T Token,大部分数据是长视频而非文字主导,使用了约6300万条视频,平均时长6.5分钟,总时长约790年,覆盖教育、娱乐、体育等多个领域[13] - 模型目前仅为340亿参数规模,所使用的视频数据仅占全互联网公开视频数据的不到1%,显示出巨大的Scaling up潜力[13] 性能表现与行业意义 - 在多项基准测试中,Emu3.5在Alignment指标上得分为0.902,Text指标上得分为0.994,Overall综合得分0.564,表现优于包括Gemini-2.5-Flash-Image(0.550)在内的其他主流模型[5] - 该模型首次证明了多模态领域存在Scaling可能性,开启了继语言预训练Scaling和后训练与推理阶段Scaling之后的第三个Scaling范式[6] - 与市面上多数采用组合式架构的模型相比,Emu系列的自回归架构可扩展性更强,避免了模型遗忘现象,并解决了Agent任务优化等企业落地难点[8]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-11-01 10:33
芯片领域 - 英伟达推出Vera Rubin芯片[3] - 高通发布新AI推理方案[3] 模型进展 - OpenAI发布安全分类模型[3] - Cursor推出自研Composer模型[3] - Thinking Machines研究同策略蒸馏技术[3] - 英伟达开发OmniVinci模型[3] - MiniMax发布M2模型[3] - 北京智源推出悟界·Emu3.5模型[3] - OpenFold Consortium发布OpenFold3模型[3] 应用创新 - Sora推出角色客串功能[3] - MiniMax发布MiniMax Speech 2.6应用[3] - Soul AI Lab推出SoulX-Podcast应用[3] - Adobe发布Firefly Image 5应用[3] - 腾讯混元推出交互式AI播客应用[3] - PayPal将数字钱包嵌入AI应用[3] - Windsurf等应用接入中国大模型[3] - xAI推出Grokipedia应用[4] - Anthropic发布Claude for Excel应用[4] - 特斯拉开发世界模拟器应用[4] - 美团推出LongCat-Video应用[4] - 火山引擎发布豆包视频模型应用[4] - 昆仑万维推出网页复刻应用[4] - xAI发布新AI虚拟女友应用[4] - OpenAI推出公司知识应用并进入AI音乐赛道[4] - 腾讯发布ima 2.0应用[4] - 阿里推出夸克AI眼镜应用[4] 科技前沿 - 1X Technologies推出NEO家用机器人[4] - Hugging Face发布LeRobot v0.4.0[4] - Merge Labs开发超声波脑机接口[4] - Neuralink推出PRIMA人工视觉技术[4] 资本动态 - OpenAI有上市计划并进行资本结构重组[4] - OpenAI收购SAI公司[4] 行业观点 - Anthropic提出AI内省迹象观点[4] - 田渊栋提出AI顿悟观点[4] - Yoshua Bengio提出AGI新定义[4] - OpenAI公开技术路线图并关注心理健康数据使用[4] - 硅谷出现AI高强度工作趋势[4] - DeepMind提出DiscoRL算法观点[4] - ChatGPT采用聊天诱饵策略[4] - AWS提出对开发者未来的展望[4] 行业事件 - 日本呼吁AI版权保护[4] - Yoshua Bengio研究获得百万引用[4]
腾讯研究院AI速递 20251031
腾讯研究院· 2025-10-31 00:06
OpenAI技术进展与战略 - 开源gpt-oss-safeguard安全分类模型,包含120B和20B版本,采用Apache 2.0许可证,无需重新训练即可直接理解策略文档进行内容分类 [1] - 该模型在内容审核评估集和ToxicChat数据集上表现超越GPT-5-thinking,达到行业最佳性价比 [1] - OpenAI内部Safety Reasoner原型技术已用于图像生成和Sora 2等产品,安全推理算力消耗占比高达16% [1] - OpenAI计划最早于2026年下半年提交上市申请,2027年挂牌,拟通过IPO募集至少600亿美元,估值或高达1万亿美元 [6] - 架构重组后非营利组织持有新组建的OpenAI集团26%股权,微软获得额外2500亿美元Azure采购合同,技术使用权延长至2032年 [6] AI开发工具与平台更新 - Cursor发布2.0版本,推出自研编码模型Composer,生成速度达每秒250个token,是同类前沿系统的4倍 [2] - Composer模型采用混合专家架构,通过强化学习针对软件工程优化,在Cursor Bench评测中达到前沿水平 [2] - 新版界面支持多智能体并行协作,基于git worktree或远程机器实现不同模型同时处理任务,并增加原生浏览器工具 [2] - Sora推出角色客串功能,可保持非人类角色一致性,并支持从生成视频中提取虚拟角色实现自循环 [2] - Sora新增视频拼接功能和社区排行榜,并在美国、加拿大、日本和韩国四国限时取消邀请码限制直接开放注册 [2] 语音与多模态AI技术突破 - MiniMax Speech 2.6端到端延迟低于250毫秒,已成为LiveKit、Pipecat、Vapi等全球语音平台的底层技术引擎 [3] - 新版本支持多语言的网址、邮箱、电话等非标准文本格式直接转换,无需繁琐文本预处理 [3] - 提供Fluent LoRA功能,即使带口音或不流利的非母语录音也可在音色复刻时生成流利自然语音,支持40多种语种 [3] - 北京智源发布悟界·Emu3.5多模态世界大模型,基于34B稠密Transformer在超10万亿Token上预训练 [4] - 模型采用"下一状态预测"目标,在图像编辑任务上达到与Gemini-2.5-Flash-Image相当性能,并通过DiDA技术将图像推理速度提升近20倍 [4][5] 前沿科学研究与发现 - OpenFold Consortium发布OpenFold3预览版,基于超30万实验结构和1300万合成结构训练,可预测蛋白质与小分子配体、核酸等相互作用 [7] - 在单体RNA结构预测中性能匹敌AlphaFold3,所有组件采用Apache 2.0许可证允许商用,诺和诺德等公司已计划利用该模型加速研发 [7] - Anthropic研究发现Claude能察觉并报告被人为注入的概念,在最强模型上内省成功率达20% [8] - 研究通过追溯性注入概念篡改AI的"记忆",发现模型会基于伪造的内部状态为自己的"错误"进行辩护和杜撰理由 [8] - 前Meta FAIR负责人田渊栋发表Grokking研究,证明模型仅需O(M log M)样本即可实现泛化,远低于传统M²的需求 [8]
AI进化速递丨OpenAI计划2026年提交IPO申请
第一财经· 2025-10-30 21:09
OpenAI上市计划与产品发布 - OpenAI计划于2026年提交IPO申请,并于2027年上市 [1] - OpenAI发布全新安全推理模型gpt-oss-safeguard [1] 主要科技公司AI能力建设 - 微软预计公司2024年AI总算力将提升超过80% [1][3] - 亚马逊AI超级集群Project Rainier已投入使用 [1][3] AI行业合作与模型进展 - 英伟达与Palantir达成合作,旨在推动AI实战化 [1] - 智源发布多模态世界大模型悟界·Emu3.5,该模型可实现跨场景具身操作 [1][3] AI服务器市场展望 - TrendForce预估2026年AI服务器出货量将年增超过20% [1]
世界模型有了开源基座Emu3.5,拿下多模态SOTA,性能超越Nano Banana
36氪· 2025-10-30 19:56
模型核心定位与能力概述 - 北京智源人工智能研究院发布开源原生多模态世界模型悟界·Emu3 5 定位为世界模型基座 在AI领域开辟全新赛道 [1][11] - 模型具备图、文、视频任务综合处理能力 包括画图改图、生成图文教程 视频任务增强了物理真实性 [1] - 核心能力体现在世界探索与具身操作 能像智能体一样理解长时序、空间一致的序列 模拟虚拟世界中的探索和操作 [12] 技术性能与基准测试表现 - 模型参数量为34B 基于Decoder-only Transformer框架 单一模型可完成视觉叙事、视觉引导、图像编辑、世界探索、具身操作等多种任务 [17] - 在多项权威基准测试中 性能媲美甚至超越Gemini-2 5-Flash-Image 在文本渲染和多模态交错生成任务上优势显著 [9] - 采用离散扩散适配技术 将图像推理速度提升近20倍 解决了自回归模型生成图像慢的问题 [26] 关键技术创新点 - 模型将所有任务统一为下一状态预测任务 通过强大的多模态分词器将文本和图像转换为离散Token序列 [17] - 在超过10万亿Token的多模态数据上进行预训练 主力数据为互联网视频的连续帧和转录文本 使其沉浸式学习时空连续性和因果关系 [18] - 视觉分词器基于IBQ框架 拥有13万视觉词汇表 并集成扩散解码器 能实现高达2K分辨率的高保真图像重建 [19] - 预训练后经过大规模有监督微调和大规模多模态强化学习 使用复杂奖励系统进行优化 [25] 应用场景与功能演示 - 能够以第一人称视角构建动态3D虚拟世界 用户移动和转身时能动态构建下一步场景 全程保持空间一致性 [3][6] - 擅长提供具有连贯性和指导意义的视觉内容 例如根据狐狸草图指令一步步生成从草图到最终手办形态的完整视觉流程 完美保留核心特征和神态 [13] - 支持生成分步教学指南 如手把手教做菜、画画、种菜 并能进行多图、多轮指令的复杂图像编辑 主体一致性和风格保持能力达业界顶尖水平 [14][15] - 演示案例包括高精度操作如一句话消除手写痕迹 以及复杂任务如按照多步指令整理桌面 [1][22][24]