Workflow
Artificial Intelligence
icon
搜索文档
阿里“快乐马”团队再出手!正面叫板谷歌 Genie 3,世界模型 HappyOyster 来了
AI前线· 2026-04-16 17:00
公司产品发布与核心能力 - 阿里巴巴于4月16日发布了名为HappyOyster(快乐生蚝)的世界模型产品,该产品由阿里ATH创新事业部团队研发,与之前的产品HappyHorse(快乐马)同属一个团队 [2] - HappyOyster基于原生多模态架构构建,支持多模态理解与音视频联合生成,目前产品具备“漫游(Wander)”和“导演(Direct)”两大核心能力,允许用户实时构建可互动、可演绎、可探索的AI数字世界 [4] - 用户生成的数字世界可以被完整保存,并开放给其他用户进行二次创作 [4] 技术架构与流派定位 - HappyOyster与谷歌的Genie3同属于“世界模拟器”流派,该流派采用长时间跨度上的世界演化建模方式,区别于传统文生视频模型的被动生成流程 [5] - 该技术通过学习海量长视频数据以及文本、动作指令、图像参考等多样控制信号,使模型能够主动理解空间、物理与因果规律,预测情节和画面的演变,从而将“被动生成内容”转变为“主动模拟世界演化” [5] - 官方表示,HappyOyster采用了时间跨度更长的世界演化建模方式,使模型能够保持高保真、长时序的动态场景生成,并在建模初始就设计了多样的控制信号,以实现生成质量、长时序与实时可控性的协同优化 [6] 产品差异化优势与具体功能 - 在产品能力上,HappyOyster不仅支持Wander漫游探索,还独家提供实时导演功能,用户可通过自然语言指令随时介入世界演化、调度角色事件,实现从被动探索到主动创作的跨越 [6] - 在视觉表现上,HappyOyster漫游模式的画面质量更高,风格泛化能力更强 [6] - 在漫游模式中,用户仅需一句话或一张图,即可生成具备物理一致性的完整空间,物体位置稳定、场景持久存在,视角与光照也能跟随第一人称视角持续移动 [9] - 用户能自由切换方向与镜头运动,突破初始画框的边界,目前支持长达1分钟的连续实时位移与镜头控制,并支持多样化的风格切换 [9] - 在导演模式下,用户能够在视频的任意节点,通过文字、语音或图像等多模态输入,随时实现镜头切换、剧情改写、角色调度 [8][11] - 导演模式支持连续生成3分钟以上的480p或720p实时画面 [11] - 当前漫游与导演两大模式尚未完全打通,但未来有望实现用户在漫游过程中直接与世界深度互动、实时改写场景规则的无缝融合体验 [11] 行业技术背景与对比 - 相比大语言模型相对成熟的模型架构和技术范式,世界模型仍属于前沿探索领域 [5] - 谷歌DeepMind团队提出的Genie模型包含三大部分:时空视频tokenizer、自回归dynamics模型和隐式动作模型,该系统在训练阶段不需要任何显式动作标签或环境规则,只依赖海量未标注视频进行无监督学习 [6][7] - Genie可以不依赖特定游戏引擎,从多模态提示生成可玩世界,并实现逐帧交互,这些特性使其被视为早期的世界模拟器 [6]
Anthropic Says Mythos AI Model Available to UK Banks in 'Next Week'
Youtube· 2026-04-16 16:34
模型发布策略与当前进展 - Anthropic公司已向包括微软和美国部分金融机构在内的少数组织开放了其最新模型“Mythos”进行测试,目前仅为一个非常小的群体[1] - 公司尚未将“Mythos”模型发布给英国金融机构,但计划在近期(数周内)进行扩展,预计将在“下周”或“下下周”实现[3] - 公司对模型的发布采取了非常审慎和有意识的方式,并为此制定了“Project Glass Wing”项目,客户(包括CEO们)对这种深思熟虑的发布方式表示赞赏[4][5][9] 模型能力与安全考量 - “Mythos”模型在网络安全能力上实现了显著飞跃,但同时揭示了当前存在的严重漏洞,该模型在所有操作系统和所有网络浏览器中都发现了漏洞[2] - 由于模型能力强大且存在潜在危险,Anthropic决定不进行大规模发布,而是首先在小范围内进行可控的学习和测试[2][7] - 公司认为,实验室有责任为人工智能的安全和负责任发展考虑保障措施,并正在对产品的发布施加自身的保障措施和限制[7][9] 行业合作与客户反馈 - 英国顶级金融机构的CEO们近期与公司进行了大量且重要的接触,他们希望理解并有机会以可控方式获得该模型的访问权限[3][4] - 公司正与客户合作,明确其访问模型的具体原因,并共同规划后续的第二、第三及第四阶段发布计划[5] - 客户对公司在模型发布上深思熟虑、有意识的方式表示非常感激[4][9] 商业模式与核心使命 - 即使模型能力变得非常强大以至于需要限制其发布,并可能对商业产生影响,Anthropic表示仍将坚持放缓发布以确保AI的安全和负责任发展[10] - 公司的首要使命是以安全的方式将这项技术交到员工、客户和企业手中,因此不会改变其当前的审慎发布策略[10][11] - 公司承诺将始终坚持保障措施和安全优先的方法,确保所有行动都经过深思熟虑[11]
Nature重磅发现:AI大模型也会“夹带私货”!通过隐藏信号传播恶意特征
生物世界· 2026-04-16 16:08
撰文丨王聪 编辑丨王多鱼 排版丨水成文 大语言模型 (LLM) ,例如驱动聊天机器人 ChatGPT 的那些 AI 模型,正越来越多地用于在现实世界中 执行各种操作,从发送电子邮件到执行金融交易。随着 AI 系统能力的增长,这项技术既有潜力创造有价值 的工具,也可能带来灾难性的风险。 如今,随着大语言模型的快速发展,人类生成的内容已经快被模型学习完了,如今的大语言模型开发者们 开始越来越多的使用模型生成的内容来训练新模型,即 模型蒸馏 ,其核心是通过大型 教师模型 指导小型 学生模型 ,在保留性能的前提下降低部署成本并提升推理效率。 然而,目前尚不清楚在这一模型蒸馏过程 中会将哪些特性传递下去。 2026 年 4 月 15 日, Anthropic 公司的研究人员在国际顶尖学术期刊 Nature 上发表了题为: Language models transmit behavioural traits through hidden signals in data 的研究论文。 该研究指出 , 模型蒸馏 可能会导致 不良特征在不同模型之间传递 ,即使采用了严格的筛选流程排除了直 接恶意内容,这种情况仍可能发生。 这 ...
倒计时3天!2026 奇点智能技术大会高质量参会指南,请查收!
AI科技大本营· 2026-04-16 15:37
大会概况 - 2026奇点智能技术大会由CSDN与奇点智能研究院联合举办,将于2026年4月17日至18日在上海环球港凯悦酒店举行 [1][17] - 大会聚焦AI技术从工程化到行业落地的实战逻辑,探讨在万亿级流量与复杂业务约束下的真实取舍,而非理想化指标 [1] 核心议程与演讲嘉宾 - 首日上午主会场,奇点智能研究院院长李建忠、荣耀终端AI首席科学家黄非、蚂蚁集团副总裁周俊、上海人工智能实验室陈恺将解析Agent重构产业范式、AI周期演进、百灵大模型AGI探索及书生万亿参数科学大模型 [4] - 首日下午设置四大平行分会场,主题分别为大语言模型技术演进、多模态与世界模型、AI原生软件研发、智能体系统与工程 [7] - 次日议程进一步纵深至系统可靠性、软硬深度协同、AI+行业落地与应用创新等专题 [10][13] 分会场关键技术议题 大语言模型与推理优化 - 探讨大语言模型预训练阶段的数据选择、数据混合与高效训练问题 [11] - 引入编译器优化以压榨vLLM的大模型推理极限 [11] - 探讨如何通过Mooncake架构支撑下一代大模型在线服务 [15] - 昆仑芯分享在文心一言等大规模LLM上的推理优化实践 [15] Agent(智能体)工程化与落地 - 探讨基于Skill构建规模化Agent任务 [9] - 分享微信AI搜索Agent的技术实战 [9] - 探讨从构建自治AI到设计生产级Agent系统的跨越 [15] - 分析Agent设计模式,从认知架构到工程落地 [9] - 平安科技分享AI在复杂医疗场景下的多Agent实践 [15] - 阿里云分享企业级Agent Team解决方案HiClaw [15] 多模态、具身智能与行业应用 - 京东探索研究院分享让模型理解与编辑空间的JoyAI-Image-Edit技术 [11] - 优必选分享L3-L5全栈机器人在工业物流的规模化落地实践 [11] - 网易分享无人装载机全流程作业的数据驱动算法规模化实践 [11] - 同济大学分享生物智能混合机器人系统的研究与实践 [11] - 金山办公分享办公领域多模态的探索与实践 [15] - 小红书分享下一代视频剪辑范式OpenStoryline [15] - 商汤科技分享AI PPT在线编辑系统的工程实践 [15] AI基础设施与算力效能 - NVIDIA分享如何构建与规模化运营GPU基础设施 [11] - 探讨面向大模型时代的软硬协同计算架构与数智融合实践 [11] - 华为分享Omni-Infer性能极致优化实践 [11] - 探讨以智能体为中心的AI软件栈(八卦炉智能软件栈) [11] - 探讨让每一分算力都算数的企业级高效能研发新范式 [9] - 基于FlagOS技术栈构建大模型框架多芯片统一高效插件体系 [15] - 基于Agentic Infra构建面向多GPU集群的自动化运维AIOps系统 [15] OpenClaw生态与AI软件 - 展示可自我增强的Agent工程体系、全民AI工作台及企业级数字员工的最新落地突破 [10] - 网易有道分享有道龙虾LobsterAI的养成与实践 [15] - 分享MemOS如何构建OpenClaw Agent记忆资产 [15] - 探讨从OpenClaw到通用智能体系统的安全挑战 [15] 商业建模与产业实践 - 京东分享商业世界模型中的因果建模突破 [15] - 蚂蚁集团分享基于世界模型与智能体的企业认知与动态评价体系(商业世界数字雷达) [15] - 百度分享飞桨PaddleOCR最新技术与产业实践 [15] - AWS分享生成式AI中搜索的极致性价比之路 [15]
从「片段生成」到「长视频漫游」:OmniRoam探索轨迹可控的长视频生成新范式
机器之心· 2026-04-16 15:09AI 处理中...
在生成式视频快速发展的今天,模型已经能够生成高质量的短视频片段,但一个更具挑战性的问题正逐渐成为研究焦点: 如何生成长时间、可连续演化的视频序列?当生成从 "几秒" 走向 "长时序" 时,问题开始显现:视角变化带来的结构漂移、时间推进中的内容不一致,使得视频在 空间与时间维度上难以保持稳定,往往 "走着走着就乱了"。 与此同时,如何让视频生成具备可控性,能够沿指定路径连续移动,也成为实际应用中的关键需求。 近日,来自 University of California, Irvine、University of California, San Diego、City University of Hong Kong、University of Pennsylvania 以及 Adobe Research 的研究 者共同提出了 OmniRoam,一种面向轨迹可控长视频生成的新方法。 论文标题:OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation 该工作通过引入全景视频作为统一表示,并结合 coarse-to-fine 的分阶段生成框 ...
2026具身智能数据赛道,卷出了一匹「黑马」
机器之心· 2026-04-16 15:09
在大模型席卷虚拟世界后,具身智能正被广泛视为通往通用人工智能(AGI)的下一场关键跃迁。过程中面临的一大掣肘便是数据。 相比于海量的文本数据,物理 AI 的有效交互数据量仅为前者的十万分之一。真机采集成本高企、标准混乱、孤岛林立,这些都已成为 阻碍具身智能从实验室走向生产线的「核心卡点」。 在这一背景下, 具身智能数据领域的「破局者」—— 觅蜂科技(Maniformer)今日宣布,将于 2026 年 4 月 16 日在上海・张江科学会 堂举办一站式物理 AI 数据服务平台发布会 。 这不单单是一场产品发布会,也是一次面向行业的系统性回应:如何构建面向物理世界的下一代数据基础设施。 届时, 觅蜂科技将 首次全面展示其作为链接物理世界与 AI 基础设施的核心价值与全栈解决方案,系统性解决具身智能领域长期困扰 的「数据荒、标准乱、供需错」三大核心痛点。此举标志着物理 AI 万亿级市场在数据供给侧迎来关键突破,具身智能的规模化落地正 由愿景驶入快车道。 觅蜂科技的出现,正是为物理 AI 产业提供最关键的「燃料」保障。公司以「让全世界的数据为 AI 所用,加速智能体时代的到来」为 使命,专注于打造具身智能数据的「平台型 ...
神秘模型排名超 Gemma 4 31B:不跟 Qwen 硬刚,主打“快”和“省 token”
AI前线· 2026-04-16 15:07
开源大模型“Elephant”的性能定位与市场表现 - 一款名为“Elephant”的100B参数隐身模型在OpenRouter的Trending榜上排名突然超过Gemma 4 31B,位列第二名 [2] - 该模型来自一家知名开源模型实验室,主打“智能效率”,旨在以最少的token消耗提供接近同规模SOTA的性能表现 [5] 模型核心技术与设计特点 - 模型支持256K token上下文窗口,可一次性加载整个代码仓库或大型依赖树,最大输出长度为32K token,适合生成完整模块或整套测试代码 [5] - 模型支持提示缓存、函数调用和结构化输出,明显面向企业级开发和智能体工具链接入场景 [5] - 模型并非单纯追求规模,更强调速度、响应和实际开发效率,针对快速代码补全与调试、大规模文档处理及轻量级智能体交互等场景进行了优化 [5] - 模型定位为开发者日常使用中的“高响应主力模型”,适合需要高频调用、低延迟反馈的开发工作流 [5] 与竞品的性能对比:速度与效率 - 在速度方面,Elephant平均响应时间约1.27秒,是100B级别对比模型中最快的 [6] - 在数据解析与提取任务中,Elephant平均响应时间仅979毫秒,综合项目任务用时3.70秒 [6] - 相比之下,Qwen3.5-122B-A10B在编程项目平均响应时间高达70.98秒,综合项目平均响应时间达107.79秒 [6] - 在token消耗方面,Elephant基本不消耗推理token,而Qwen3.5-122B-A10B是同类中最“烧token”的模型 [9] 与竞品的性能对比:指令遵循与综合能力 - 在指令遵循的稳定性上,Elephant的一致性得分达到9.6,是四款模型中结果波动最小、最稳定的 [11] - 但在测试正确率(5/18)和尝试通过率(29.6%)上,Elephant表现落后于Qwen3.5-122B-A10B(正确率13/18,通过率79.6%)和Nemotron 3 Super(通过率55.6%) [12] - Elephant在综合项目上得分3.0,在数据解析与提取上得分6.5,表明其当前追求高频、低成本、快速响应的场景,而非复杂智能体工作流或关键判断任务 [12] - 综合各维度打分,Qwen3.5-122B-A10B以8.1分排第一,Nemotron-3 Super 120B A12B以6.7分排第二,OpenAI gpt-oss-120b第三,Elephant Alpha第四 [13] 不同百亿参数模型的差异化发展路线 - Qwen3.5-122B-A10B代表了重推理、重完成度路线,有更高的分数和通过率,但需要付出更多延迟和更高推理开销 [15] - Nemotron-3 Super 120B A12B是工作流型路线,在结构化抽取、工具调用、执行链条任务上表现突出(相关项目得分均为10.0),但在开放复杂推理任务上掉队明显(领域专项2.9,通用智能3.8,谜题求解3.5) [13][14] - Elephant代表了极致轻量路线,把“快”和“低成本”做成了核心卖点 [15] - OpenAI的gpt-oss-120b则在编程项目上得分较低(4.3),并出现了未遵循指令的问题 [14]
Jim Cramer Explains Why He Likes Corning Incorporated
Insider Monkey· 2026-04-16 15:02AI 处理中...
行业趋势与市场预测 - 生成式人工智能被亚马逊首席执行官Andy Jassy描述为“一生一次”的技术 正在被用于重塑客户体验 [1] - 埃隆·马斯克预测到2040年 人形机器人数量将至少达到100亿台 单价在2万至2.5万美元之间 [1] - 根据马斯克的预测 该技术到2040年可能创造250万亿美元的价值 相当于重塑全球经济的巨大浪潮 [2] - 普华永道和麦肯锡等主要机构认为人工智能将释放数万亿美元的潜力 [3] - 人工智能被视为一项突破性技术 正在重新定义人类工作、学习和创造的方式 [4] - 比尔·盖茨认为人工智能是其“一生中最大的技术进步” 比互联网或个人计算机更具变革性 能够改善医疗保健、教育并应对气候变化 [8] - 沃伦·巴菲特认为这项突破可能产生“巨大的有益社会影响” [8] 主要参与者与战略布局 - 亚马逊将生成式人工智能视为决定其命运的关键突破技术 [1] - 拉里·埃里森通过甲骨文公司斥资数十亿美元购买英伟达芯片 并与Cohere合作将生成式人工智能嵌入甲骨文的云服务和应用程序中 [8] - 尽管特斯拉、英伟达、谷歌和微软等公司成就瞩目 但市场认为更大的机会可能存在于其他地方 [6] 潜在投资机会 - 一家未被充分关注的公司被认为是开启这场250万亿美元革命的关键 其廉价的人工智能技术令竞争对手感到担忧 [4] - 真正的机会并非英伟达 而是一家规模小得多、默默改进使整个革命成为可能的临界技术的公司 [6] - 硅谷内部人士和华尔街资深人士的信息显示 这家公司值得关注 [6] - 预测未来几年 投资者会希望持有该公司的股票 [9]
实测参考生之王Vidu Q3:这已经不叫AI生成了,这叫AI驱动整个剧组
机器之心· 2026-04-16 13:09
生数科技Vidu Q3模型发布与行业影响 - 生数科技于4月13日正式发布视频大模型Vidu Q3,其核心升级是上线了“参考生视频”功能,标志着模型从生成单镜头素材转向支持完整内容生产流程 [2][9][11] - 在SuperCLUE发布的全球参考生视频测评基准中,Vidu Q3在“多图参考任务总榜”和“人物还原度总榜”上均位列第一,总分分别为70.89分和72.43分,领先于阿里巴巴、快手科技、字节跳动等公司的模型 [2][3] - 视频大模型行业的关键转向已从追求“生成得像不像”变为关注生成内容“能不能直接拿去用”,Vidu Q3的迭代顺应了这一趋势 [9] Vidu Q3的核心能力升级 - 模型重点提升了在长时间跨度内的稳定性,包括画面一致性、逻辑连贯性以及多镜头之间的衔接,旨在解决内容生产中最难自动化的部分 [9][10] - 其“参考生成”能力从功能点演变为生产方式,允许将人物、场景、服装等元素固定为“参考锚点”,实现“万物可参”,使AI视频产出具备稳定复现和持续迭代的可控生产能力 [18][19][20][21] - 模型实现了从“画面”到“视听场”的整体升级,将画面、声音和镜头调度打包为统一系统,特效更贴近物理逻辑,音效接近同步生成并支持唇形对齐,并内置了接近导播逻辑的镜头处理方式 [22][23][24] - 模型内建了6大特效引擎(粒子、流体、动力学、运镜、转场、光影)与5大音效矩阵(环境、动态、氛围、拟音、情绪),以更自然地表达情绪与推进剧情 [45] Vidu模型的演进路径 - Vidu Q1阶段完成了从图像到视频的跨越,建立了基本的生成能力和对时间维度的理解 [15] - Vidu Q2阶段重点优化了人物的表情、肢体和情绪变化,使“看AI演戏”成为可能,但尚未解决拍摄一整段戏的问题 [16] - Vidu Q3阶段标志着模型进入内容生产阶段,目标转向生成具备基本叙事结构、可直接用于制作的片段,实现了“为剧而生” [17] 实测应用与商业场景 - 实测表明,通过使用“主体库”固定角色形象和音色,Vidu Q3能有效保证同一角色在不同画面中的高度一致性 [28][32] - 利用“图生视频”功能,通过将上一镜头的末帧与下一镜头的首帧作为参考,能实现跨镜头场景空间结构的稳定与丝滑衔接 [33][35] - 在复杂场景中,模型能同时处理画面中的多个角色主体,并精准执行如“镜头上摇”等复杂运镜指令 [39][41] - 在广告与电商营销领域,品牌方可利用“主体库”固化产品或模特形象,快速生成风格统一的多版本营销短片,提升A/B测试素材的生产效率 [42] - 在真人短剧领域,模型内置的导播逻辑能适应高频机位切换需求,基于多镜头连贯生成能力,可将剧集更新周期从“月更”压缩至“日更”,实现AI驱动的内容工业化 [43] - 与Vidu企业合作AI真人剧的团队,有机会获得积分投资及共同宣发等生态权益,模型正从工具层帮助创作者打通商业闭环 [44] 行业意义与生态布局 - Vidu Q3的升级意味着大模型正从内容生产的“灵感工具”转变为真正进入生产链路的“工业工具”,视频大模型正在褪去“玩具”属性,向高确定性的生产基础设施迈进 [46][49] - 该模型正在把影视内容工业中最昂贵的“试错成本”无限前置,例如,可将文本剧本快速低成本转化为高表现力的动态分镜,帮助主创团队在正式开机前形成直观判断,降低后期返工成本 [47] - 生数科技以Vidu Q3模型为核心底座,推出了覆盖SaaS(Vidu Agent、Vidu Claw)和MaaS(Vidu AI开放平台,Vidu.API)的“Q3全家桶”,形成了一体化服务体系,支持0门槛接入、极致性价比和稳定流畅的体验 [48]
北大联合Llama-Factory推出DataFlex:工业级数据动态训练系统
机器之心· 2026-04-16 13:09
当大模型训练进入深水区,竞争的关键已经不再只是「模型参数怎么调」,而逐渐转向一个更核心、也更难系统解决的问题: 模型在训练过程中究竟看到了什么 数据、以什么比例看到、哪些样本应该被更频繁地学习。 这些因素正在越来越直接地决定训练效率、泛化能力以及最终模型性能。 围绕数据选择、数据混合和样本重加权,学术界已经提出了不少方法。但长期以来,这些方法大多分散在彼此独立的代码仓库中:接口不统一、训练流程不一 致、复现门槛高、横向比较困难。 更重要的是,很多方法依赖 embedding、模型打分、梯度或中间推理信号, 真正难的从来不是「提出一个方法」,而是把这些方法稳定、可复现地接入主流训练 流程,并纳入一套统一的训练闭环。 近日, 北京大学 张文涛教授、鄂维南院士团队 ,联合 LLaMA-Factory Team、上海算法创新研究院等机构,推出了面向大模型训练过程的数据中心动态训练框架 DataFlex。 它并不是单一算法或若干脚本的简单堆叠,而是一套建立在 LLaMA-Factory 之上的统一训练基础设施:将动态样本选择、动态数据混合、动态样本加权三类核心 能力真正纳入训练过程,使「数据如何参与训练」从经验式配置, ...