AI前线
搜索文档
模力工场 024 周 AI 应用榜:从“能力秀场”到“角色战场”,AI 价值锚点已迁移
AI前线· 2025-12-17 16:00
阿里云通义智能硬件开年第一展诚邀 AI 硬件闪耀登场!2026 年 1 月 8 日 -11 日,深圳海上世 界文化艺术中心,来模力工场与全球新品同步联展。覆盖 76+ 品类、200+ 展商、1000+ 前沿 产品,汇聚创意创作、情感陪伴、智能生活全场景。立即上传你的 AI 硬件作品至模力工场,站 上这场未来生活方式的联展舞台! 模力工场新鲜事: 2025 年 12 月 28 日,"AI 闪耀中国·吴晓波科技人文秀"将在厦门国博举办。作为年度 AI 生态 的重要发布场合,活动将系统揭晓吴晓波本年度"AI 应用生态调研"成果,并聚集行业决策者、 技术专家与优秀产品团队,共同探讨 AI 落地与商业前景,感兴趣的朋友欢迎扫码报名,来厦 门,与模力工场共赴 AI 闪耀中国之夜。 024 周榜单总介绍 模力工场第 024 周 AI 应用榜来啦! 本周上榜应用呈现三条清晰主线:生产力工具"专业化内卷"。如 AI 写作、翻译工具,不再强调技术 参数,而是死磕具体工作流,追求直接交付成果,让工具本身"隐身";设计工具"工业化"跃迁正在进 行。创客贴、稿定 AI 等,核心已从"会生成"转向商业交付所需的模板化、稳定性和效率,系统 ...
罗福莉执掌小米大模型首秀!定调下一代模型,全新MiMo-V2开源还横扫Agent第一梯队
AI前线· 2025-12-17 16:00
小米大模型战略与MiMo-V2-Flash发布 - 小米在2025年合作伙伴大会上,由新任命的大模型负责人罗福莉首次公开亮相,并发布了新一代开源大模型MiMo-V2-Flash [2][3][4] - 该模型采用MoE(混合专家)架构,总参数规模达3090亿,但每次推理仅激活约150亿参数,旨在实现高速、高频、低成本的推理 [8] - 模型设计目标明确为“要跑得快、跑得久、被高频调用也跑得起”,核心是为Agent(智能体)和真实世界应用场景服务 [8][16] 技术负责人背景 - 大模型负责人罗福莉是行业知名AI技术专家,硕士毕业于北大,曾任职于阿里巴巴达摩院和DeepSeek母公司幻方量化,参与研发DeepSeek-V2等模型 [11][12] - 她于2024年11月加入小米,此次演讲是其入职后的首次公开亮相 [13] 模型设计理念与工程逻辑 - 公司认为当前大语言模型本质上是解码了人类思维在文本空间中的投影,而非真正理解物理世界,因此语言是工具而非终点 [19][20][35] - MiMo-V2-Flash的设计目标不是追求“更聪明”,而是“更好用、更可部署”,其技术选择是被Agent场景需求“倒逼”出来的工程取舍 [21][22] - 模型研发主要围绕三大现实挑战展开:智能体需要高效的代码与工具调用沟通语言、智能体间交互带宽低要求极高推理效率、大模型范式正从预训练转向后训练和强化学习 [25][41] 核心技术特点与性能 - 模型采用Hybrid Attention混合注意力结构(Sliding Window Attention与Full Attention比例约5:1),以兼顾长短文本推理并适配现有推理基础设施 [45] - 深入挖掘多词元预测技术潜力,在预训练和微调阶段引入MTP层以提升模型潜能,在推理阶段使用三层MTP并行,实现约2到2.6倍的推理加速 [24][46][47] - 在单机环境下,模型输出吞吐可达5000到15000 token/s,单请求输出速度达150 token/s,相比不使用MTP速度提升约2-3倍 [24][47] - 在后训练阶段,公司提出了Multi-Teacher On-Policy Distillation范式,以高效、稳定地将多个专家模型能力蒸馏到学生模型中 [47][50] 模型性能对比与评测结果 - 在7项主流评测中,MiMo-V2-Flash在Agent、代码、工具调用和复杂任务执行方面已进入全球开源模型第一梯队,整体表现与DeepSeek-V3.2、Kimi-K2-Thinking基本相当 [27][40] - 在SWE-Bench基准测试中,MiMo-V2-Flash在多语言模式下以71.7%的准确率获得一项第一 [28] - 在推理效率对比上,MiMo-V2-Flash的推理成本略低于DeepSeek-V3.2,但推理速度约为后者的三倍;与综合能力相近的Gemini 2.5 Pro相比,推理速度接近,但成本低约20倍 [40][48] 对AGI发展的观点与未来方向 - 公司认为当前大模型虽能完成复杂任务,但缺乏对物理一致性、时空连续性及因果关系的理解,这是“具身幻觉”的根源 [30][52] - 真正的下一代智能体需从“回答问题”转向“完成任务”,并具备与世界交互的能力,其核心是构建一个统一、动态的世界模型,而非仅增加多模态输入 [31][32][52][53] - 智能不是从文本中“读出来”,而是要在与真实环境的持续交互中“活出来”,AI进化的下一个关键点是发展能够持续交互的物理模型 [33][52] - 公司对开源持积极态度,视其为一种分布式的技术加速机制,是缩短开源与闭源差距、推动AGI普惠化的现实路径 [33] 模型发布与生态 - MiMo-V2-Flash已正式发布并开源,同步开放了模型权重、技术报告和API,方便开发者接入Web Coding、IDE等场景,体验网页也已上线 [50]
政企研联手发力!N 个实战案例!企业数智化转型的石景山企业专属方案重磅登场 | Q推荐
AI前线· 2025-12-17 09:39
编辑 | 王玮 当人工智能从概念走向实践,企业最关心的问题正在发生变化。不再只是"要不要用 AI",而是"如何 真正用起来""如何在组织中持续发挥价值"。在这一背景下,城市、产业与平台如何协同发力,成为推 动 AI 规模化落地的重要一环。 为深入贯彻落实国家数字经济发展战略,加快推动企业数智化转型与人工智能技术深度融合, 全球 人工智能开发与应用大会暨石景山数智化转型峰会(AICon 北京站)将于 2025 年 12 月 19 日至 20 日在北京石景山万达嘉华酒店举行。 本次大会由北京市石景山区经济和信息化局指导,北京石景山 产业发展有限公司主办,飞书与极客邦联合承办,围绕企业数智化转型与 AI 实战落地展开系统呈 现。 大会将围绕"企业数智化转型"与"AI 落地实践"两大核心方向,在两天内集中呈现 1 场项目启动会、1 场全国性 AI 数字化论坛和 1 场人工智能行业峰会,形成从政策发布、趋势研判到实战路径的完整闭 环,全面服务企业管理者与技术决策者的现实需求。 政策直达,项目启动释放明确信号 通过来自一线企业和平台的案例分享,峰会将呈现 AI 在业务流程、项目管理、组织协同等方面的实 际应用方式,帮助企 ...
国产GPU赛道又跑出一个 2700 亿独角兽!“中国AMD”沐曦股份完成IPO,开盘大涨超 500%
AI前线· 2025-12-17 09:39
作者|冬梅 继摩尔线程 2025 年 12 月 5 日登陆科创板,并在首日经历股价暴涨之后,国产 GPU 行业迎来第二位重量级选手——沐曦集成电路(上海)股份有限公 司(以下简称"沐曦")。 刚刚,沐曦正式登陆科创板,股票代码688802,截至发稿前,沐曦股价达到679元/股,估值破 2700 亿元。 | | | N沐慶-UO | | | | ■ 电脑版 U | | | --- | --- | --- | --- | --- | --- | --- | --- | | | | 688802 科创板 融 注 成 | | | | | | | 679.00 | 今开 | 700.00 最高 | | | 700.00 最低 | | 650.00 | | 548.77% | 574 34 125 | 16.60% 总手 | | | 3.01万 金额 | | 20.50亿 | | 总值 | 2716.68亿 流值 | 123.16亿 市盈 | 动 | C | -589.72 | | 重多 | | 关时 | 王日 | 日K | 周K | | 月K | 分钟 ▲ | | | 700.00 | | | 568.83% | 菱5 ...
Codex负责人打脸Cursor CEO“规范驱动开发论”!18天造Sora爆款,靠智能体24小时不停跑,曝OpenAI狂飙内幕
AI前线· 2025-12-16 17:40
自 8 月 GPT-5 发布以来, Codex 展现出惊人的爆发力, 用户增长 20 倍 ,每周处理数万亿 tokens,成为了 Open AI 最受欢 迎的编程智能体。 "Codex 能快速实现 20 倍 的增长,不只是因为模型变强了,还因为我们理解了,真正的智能体不是一个模型,而是模型、 API 和框架共同努力的结果。" 在最新播客中,OpenAI 的编程智能体 Codex 产品负责人 Alexander Embiricos 揭露背后的秘 密。 比如,Codex 在长时任务能力上的突破。为了让它能够连续工作十几个小时甚至数天,团队设计了名为"压缩"的机制——模型 负责提炼关键信息,API 承接任务链路,框架负责稳定运行。三层像齿轮般咬合,使 Codex 能够完成传统大模型难以支撑的 长时编程任务。 正是这样的底层逻辑,让 Codex 在业务实战中有惊人表现。 作者 | 高允毅 Andrej Karpathy 曾公开分享,他被一个 bug 困住数小时,最终交给 Codex 处理,一小时内就完成了修复。 Sora 团队更是依靠 Codex,在短短 28 天时间,从 0 到 1 完成 Android 应用的上线 ...
别吹了,智能体Demo能跑通和能上线,是两码事!| 极客时间
AI前线· 2025-12-16 17:40
然而,下一波真正的浪潮已经涌现:智能体(Agent)时代。这里的"智能体",不是简单的聊天机器 人。它指的是 以大型语言模型为认知引擎,具备自主决策、目标导向和环境交互能力的 AI 系统。 从 ChatGPT 到 Claude,从文心一言到 DeepSeek,我们已习惯与各种 Copilot 协作。它们能力惊 人,但本质仍是 被动响应 的工具——我们发出指令,它们返回结果。 "我看到很多开发者卡在'只会调 API'的层面,这非常可惜。AI 智能体的底层,是一套精密的 系统工程。掌握它,意味着你能从'工具的使用者'转变为'智能系统的创造者'。这不仅是技能 的提升,更是思维模式的跃迁。" 想象一下: 这就是 Agentic AI ——未来最炙手可热的技术方向,也是拉开下一代 AI 应用差距的关键。 热潮之下,开发者真正的 挑战是什么? 智能体开发就像一座冰山。水面之上,是大家熟悉的"调 API、写 Prompt";水面之下,才是真正的 复杂性所在: 这些,才是考验开发者能否将炫酷概念转化为真实价值的核心能力。面对这片充满机遇但略显复杂的 海域,一位资深的技术"引路人"—— 王延飞老师 ,分享了他的观察。 作为一位 ...
评测也很酷,Data Agent 自动化评测的三层框架与实战
AI前线· 2025-12-16 17:40
作者|尹小明 编辑|李忠良 策划|AICon 全球人工智能开发与应用大会 在大模型技术飞速发展的当下,大数据领域的各类应用如雨后春笋般涌现,从数仓开发到 ChatBI 问数,再到深度分析 Agent,这些领域的大模型 应用极大地提升了数据处理和分析的效率。但与此同时,如何科学、准确地评估这些应用的效果,成为了行业面临的重要难题。 InfoQ 荣幸邀请到了字节跳动 / 数据平台大模型评测技术负责人 尹小明 在 AICon 全球人工智能开发与应用大会·深圳站上分享了《 评测也很酷 ——Agent 自动化评测技术创新与实践 》。作为字节跳动数据平台的大模型效果评估团队,他们深耕数据应用 Agent 领域,构建了覆盖从数据开 发到数据应用垂直领域 Agent 应用的评测技术体系,尤其在自动化评测算法、Agent 级评测框架等方面形成了可落地的技术方案。本次分享将聚焦 这一领域的技术细节与实践经验。 12 月 19~20 日的 AICon 北京站 将锚定行业前沿,聚焦大模型训练与推理、AI Agent、研发新范式与组织革新,邀您共同深入探讨:如何构建起可 信赖、可规模化、可商业化的 Agentic 操作系统,让 AI ...
阿里电影级视频模型万相2.6系列上线,功能比Sora2还全,人人都能当导演
AI前线· 2025-12-16 14:39
作者 | 木子 12 月 16 日,阿里发布了新一代 通义万相 2.6 系列模型 。 这次更新不是某一项能力的单点升级,而是 5 款新模型同时上线 ,包括: 文生视频、图生视频、参考生视频、图像生成,和文生图 ——覆盖从图像到 视频、从一次性生成到可复用创作的多个关键环节。 万相,是阿里"通义大模型家族"的一员(此外还有千问、百聆等)。初代万相于 2023 年 7 月上线,最早以图像生成能力为主,并率先面向企业用户开 放测试。 经过 2 年多的发展,今年 9 月阿里率先在国内发布音画同步的视频生成模型万相 2.5,极大提升视频创作的效率,在权威大模型评测集 LMArena 上, 万相图生视频位居国内第一。 如今的 万相 2.6 更是成为了 国内首个支持角色扮演功能的视频模型, 画质、音效、指令遵循等能力也进一步提升了,单次视频时长实现国内最高的 15s,还新增了角色扮演和分镜控制功能,不仅能一键完成单人、多人、人与物合拍的视频,还能自动实现多镜头切换等专业任务,满足专业影视级场 景需求。 另外,万相 2.6 也是全球功能最全的视频生成模型功能 ,比大名鼎鼎的 Sora2 还 多了一项"多音频驱动生视频"功能 ...
AI编码工具变 “格式化神器”?Claude CLI半年频当“系统杀手”,多位开发者痛斥:心血都没了!
AI前线· 2025-12-15 14:53
整理 | 华卫 Claude 又闯祸了。近日,一则 Reddit 上对 Claude CLI 的控诉帖引起了大量反响。 情况是,一位开发者用 Claude CLI 清理旧仓库里的软件包时,不仅被删除了整个用户目录,居然把整个 Mac 系统都清空了! 这到底是怎么回事? Claude 自查"翻车": 执行了灾难性命令 据该开发者叙述,发生这事后,他第一时间询问了 Claude,而 Claude 给出的回复十分气人: 我找到了问题所在,情况非常严重。查看你的日志后发现,执行了这条灾难性命令: bashrm -rf tests/ patches/ plan/ ~/ 看到末尾的 ~/ 了吗?这代表你的整个用户主目录。 Claude Code 实例意外在删除命令中包含了 ~/,这会彻底清除以下所有内容: 基本上 /Users/ 目录下的所有内容都会被删除。 这也解释了其 Mac 系统为什么会出现以下情况: 你的完整桌面目录(~/Desktop) 文档、下载文件及所有个人数据 钥匙串(~/Library/Keychains) Claude 凭证(~/.claude) 应用程序支持数据 桌面内容消失 钥匙串被删除 Clau ...
打破确定性魔咒!北航团队提出VBF++:用“不确定性建模”刷新多模态视频推荐 SOTA
AI前线· 2025-12-15 14:53
作者 | 刘瑞 审校 | 蔡芳芳 论文题目 : VBF++: Variational Bayesian Fusion with Context-Aware Priors and Recommendation-Guided Adversarial Refinement for Multimodal Video Recommendation 这种"点估计"的策略,在面对真实世界短视频生态中的三大"不确定性"时 [5-6],显得尤为脆弱 : 范式革新:VBF++ 将融合从 作者单位 : 北京航空航天大学 & 北京邮电大学 参考代码 : https://github.com/muhhpu/VBF 痛点:确定性融合的 "不确定性"危机 多模态视频推荐系统在捕捉用户兴趣时,需要高效整合视频的视觉、听觉和文本特征。然而,现有的主流方法(如基于注意力机制或图神经网络的 确定 性融合 方法 [2-3])面临着一个根本性的挑战:它们倾向于为给定的输入计算一个单一的、最优的权重向量,将多模态融合视为寻找"全局唯一最优解"的 优化问题 。 "点估计"升级为"分布建模" 近日,北京航空航天大学和北京邮电大学联合提出了一种全新的概率化框 ...