基础模型
搜索文档
【播客】又有神秘模型海外走红 智谱股价暴拉40%
Datayes· 2026-02-09 19:52
Pony Alpha 模型上线引发市场关注 - 全球模型服务平台OpenRouter于2月6日上线名为“Pony Alpha”的神秘模型,凭借强大的编码能力和对智能体工作流的优化迅速走红,搜索量登顶并引发开发者关注 [1] - 该模型被定位为尖端基础模型,在编码、代理工作流、推理及角色扮演领域表现突出,支持通过Claude Code等工具调用,可完成耗时数小时的复杂项目开发 [1] - 社区实测显示,Pony Alpha配合Claude Code运行MineCraft项目,在2小时内生成了170KB的高质量JavaScript代码,输出结果超出预期 [1] - 在SVG生成等细节任务中,该模型的表现达到了“Claude Opus 4.5级品味”的水平 [1] 模型背景与来源推测 - 业内推测“Pony Alpha”可能为DeepSeek-V4、智谱GLM新模型(如GLM-5)、Grok4.2或Claude5 [1] - 由于“Pony”(小马)与马年存在关联,且OpenRouter合作方Kilo Code暗示其为“某全球实验室热门开源模型的专项进化版”,市场更倾向认为其出自中国企业,或为智谱或深度求索(DeepSeek)的新产品 [1] 对相关公司股价的直接影响 - 受“Pony Alpha”模型上线及市场对其来源猜测的影响,2月9日午后,智谱公司股价出现大幅拉升 [2] - 智谱公司股价在盘中涨幅一度超过40%,最终收盘上涨36%,报收于276.8港元 [2]
字节跳动CEO梁汝波:豆包距离全球最头部同行还有差距
第一财经· 2026-01-29 20:54
公司战略与目标 - 公司将2026年的年度关键词设定为“勇攀高峰” [1] - “高峰”在短期内具体指代豆包/Dola助手应用 [1] 业务与产品表现 - 公司基础模型的综合实力处于中国第一梯队 [1] - 公司图像和视频生成模型的综合能力处于国际第一梯队 [1] - 豆包用户规模和增长均较快 [1] - 豆包与全球最头部的同行相比仍存在差距 [1]
那个用半成品刷爆SOTA的Qwen3超大杯推理版,现在正式上线
量子位· 2026-01-26 23:30
阿里千问发布Qwen3-Max-Thinking模型 - 阿里千问正式发布Qwen3-Max-Thinking模型,在涵盖科学知识、数学推理、代码编程的19项权威基准测试中,赶上甚至超越了GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶级闭源模型 [1] - 该模型的总参数超过1万亿(1T),预训练数据量高达36万亿(36T)Tokens,并进行了大规模强化学习后训练 [3] - 模型通过引入“自适应工具调用”和“测试时扩展”两项技术创新,显著提升了推理性能和调用工具的原生Agent能力 [3][13] 模型性能与基准测试结果 - 在知识能力方面,于C-Eval基准测试中得分为93.7,超越GPT-5.2-Thinking的90.5和Claude-Opus-4.5的92.2 [2] - 在推理能力方面,于IMO难度级别的数学能力测试基准IMO-AnswerBench上取得91.5分,为全场最高分 [32] - 在启用工具的“人类最后的测试”HLE中得分为58.3,超过GPT-5.2-Thinking的45.5以及Gemini 3 Pro的45.8,刷新SOTA [31] - 在指令遵循与对齐方面,于Arena-Hard v2基准测试中得分为90.2,显著高于其他对比模型 [2] - 该模型的“早期预览版”曾在AIME 25和HMMT 25(哈佛-MIT数学竞赛)中达到100%的准确率 [2] 核心技术创新细节 - **自适应工具调用**:模型能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能,无需用户手动选择 [22] - 该能力允许模型自主上网收集资料,并调用代码解释器进行数据分析和绘图,以完成复杂任务 [15] - 搜索和记忆工具能有效缓解幻觉,提供实时信息访问,代码解释器允许执行代码片段以解决复杂问题 [25] - **测试时扩展技术**:一种在推理阶段分配额外计算资源以提升模型性能的技术 [27] - 阿里团队采用“经验积累式、多轮迭代的测试时扩展策略”,限制并行推理路径数量,将节省的计算资源用于由“经验提取”机制引导的迭代式自我反思,专注于未解决的不确定性,提升了推理效率和上下文利用效率 [28][29][30] - 实验证明,在大致相同的token消耗下,该方法优于标准的并行采样与聚合方法 [31] 实际应用能力展示 - **复杂代码生成**:能够根据复杂提示词创建基于浏览器、结合摄像头手部追踪的气球射击游戏,并实现细节要求如状态提示和高亮提醒 [7][8][12] - **金融研究与分析**:能够根据用户指令(如分析内存涨价对股票的影响),自主完成资料收集、数据分析和报告生成,在一分钟内产出包含原因、产业分析和走势判断的完整报告 [14][16] - **多工具协同**:能够理解复杂指令(如搜索《醉翁亭记》全文并用代码解释器替换文字),并自主调用搜索引擎和代码解释器完成任务 [23][24] 中国开源AI模型影响力 - 根据MIT-Hugging Face数据,在全球220亿次模型下载行为中,中国开源AI模型的采用份额已跃升至17.1%,超过了美国的15.8% [36] - 在过去一年内新发布的模型中,中国模型的下载量稳居第一 [37] - 阿里千问系列衍生模型数量突破20万个,成为全球首个达成此目标的开源大模型 [39] - 千问系列模型下载量突破10亿次,平均每天被下载110万次,完全超越Llama,成为全球AI开源界的新标杆 [39] - 从迭代频率、下载量和社区影响力来看,千问系列拔得头筹 [40] 模型生态与商业化结合 - Qwen3-Max-Thinking模型已在千问APP的PC端、网页端免费上线,同时开放了API(qwen3-max-2026-01-23) [4] - 千问APP已全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务 [43] - 行业趋势显示,模型厂商的新着力点是将顶尖模型能力与应用生态体系做更深入的结合 [42] - 预计2026年基础模型将持续增强,并更深入地与垂直领域及实际生活结合,展现更多应用可能 [44]
50亿,AI大消息!
中国基金报· 2026-01-26 11:50
融资与公司动态 - 上海AI大模型独角兽阶跃星辰于1月26日完成B+轮融资,融资金额为50亿元人民币,刷新了过去12个月大模型赛道的单笔融资纪录 [2] - 公司宣布印奇正式出任董事长,负责整体战略节奏与技术方向制定,他将与CEO姜大昕、首席科学家张祥雨、CTO朱亦博组成核心管理团队 [3] - 印奇同时担任千里科技董事长,阶跃星辰将与千里科技深化合作,共同推进“AI+终端”战略落地 [3] 公司战略与愿景 - 公司的首要使命是成为中国基础模型领域最优秀的公司之一,做好基础模型并探索智能上限 [4] - 公司自成立之初即选择清晰的商业模式,专注于大模型与终端的结合,无论是To B还是To C业务均围绕终端这一核心应用场景展开,旨在成为商业闭环的公司 [4] - 公司进入下一阶段后,董事长印奇首要关注研发和终端,并强调人才密度是支撑AGI(通用人工智能)愿景与商业化落地的根本 [4]
阿里Qwen技术负责人林俊旸:模型即产品,做模型就是在做产品
新浪财经· 2026-01-11 10:40
行业核心理念 - 基础模型即产品 研究人员需像产品经理一样将研究成果转化为真实世界可用的系统 [1][3][5] - 伴随主动学习发展 Agent将具备长时间托管式工作能力 在执行通用任务中自行进化并决定行动路径 [3][5] - Agent的潜力取决于其与环境的深度交互 持续理解用户与环境至关重要 [3][5] Agent技术发展方向 - Agent可走向虚拟世界和物理世界 由此产生具身推理概念 [3][5] - 目前交互主要停留在电脑数字环境 未来进入真实物理世界指挥机器人进行现实交互与操作是关键发展方向 [3][5] - 进入物理世界是实现承担长周期、高价值任务的前提 [3][5] 市场机会判断 - 对于通用Agent而言 长尾应用是更值得关注的事情 也是AI更大的魅力所在 [3][5] - 与马太效应相反 头部应用反而相对容易解决 长尾领域可能蕴含更大机会 [3][5]
腾讯 AI Lab副主任俞栋离职,混元团队“新老交替”进行中|智能涌现独家
36氪· 2025-12-29 14:02
核心人事变动 - 原腾讯AI Lab副主任、杰出科学家俞栋因个人发展原因将从腾讯离职 俞栋是腾讯AI大模型最早期的人才储备 于2017年加入公司[1] - 俞栋是语音处理及深度学习领域的专家 曾任IEEE语音语言技术委员会主席 发表文章300多篇 获得专利100多项 他是首次将深度学习技术成功应用在语音识别领域的研究领头人之一[3] - 在腾讯期间 俞栋担任AI Lab副主任和腾讯优图实验室首席科学家 主要负责语音处理、自然语言处理和数字人相关技术的研发 并推动了这些技术在腾讯业务中的应用[1][3] 离职高管的历史贡献 - 俞栋在腾讯大模型“混元”的研发中负责多模态生成和理解以及部分文本研究工作[3] - 他带领研究团队在多个顶级学术会议及期刊发表数百篇论文[3] - 在加入腾讯前 俞栋在微软从事研发近20年[1] 公司战略与组织调整 - 行业共识认为基础模型是核心竞争力 基模能力决定了AI应用的体验上限[4] - 腾讯内部正在进行一系列调整以聚焦大模型研发 一方面引入新血加大人才投入 2025年下半年前OpenAI研究院姚顺雨加入腾讯 出任“CEO/总裁办公室”首席AI科学家 混元也快速吸引了字节、阿里、月之暗面等企业的数位核心员工[4] - 另一方面 腾讯对内部大模型研发资源进行了整合 此前模型研发团队和资源分散在各个不同的事业群 造成研发力量不聚焦和资源浪费 混元的研发横跨大语言模型部、AI Lab、机器学习平台等部门[5] - 为整合模型研发资源并明确分工 腾讯在技术工程事业群新成立了AI Infra部、AI Data部、数据计算平台部[5] - 公司管理层认为市场仍处于没有绝对领先者的激烈竞争阶段 调整后的模型答卷对公司至关重要[5]
A16z 4100万美元领投Mirelo,重磅押注欧洲音频大模型
深思SenseAI· 2025-12-27 09:11
公司概况与融资 - 欧洲音频AI公司Mirelo AI近期完成4100万美元种子轮融资,由Andreessen Horowitz (a16z) 和 Index Ventures共同领投 [1][2][3] - 公司团队规模精干,目前仅有约10人 [1][17] - 公司由拥有约10年AI研究经验且兼具深厚音乐背景的联合创始人创立,结合了AI技术与音乐专长 [3][10] 业务与产品 - 公司核心业务是为视频内容和游戏生成全套音频,包括音乐和音效,主打“视频到音频”的自动生成与同步 [1][3][6] - 已开发两个核心模型:音乐模型和“视频到音效”模型,其中“视频到音效”模型在评测中表现领先,为同类最强 [1][6][12] - 产品形态分为面向创作者的B2C产品Mirelo Studio和面向平台/企业的B2B API [2][6][14] - 当前主要用户是AI视频创作者,用于为AI生成的视频添加音效和配乐,长期目标是服务更广泛的视频内容创作者及专业人士 [6][14] 技术策略与优势 - 公司选择自主研发音频基础模型,而非依赖现成的多模态技术栈,因两年前该领域几乎空白,专注音频有机会建立真正的模型优势 [7] - 音频模型相比大语言模型更为轻量高效,其参数量通常在10亿到100亿之间,算力需求比典型大语言模型少50倍 [8][9] - 竞争逻辑不同于大语言模型,音频模型的性能并不随规模爆炸式增长,因此竞争核心是模型研发能力而非资本规模,这为创业公司提供了对抗大实验室的机会 [13] - 创始人的音乐背景在模型构建中至关重要,影响了音乐的表征方式和架构设计,这构成了训练模型时的核心知识产权之一 [10] 市场认知与商业化路径 - 公司认为音频至关重要,引用乔治·卢卡斯的观点,强调声音至少占电影体验的50%,决定视频的氛围和情绪 [15][16] - 商业化采取双路径:通过Mirelo Studio服务消费者和创作者,同时通过API将模型能力提供给AI视频生成等平台 [14][15] - 目前增长势能最大的点是音效生成,因为需求明确且差异化显著,但未来音乐和音效将同步发展 [17] - 公司面临的市场挑战是需要教育市场,改变音频被视为“事后补丁”的现状,让创作者和平台更早、更重视地集成高质量音频 [20][21] 发展计划与愿景 - 获得融资后,公司计划扩大团队,重点招聘研究科学家、产品人员以及市场与销售人员,以支持技术和业务扩张 [19] - 产品路线图包括增强编辑能力、提升音质,目标是覆盖从AI爱好者到专业工作室的更广泛人群 [15][18] - 未来18-24个月的成功标准是推动市场广泛认识到音频对视频成功的重要性,并理解其经济价值,从而创造对高质量音频服务的更大需求 [20][21] - 公司坚持将核心技术团队放在欧洲,认为欧洲拥有优秀的科学家且竞争环境更有利,资本是欧洲过去的主要短板,而此次融资解决了该问题 [11][23]
宇信科技韩冬:AI技术发展的突然加速,DeepSeek的发布让他“没过好年”
新浪财经· 2025-12-09 16:19
行业核心观点 - 2024年至2025年人工智能技术发展突然加速,以2025年春节期间DeepSeek的发布为标志性事件,引发了企业(尤其是上市公司)数字化转型负责人的高度关注和紧迫的布局规划 [2][5] - 结合技术成熟度曲线规律,人工智能领域在2024至2025年间发生了三大关键变化 [2][5] 技术发展周期 - 生成式AI与基础模型正经历触底过程,进入技术成熟度曲线中间的低谷期 [2][5] - 当前的技术沉默是新技术生命周期的必然阶段,并非技术终结 [2][5] - 此阶段为企业提供了精准布局的战略机遇,符合技术发展的客观规律 [2][5] 市场心态与需求演变 - 市场心态从之前的模型狂热转向务实落地 [2][5] - 2024年底,包括大型银行在内的金融机构曾下文要求不在人工智能上投入过多精力和资金 [2][5] - 2025年AI技术的突然加速让银行界开始重新审视其价值 [2][5] - 行业核心思考从试水转向如何让AI真正形成有效生产力 [2][5] 基础设施与支撑能力 - 数据基座与AI数据就绪能力快速崛起 [2][5] - 该能力已从技术萌芽阶段跃升至期望顶峰附近 [2][5] - 数据基座与就绪能力成为支撑AI技术落地的关键基础 [2][5]
博世最新一篇长达41页的自动驾驶轨迹规划综述
自动驾驶之心· 2025-12-05 08:03
文章核心观点 - 博世发布了一篇关于基础模型在自动驾驶轨迹规划中应用的重量级综述,系统梳理了37种近期方法,提出了统一分类法,并批判性评估了其设计、优势与局限,旨在为该快速发展的领域建立结构化基础并指明未来方向 [2][11] 背景回顾 - 基础模型是利用海量数据学习表征并可适配多种下游任务的大规模模型,如大型语言模型和视觉语言模型 [4] - 研究表明,未经自动驾驶专门训练的现成基础模型已能令人惊讶地良好理解复杂驾驶场景,这使其成为构建自动驾驶专用方案的潜力基础,也是当前行业范式转变的关键驱动力 [5] - 轨迹规划是驾驶过程最核心的任务,其他能力均为其提供辅助,因此综述重点聚焦于基础模型如何助力轨迹规划模型 [8] 分层分类体系 - 利用基础模型的轨迹规划方法可分为两大主类别:为轨迹规划定制的基础模型、指导轨迹规划的基础模型 [16] - **为轨迹规划定制的基础模型**:通过微调现有预训练基础模型,直接用于自动驾驶场景,共22种方法,可进一步分为仅专注于轨迹规划的模型和具备额外能力的模型 [19][20] - **指导轨迹规划的基础模型**:不构建专用模型,而是将现成基础模型的知识转移到现有自动驾驶模型中,共15种方法,可根据知识转移发生在训练阶段或推理阶段进一步划分 [20][21][22] 为轨迹规划定制的基础模型 - **微调核心要素**:包括数据整理、模型设计和训练策略 [23] - **数据整理**:取决于模型用例,仅用于轨迹规划的数据集核心是“观测-轨迹”数据对;若需语言或动作交互能力,则需补充相应的问答对或指令-轨迹对数据 [24][28] - **模型设计**:主流思路包括直接使用现成视觉语言模型,或组合视觉编码器与大型语言模型并通过视觉适配器连接 [27][29] - **轨迹表征**:常见方式包括将轨迹作为文本生成、作为离散化的动作token、或作为数值集合通过附加的规划头单次生成 [31] - **模型训练**:通常通过单阶段或多阶段完成,例如先训练视觉适配器,再微调全部或部分参数 [29] - **仅专注于轨迹规划的模型**:根据是否使用思维链及使用方式,可细分为无思维链、文本输出作为思维链、初始轨迹预测作为思维链三类 [25][32] - **具备额外能力的模型**:除轨迹规划外,还具备语言交互和/或动作交互能力 [38] - **语言交互能力**:需要视觉问答数据对进行训练,评估采用自然语言处理领域的经典指标 [38][39][40] - **动作交互能力**:可根据用户指令规划轨迹,目前方法均在CARLA模拟器的合成数据集上训练,需具备规避误导性指令的机制 [43] 指导轨迹规划的基础模型 - **仅在训练阶段进行知识蒸馏的模型**:推理阶段无需调用基础模型,能保持效率,方法包括将CLIP表征对齐到端到端模型中,或利用GPT-4o输出元动作进行蒸馏等 [48][49][51] - **在推理阶段进行知识转移的模型**:训练和推理阶段都调用基础模型,计算成本更高,根据转移知识类型可分为转移场景描述、转移规划决策、或同时转移两者 [48][53] - **知识转移类型**:包括场景描述、元动作、轨迹等,通过不同编码方式融入到自动驾驶模型的各个层级 [53][54][55] 现有方法的数据集与代码开放性 - 开放性是推动研究进展和实际部署的关键,但无任何一种方法的所有资产均支持研究与商业双用途 [57][59] - 仅有5种方法公开了所有资产,但部分仍限制商业使用,其中4种属于“为轨迹规划定制的基础模型”,1种属于“指导模块化自动驾驶模型轨迹规划的基础模型” [59] - “指导端到端自动驾驶模型轨迹规划的基础模型”类别尚无开源实现,训练代码与模型权重是限制最严格的资产 [59] 开放问题与挑战 - **高推理成本导致部署困难**:基础模型参数庞大且自回归生成,导致推理延迟高,难以满足实际部署所需的10-30帧/秒帧率要求,例如Orion模型在A800 GPU上推理帧率仅为0.8帧/秒 [63] - **微调后的能力下降**:微调可能导致视觉语言模型丧失对轨迹规划潜在有用的能力,出现“概念遗忘”现象 [64][66] - **动作交互能力局限**:现有模型仅能处理短时域内可执行的指令,无法拆解和执行人类化的复杂多步指令 [68] - **仿真到现实的差距**:所有具备动作交互能力的模型均在合成场景中训练测试,存在域转移问题,阻碍实际部署 [69] - **性能影响因素不明**:不同方法在架构、数据、训练上差异巨大,难以厘清导致性能差异的核心因素 [70] - **缺乏推理能力评估基准**:需要建立标准基准来评估模型在复杂语言-视觉场景下的推理能力 [71]
IJRR北邮首篇,联合三星中国研究院、清华大学等共同探讨“机器人操作大模型”
机器人大讲堂· 2025-11-24 16:31
通用机器人操作面临的挑战 - 在非结构化场景中实现通用操作存在挑战,包括与人类非自然交互、数据稀缺、感知和决策能力有限、处理不准确、策略不够鲁棒以及环境转移性差 [1] 基础模型为解决挑战带来的机遇 - 大型语言模型能直接生成策略代码或动作序列,促进机器人与环境的自然交互 [4] - 视觉基础模型增强机器人在开放环境下的感知能力 [4] - 视觉语言模型作为多模态信息理解的核心,促进视觉与语言的对齐 [4] - 大型多模态模型扩展模态范围至3D点云、触觉等更多感知维度 [4] - 视觉生成模型可根据文本或图像生成2D图像或3D网格,辅助仿真环境场景生成或环境转移 [4] - 机器人基础模型作为端到端策略模型,能基于输入观测直接输出动作 [4] 当前通用操作的发展路径与框架 - 在有限条件下利用单一基础模型实现通用操作不足,当前机器人基础模型端到端训练方法保证99%以上成功率仍是挑战 [6] - 参考自动驾驶发展路径,初期通用操作需要一个框架,并将L0级别通用操作限定在提升旧技能、操作刚性物体、静态环境、短程任务及低力/位精度要求 [6] - 通过提升各模块性能可实现从L0级别到最终统一操作 [6] 基础模型在交互模块的应用 - 基础模型相比传统固定模板方法,在处理含糊和纠正指令时具备自然语言交流、多模态感知检测歧义及强大先验知识理解用户意图的优势 [8] 基础模型在前后置条件检测模块的应用 - 基础模型在物体可供性检测和识别中具备开放集零样本识别、加速学习过程及帮助选择更精确操作姿态的优势 [10] 基础模型在技能层级模块的应用 - 基础模型能辅助处理自然语言输入,并通过世界知识和常识推理提升感知与推理水平,增强技能层次任务可扩展性和泛化能力 [12] 基础模型在状态感知模块的应用 - 基础模型可辅助生成带语义信息的场景重建,利用强大二维特征提升三维特征质量,并使开放集姿态估计成为可能 [14] 基础模型在策略模块的应用 - 策略分为基于物体/动作方法和端到端方法,基础模型推动策略发展为通用目标策略,分类为视觉-语言-动作-代码、视觉-语言-动作-关键位姿和视觉-语言-动作-密集位姿 [16] - 基础模型助力强化学习应对奖励函数设计、任务分层及探索效率等挑战 [17] 基础模型在操作数据生成模块的应用 - 操作数据分为真机、仿真和互联网数据,基础模型能实现仿真场景布置和3D资产自动化生成及逼真数据增强 [21] - 真机数据采集趋向低成本遥操作设备发展,例如Human Plus成本仅30美元(一个RGB相机),而Open-Tele Vision成本达3499美元 [21]