Workflow
Gemini3 Pro
icon
搜索文档
DeepSeek双模型发布:一位是“话少助手” 一位是“偏科天才”
科技日报· 2025-12-08 18:03
公司产品发布与技术突破 - 公司于12月1日同时发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型 [1] - 在公开推理测试中,V3.2水平达到了OpenAI今年8月推出的GPT-5水平,略低于谷歌的Gemini3 Pro [1] - DeepSeek-V3.2定位为高性价比的日常助手,具备更强的推理能力和智能体能力,旨在成为“数字劳动力”以完成自动生成报表、编写代码等复杂工作 [2] - DeepSeek-V3.2-Speciale专攻高难度数学问题求解、学术研究逻辑验证和编程竞赛解题,旨在将开源模型推理能力推向极致 [2] - 新模型实现了两项质的突破:引用领域专用架构和思考型工具调用技术 [2] - 领域专用架构技术可让模型在完成任务时仅检索最关键信息,从而大幅提升效率、降低消耗 [2] - 思考型工具调用技术使模型在得到指令后,能先思考再调用工具执行,然后根据结果继续思考、再次调用,实现多轮交替的复杂问题解决,并保留记录供后续推理使用 [2] - 这是公司首次将思考融入工具使用,改变了以往模型依赖人“喂”数据的发展范式,实现AI的自我训练和进化 [2] - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2,但Speciale版本目前仅以临时API服务形式开放,供社区评测与研究 [4] 行业竞争格局与影响 - 过去一年,以Google、OpenAI等为代表的闭源社区在复杂任务中表现优越,而开源社区受制于架构、资源分配及智能体能力等关键缺陷,与闭源社区性能差距进一步扩大 [3] - 公司发布新模型的根本动力是缩小开源模型与闭源模型间的差距 [4] - 新模型证明了闭源大模型的巅峰并非不可逾越,为我国乃至全球开源大模型的发展注入强心剂 [4] - 公司从今年初发布R1大模型以来,发展主线始终聚焦实用性和泛化能力,让“赶超闭源”从美好愿景变为闭源厂商的现实压力 [4] - 公司为全球开发者提供了一个强大、可控且经济的模型底座,助力大语言模型融入千行百业、形成商业闭环 [4] - 新模型为大语言模型带来了新的治理难题,需警惕工具调用风险,以及学术造假、自动化生成代码漏洞、产业不公平竞争等挑战 [4]
DeepSeek又上新!模型硬刚谷歌 承认开源与闭源差距拉大
第一财经· 2025-12-02 07:13
模型发布概览 - 公司于12月1日晚发布两款新模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,推理能力全球领先 [1] 模型定位与性能对比 - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用智能体任务,在公开推理测试中达到GPT-5水平,略低于谷歌Gemini3 Pro [4] - DeepSeek-V3.2-Speciale是长思考增强版,结合数学定理证明能力,目标是将开源模型推理能力推向极致,在多个推理基准测试中超越谷歌Gemini3 Pro [4] - Speciale模型在美国数学邀请赛得分95.0(15k),哈佛MIT数学竞赛(HMMT Feb 2025)得分97.5(16k),国际数学奥林匹克竞赛(IMOAnswerBench)得分83.3(18k) [5] - 在编程能力上,Speciale在LiveCodeBench得分90.7(13k),CodeForces得分2708(22k),但在理工科博士生测试(GPQA Diamond)中得分82.4,略逊于谷歌模型 [5] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌,ICPC成绩达人类选手第二名水平,IOI成绩达人类选手第十名水平 [5] 技术架构创新 - 公司提出稀疏注意力机制(DSA)以解决标准注意力机制对长序列处理效率的制约,大幅降低计算复杂度 [7] - 经过两个月实验确认稀疏注意力机制有效性,在不牺牲长上下文性能前提下解决关键计算复杂性问题 [7] - 两款新模型均引入稀疏注意力机制,使V3.2成为具有成本效益的智能体场景替代方案 [7] 产品部署现状 - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2 [8] - 增强的Speciale版本目前仅以临时API服务形式开放,供社区评测与研究 [8] 行业竞争格局 - 公司承认其模型在世界知识广度、令牌效率及复杂任务解决能力方面仍落后于领先的专有模型如Gemini3 Pro [6] - 尽管开源圈持续进步,但过去几个月中闭源专有模型如谷歌、OpenAI、Anthropic的性能增长速度显著更快 [6] - 闭源模型与开源模型之间的性能差距日益扩大,专有系统在复杂任务中展现出越来越强的优势 [6] - 行业中存在三个关键缺陷:标准注意力机制制约长序列处理效率、后训练阶段计算投入不足、AI智能体泛化能力存在差距 [7]
DeepSeek又上新!模型硬刚谷歌
第一财经· 2025-12-01 22:05
模型发布与性能表现 - DeepSeek于12月1日晚发布两款新模型DeepSeek-V3-2和DeepSeek-V3-2-Speciale,在推理能力上全球领先 [3] - DeepSeek-V3-2定位为平衡推理能力与输出长度,适合日常使用,在公开推理测试中达到GPT-5水平,仅略低于谷歌Gemini3 Pro [5] - DeepSeek-V3-2-Speciale是长思考增强版,结合DeepSeek-Math-V2的定理证明能力,在多个推理基准测试中超越谷歌Gemini3 Pro [5][6] - Speciale模型在AIME 2025测试中得分96-0,超过Gemini3 Pro的95-0;在HMMT Feb 2025测试中得分99-2,超过Gemini3 Pro的97-5 [7] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌,ICPC与IOI成绩分别达到人类选手第二名与第十名水平 [7] 技术优势与创新 - DeepSeek在9月底提出稀疏注意力机制(DSA),此次发布的两款模型均引入该机制,大幅降低计算复杂度 [11] - V3-2在智能体场景中成为具有成本效益的替代方案,不仅缩小开源模型与前沿专有模型的性能差距,成本也显著降低 [11] - 稀疏注意力机制解决了关键的计算复杂性问题,在不牺牲长上下文性能的前提下实现性能大幅提升 [11] 行业竞争格局 - 当前开源与闭源模型的差距在拉大,闭源专有模型如谷歌、OpenAI、Anthropic的性能增长速度显著更快 [9][10] - 闭源模型与开源模型之间的性能差距日益扩大,专有系统在复杂任务中展现出越来越强的优势 [10] - 开源模型存在三个关键缺陷:对标准注意力机制的过度依赖、后训练阶段计算投入不足、AI智能体领域泛化能力和指令遵循能力存在差距 [10] 模型局限性 - V3-2的世界知识广度仍落后于领先的专有模型,在令牌效率方面需要更多令牌才能达到Gemini3 Pro的输出质量 [8] - 在编程、理工科博士生测试中略逊于谷歌,LiveCodeBench得分88-7低于Gemini3 Pro的90-7,GPQA Diamond得分85-7低于Gemini3 Pro的91-9 [7][8] - 在解决复杂任务方面不如前沿模型,团队计划通过增加预训练计算量填补知识空白,优化模型推理链的智能密度以提高效率 [8]
DeepSeek又上新!模型硬刚谷歌,承认开源与闭源差距拉大
第一财经· 2025-12-01 21:31
模型发布与核心定位 - 公司于12月1日晚发布两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale,其推理能力全球领先 [1] - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用智能体任务场景,此次为9月底实验版V3.2-Exp的正式版更新 [3] - DeepSeek-V3.2-Speciale定位为将开源模型推理能力推向极致的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,具备出色的指令跟随和逻辑验证能力 [3] 模型性能表现 - 在公开推理测试中,DeepSeek-V3.2达到GPT-5水平,仅略低于谷歌Gemini3 Pro [3] - DeepSeek-V3.2-Speciale在多个推理基准测试中超越谷歌Gemini3 Pro,特别是在数学竞赛中表现优异 [4] - 具体测试成绩显示:在美国数学邀请赛(AIME 2025)中,Gemini3 Pro得分为95.0(15k),DeepSeek-V3.2得分为93.1(1k);在哈佛MIT数学竞赛(HMMT Feb 2025)中,Gemini3 Pro得分为97.5(16k),DeepSeek-V3.2-Speciale得分为92.5(1k) [5] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌,其中ICPC与IOI成绩分别达到人类选手第二名与第十名水平 [5] 技术突破与优化 - 两款模型均引入稀疏注意力机制(DSA),旨在解决标准注意力机制对长序列处理效率的制约,并确认该机制可大幅降低计算复杂度且不牺牲长上下文性能 [7] - 采用新机制后,V3.2在智能体场景中成为具有成本效益的替代方案,不仅缩小了与前沿专有模型的性能差距,成本也显著降低 [8] 行业趋势与挑战 - 当前开源与闭源模型的差距在拉大,闭源专有模型(如谷歌、OpenAI、Anthropic)的性能增长速度显著更快 [6] - 闭源模型与开源模型之间的性能差距并未缩小反而日益扩大,专有系统在复杂任务中展现出越来越强的优势 [6] - 开源模型面临三大关键缺陷:标准注意力架构制约长序列处理效率、后训练阶段计算投入不足、AI智能体泛化能力和指令遵循能力存在差距 [7] 产品部署与市场反响 - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2,但Speciale版本目前仅以临时API服务形式开放,供社区评测与研究 [8] - 海外社媒有观点认为此次发布是了不起的成就,匹配GPT-5和Gemini3 Pro的开源模型出现,差距正式消除,证明严谨工程设计可超越单纯参数规模 [8]
Gemini3 Pro实测:文科生确实能自己做网页了
虎嗅APP· 2025-11-28 07:58
文章核心观点 - Gemini 3 Pro的Vibe Coding能力允许用户通过自然语言描述指挥AI生成代码,显著降低了编程门槛[4] - 该产品在理解抽象需求方面表现异常强大,能够从自然语言中读出用户核心需求并自动补齐交互逻辑和设计细节[33] - 工具类产品可能逐步走向"私人应用"时代,使得普通用户能够定制个性化工具而无需依赖商业化产品[41] 产品功能实测总结 牛马时钟生成 - 从输入需求到网页交付仅耗时81秒,无需任何调试即可生成完整可用的交互页面[10] - 产品优势体现在三个方面:对自然语言指令要求低、能自动整理交互逻辑、能匹配UI和文案风格[7][8][9] - 自动创作了提示词中未要求的"牛马语录"随机刷新功能,显示其创造性思维能力[10] 教育应用场景 - 成功生成勾股定理证明演示网页,针对小学生受众设计了四个页面的教学流程和交互点击操作[15] - 在调试过程中出现图形位置偏移问题,提出调整需求后AI重新编写代码110秒但效果不理想[35] 个性化工具定制 - 可定制个人照片处理工具,支持添加颗粒感和留言等个性化功能[17][19][21] - 能够生成婚礼电子请柬制作网页,支持第三方地图调用和直接分享功能[24][25] - 通过10分钟调试即可获得可直接分享的定制婚礼请柬,尽管在歌词引用上出现错误[25] 游戏工具开发 - 生成24点发牌和计分器仅需102字提示词,从思考到完成代码耗时124秒[29] - 主流程测试完全可用,适合线下聚会场景定制专项玩法工具[30] 产品能力评估 优势特点 - 特别擅长执行抽象的一句话需求,不喜欢用户"教它做事",更有效的调整方式是描述未满足的需求而非具体实现方案[33] - 相当于配备了交互设计师和UI设计师,能将一句话需求升级为完整可用的交互方案[10] 技术局限性 - 对精确指令的理解和执行仍存在困难,典型问题是BUG越修越多[34] - 在调试过程中容易出现"嘎巴一下死机"的情况,且无法通过回滚指令恢复,需要重新编写代码[37] 行业影响展望 - 前端程序员评价开发最难的部分是理解产品需求并进行反驳,而AI在这方面表现出色[38] - 工具产品最后一公里可由用户自行完成,不再受限于丑陋界面、广告和易误触链接[41][43] - 普通用户无需代码能力即可体验工具定制,标志着真正根植于C端的大众化内容生产能力时代到来[44]
AI模型升级催热端侧硬件预期,消费电子ETF(159732.SZ)上涨2.02%,环旭电子上涨5.58%
每日经济新闻· 2025-11-27 11:09
市场行情表现 - 11月27日上午 A股三大指数集体上涨 上证指数盘中上涨0.61% [1] - 电子 通信 电力设备等板块涨幅靠前 综合 交通运输板块跌幅居前 [1] - 消费电子板块走强 截至10:08 消费电子ETF(159732.SZ)上涨2.02% [1] 消费电子ETF成分股表现 - 成分股环旭电子上涨5.58% 兆易创新上涨5.37% 欣旺达上涨5.07% [1] - 成分股胜宏科技上涨4.11% 和而泰上涨3.36% [1] AI技术进展与行业影响 - Google最新AI模型Gemini 3 Pro Preview版正式上线 该模型具备原生多模态 强大推理和Agent能力 [3] - Gemini 3 Pro以81%的MMMU-Pro分数和87.6%的Video-MMMU分数刷新多模态推理记录 [3] - 在推理能力方面 Gemini 3以1501分登顶LMArena排行榜 并在GPQA Diamond上获得91.9%的高分 [3] - 国信证券表示 伴随AI模型持续升级及AIAgent逐步成熟 端侧硬件通过蜂窝 WiFi等连接云端模型 其使用体验将同步改善 [3] - 国信证券认为 AI端侧有望迎来新爆发 [3] 消费电子ETF产品信息 - 消费电子ETF(159732)跟踪国证消费电子指数 主要投资于业务涉及消费电子产业的50家A股上市公司 [3] - 该ETF行业主要分布于电子制造 半导体 光学光电子等市场关注度较高的主流板块 [3] - 其场外联接基金为 A类:018300 C类:018301 [3]
刷屏社交圈!海外科技媒体点赞!灵光6天下载破200万,解锁 AI 大众化新姿势
北京商报· 2025-11-26 22:18
蚂蚁灵光市场表现 - 发布后4天下载量突破100万,6天突破200万,刷新全球AI应用用户增长速度纪录[1] - 下载量增速超过Sora2、ChatGPT、DeepSeek等全球主流AI应用[1] - 上线后短时间涌入大量用户导致算力吃紧,4天内紧急扩容8轮以重点保障“灵光闪应用”功能[5] - 问鼎App Store中国区免费工具榜第一,并冲上App Store中国区免费榜第六[5][9] 产品核心功能与特点 - 蚂蚁集团发布的全模态通用AI助手,首批上线三大功能包括“灵光闪应用”、“灵光对话”、“灵光开眼”[5] - “灵光闪应用”功能允许用户通过自然语言描述需求,无需编写代码即可在30秒内生成可交互、可分享的小应用[8] - “灵光开眼”功能支持多模态识别,例如拍摄冰箱食材可瞬间生成创意菜谱[6] - 产品特点为零编程基础、最快30秒生成应用,大幅降低技术壁垒[8] 用户反响与应用场景 - 在社交平台引发现象级AI创作潮,覆盖从AI圈内人到普通用户的广泛群体[5] - 热门应用领域集中在教育类和生活类,例如生成辅导作业工具、菜谱应用、穿搭助手等[6] - 具体案例包括猎豹移动CEO傅盛30秒创建“技能五子棋”游戏,宝妈生成遛娃抽签与作业辅导工具,打工人制作大厂打卡模板[5] - 用户评价显示“一句话做小应用”的AI能力让人上瘾,产品被赞为“辅导作业的救星”[6][8] 行业影响与战略定位 - 蚂蚁灵光与阿里千问位列App Store中国区免费榜第六和第四,终结了字节系应用独占的局面[9] - 阿里将“AI To C”作为2025年核心战略方向,千问和夸克成为其AI“左右手”,底层依托通义大模型[9] - 蚂蚁集团凭借全模态AI能力积累,开发出具有高辨识度且更贴近用户的AI应用,为阿里系AI家族拓展可能性[9] - 产品表现印证市场对体验友好、能满足个性化创作需求的AI产品存在迫切需求[9] 国际媒体关注 - 美国《科技时代》报道称灵光让处理难题“如同清风拂面般轻松”,并注意到其发布六天后下载量超200万[1] - 美国Business Insider指出灵光是一款利用明文提示进行“氛围编程”和构建应用的AI产品[4] - 德国IT Boltwise引用专家观点,认为灵光的应用开发功能是AI发展的重要一步,可能从根本上改变应用程序创建方式[4]
海外科技媒体:AI助手“灵光”让难题处理“如清风拂面般轻松”
环球网· 2025-11-26 18:11
产品发布与市场反响 - 蚂蚁集团于11月18日推出全模态通用AI助手“灵光”,该产品在国内迅速出圈后引发海外科技媒体和社交平台关注 [1] - 发布仅六天后,“灵光”即吸引了超过200万次下载 [3] - 海外社交平台上有博主称赞其多模态交付能力,认为呈现效果惊艳,搜索、推理、创造融合得很好,并指出多模态技术开始展现直观性 [6] 产品功能与技术特点 - “灵光”被描述为通过代码驱动的魔法与用户交谈,能够将语言、图像、声音和数据融合成输出,例如3D模型、动画、图表、交互地图和闪存程序 [3] - 产品的核心在于巧妙地将复杂任务分解为易于管理的小任务,并在不同模式间灵活切换,以简约风格呈现清晰、有逻辑性的结果 [3] - 产品具备与谷歌多模态Gemini 3 Pro相同的所有功能,尽管在动画流畅度和中文显示方面尚有改进空间,但公司产品迭代速度快,改进将很快到来 [3] 行业比较与竞争态势 - 谷歌在蚂蚁集团发布“灵光”的同一天稍晚些时候发布了其多模态Gemini 3 Pro [3] - 在“灵光”发布前几周,其他中国AI模型如千问和DeepSeek已在2025年10月的人工智能投资竞赛中击败了西方同类产品 [4] - 海外媒体评论指出,在AI创新应用的中国速度加持下,2026年中国AI产业有望带来惊喜进步 [4] 媒体与专家评价 - 美国科技媒体《科技时代》报道称,“灵光”让处理难题“如同清风拂面般轻松” [1][3] - 美国商业媒体Business Insider指出,“灵光”是一款用明文提示进行“氛围编程”和构建应用的AI产品 [4] - 德国科技媒体IT Boltwise引用专家观点称,“灵光”的应用开发功能是AI发展的重要一步,有可能从根本上改变应用程序的创建方式 [4]
海外科技媒体Tech Times:AI助手“灵光”让难题处理“如清风拂面般轻松”
齐鲁晚报· 2025-11-26 16:20
产品发布与市场反响 - 蚂蚁集团于11月18日推出全模态通用AI助手“灵光” 并在国内迅速出圈后引发海外科技媒体和社交平台关注 [1] - 产品发布仅六天后 下载量就超过200万次 证明其市场热度并非昙花一现 [3] - 海外专业用户对灵光的多模态交付能力给予好评 认为其搜索、推理、创造融合得很好 多模态技术开始展现直观性而非停留在实验阶段 [6] 产品功能与技术特点 - 灵光是一款多模态AI助手 通过代码驱动将语言、图像、声音和数据融合成有趣且实用的输出 例如3D模型、动画、图表、交互地图甚至闪存程序 [3] - 其核心在于巧妙地将任务分解为易于管理的小任务 在不同模式间灵活切换 以简约风格呈现清晰、逻辑性的结果 [3] - 产品被描述为“每个人口袋里的个人AI开发者” 能够轻松进行编码、可视化并简化复杂问题 [3] - 德国科技媒体引用专家观点称 灵光的应用开发功能是AI发展的重要一步 有可能从根本上改变应用程序的创建方式 [4] 行业竞争与定位 - 谷歌在蚂蚁集团发布灵光的同一天稍晚些时候发布了其多模态AI模型Gemini 3 Pro [3] - 美国科技媒体《科技时代》指出 灵光本质上具备Gemini 3 Pro的所有功能 并将其定位为灵光1.0与Gemini 3.0 Pro的对比 [3] - 该媒体认为 以蚂蚁集团等科技公司的产品迭代速度 对产品当前在动画流畅度、思考过程显示及语言支持等方面的改进将很快到来 [3] 行业趋势与展望 - 在灵光发布前几周 其他中国AI模型曾在2025年10月的人工智能投资竞赛中击败了西方同类产品 [4] - 有观点认为 在AI创新应用的“中国速度”加持下 2026年中国AI产业将带来令人惊喜的进步 想象力的边界将是“唯一”的天花板 [4] - 海外博主认为 代码驱动的输出正是开发者所需 多模态AI正变得越来越有意思 [6]