Workflow
腾讯混元T1
icon
搜索文档
十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一,马斯克的Grok 3遭遇“滑铁卢”
每日经济新闻· 2025-06-10 21:53
测评结果 - 国产大模型DeepSeek-R1与腾讯混元T1在117分标准化试卷测试中以零错误并列榜首,均获得117分满分 [1][4] - 讯飞星火X1以112分紧随其后,因填空题自我怀疑导致答案不完整 [5] - Gemini 2.5 Pro、OpenAI o3、阿里千问Qwen3和豆包深度思考模式得分均超100分,分别为109分、107分、106分和104分 [7] - Grok 3表现意外,仅得91分排名倒数第三,主要因多选题理解失误 [8] - 智谱清言推理模式得78分排名倒数第二,因逻辑崩溃导致失分 [8] - Kimi k1.5因压轴大题失误得分最低 [10] 测评标准与方法 - 以2025年全国新课标数学I卷(总分150分)为考题,移除图形/图表题后形成117分标准化试卷 [3] - 部分模型因"重要考试期间"限制未参与图形题测试,如讯飞星火X1、豆包深度思考和智谱清言推理模式 [2][3] - 对无限制模型(如Gemini 2.5 Pro)仍测试完整150分试卷以评估最高水平 [3] - 扣分标准遵循高考规则,但解答题仅按结果计分 [3] 模型表现细节 - DeepSeek-R1与腾讯混元T1在代数计算和函数题中展现极高稳定性 [4] - 讯飞星火X1在填空题中因自我怀疑仅输出部分正确答案("2"而非"±2") [5] - Grok 3在多选题中固执输出单一答案,导致部分失分 [8] - 智谱清言推理模式多次在最终推理步骤崩溃,陷入逻辑循环 [8] - Kimi k1.5在压轴大题上表现最弱 [10] 行业技术现状 - AI推理大模型在固定步骤和严密逻辑的数学问题上能力较强 [10] - 涉及抽象和创新思维的题目仍是当前模型的局限性所在 [10]
深度推理模型写高考英语作文谁更强?记者实测,名校英语教师点评
贝壳财经· 2025-06-09 09:24
大模型高考英语作文测评结果 - 讯飞星火X1以平均分19.5分排名第一,内容完整且紧扣主题,语言准确句式多样,结构清晰段落衔接自然 [22][27] - DeepSeek R1以平均分19分排名第二,内容详实建议具体,理由全面语言精准,但超字数限制被扣分 [7][27] - 百度文心X1以平均分18.5分排名第三,内容创新建议详实,理由充分语言优秀,结构合理过渡流畅 [26][27] - 通义千问Qwen3以平均分17分排名第四,内容基本完整建议合理,语言准确表达得体,但理由稍简略 [14][27] - ChatGPT o3以平均分14.5分排名第五,内容覆盖要点但理由浅显,语言有错误句式单调,结构发展不足 [10][27] - 腾讯混元T1以平均分13分排名第六,内容基本相关但理由泛泛,语言口语化句式简单,结构松散结尾随意 [19][27] 大模型英语写作能力分析 - 各模型均能完成写作任务,但在内容细节、逻辑关系、观点表达精准性等方面差异较大 [27] - 部分模型语法句法选词精准到位逻辑清晰,部分模型逻辑性欠缺展开不够具体深入 [28] - AI作文立意创新性强于真实考生,因信息搜索整合能力更强,但句式丰富度不及优秀考生 [28] - 模型内嵌评分标准和写作方向差异明显,内容简繁程度与内部数据库密切相关 [28] 国内大模型近期发展动态 - DeepSeek于5月28日更新R1-0528版本 [29] - 腾讯于5月21日迭代混元T1和混元Turbo S [29] - 阿里巴巴于4月29日开源新一代通义千问Qwen3 [29] - 百度于4月25日发布X1 Turbo [29] - 科大讯飞于4月20日升级讯飞星火X1 [29] - 4-5月国内主流大模型集中进行推理层面更新,带来英语写作等能力进步 [29]
加大AI投入!腾讯汤道生:加速AI大模型、智能体、知识库和基础设施建设
新浪科技· 2025-05-21 11:07
腾讯云AI产业应用峰会核心观点 - 生成式AI已从"量变"发展到"质变",公司持续加大AI投入,业务全面拥抱AI,通过大模型、智能体、知识库和基础设施"四个加速"打造"好用的AI" [1] - 行业对大模型API调用量和算力需求快速增长,未来需从"可用"到"好用",从"一部分人用"到"人人能用",需优化交互体验、执行能力、内容准确性和落地成本 [3] 腾讯AI技术进展 - 腾讯混元T1和Turbo S持续迭代,混元TurboS进入全球Chatbot Arena前8,中国大模型中仅次于DeepSeek [3] - 多模态领域,腾讯混元在视觉理解、语音交互、3D、实时生图等能力获行业认可 [3] - 智能体开发平台助力企业快速构建应用,QQ浏览器、腾讯健康、腾讯云代码助手CodeBuddy等已接入智能体能力 [3] 知识库与基础设施优化 - 发布腾讯乐享企业AI知识库,管控知识有效性、更新时间和权限,解决企业场景专业知识缺失问题 [4] - 行业智算需求从训练转向推理主导,公司通过IaaS层与工具层协同优化,提升推理场景的响应速度、延时和性价比 [4] 行业应用与愿景 - AI需走进千行百业,通过技术升级降低使用门槛,使其服务于企业经营者、开发者和普通用户 [1][4]
饥渴的大厂,面对大模型还需新招
36氪· 2025-04-30 12:11
文章核心观点 行业已进入存量博弈阶段,竞争集中在算力成本、数据质量和场景渗透的三角博弈,技术进步方向转向效率优化,但仍面临瓶颈,大厂突围需从技术堆叠转向价值创造,“云厂商 + 行业应用 + MCP 协议”的三重共振或成企业落地关键 [2][6][10][14][15] 大模型竞争现状 竞争进入存量博弈 - 模型差距缩小,竞争进入新阶段,真正差异更多在使用方式 [1] - 竞争聚焦于算力成本、数据质量和场景渗透 [2] 各公司竞争策略 算力成本优化 - 阿里 Qwen3 用“混合推理”技术,部署成本降至 DeepSeek - R1 的 1/3 到 1/4 [2] - 腾讯混元 T1 用稀疏激活机制,算力利用率比传统模型提升 30% 以上 [3] - 百度文心大模型推理速度在工业级场景比竞品快 20% [3] - 字节跳动通过场景化落地间接降低通用大模型部署压力 [3] 数据质量提升 - 阿里 Qwen3 训练数据量达 36 万亿 token,支持 119 种语言和方言 [4] - 百度文心一言依托搜索、地图等积累真实用户行为数据 [4] - 腾讯混元通过开源生态积累开发者数据,在游戏和内容生成领域有优势 [4] - 字节跳动利用抖音、今日头条流量池捕捉用户偏好数据 [4] 场景渗透拓展 - 阿里 Qwen3 深耕电商、金融、医疗等领域,提供定制化解决方案 [5] - 百度文心一言嵌入搜索、地图等产品,形成“技术 - 场景 - 用户”闭环 [5] - 腾讯混元聚焦游戏和内容生产,抢占多模态赛道 [5] - 字节跳动将大模型融入内容生产流程,打通“技术 - 内容 - 流量”链条 [5] 技术瓶颈与方向调整 技术瓶颈体现 - 单纯堆参数效果不佳,激活效率成为新竞争点 [7][8] - 技术优化多为对现有架构的修补,未实现真正突破 [9][10] 技术方向调整 - 从“规模扩张”转向“效率优化”,聚焦效率、成本和场景落地 [8][10] 大厂突围困境与策略 困境 - 技术优势衰减速度超预期,过度依赖参数规模和稀疏激活机制易陷入“技术幻觉” [11][13] - 技术同质化,竞争内耗,算法优化存在天花板 [13][14] 策略 - 从“技术堆叠”到“价值创造”,以解决实际问题为价值锚点 [14] 企业落地新范式 “三重共振”模式 - “云厂商 + 行业应用 + MCP 协议”能落地到企业实际场景 [15] MCP 协议作用 - 重新定义企业与 AI 合作规则,为 AI 提供“导航系统”,打通企业数据与 AI 能力 [15][16] MCP 驱动 ToB 范式变化 - 从“模型为中心”变为“数据为中心”,重点转向数据流通 [17] - 从“孤岛”变为“协同”,打通企业内部系统,成为生产力基础设施 [17]
事关DeepSeek,腾讯宣布!
21世纪经济报道· 2025-03-26 20:17
文章核心观点 腾讯积极拥抱DeepSeek,采用“自研+开源”多模型策略,腾讯元宝作为排头兵发展迅速,未来将成功能全面AI助手,旗下大型产品将添加AI功能并与元宝相互支持 [8][9][12] 分组1:腾讯元宝接入模型情况 - 3月26日凌晨腾讯元宝宣布接入DeepSeek V3 - 0324最新版,几天前推出的“腾讯混元T1”正式版也同步接入 [1][2] - 腾讯元宝共支持四款模型,分别是DeepSeek V3和R1,混元Turbo S和T1 [3] 分组2:模型特点 - 混元T1正式版是腾讯自研深度思考模型,以混元Turbo S为基座,采用混合Mamba架构,适合处理深度思考任务 [4] - 最新版DeepSeek V3在推理、前端开发、中文写作和搜索等方面能力提升,推理任务在数学、代码评测集得分超GPT - 4.5 [4] 分组3:腾讯元宝功能更新 - 3月26日接入DeepSeek V3 - 0324版本后,腾讯元宝支持实时预览HTML代码,输入一句话可生成网页代码并呈现可运行页面 [5][6] - 使用V3 - 0324模型,除网页生成外还能完成多种代码生成任务,如生成UI组件、构建网页等 [7] 分组4:腾讯AI战略及腾讯元宝发展情况 - DeepSeek崛起推动腾讯战略调整,采用“自研+开源”双核战术多模型策略 [8][9] - 2月以来腾讯产品线“拥抱DeepSeek”,腾讯元宝是排头兵,过去35天进行30次版本迭代,2 - 3月日活用户数增长超20倍 [10][11] 分组5:腾讯元宝未来规划及优势 - 腾讯管理层称元宝目前是聊天机器人和搜索工具,未来将成功能全面AI助手,服务不同人群 [12] - 元宝优势在于创新,能不断添加功能满足需求,还可访问腾讯公众号和视频号等内容生态系统 [13] 分组6:腾讯旗下产品与腾讯元宝结合情况 - 腾讯多模型策略助用户获最佳模型,旗下大型产品将添加AI功能,部分连接到元宝 [14] - 微信已尝试在聊天页面接入腾讯元宝,用户可搜索添加虚拟好友对话,被视为微信Agent雏形 [15][16]
异动拉升!AI应用加速落地,科创AIETF(588790)拉涨超1%
界面新闻· 2025-03-26 11:38
市场表现 - 2025年3月26日三大指数低开高走 沪指涨0.12% 深证成指涨0.23% 创业板指涨0.26% AI应用概念股活跃 [1] - 科创AIETF(588790)开盘直线拉升涨超1.5% 成交额超1亿元 成分股芯原股份涨超7% 天准科技/恒玄科技涨超5% 海天瑞声/乐鑫科技等跟涨 [2] - 科创AI指数基日以来收益率达77.07% 远超中证人工智能指数(43.35%) [7] 技术进展 - DeepSeek-V3小版本更新 编码能力大幅提升 模型参数6850亿 开源许可改为MIT 测试显示编程能力接近Claude3.7 多轮对话理解能力增强 [2] - 腾讯混元推出自研深度思考模型T1正式版 采用Hybrid-MambaTransformer融合架构 专项优化数学/逻辑推理/科学/代码能力 代码能力评测达328.3分超越Claude 3.7 Sonnet [3] 行业趋势 - AI技术从生成式向Agentic时代过渡 算力需求预计增长百倍 推理类AI商业模式可行性获验证 AI agent产品范式显现 [4] - 大模型推动产业革命 预计2028年中国AI产业规模达8110亿元 增量价值超30% 全产业链(算力/算法/应用)存在投资机会 [4] 产品特征 - 科创AIETF(588790)跟踪上证科创板人工智能指数 精选市值TOP30的AI企业 覆盖芯片/算法/终端全产业链 [5] - 指数成分股每半年动态调整 纳入量子计算/脑机接口等前沿领域企业 前十大权重股集中于半导体/通用设备/云服务/计算机设备板块 [6][7]
DeepSeek,突传大消息!高盛发声!
券商中国· 2025-03-26 09:54
DeepSeek-V3模型升级 - DeepSeek宣布V3模型完成小版本升级,新版本号为DeepSeek-V3-0324,用户可通过关闭深度思考体验新版本 [1][2] - 新版V3模型在推理、前端开发、中文写作、中文搜索等方面能力优化,成为得分最高的非推理模型,超过xAI的Grok3和OpenAI的GPT-4.5(preview)[1] - 模型参数约660B,开源版本上下文长度为128K(网页端、App和API提供64K上下文),采用MIT许可证允许自由修改、分发及商业化应用 [2][3] 模型性能提升 - 新版V3模型借鉴DeepSeek-R1模型的强化学习技术,在数学、代码类评测集上得分超过GPT-4.5 [2] - 代码能力显著提升接近Claude 3.7水平,能一次性生成800行无错误的网页代码并实现动态响应式布局和交互效果 [3] - 数学与逻辑推理能力增强,在经典"4升水壶问题"和AIME 2025数学竞赛题上表现接近专业推理模型 [3] 行业竞争动态 - OpenAI推出4o图像生成功能,集成至GPT-4o,所有用户将陆续体验该功能,企业版与教育版即将接入 [4] - 谷歌发布Gemini 2.5系列人工智能推理模型,首个版本Pro Experimental支持100万Token上下文窗口,单次可处理约75万英文单词 [4][5] - Gemini 2.5 Pro Experimental在大模型竞技场得分比GPT-4.5高出40分,未来将支持200万Token输入长度 [5] 中国市场动态 - 腾讯元宝接入两大模型:腾讯混元T1正式版和DeepSeek V3-0324最新版 [6] - 高盛预计人工智能将每年提升中国每股收益预测2.5%,带来潜在超过2000亿美元投资组合资金流入 [6] - 投资者认为中国人工智能叙事是游戏规则改变者,相比贸易战1.0中国更有能力应对外部需求逆风 [6]
腾讯,重磅发布!
证券时报· 2025-02-27 20:47
腾讯混元Turbo S模型发布 - 腾讯混元新一代快思考模型Turbo S正式发布,实现"秒回"响应,吐字速度提升一倍,首字时延降低44% [1][2] - 混元Turbo S将成为腾讯混元系列衍生模型的核心基座,为推理、长文、代码等衍生模型提供基础能力,目前已通过腾讯云API开放给开发者和企业用户 [2] - 普通用户可在腾讯元宝选择"Hunyuan"模型并关闭深度思考体验Turbo S,该模型将逐步灰度上线 [2] 快慢思考模型结合策略 - 混元Turbo S作为快思考模型,与慢思考模型混元T1结合使用,弥补单一推理模型响应速度不足的问题 [4] - 研究表明人类90%-95%日常决策依赖直觉,快思考模型模拟人类直觉提供快速响应,慢思考模型则通过拆解逻辑解决复杂问题 [4] - 混元T1已于2月19日面向所有用户开放,擅长理解问题的多重维度和潜在逻辑关系,特别适合完成复杂任务 [4] 模型性能表现 - 在多个公开Benchmark上,混元Turbo S在知识、数学、推理等领域表现对标DeepSeek-V3、GPT4o、Claude等领先模型 [5] - 通过长短思维链融合,Turbo S在保持文科类问题快思考体验的同时,显著改进了理科推理能力 [5] - 采用Hybrid-Mamba-Transformer融合模式,降低传统Transformer架构计算复杂度,训练和推理成本大幅下降 [6] 定价与产品接入 - Turbo S定价为输入0.8元/百万tokens,输出2元/百万tokens,相比前代混元Turbo模型价格下降数倍 [7] - 腾讯十余个核心产品已接入DeepSeek-R1模型,包括微信、腾讯文档、QQ浏览器等,覆盖搜索、办公、客服等多种场景 [9][10] - 腾讯元宝在接入DeepSeek-R1模型10天后,超越豆包升至中国区苹果免费APP下载排行榜第二 [10] 行业竞争格局 - 中国互联网AI竞争分化为AI基础设施和AI应用两大阵营,阿里巴巴成为AI基建关键参与者,腾讯依托C端应用生态成为AI应用核心受益者 [11] - 腾讯通过混元模型+DeepSeek模型结合路径,在AI应用领域构建竞争优势,2月以来腾讯港股股价累计涨幅超20% [11] - 微信接入DeepSeek形成场景+优秀推理逻辑能力的组合,能调用腾讯独家生态资源如微信公众号、视频号、小程序等服务接口 [12]