Workflow
腾讯混元T1
icon
搜索文档
十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一,马斯克的Grok 3遭遇“滑铁卢”
每日经济新闻· 2025-06-10 21:53
2025年高考大幕虽已落下,但关于数学科目难度的讨论热度不减。 《每日经济新闻》记者(以下简称"每经记者")选取今年的全国新课标数学I卷作为考题,对DeepSeek-R1、腾讯混元T1、OpenAI的o3、谷歌的Gemini 2.5 Pro和xAI的Grok3等十款AI推理大模型进行了测评,以检验当今主流AI推理大模型的数学能力。 测评结果显示,国产大模型DeepSeek-R1与腾讯混元T1以零错误并列榜首。而被马斯克称为"地表最强AI"的Grok 3却遭遇"滑铁卢",排名倒数第三。 本次测评以2025年全国新课标数学I卷(总分150分)作为考题。但每经记者在测试中发现,部分AI推理模型以"重要考试期间"为由拒绝对包含试题的图片进 行识别和解答。 为了让所有参评大模型站在同一起跑线,测评移除了试卷中所有需要分析图形和图表的题目,形成一份有效总分为117分的标准化试卷。 同时,对于谷歌Gemini 2.5 Pro等没有这一限制的推理模型,仍将以150分的完整试卷进行测试,旨在测试推理大模型所能达到的最高水平。 扣分标准上,每经记者在选择题和填空题上都遵循了高考评卷的扣分标准,但对于解答题,本次测评只根据结果计算 ...
深度推理模型写高考英语作文谁更强?记者实测,名校英语教师点评
贝壳财经· 2025-06-09 09:24
6月8日下午,2025年高考英语科目考试结束。在今年高考英语北京卷的作文题目中,李华又一次成为"主角"。 与此同时,这场"语言能力大考"也成为AI大模型的试金石——从精准审题到地道表达,从逻辑连贯到文化适配,大语言模型能否作为"李华"完成高考英语作 文题目的独特要求?在各个大模型均已具备"深度思考"模式的当下,"AI考生"能拿到多少分?对此,新京报贝壳财经对国内外主流大语言模型进行了测评。 本次测评选择2025年高考英语北京卷作文题目,测评对象为DeepSeek R1、ChatGPT o3、通义千问Qwen3、腾讯混元T1、讯飞星火X1、百度文心X1六款深度 推理模型产品,并邀请北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉参照往年高考评分标准对上述大模型生成的英语作文打分并作点 评。 本着客观公正和"盲评"原则,韩宪昌老师和赵文嘉老师给出了专业评分。本次参赛的六名大模型"AI考生"得分揭晓后由高到低的排名分别为:讯飞星火 X1、DeepSeek R1、百度文心X1、通义千问Qwen3、ChatGPT o3、腾讯混元T1。 具体来看,2025高考英语北京卷作文题目的要求为: 假设你是红星中学高三学 ...
加大AI投入!腾讯汤道生:加速AI大模型、智能体、知识库和基础设施建设
新浪科技· 2025-05-21 11:07
腾讯云AI产业应用峰会核心观点 - 生成式AI已从"量变"发展到"质变",公司持续加大AI投入,业务全面拥抱AI,通过大模型、智能体、知识库和基础设施"四个加速"打造"好用的AI" [1] - 行业对大模型API调用量和算力需求快速增长,未来需从"可用"到"好用",从"一部分人用"到"人人能用",需优化交互体验、执行能力、内容准确性和落地成本 [3] 腾讯AI技术进展 - 腾讯混元T1和Turbo S持续迭代,混元TurboS进入全球Chatbot Arena前8,中国大模型中仅次于DeepSeek [3] - 多模态领域,腾讯混元在视觉理解、语音交互、3D、实时生图等能力获行业认可 [3] - 智能体开发平台助力企业快速构建应用,QQ浏览器、腾讯健康、腾讯云代码助手CodeBuddy等已接入智能体能力 [3] 知识库与基础设施优化 - 发布腾讯乐享企业AI知识库,管控知识有效性、更新时间和权限,解决企业场景专业知识缺失问题 [4] - 行业智算需求从训练转向推理主导,公司通过IaaS层与工具层协同优化,提升推理场景的响应速度、延时和性价比 [4] 行业应用与愿景 - AI需走进千行百业,通过技术升级降低使用门槛,使其服务于企业经营者、开发者和普通用户 [1][4]
vivo招募芯片、AI大模型顶尖人才,称薪酬上不封顶;雷军官宣小米自研手机芯片;小马智行回应北京亦庄无人驾驶汽车起火丨AI周报
创业邦· 2025-05-17 17:39
国内AI行业动态 - 小米宣布自主研发手机SoC芯片玄戒O1,将于5月下旬发布[4] - vivo启动"蓝极星计划"招募芯片、AI大模型等领域顶尖人才,仅面向博士生并提供上不封顶薪酬[6] - 小马智行回应北京亦庄无人驾驶车辆异常事件,称未发生碰撞事故且无人员伤亡[6] - DeepSeek团队公布V3大模型降本方法,通过四项创新技术实现2048块H800 GPU达到数万块GPU集群训练效果[7] - 原微软WizardLM项目团队6名主力成员加入腾讯混元AI开发组织[9] - IDC预测中国AR/VR市场五年复合增长率达41.1%,2029年全球市场规模将达397亿美元[10] - 快手可灵2.0模型以1124分登顶全球视频生成大模型榜单[10] - 荣耀新增AI新产业部门并调整45%关键岗位,计划五年投入超100亿美元建设AI终端生态[10] - Kimi界面改版后取消聊天气泡设计,并与小红书合作实现内容一键生成笔记功能[12] - 腾讯混元T1-Vision上线元宝功能,图片理解速度提升1.5倍[12] - 京东子公司申请注册"Joyrobotaxi"商标,疑似布局自动驾驶出租车赛道[13] - 宇树科技创始人王兴兴表示人形机器人行业订单火爆,公司所有岗位均缺人[14] - 阿里巴巴CEO吴泳铭强调集团将聚焦核心战役,蔡崇信明确"电商和云+AI"为两大战略方向[15] - 松延动力发布新一代女性仿生机器人小诺,已获1000台订单[16] - 来酷发布全球首款半框AI眼镜斗战者G1,售价2499元[16] - 砺算科技被曝连续两个月暂停全员薪酬,高管回应称融资即将到账[17] - 字节跳动开源Deep Research项目DeerFlow,支持生成图文报告和语音播客[18] 海外AI行业动态 - 微软宣称Windows 11 AI+PC性能比M3 MacBook Air快58%[19] - OpenAI向ChatGPT用户开放GPT-4.1模型,专攻编码任务和指令遵循[20] - Meta推迟旗舰AI模型"巨兽"发布,内部对投资方向产生质疑[21] - 马斯克预测人形机器人数量最终达数百亿规模[22] - 谷歌DeepMind推出编程AI Agent AlphaEvolve,解决复杂数学问题[23] - TikTok推出AI Alive功能,可将静态照片转化为动态视频[25] - 英伟达开源多个代码大模型,基于阿里通义千问底座[26] - 奥特曼向马斯克示好,呼吁合作推进AGI发展[27] - 美国250名CEO联名呼吁将AI纳入K-12教育核心课程[28] - 苹果收购MaydayLabs,或将发布AI日历功能[29] - 苹果与Synchron合作研发脑机接口技术,探索意念控制设备[30] - 特斯拉机器人展示复杂舞蹈能力,运动控制取得新进展[31] - 英伟达市值达3万亿美元,黄仁勋个人财富同比飙升50%[32] - Perplexity AI拟以140亿美元估值融资5亿美元[33] - 软银与OpenAI的"星门"项目因关税担忧遇阻[34] - xAI洽谈新一轮融资,估值或达1200亿美元[35] 全球AI投融资概况 - 本周全球披露AI融资事件13起,总融资规模31.16亿元人民币,平均单笔融资3.46亿元[37] - 融资阶段分布:早期8起、成长期1起、后期2起[38] - 国内融资集中在北上广苏浙鲁,北京上海各3起,江苏广东各2起[39] - 国内AI领域披露融资总额8.76亿元,熵基科技拟收购龙之源55%股权[40][41] - 海外AI领域披露融资总额21.51亿元,AI21 Labs完成3亿美元D轮融资[47]
科技风向标丨Manus全面开放注册;支付宝上线语音通话功能;孟羽童否认与董明珠“互撕”
21世纪经济报道· 2025-05-13 11:11
巨头动向 - AI智能体平台Manus开放注册 所有用户每天可免费执行一项任务(300积分)并一次性获得1000积分奖励 [2] - 支付宝上线语音通话功能 通过实名认证保障安全性 不储存通话内容保护隐私 [2] - 苹果中国区官方否认iPhone 16系列降价传闻 称目前没有降价通知 [4] - 软银1000亿美元"星门"AI基础设施投资计划因美国关税担忧而放缓 融资谈判受影响 [5] - Kimi与小红书达成合作 用户可通过Kimi官方账号一键生成小红书笔记 [5] 战略合作 - 华为与优必选科技签署全面合作协议 将结合华为技术能力与优必选机器人技术推动商业化落地 [6] - 美团独家投资自变量机器人数亿元A轮融资 资金将用于具身智能大模型与机器人本体研发 [8] 产品创新 - 国内首例侵入式脑机接口临床试验取得进展 受试者可通过意念操作电脑游戏 [9] - 腾讯混元T1-Vision上线元宝功能 多模态模型可深度理解图片内容 完答速度提升1.5倍 [9] 行业数据 - 2025年Q1全球平板电脑出货量同比增长8.5%至3680万台 大中华区需求激增 [7] - 美国平板电脑市场受关税政策影响 1月进口量飙升后2月出现两位数下滑 [7] 人事动态 - 孟羽童回应与董明珠关系 称前老板是人生贵人 否认存在"互撕" 并透露明年将出国留学 [3]
奇瑞高管公开点评吉利新车“烂车一台”,双方回应;恒安回应心相印客服称赔冥币;宁德时代:李平夫妇向复旦捐赠405万股股票丨邦早报
创业邦· 2025-05-13 08:07
完整早报音频,请点击标题下方小耳机收听 美国将(一)修改2025年4月2日第14257号行政令中规定的对中国商品(包括香港特别行政区和澳门特别 行政区商品)加征的从价关税,其中,24%的关税在初始的90天内暂停实施,同时保留按该行政令的规定 对这些商品加征剩余10%的关税;(二)取消根据2025年4月8日第14259号行政令和2025年4月9日第14266 号行政令对这些商品的加征关税。 中国将(一)相应修改税委会公告2025年第4号规定的对美国商品加征的从价关税,其中,24%的关税在 初始的90天内暂停实施,同时保留对这些商品加征剩余10%的关税,并取消根据税委会公告2025年第5号 和第6号对这些商品的加征关税;(二)采取必要措施,暂停或取消自2025年4月2日起针对美国的非关税 反制措施。(新华社) 【奇瑞高管称吉利新车是"烂车",奇瑞:停止涉事干部一切工作】 5月12日下午消息,近日奇瑞汽车营销 公司副总经理姚飞(姚远方)在社交媒体上拉踩吉利新车吉利银河星耀8。有网友关注到,姚飞在抖 音"A9创始人版车主群"中评价吉利银河星耀8时,采用了"烂车"、"二排挤的很"、"音响烂"等形容词,引 发网友以及吉利 ...
饥渴的大厂,面对大模型还需新招
36氪· 2025-04-30 12:11
文章核心观点 行业已进入存量博弈阶段,竞争集中在算力成本、数据质量和场景渗透的三角博弈,技术进步方向转向效率优化,但仍面临瓶颈,大厂突围需从技术堆叠转向价值创造,“云厂商 + 行业应用 + MCP 协议”的三重共振或成企业落地关键 [2][6][10][14][15] 大模型竞争现状 竞争进入存量博弈 - 模型差距缩小,竞争进入新阶段,真正差异更多在使用方式 [1] - 竞争聚焦于算力成本、数据质量和场景渗透 [2] 各公司竞争策略 算力成本优化 - 阿里 Qwen3 用“混合推理”技术,部署成本降至 DeepSeek - R1 的 1/3 到 1/4 [2] - 腾讯混元 T1 用稀疏激活机制,算力利用率比传统模型提升 30% 以上 [3] - 百度文心大模型推理速度在工业级场景比竞品快 20% [3] - 字节跳动通过场景化落地间接降低通用大模型部署压力 [3] 数据质量提升 - 阿里 Qwen3 训练数据量达 36 万亿 token,支持 119 种语言和方言 [4] - 百度文心一言依托搜索、地图等积累真实用户行为数据 [4] - 腾讯混元通过开源生态积累开发者数据,在游戏和内容生成领域有优势 [4] - 字节跳动利用抖音、今日头条流量池捕捉用户偏好数据 [4] 场景渗透拓展 - 阿里 Qwen3 深耕电商、金融、医疗等领域,提供定制化解决方案 [5] - 百度文心一言嵌入搜索、地图等产品,形成“技术 - 场景 - 用户”闭环 [5] - 腾讯混元聚焦游戏和内容生产,抢占多模态赛道 [5] - 字节跳动将大模型融入内容生产流程,打通“技术 - 内容 - 流量”链条 [5] 技术瓶颈与方向调整 技术瓶颈体现 - 单纯堆参数效果不佳,激活效率成为新竞争点 [7][8] - 技术优化多为对现有架构的修补,未实现真正突破 [9][10] 技术方向调整 - 从“规模扩张”转向“效率优化”,聚焦效率、成本和场景落地 [8][10] 大厂突围困境与策略 困境 - 技术优势衰减速度超预期,过度依赖参数规模和稀疏激活机制易陷入“技术幻觉” [11][13] - 技术同质化,竞争内耗,算法优化存在天花板 [13][14] 策略 - 从“技术堆叠”到“价值创造”,以解决实际问题为价值锚点 [14] 企业落地新范式 “三重共振”模式 - “云厂商 + 行业应用 + MCP 协议”能落地到企业实际场景 [15] MCP 协议作用 - 重新定义企业与 AI 合作规则,为 AI 提供“导航系统”,打通企业数据与 AI 能力 [15][16] MCP 驱动 ToB 范式变化 - 从“模型为中心”变为“数据为中心”,重点转向数据流通 [17] - 从“孤岛”变为“协同”,打通企业内部系统,成为生产力基础设施 [17]
事关DeepSeek,腾讯宣布!
21世纪经济报道· 2025-03-26 20:17
文章核心观点 腾讯积极拥抱DeepSeek,采用“自研+开源”多模型策略,腾讯元宝作为排头兵发展迅速,未来将成功能全面AI助手,旗下大型产品将添加AI功能并与元宝相互支持 [8][9][12] 分组1:腾讯元宝接入模型情况 - 3月26日凌晨腾讯元宝宣布接入DeepSeek V3 - 0324最新版,几天前推出的“腾讯混元T1”正式版也同步接入 [1][2] - 腾讯元宝共支持四款模型,分别是DeepSeek V3和R1,混元Turbo S和T1 [3] 分组2:模型特点 - 混元T1正式版是腾讯自研深度思考模型,以混元Turbo S为基座,采用混合Mamba架构,适合处理深度思考任务 [4] - 最新版DeepSeek V3在推理、前端开发、中文写作和搜索等方面能力提升,推理任务在数学、代码评测集得分超GPT - 4.5 [4] 分组3:腾讯元宝功能更新 - 3月26日接入DeepSeek V3 - 0324版本后,腾讯元宝支持实时预览HTML代码,输入一句话可生成网页代码并呈现可运行页面 [5][6] - 使用V3 - 0324模型,除网页生成外还能完成多种代码生成任务,如生成UI组件、构建网页等 [7] 分组4:腾讯AI战略及腾讯元宝发展情况 - DeepSeek崛起推动腾讯战略调整,采用“自研+开源”双核战术多模型策略 [8][9] - 2月以来腾讯产品线“拥抱DeepSeek”,腾讯元宝是排头兵,过去35天进行30次版本迭代,2 - 3月日活用户数增长超20倍 [10][11] 分组5:腾讯元宝未来规划及优势 - 腾讯管理层称元宝目前是聊天机器人和搜索工具,未来将成功能全面AI助手,服务不同人群 [12] - 元宝优势在于创新,能不断添加功能满足需求,还可访问腾讯公众号和视频号等内容生态系统 [13] 分组6:腾讯旗下产品与腾讯元宝结合情况 - 腾讯多模型策略助用户获最佳模型,旗下大型产品将添加AI功能,部分连接到元宝 [14] - 微信已尝试在聊天页面接入腾讯元宝,用户可搜索添加虚拟好友对话,被视为微信Agent雏形 [15][16]
DeepSeek,突传大消息!高盛发声!
券商中国· 2025-03-26 09:54
DeepSeek-V3模型升级 - DeepSeek宣布V3模型完成小版本升级,新版本号为DeepSeek-V3-0324,用户可通过关闭深度思考体验新版本 [1][2] - 新版V3模型在推理、前端开发、中文写作、中文搜索等方面能力优化,成为得分最高的非推理模型,超过xAI的Grok3和OpenAI的GPT-4.5(preview)[1] - 模型参数约660B,开源版本上下文长度为128K(网页端、App和API提供64K上下文),采用MIT许可证允许自由修改、分发及商业化应用 [2][3] 模型性能提升 - 新版V3模型借鉴DeepSeek-R1模型的强化学习技术,在数学、代码类评测集上得分超过GPT-4.5 [2] - 代码能力显著提升接近Claude 3.7水平,能一次性生成800行无错误的网页代码并实现动态响应式布局和交互效果 [3] - 数学与逻辑推理能力增强,在经典"4升水壶问题"和AIME 2025数学竞赛题上表现接近专业推理模型 [3] 行业竞争动态 - OpenAI推出4o图像生成功能,集成至GPT-4o,所有用户将陆续体验该功能,企业版与教育版即将接入 [4] - 谷歌发布Gemini 2.5系列人工智能推理模型,首个版本Pro Experimental支持100万Token上下文窗口,单次可处理约75万英文单词 [4][5] - Gemini 2.5 Pro Experimental在大模型竞技场得分比GPT-4.5高出40分,未来将支持200万Token输入长度 [5] 中国市场动态 - 腾讯元宝接入两大模型:腾讯混元T1正式版和DeepSeek V3-0324最新版 [6] - 高盛预计人工智能将每年提升中国每股收益预测2.5%,带来潜在超过2000亿美元投资组合资金流入 [6] - 投资者认为中国人工智能叙事是游戏规则改变者,相比贸易战1.0中国更有能力应对外部需求逆风 [6]
腾讯,重磅发布!
证券时报· 2025-02-27 20:47
事实上,在2月19日,腾讯混元已宣布深度思考模型混元T1面向所有用户开放,可以在腾讯元宝体验测试。作为与DeepSeek - R1类似的推理模型,T1能理解问题的 多重维度和潜在逻辑关系,特别适合完成复杂任务。 2月27日,腾讯混元官方微信账号发布消息称,腾讯混元新一代快思考模型Turbo S正式发布。 据介绍,区别于DeepSeek-R1、混元T1等需要"想一下再回答"的慢思考模型,混元Turbo S能够实现"秒回",更快速输出答案,吐字速度提升一倍,首字时延降低 44%。 腾讯混元表示,作为旗舰模型,混元Turbo S未来将成为腾讯混元系列衍生模型的核心基座,为推理、长文、代码等衍生模型提供基础能力。目前,开发者和企业用 户已经可以在腾讯云上通过API调用腾讯混元Turbo S。对于普通用户,腾讯元宝即将逐步灰度上线混元Turbo S,用户在元宝内选择"Hunyuan"模型并关闭深度思考 即可体验使用。 快慢结合,让大模型更智能更高效 在使用DeepSeek - R1等推理模型时,由于模型需要进行深度思考,并在提供回答前列出详细的思维链,虽然能够体现较高的智能化水平,但存在响应速度慢、不够 高效的短板。 ...