深度推理

搜索文档
深度推理大模型,去魅“天价报志愿”
21世纪经济报道· 2025-06-18 22:04
21世纪经济报道记者王峰 北京报道 AI报志愿究竟靠不靠谱? 高考志愿填报在即,"天价报志愿"服务再次受到欢迎。据报道,网红张雪峰旗下机构两款12999元和 18999元的志愿服务产品早早售罄。 "天价报志愿"服务只能满足极少数考生的需求,在提供普惠性、基础性志愿服务方面,AI曾被寄予厚 望,但此类产品面世几年来,要么错误较多,不同产品推荐结果相互打架,要么只能作为参考,考生依 然需要志愿规划师的指导。 2025年或将有所改变。深度思考技术推动大模型辅助志愿填报又进了一步,不仅所推荐的志愿准确率更 高,而且高考志愿大模型有了AI Agent的雏形,搭建了类似真人志愿规划师的工作流,强化了志愿填报 的规划性。 普惠的AI技术越发展,高考志愿服务市场就越理性,高考考生越能远离"天价报志愿"。 不过,AI高考志愿还无法完全取代真人志愿规划服务,推动高考志愿填报服务的普及、普惠,需要加 大公共服务力度。 AI高考志愿进阶之路 大模型如何改变AI高考志愿产品? 2024年以前,市场上的AI高考志愿产品还不是大模型技术,而是基于数据库筛选的大数据技术。 考生输入自己的地区、选科、分数、排名信息,以及意向高校和专业的所在地 ...
不靠价格战,豆包大模型靠技术杀出重围
经济观察网· 2025-06-12 21:51
字节跳动AI产品发布 - 火山引擎发布豆包大模型1.6、视频生成模型Seedance 1.0 pro及升级Agent开发平台等AI云原生服务 [1] - 豆包大模型日均tokens使用量超16.4万亿,较去年5月增长137倍 [1] - 豆包大模型在中国公有云大模型市场份额达46.4%,排名第一 [1] 产品技术亮点 - 豆包1.6支持多模态理解和图形界面操作,可自动完成预订酒店、整理Excel等任务 [2][3] - Seedance 1.0 pro支持生成1080P多镜头视频,在Artificial Analysis评测中两项任务全球第一 [3] - 豆包1.6-thinking在复杂推理、数学竞赛等评测中跻身全球第一梯队 [2] 行业应用与客户覆盖 - 豆包大模型服务全球TOP10手机厂商中的9家、80%主流汽车品牌、70%系统重要性银行及超50%的985高校 [2] - 在金融行业提供智能展业、投顾等方案,服务华泰证券、招商银行等客户 [6] - 在教育行业与北大、浙大等高校合作推动智能化转型 [6] 商业模式与成本优化 - 豆包1.6首创按输入长度区间定价,综合成本为豆包1.5或DeepSeek R1的三分之一 [4][5] - Seedance 1.0 pro每千tokens仅0.015元,生成5秒1080P视频成本3.67元 [5] - 降价源于技术突破与规模效应,非价格战,日均调用量超16万亿tokens摊薄边际成本 [7][8] 企业合作案例 - 联想集成豆包大模型至AI桌面助手"如意",实现AI搜索、写作等功能 [10][12] - 瑞幸推出AI点单助手"Lucky",基于豆包大模型实现意图识别与快速下单 [11] - 百胜中国引入豆包大模型于智能客服与员工培训,降本增效 [11] 战略与行业趋势 - 公司定位Agent智能体为AI时代核心形态,未来将围绕Agent持续演进技术 [13] - 大模型被视为软件生产调度核心,豆包1.6编程能力显著提升并即将开放TRAE编程助手 [14] - Agentic AI被视为产业数字化转型新引擎,将重塑企业流程与行业格局 [16]
大模型高考成绩单出炉,讯飞星火语数外实力位居第一梯队
和讯网· 2025-06-09 17:05
国产大模型高考表现 - DeepSeek R1以143分成为国产大模型数学科目状元,讯飞星火X1以141分紧随其后,两者在函数题、数列证明等高难度题型中均展现完整解题链[9] - 数学实测显示DeepSeek R1在128K上下文优势明显,复杂题目分步推导无遗漏,但存在OCR识别短板需人工转写题目[10] - 不同评测机构结果存在差异:IT之家测试中DeepSeek数学143分第一,而自媒体"数字生命卡兹克"评测中其得分64.3分低于讯飞星火X1和豆包1.5[9][11][12] 语文作文能力对比 - 讯飞星火X1作文《以歌为刃破长夜且将热血铸山河》获52/54高分,专家评价其结构如交响乐章,选材如历史长卷,构建从个体觉醒到文明永续的逻辑链[2] - DeepSeek《悲歌当泣》采用六段式结构层层递进探讨艺术作用,获52.5分但被指敦煌案例"缺乏现代表达"[4][6] - 文心一言因过度抒情跌至47分垫底,豆包1244字超长作文因"沉默与发声辩证不足"扣分[6] 英语作文跨文化表达 - 讯飞星火X1英语作文以19.5平均分夺冠,其"全球气候行动网络"提案内容完整且句式多样,展现对国际议题精准理解[13][14] - DeepSeek R1英语作文结构严谨逻辑流畅但UN initiatives翻译不够具体,ChatGPT o3因口语化表达和腾讯混元T1因非正式语体得分较低[16] 技术路线与行业格局 - 全国产算力下70B量级的讯飞星火凭借算法优化与教育领域深耕,超越更大参数规模对手[1] - 深度推理大模型执行"解析题干-提炼论点-匹配论据"流程,可成为学生写作思考链条,启发突破套路化表达[18] - 国产大模型推理能力实现质的飞跃,讯飞星火等多家模型高考数学成绩突破130分[18]
深度推理模型写高考英语作文谁更强?记者实测,名校英语教师点评
贝壳财经· 2025-06-09 09:24
6月8日下午,2025年高考英语科目考试结束。在今年高考英语北京卷的作文题目中,李华又一次成为"主角"。 与此同时,这场"语言能力大考"也成为AI大模型的试金石——从精准审题到地道表达,从逻辑连贯到文化适配,大语言模型能否作为"李华"完成高考英语作 文题目的独特要求?在各个大模型均已具备"深度思考"模式的当下,"AI考生"能拿到多少分?对此,新京报贝壳财经对国内外主流大语言模型进行了测评。 本次测评选择2025年高考英语北京卷作文题目,测评对象为DeepSeek R1、ChatGPT o3、通义千问Qwen3、腾讯混元T1、讯飞星火X1、百度文心X1六款深度 推理模型产品,并邀请北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉参照往年高考评分标准对上述大模型生成的英语作文打分并作点 评。 本着客观公正和"盲评"原则,韩宪昌老师和赵文嘉老师给出了专业评分。本次参赛的六名大模型"AI考生"得分揭晓后由高到低的排名分别为:讯飞星火 X1、DeepSeek R1、百度文心X1、通义千问Qwen3、ChatGPT o3、腾讯混元T1。 具体来看,2025高考英语北京卷作文题目的要求为: 假设你是红星中学高三学 ...
她如何把“系统2”带给了大模型 |对话微软亚洲研究院张丽
量子位· 2025-05-25 14:07
量子位智库 量子位 | 公众号 QbitAI 2023年,业界还在卷 Scaling Law ,不断突破参数规模和数据规模时,微软亚洲研究院张丽团队就选择了 另一条路径 。 早在 OpenAI o1 发布前,张丽团队就开始探索 大模型深度推理能力 。 System2 这个原属认知科学的词汇最早由她及团队引入大模型领域。 最近,她们通过 蒙特卡洛搜索算法 让 7B模型 实现了 o1级别的数学推理能力 。 rStar—Math 的发布引发学术圈内外的广泛讨论。 △ rStar-Math论文 在当前基于PPO/GRPO强化学习路线主导的当下,她们的工作又将带来哪些新的可能性? 本期 「大模型创新架构」主题访谈 , 量子位 邀请到 rStar-Math作者微软亚洲研究院首席研究员张丽 ,聊聊突破大模型智商上限、奖励模 型以及System2背后的故事。 张丽,MSRA系统研究组首席研究员,微软LongRoPE及rStar系列工作项目leader。 △ 微软亚洲研究院系统研究组首席研究员张丽 以下为 量子位 与 rStar-Math作者微软亚洲研究院首席研究员张丽 的对话实录整理: 智商突围 量子位:能简单介绍下rSta ...