Workflow
文心X1
icon
搜索文档
腾讯元宝 逐渐失宠
搜狐财经· 2025-06-19 16:18
大模型高考数学表现 - 字节旗下豆包在2025年数学全国一卷测试中以145分总分位列第一 与讯飞星火X1并列[3] - 国产大模型整体表现优于海外模型 豆包选择填空73分全对 大题77分满分[2][3] - 腾讯元宝T1版本在客观题测试中正确率达93% 仅错1道单选题[1] - 百度文心X1 Turbo客观题正确率70% 错1单选2多选1填空[1] - OpenAI o3表现最差 客观题正确率仅47% 错4单选1填空2多选半对[1] 腾讯元宝发展策略 - 公司采取小步快跑策略 35天内完成30次版本更新 上线混元T1等新功能[4] - 2月买量投入达2.81亿元 单日素材投放量环比增长345% 超越豆包和Kimi[4] - 通过微信等生态入口加速渗透 3-5月陆续接入腾讯文档/新闻/地图等应用[5] - 买量使元宝3月月活达2636万 但较豆包1.01亿和DeepSeek1.8亿仍有差距[5] 行业竞争格局 - 大模型厂商正激烈争夺C端入口 元宝与豆包用户重合率超40%[8] - 字节豆包持续领跑 长期占据App Store免费榜第一 效率榜第一[5] - 腾讯元宝排名波动较大 买量停止后总榜跌至34位 效率榜第5[5] - 阿里通义Qwen3在235B参数版本测试中获143.3分 位列第三[3] 产品能力与挑战 - 用户反馈元宝存在AI幻觉问题 内容生成质量不及DeepSeek[8] - 腾讯将元宝从TEG转入CSIG事业群 提升业务优先级[9] - 公司更关注AI对广告/游戏等核心业务的赋能 而非单纯工具应用[9]
我让10个大模型又参加了完整版数学高考,第一名居然是它。。。
数字生命卡兹克· 2025-06-10 05:20
昨天,我不是发了几个大模型参加数学高考的测试文章嘛。 没想到热度挺高,大家还挺关注的。 不过,很多评论区的小伙伴也说,根本看不出来区别。 因为缺了对AI难度最高的单选第6题,还有后面那些解答题。 那我想,不如再把模型补上,加上全缺失的智谱Z1、Kimi1.5、文心X1,(不带Claude 4,封号斗罗,我恨他),再做一个,完整的满血版的数学高考, 让大家最直观的,感受一下这些模型的数学能力水平。 让大家看看,满分150分,每个模型到底多少分,哪个模型能拿高考数学状元。 因为要做解答题了,和选则填空不太一样,所以我还是单独定了一下规则,规则如下: 1. 数学大题往往都有两到三个小问,但是每个小问具体的赋分都不太一样,邀请了朋友(高中老师)来估摸一下每个小问的分数,如下,都取后者: 2. 高考大题往往会按照步骤给分,但是主要我也看不懂步骤(勿喷),所以这里我们不妨对大模型严格一点,按照结果是否正确来给分。 3. 每道题任然使用大模型跑3次,根据正确比例给分。 4. 依然所有的文本题,都 使用LaTeX编辑器转成LaTeX文本格式,再扔给大模型进行回答。 5. 带图片的多模态题也加入测试,直接截图进行作答,没有多模 ...
深度推理模型写高考英语作文谁更强?记者实测,名校英语教师点评
贝壳财经· 2025-06-09 09:24
6月8日下午,2025年高考英语科目考试结束。在今年高考英语北京卷的作文题目中,李华又一次成为"主角"。 与此同时,这场"语言能力大考"也成为AI大模型的试金石——从精准审题到地道表达,从逻辑连贯到文化适配,大语言模型能否作为"李华"完成高考英语作 文题目的独特要求?在各个大模型均已具备"深度思考"模式的当下,"AI考生"能拿到多少分?对此,新京报贝壳财经对国内外主流大语言模型进行了测评。 本次测评选择2025年高考英语北京卷作文题目,测评对象为DeepSeek R1、ChatGPT o3、通义千问Qwen3、腾讯混元T1、讯飞星火X1、百度文心X1六款深度 推理模型产品,并邀请北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉参照往年高考评分标准对上述大模型生成的英语作文打分并作点 评。 本着客观公正和"盲评"原则,韩宪昌老师和赵文嘉老师给出了专业评分。本次参赛的六名大模型"AI考生"得分揭晓后由高到低的排名分别为:讯飞星火 X1、DeepSeek R1、百度文心X1、通义千问Qwen3、ChatGPT o3、腾讯混元T1。 具体来看,2025高考英语北京卷作文题目的要求为: 假设你是红星中学高三学 ...
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
机器之心· 2025-06-08 06:35
大模型高考数学测试表现 - 字节豆包与腾讯元宝以68分并列第一,正确率93% [6][8] - 深度求索DeepSeek和阿里通义分别以63分、62分紧随其后,正确率86%和85% [8] - 百度文心X1 Turbo得分51分(正确率70%),OpenAI o3表现最差仅34分(正确率47%)[10][11] 题目类型分析 单选题(8题/40分) - 豆包、通义、元宝、文心均得35分,DeepSeek得30分,o3仅20分且错4题 [16][17] - o3在基础题出现逻辑混乱,如第2题未给出答案,第5题计算错误 [17] - DeepSeek因OCR识别问题导致第6题无法作答 [22][23] 多选题(3题/18分) - 豆包、DeepSeek、元宝全部满分,通义错1题得12分 [29][31] - 文心X1错2题(含1题未响应),o3未全对且存在单选式作答 [31][33] - 通义因步骤简略导致第11题误选AD,而正确答案为ABC [32] 填空题(3题/15分) - 豆包、DeepSeek、通义、元包均满分,文心X1因第13题取值错误得10分 [34][36] - o3第13题仅答-2、第14题以小数2.44替代分数61/25,共得10分 [36] 技术进展与现存问题 进步 - 国产模型均超及格线(43.8分),较去年显著提升,豆包/元宝正确率达93% [40] - 增加反思能力,如DeepSeek会验证步骤(耗时达15分钟/题) [40] - 推理步骤更完善,多数模型展示完整逻辑链路(除通义外) [41] 问题 - 计算细节错误频发,如符号误判、公式套用错误 [43] - 图形与几何直觉处理不足,如DeepSeek无法识别图表信息 [23][43] - 对题目条件敏感度低,多选题易漏选/误选 [43]
牵手65%央企,深入千行百业
搜狐财经· 2025-06-06 23:41
央企合作与产业落地 - 百度智能云已与65%的央企达成深度合作,共同推进大模型产业落地 [1][3] - 合作聚焦AI技术在实体产业中的前沿实践,打造可推广、可复制的标杆案例 [1] - 合作覆盖能源、交通、医疗、汽车、环境等多个领域 [4] 行业场景智能体 - 百度智能云推出"行业场景智能体家族",覆盖电力、交通、医疗等高价值场景 [5] - 智能体通过轻量定制快速接入企业业务系统,显著加快AI落地速度 [7] - 在智能出行领域推出"座舱大模型智能体",已应用于深蓝汽车"深蓝精灵"产品 [7] 金融大模型发布 - 推出千帆慧金金融大模型,基于海量金融语料深度训练 [8] - 提供8B和70B两个版本,支持最长32K上下文输入 [8] - 在金融Benchmark评测中综合表现领先,百亿参数模型得分超过千亿通用模型 [8] 旗舰模型升级 - 发布文心4.5 Turbo和X1 Turbo两款旗舰模型 [9] - 文心4.5 Turbo多模态理解能力提升超30% [9] - X1 Turbo在企业预算管控场景展现强大数据分析与决策支持能力 [9] 算力基础设施 - 成功点亮自研万卡及三万卡集群,百舸GPU算力平台提供保障 [10] - 3万卡集群有效训练时长占比超95%,算力成本压缩至市场价一半 [10] - 与长安汽车共建智算中心,总算力规模超1000PFLOPs [10]
推理模型综合测评报告 2025
InfoQ研究中心· 2025-05-29 17:30
报告行业投资评级 未提及相关内容 报告的核心观点 - 推理模型对幻觉有一定控制能力,但多步复杂推理仍是短板,各能力维度在「得分率 - 思考时长」指标间未形成稳定均衡 [22][25] - 推理模型具有较好归纳推理能力,长文本推理能力仍待提升,在代数领域表现最佳,几何理解稍显欠缺 [27][31] - 推理模型对话意图识别基本达标,但缺乏对汉字字形结构的理解,在解决各科学领域复杂问题上能力短板明显 [42][47] - 推理模型对事实错误、上下文幻觉和污染测试有一定控制能力,但引用测试幻觉问题严重且更隐蔽 [54] 根据相关目录分别进行总结 推理模型发展阶段和发展因素分析 - 推理模型发展的前置因素包括推理时计算拓展和基于可验证奖励的强化学习,前者演变出深度思维提示、多链多数表决、路径搜索三条路径,后者能帮助大模型掌握长链推理 [4][7] - 受两大技术范式驱动,从2024年Q4到2025年Q2,多款推理模型相继上线,全球厂商进入推理模型密集发布期 [10] - 推理模型带来能力提升和业务期望,将大模型从单纯内容生成器升级为「可验证的逻辑执行器」,打开更多新商业机会 [13] 推理模型测评体系和结果分析 - 推理模型测评体系有题目原创性、分数可量化、难度梯度设计三大原则,分为逻辑推理、数学推理、多步推理、语言推理、幻觉控制5个维度 [16][19] - 本次测评选取多个推理模型,题库共300题,各维度平均得分率分别为幻觉控制74.83%、数学推理72.66%、逻辑推理72.09%、语言推理62.13%、多步推理46.04% [20][21][22] - 各能力维度在「得分率 - 思考时长」指标间未形成稳定均衡,推理模型在不同细分领域表现有差异 [25] 推理模型未来展望 - 视觉推理能力先行,多模态认知突破加速世界模型构建,期待视觉推理从静态向动态演进并与实际动作结合 [66] - 推理模型在自主规划、可靠执行、容错调整能力维度同步跃升,将图像和工具使用融入推理过程,提升推理可靠性 [69] - 记忆能力模块提升,推理模型可基于单独记忆文件执行长时程任务并保持连贯性 [72][73]
百度AI战略提速首季赚77亿 千辆萝卜快跑奔向全球15城
长江商报· 2025-05-23 07:40
财务表现 - 2025年一季度营业收入325亿元同比增长3% 归母净利润77亿元同比增长42% [2] - 核心业务收入254.63亿元同比增长7% 归母净利润76.33亿元同比增长48% [4] - 在线营销收入160亿元同比下降6% 非在线营销收入94亿元同比增长40% 爱奇艺收入72亿元同比下降9% [5] 智能云业务 - 智能云收入同比增长42% 云业务经营利润率超10% AI相关收入实现三位数增长 [6] - 中标国内大模型项目19个金额4.5亿元 在通用大模型厂商中中标数量和金额均列第一 [7] - 升级MaaS平台千帆 扩充多模态与推理模型工具链 文心4.5 Turbo和X1 Turbo提升性能并降价 [6] 自动驾驶进展 - 萝卜快跑覆盖全球15座城市 部署超1000辆无人车 一季度订单量140万单同比增长75% [9][11] - 进入迪拜/阿布扎比市场 开展公开道路测试 计划部署超1000台全无人车 [9] - 与神州租车合作推出自动驾驶汽车租赁服务 探索扩展至瑞士/土耳其等地区 [10] 研发投入与资本动向 - 一季度研发投入45.44亿元 2021-2024年研发投入连续四年超200亿元 [11] - 桥水基金持仓从20万股增至210万股 富达投资从33万股增至250万股 [11][12] - ARK创始人六次增持百度 累计持仓翻倍 [12] 行业地位 - 拥有中国最大规模AI专利组合 涵盖基础模型/智能体等领域 [7] - 入选《Fast Company》亚太最具创新力公司第二 因自动驾驶实验规模获认可 [6] - 国内大模型招投标总规模24.67亿元 百度中标金额占比达18.2% [7]
一场对话,我们细扒了下文心大模型背后的技术
量子位· 2025-05-22 20:34
大模型技术发展 - OpenAI CEO指出行业已进入复杂推理模型的新范式阶段[1] - 推理模型成为继基础模型后厂商竞争的新焦点[1] - 中国信通院评估显示文心X1 Turbo在24项能力中16项获满分5分,综合评级达最高"4+"级,为国内唯一通过该测评的大模型[1] 文心大模型技术突破 - 文心4.5 Turbo和X1 Turbo分别聚焦多模态与深度思考两大方向[6] - 多模态混合训练技术实现文本/图像/视频统一建模,训练效率提升2倍,理解能力提高30%[7][8] - 自反馈增强技术框架构建"训练-生成-反馈-增强"闭环,显著降低模型幻觉并提升复杂任务处理能力[10][12][13] - 融合偏好学习的强化学习技术使模型理解/生成/逻辑/记忆能力全面提升[14][16] - X1 Turbo突破线性思维链,构建复合型思维链实现"边思考边行动"等人类式策略,复杂任务效果提升22%[18][19][21][23] 基础设施与性能优化 - 飞桨框架3.0支持使文心4.5 Turbo训练吞吐达前代5.4倍,推理吞吐提升8倍[31][32] - 算力-框架-模型三位一体协同优化路径成效显著[34] - 文心4.5 Turbo在14个数据集平均成绩80分超越GPT-4.5和DeepSeek-V3[35] - X1 Turbo各项数据集表现均优于DeepSeek-R1[37] 实际应用场景 - 教育领域:X1 Turbo可模拟人类思维解析物理题目[42] - 代码场景:AI生成代码占比超40%,累计服务760万开发者[44] - 数字人技术:支持10万主播,直播转化率31%且成本降低80%[47][48] - 行业规模:2029年全球K-12在线教育预计达8991.59亿元,2024年数字人核心市场480.6亿元将带动6402.7亿元关联产业[49] 长期技术战略 - 6年迭代9大版本形成全栈技术能力[52] - 坚持知识增强技术强化事实性/时效性/知识性[56] - 通过智能体技术结合工具使用解决现实复杂问题[56] - 视大模型为新一轮科技革命周期,注重技术长期价值与层层扩散效应[57][58] - 底层飞桨框架到上层应用的完整技术栈构成核心竞争力[61]
永安期货港股市场回顾
新永安国际证券· 2025-05-22 11:17
市场行情 - A股延续上攻态势,上证指数收涨0.21%报3387.57点,深证成指涨0.44%,创业板指涨0.83%[1] - 港股高开,午后涨幅收窄,香港恒生指数收盘涨0.62%报23827.78点,恒生科技指数涨0.51%,恒生国企指数涨0.84%,大市成交额扩大至2163亿港元[1] - 美国三大股指全线收跌,道指跌1.91%,标普500指数跌1.61%报5844.61点,纳指跌1.41%[1] 政策动态 - 特朗普减税法案仍陷僵局,共和党领导人计划最早美东时间周三晚间推进表决,财政恶化前景刺激30年期美债收益率升至5.1%,逼近20年来最高水平,美股和美元联袂下挫[8][11] - 上海市发布提振消费专项行动方案,拟新增数码产品购新补贴,增加适合个人投资者投资的债券相关产品[1][8][11] 企业动态 - 手回集团招股,拟全球发售2435.84万股,入场费3265元,预计于下周五挂牌,2024年度股东应占亏损收窄至1.36亿元人民币[10] - 恒瑞医药以上限44.05元定价,H股预计本月23日开始在联交所主板买卖[10] - 比亚迪在欧洲推新车海豚Surf,低配版折后售价低于2万欧元[12] 企业财报 - 百度首季经调整净利润跌8%至65亿元人民币,胜预期,收入约324.52亿元,按年增3%[12] - 小鹏汽车首季经调整净亏损收窄至4.3亿元人民币,去年同期录亏损14.1亿元[12] - 微博首季纯利升1.16倍,经调整净利润升12%,净收入3.97亿美元,升0.3%[12]
百度真把AI应用做成了
36氪· 2025-05-21 20:56
百度一季度业绩表现 - 公司一季度总营收325亿元,核心净利润同比增长48%至76.3亿元 [1] - 云业务增速达42%,无人驾驶服务萝卜快跑全球累计提供超1100万次出行服务 [3][7] - 云业务连续数个季度增长,AI相关云服务需求上升带动业绩 [4] 云业务技术优势与市场表现 - 公司发布四款大模型,文心4.5 Turbo多模态能力超过GPT-4o,输入价格低至0.8元/百万token [4] - 智能云千帆平台接入上百个主流大模型,调用价格更低,兼容MCP协议提升开发效率 [6] - 2025年Q1大模型招投标中,公司以19个中标项目、4.5亿元金额领跑行业 [6] 智能驾驶业务进展 - 萝卜快跑一季度提供超140万次出行服务,同比增长75%,安全测试里程超1.3亿公里 [7][9] - 第六代无人车量产成本降至20.46万元/台,为Waymo成本的1/7 [9] - 业务拓展至迪拜、阿布扎比,并计划进入瑞士、土耳其市场 [11] AI应用战略与产品落地 - 公司坚持"面向应用发展"战略,通过大模型迭代降低开发者成本 [14][15] - 百度APP MAU达7.24亿,文库AI功能MAU9700万,网盘AI MAU超8000万 [18][19] - 发布数字人、超级智能体等AI应用,无代码工具秒哒开放全社会使用 [19] 资本市场反应与行业趋势 - 桥水基金和富达投资一季度增持公司股票近十倍 [22] - 2025年AI需求成为投资主线,公司业务覆盖算力、大模型、应用及出海赛道 [22][23]