Workflow
讯飞星火X1
icon
搜索文档
AI幻觉成WAIC首个关键词,Hinton敲响警钟,讯飞星火X1升级展示治理新突破
量子位· 2025-07-28 10:26
行业趋势 - 2023年WAIC大会将"幻觉"列为首个热议话题,反映AI可靠性问题已成为全球技术焦点[1][12] - 行业进入Agent元年与具身智能量产元年,大模型落地应用呈现爆发态势[11] - 国际学界与产业界罕见联手推进AI安全研究,OpenAI、谷歌、Anthropic等40余家机构联合发布CoT监测论文[9][21] 技术突破 - 讯飞星火X1升级版在幻觉治理取得突破:事实性幻觉率降至9.52%(对比GPT-4的14.23%),忠实性幻觉率仅2.39%[7][30] - 采用多路径采样验证+事实性约束强化学习技术,实现慢思考模式下幻觉率显著低于主流模型[29] - 强化学习框架创新:通过"评语模型+细粒度反馈"解决奖励稀疏问题,数学推理步骤准确率提升至90.16%[27] 模型性能 - 综合能力对标国际一流模型,数学能力突破140分(高考数学一卷),最后难题完整解答率100%[31] - 多语言覆盖130+语种,语音同传模型实现语种免切换技术,实时响应与专业术语处理领先行业[32][37] - 医疗大模型在三甲医院双盲测试中,心血管内科诊断合理率达91.2%,超越主治医师水平[40][41] 产业应用 - 教育场景实现全链路升级:数学步骤批改F1值83.4%(较竞品提升20.7个百分点),英语口语学习可用率92.3%[39] - 代码大模型赋能100+企业,项目级代码理解使研发效率提升超50%,集成16000+工具构建Agent平台[42][43] - 技术落地形成闭环:从数据反写引擎(降低70%标注成本)到医疗/教育/工业全场景渗透[28][44][47] 学术观点 - 诺奖得主Hinton提出人类与AI认知同源论,指出数字化大脑在知识传递效率上远超生物大脑[3][15][16] - 郑南宁院士强调幻觉成因在于统计相关性驱动缺乏因果推理,导致多轮对话中系统性误导风险[18] - 技术演进双路径:短期需攻克幻觉等可靠性难题,长期需建立可持续的信任机制[25]
OpenAI计划推出GPT-5,关注创业板人工智能ETF(159388)
每日经济新闻· 2025-07-28 09:45
OpenAI GPT-5发布计划 - OpenAI计划2025年8月初发布GPT-5模型 首发包含mini和仅限API调用的nano版本 意在统一语言模型与推理系统 加快AI体验集成化 [1] - CEO Altman称GPT-5为AI能力重大跃升 或助力微软Copilot等产品实现模块升级 [1] - GPT-5将通过免费或低门槛API策略 加速商业化落地与市场渗透 推动AI产业步入新一轮增长期 [1] 国产AI大模型进展 - 阿里通义千问发布Qwen3-Coder系列 具备出色代码生成与Agent能力 多项指标达成开源SOTA表现 [1] - 讯飞星火X1升级版基于国产算力 强化推理 多语种与幻觉治理能力 [1] - 字节Seed团队推出机器人模型GR-3 支持柔性操作与复杂任务执行 [1] - 2025世界人工智能大会于上海召开 阿里发布首款自研夸克AI眼镜 融合通义千问与阿里生态能力 支持导航 支付 比价等多场景应用 [1] 英伟达H20芯片供应恢复 - 英伟达H20芯片在国内恢复供应 或将成为推动本土大模型加速迭代的重要契机 [2] - H20在集群互联与软件生态方面具备显著优势 其重新开售有望带动下游AI企业加大在算力基础设施方面的投入 [2] - 预计H20将进一步提升模型性能表现 助力AI在B端与C端场景中的快速落地 加速人工智能产业链的发展进程 [2] TMT产业链投资机会 - 考虑到成长风格近期已有所表现 以及国内M1的持续超预期上行 TMT产业链是较好的高切低选择 [2] - 可适当关注计算机ETF(512720) 创业板人工智能ETF(159388) 芯片ETF(512760) [2]
讯飞星火 X1升级,幻觉治理领先业界主流模型
齐鲁晚报· 2025-07-26 10:46
科大讯飞星火X1大模型升级 - 讯飞星火X1在事实性幻觉治理和忠实性幻觉治理方面取得显著突破,大幅提升生成内容的可靠性和行业应用价值 [1] - 新版本综合能力对标OpenAI o3等国际一流大模型,多语言能力扩展至130余种,并在翻译、推理、文本生成等核心能力上表现突出 [1] - 基于多路径采样验证及事实性约束强化学习的原创技术,有效降低慢思考下的幻觉率,提升通用常识和专业知识回复的可靠性 [2] 技术性能与数据对比 - 在基础能力测试中,星火X1文本生成准确率达90.43%,数学能力90.16%,均优于或接近OpenAI o3和DeepSeek竞品 [3] - 公开测试集表现亮眼:AMC-2024准确率88%,MMLU-Pro 83.95%,SuperGPQA 59.26%,部分指标领先国际对手 [3] - 幻觉专项测试中,事实性幻觉率仅9.52(越低越好),显著优于OpenAI o3的11.11和DeepSeek的12.80 [3] 行业应用落地 - 语音同传首字响应速度快至2秒,综合翻译质量提升20%,流畅度接近母语交流水平 [8] - 教育领域实现作业批改、个性化推荐、答疑辅学等能力升级,巩固行业领先优势 [8] - 医疗大模型覆盖全科辅助诊断至专科诊疗链条,在华西医院等顶级医疗机构试点效果行业领先 [9] 战略地位与政策支持 - 公司董事长两度出席国家高规格企业家座谈会,成为人工智能领域唯一代表,凸显国家级战略背书 [4] - 公司担任国家人工智能标准化总体组大模型专题组联合组长等多项核心职务,主导智能语音国家级技术标准创新基地筹建 [4] 技术创新路径 - 开创性采用人类专家数据反写技术,解决高质量SFT数据获取难题,提升主观任务文笔和风格化水平 [3] - 将评语模型与细粒度反馈强化学习结合,通过文本指导优化数学推理训练效率,突破传统数值奖励局限 [8]
科大讯飞(002230):发布25H1业绩预告,AI能力持续升级
国投证券· 2025-07-23 10:33
报告公司投资评级 - 投资评级为买入 - A,维持评级,6 个月目标价 61.29 元,2025 年 7 月 22 日股价 47.52 元 [4] 报告的核心观点 - 科大讯飞 2025 年上半年业绩良好,营收和毛利同比增 15%-20%,归母净利润同比增 30%-50%,扣非净利润同比增 17%-34%,销售回款约 103 亿元,经营现金流净额增长超 7 亿元 [1] - 基于"讯飞星火大模型"的 AI 硬件在"618"电商节销售额同比增 42%,AI 学习机半年度收入翻番增长,教育和医疗领域 AI 能力提升,深度推理大模型星火 X1 升级,有望在政府和企业端加速落地 [2][7][9] 报告各部分总结 事件概述 - 公司发布 2025 年上半年业绩预告,营收、毛利、归母净利润、扣非净利润同比均有增长,毛利增长超 6 亿元,销售回款较去年同期增长约 13 亿元,经营现金流净额增长约 50% [1] - 7 月 17 日,公司发布科大讯飞 AI 学习机暑期 16 大升级,涵盖多项 AI 能力提升 [1] 上半年业绩表现 - 2025 年上半年营收和毛利同比增长 15%-20%,核心业务健康发展,TO C 业务快速增长 [2] - 基于"讯飞星火大模型"的 AI 硬件在"618"电商节销售额同比增长 42%,AI 学习机连续三年位居京东及天猫"618"全周期销售额榜首,半年度收入翻番增长 [2] 教育领域拓展 - 校内智慧教育构建全场景产品体系,截至 2025 年 6 月,智慧教育产品服务全国 32 个省份、5 万余所学校、1.3 亿师生 [2] - AI 黑板持续推广,截至 2025 年 4 月,已在 33 个省级行政区、1200+个区县规模化应用,赋能超 230 万教师 [3] - AI 学习机能力升级,6 月 24 日发布会展示多项功能升级,三大核心功能均有重大提升 [3] 医疗领域进展 - 6 月 17 日,讯飞星火医疗大模型以综合得分 95.4 登顶中文医疗大模型权威评测平台 MedBench 榜单,多项核心能力位居第一 [7] - 星火医疗大模型自 2023 年发布以来在关键技术领域持续进展,智医助理在全国 31 个省市的 692 个区县、超 7.4 万家基层医疗机构应用,服务超 220,000 名基层医生 [7] 大模型升级 - 2025 年 4 月,讯飞星火 X1 实现全新升级,通用任务效果显著提升,泛化性进步,首发快思考、慢思考统一模型,有三大核心技术创新 [8] - 该模型构建起自主可控的国产大模型体系,为国内 AI 应用打下基础,有望在政府和企业端加速落地 [9] 投资建议 - 预计公司 2025/26/27 年实现营业收入 283.42/327.83/375.32 亿元,实现归母净利润 8.71/12.82/16.88 亿元 [10] - 采用 PS 进行估值,维持买入 - A 的投资评级,给予 6 个月目标价 61.29 元,相当于 2025 年 5 倍动态市销率 [10] 财务报表预测和估值数据 - 给出 2023 - 2027 年利润表、资产负债表、现金流量表相关数据及财务指标,包括营收、成本、利润、各项费用率、偿债能力、分红指标等 [13]
人工智能应用场景加速拓展
经济日报· 2025-07-03 06:03
人工智能行业发展 - 人工智能作为战略性技术应用场景广阔,正深刻改变人类生产生活方式,涵盖智能助手、具身智能、个性化服务等AI原生产品和服务 [1] - 生成式人工智能迎来爆发式增长,成为驱动经济社会发展的强大引擎,国内"百模大战"逐渐收官,行业进入巨头竞争阶段 [2] - 我国10亿参数规模以上的大模型数量超过100个,行业大模型深度赋能千行百业,形成上百种应用模式 [2] 大模型技术进展 - 科大讯飞星火大模型已在教育、医疗、汽车、金融、工业、能源等领域全面落地应用,并发布基于全国产算力平台的讯飞星火X1模型 [2] - 未来大模型将更加注重多模态信息融合,实现跨模态交互与复杂场景理解,提高智能化水平 [3] - 国产芯片技术成熟度和计算能力逐步逼近全球领先水平,大模型开源生态体系建设正在加快完善 [3] 人形机器人发展 - 优必选科技推出的天工行者人形机器人具备20个自由度,能以每小时10公里速度奔跑,已进入交付期,预计两年后实现万台级别交付 [4] - 工信部等7部门将人形机器人排在"创新标志性产品"首位,10余个省市出台政策支持具身智能/人形机器人产业发展 [5] - 人形机器人关键技术体系基本建立,已在教育科研、商超药店、汽车制造等领域应用,5年内有望迎来AGI时代 [5][6] 人工智能应用前景 - 人工智能在消防、采矿等领域应用可显著降低人员安全风险和投资成本 [6] - 智能机器人预计将在农作物作业、港口自动化等行业获得规模化运用 [6] - 真正先进的人形机器人需要能自主识别、理解、感知并执行动作,解决实际问题 [6]
十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一,马斯克的Grok 3遭遇“滑铁卢”
每日经济新闻· 2025-06-10 21:53
测评结果 - 国产大模型DeepSeek-R1与腾讯混元T1在117分标准化试卷测试中以零错误并列榜首,均获得117分满分 [1][4] - 讯飞星火X1以112分紧随其后,因填空题自我怀疑导致答案不完整 [5] - Gemini 2.5 Pro、OpenAI o3、阿里千问Qwen3和豆包深度思考模式得分均超100分,分别为109分、107分、106分和104分 [7] - Grok 3表现意外,仅得91分排名倒数第三,主要因多选题理解失误 [8] - 智谱清言推理模式得78分排名倒数第二,因逻辑崩溃导致失分 [8] - Kimi k1.5因压轴大题失误得分最低 [10] 测评标准与方法 - 以2025年全国新课标数学I卷(总分150分)为考题,移除图形/图表题后形成117分标准化试卷 [3] - 部分模型因"重要考试期间"限制未参与图形题测试,如讯飞星火X1、豆包深度思考和智谱清言推理模式 [2][3] - 对无限制模型(如Gemini 2.5 Pro)仍测试完整150分试卷以评估最高水平 [3] - 扣分标准遵循高考规则,但解答题仅按结果计分 [3] 模型表现细节 - DeepSeek-R1与腾讯混元T1在代数计算和函数题中展现极高稳定性 [4] - 讯飞星火X1在填空题中因自我怀疑仅输出部分正确答案("2"而非"±2") [5] - Grok 3在多选题中固执输出单一答案,导致部分失分 [8] - 智谱清言推理模式多次在最终推理步骤崩溃,陷入逻辑循环 [8] - Kimi k1.5在压轴大题上表现最弱 [10] 行业技术现状 - AI推理大模型在固定步骤和严密逻辑的数学问题上能力较强 [10] - 涉及抽象和创新思维的题目仍是当前模型的局限性所在 [10]
损失达几十亿?美的回应北美空调事件:不存在缺陷系主动召回;DeepSeek核心高管离职创业;传华为Pura X有新开屏方案
雷峰网· 2025-06-10 08:28
小米中国区人事调整 - 小米集团副总裁王晓雁兼任小米之家总经理,原总经理王辉转任销售管理部总经理 [4] - 王晓雁2019年加入小米,先后负责电商部、销售运营部、新零售部等业务,在外部挑战下实现业务稳中求升 [4] - 截至3月底小米中国区线下零售店达16000家,预计年底将达20000家 [4] - 小米计划未来5年在海外开拓10000家门店,已在香港试点并开始全球铺开新零售模式 [5] DeepSeek高管离职创业 - 原DeepSeek核心高管(疑似CTO)半年前离职创业,计划2025年圣诞节前后发布Agent产品 [7] - 创业项目已获IDG资本融资,但IDG相关人士表示"不予置评" [7] - DeepSeek内部并无明确CTO职位,但有承担相应职能的人士 [7] 大疆影像团队负责人离职 - 大疆影像系统奠基人曹博离职,其参与推动了大疆8K超清领域实践 [8] - 曹博在内部评价极高,技术能力强且为人随和,离职前在上海和深圳都受到团队欢送 [8] - 影像团队大部分成员由曹博招募,被称为"大疆功勋" [8] 美的北美空调召回事件 - 美的召回美国及加拿大地区销售的U型窗机空调,美国市场已售170万台,加拿大市场售4.59万台 [9] - 召回原因为空调积水可能导致霉菌滋生,美的强调是主动召回而非强制召回 [9] - 美的表示产品不存在设计或制造工艺缺陷,符合北美市场标准,将为用户提供退款退货等多种解决方案 [10] 比亚迪日本市场表现 - 5月比亚迪在日本上牌量达416辆,首次进入日本进口车品牌榜前十 [20] - 2024年比亚迪在日销量2221辆,同比增长10%,电动车销量已超越丰田 [21] - 计划2025年底在日本设立100家门店,将引入插混车型和轻型纯电K-Car EV [20][21] 特斯拉全球销量情况 - 前4月特斯拉全球销量Top10国家中,仅加拿大同比增长57.2%至1.58万台 [26] - 美国市场销量17.37万辆(同比下滑9.4%),中国市场16.63万辆(同比下滑3.1%) [27] - 加拿大市场前景不明朗,因政府计划将特斯拉剔除电动车补贴范围 [27] 苹果WWDC动态 - 苹果承认AI加持的Siri升级仍需时间,短期内不会推出 [30] - 向开发者开放基础模型,推出全新"液态玻璃"界面设计,这是iPhone自2013年来首次OS设计更新 [30] - 简化软件版本命名方式,采用年份命名,iOS 26等系统公测版将于7月发布 [30] Neuralink与Grok合作 - Neuralink为渐冻症患者植入脑机芯片,使其通过意念输出文字 [32] - Grok可补全语句并创建患者声音克隆,帮助其重新"发声" [32] - 该技术已获FDA"突破性设备"认证,用于帮助严重语言障碍患者 [32] 高通收购英国芯片公司 - 高通以约24亿美元现金收购英国半导体IP企业Alphawave Semi [33] - 收购价格较3月31日收盘价溢价95.7%,Alphawave股东可选择兑换高通股票 [33] - Alphawave的SerDes等高速互联IP资产对高通芯片大型化发展具有重要价值 [33] 拼多多布局"谷子经济" - 拼多多旗下快团团内测"拼谷团购"业务,专为二次元周边产品打造 [13] - 2024年中国"谷子经济"市场规模达1689亿元,同比增长超40% [13] - 预计2029年市场规模将达3089亿元,市场处于高速增长期 [13] 京东健康人事变动 - 原抖音生活服务市场营销负责人王丁虓加入京东健康,任市场营销部总经理 [10] - 王丁虓曾任职字节跳动7年,负责商业化华北营销中心等业务 [11] - 京东近期管理层调整频繁,零售产研团队持续变动 [12] 速卖通德国站发展 - 速卖通德国站开放本地商家入驻,安克、添可、科沃斯等品牌已入驻 [17] - 本地发货商品打上Local+标识,最快可3日达 [17] - 安克新款割草机器人在德国站一周销售额突破1万美元 [17] 科大讯飞大模型进展 - 讯飞星火X1升级版将于7月推出 [24] - 在模型参数较小情况下,效果对标OpenAI o1和DeepSeek R1 [24] - 在三方评测中,语文和英语作文得分位列主流大模型榜首,数学得分突破140分 [24]
深度推理模型写高考英语作文谁更强?记者实测,名校英语教师点评
贝壳财经· 2025-06-09 09:24
大模型高考英语作文测评结果 - 讯飞星火X1以平均分19.5分排名第一,内容完整且紧扣主题,语言准确句式多样,结构清晰段落衔接自然 [22][27] - DeepSeek R1以平均分19分排名第二,内容详实建议具体,理由全面语言精准,但超字数限制被扣分 [7][27] - 百度文心X1以平均分18.5分排名第三,内容创新建议详实,理由充分语言优秀,结构合理过渡流畅 [26][27] - 通义千问Qwen3以平均分17分排名第四,内容基本完整建议合理,语言准确表达得体,但理由稍简略 [14][27] - ChatGPT o3以平均分14.5分排名第五,内容覆盖要点但理由浅显,语言有错误句式单调,结构发展不足 [10][27] - 腾讯混元T1以平均分13分排名第六,内容基本相关但理由泛泛,语言口语化句式简单,结构松散结尾随意 [19][27] 大模型英语写作能力分析 - 各模型均能完成写作任务,但在内容细节、逻辑关系、观点表达精准性等方面差异较大 [27] - 部分模型语法句法选词精准到位逻辑清晰,部分模型逻辑性欠缺展开不够具体深入 [28] - AI作文立意创新性强于真实考生,因信息搜索整合能力更强,但句式丰富度不及优秀考生 [28] - 模型内嵌评分标准和写作方向差异明显,内容简繁程度与内部数据库密切相关 [28] 国内大模型近期发展动态 - DeepSeek于5月28日更新R1-0528版本 [29] - 腾讯于5月21日迭代混元T1和混元Turbo S [29] - 阿里巴巴于4月29日开源新一代通义千问Qwen3 [29] - 百度于4月25日发布X1 Turbo [29] - 科大讯飞于4月20日升级讯飞星火X1 [29] - 4-5月国内主流大模型集中进行推理层面更新,带来英语写作等能力进步 [29]
看好了,这才是7家大模型做高考数学题的真实分数。
数字生命卡兹克· 2025-06-09 06:05
AI数学能力测试 - 测试目的是公平客观评估大模型的纯数学能力,采用2025年数学全国一卷,剔除解答题和图表题,所有题目转换为LaTeX文本格式输入[1] - 测试规则严格:单选题7道每题5分,多选题3道每题6分(漏选扣分),填空题3道每题5分,每道题运行3次按正确率计分,关闭联网和代码执行功能[3][5] - 参与测试的模型包括OpenAI o3、Gemini 2.5 Pro、DeepSeek R1、豆包1.5-thinking-pro、混元T1、千问3(235B)、讯飞星火X1等7个主流推理模型[5] 测试结果分析 - Gemini 2.5 Pro表现最佳,总分68分中无任何错误,尤其在第九多选题上唯一全对[7][10] - 豆包、混元、星火组成第二梯队,仅第九题漏选一个选项[10] - DeepSeek R1因第11题多余回答导致扣0.7分,排名第五;千问3和OpenAI o3因填空题错误垫底[7][10] - 测试发现当前大模型数学能力已显著提升,与2023年相比差距明显,主要错误源于输入格式而非推理能力[10] 测试方法论价值 - 采用LaTeX格式避免OCR识别误差,确保测试的是数学能力而非图像识别能力[1] - 多次运行取平均分的设计有效减少模型幻觉影响[3] - 该测试方法为AI能力评估提供了标准化范例,强调技术中立和流程严谨的重要性[10]
以“AI质造”引领未来 科大讯飞股份有限公司以质量管理创新实践打造AI行业质量标杆
中国质量新闻网· 2025-05-29 15:39
公司发展理念与战略 - 秉持"顶天立地"发展理念 坚持核心技术自主创新与规模化应用并重 构建全链条质量保障体系 [1] - 以"用人工智能建设美好世界"为使命 走中国特色AI企业发展之路 [1] - 董事长刘庆峰强调自主可控是中国人工智能发展的必由之路 [2] 技术标准与行业领导力 - 2023年牵头发布两项人工智能国际标准 实现两个"首个":全球首个人机交互领域智能语音交互国际标准 首个中国牵头的人工智能数据质量国际标准 [1] - 截至2024年底主导和参与制修订国际国家标准100余项 覆盖教育金融等多个重点领域 [2] - 讯飞星火智能体开发平台获中国信通院4+级评级 为国内首批最高评级企业 [2] 核心技术突破 - 联合华为打造全国产算力平台"飞星一号"及"飞星二号" 提供自主可控算力基座 [2] - 讯飞星火X1大模型以更少算力实现业界一流效果 通过算法优化与硬件适配协同创新 可支撑世界一流大模型研发 [2] - 运用AI技术驱动研发生产效率提升 将大模型技术深度融入产品研发全流程 实现质量闭环管理 [3] 行业应用与数据优势 - 在医疗教育等刚需领域持续深耕 积累海量高质量专业数据 反哺行业专业大模型训练 [3] - 医疗教育等重点领域AI产品已实现规模化应用 为行业数字化转型提供支撑 [3] - 通过真实场景验证持续优化产品体验 鼓励员工多试多用多实践 [3] 社会价值创造 - 将社会价值作为检验产品质量最高标准 从改善基层医疗到促进教育均衡发展 [4] - 强调既要核心技术也要解决社会刚需 创造经济效益和社会效益 [4] - 通过质量实践展示中国AI企业的技术深度与人文温度 [4]