可信AI
搜索文档
AI改造最难啃的行业,万亿基建求解“效率”与“可信”
21世纪经济报道· 2025-11-04 09:51
行业宏观背景 - 全球基础设施行业面临变革,预计到2025年建设支出将达到10万亿美元,但行业生产率数十年来几乎未有改善 [1] - 人工智能被视为破解行业困局的关键契机,能提升效率并改变工作方式 [1] - 与消费互联网领域不同,AI在基础设施领域的融合相对艰巨,对信任、数据、安全和人才要求极高 [1] AI应用现状与价值 - 约一半的基础设施领域受访者已在试点或实施AI,并计划推广至全组织 [4] - 约三分之一的机构预测,三年内AI将应用于其超过一半的设计与工程项目 [4] - AI的价值在于自动化复杂任务、优化决策流程,并推动数据驱动的工作方式 [4] - 案例显示AI可实现显著效率提升:中国工程公司使变电站运行效率提升超过60%,土耳其项目将开发周期从五年压缩到一年,成本降低超过75% [4] 具体AI产品与应用场景 - Bentley软件推出AI助手Bentley Copilot,具备上下文感知能力,能引导用户操作、调用文档和修改模型 [5] - OpenSite+软件帮助项目交付速度提升10倍 [5] - Open Utilities Substation+支持多设计师实时协同建模,减少施工错误和返工 [5] - SYNCHRO+通过AI快速探索施工序列,生成效率更高的可操作结果 [5] - 计划2025年11月为Open Roads、Open Rail设计软件加入可自动生成图纸标注的AI智能体 [6] - 在中国市场推出生成式AI设计产品iPID,可将工作效率提升10倍以上 [6] AI战略核心与数据基础 - AI战略核心是"可信AI",根植于基建场景的专业智能,而非通用大模型 [7] - 训练AI模型的数据取自真实的项目数据、地理信息数据、企业历史数据及工程数据,且均经过企业授权 [7] - 基础设施人工智能必须立足于现实世界环境,以实现AI赋能人类工程师 [2] 行业挑战与解决方案 - 数据孤岛是首要难题,解决方案在于开放、统一的数据基座 [8] - 工程逻辑的严谨性是第二重挑战,破局方法在于将工程逻辑嵌入AI [8] - 场景适配的复杂性是第三重考验,需应对地理环境、气候条件等独特因素 [9] - 企业与Bentley的深度共创,如"基础设施AI共创计划",让用户参与AI工作流设计 [10] 未来趋势与愿景 - 基建AI已从"单点技术突破"进入"全周期生态协同"新阶段 [10] - AI将帮助工程师在时间、成本、质量的铁三角中实现多重目标 [10] - 在可预见的未来,AI是人机协作过程,愿景是赋能工程师而非取代 [11]
善友探索流 01|从天才到归真:吴明辉的“悟道”之路
混沌学园· 2025-10-30 19:22
公司发展历程 - 创始人吴明辉拥有深厚的技术背景,本科保送至北大基础数学系,研究生保送至计算机系人工智能专业,博士进修多模态大模型方向[1][7][10] - 早期创业项目“秒针系统”专注于互联网广告监测,通过提供真实流量数据成为行业标准,并服务宝洁等大型客户[21][22][25] - 公司在2012年面临广告监测业务增长天花板,开始寻找第二曲线,内部孵化广告推荐系统,外部注册新公司“明略数据”[29][30] - 2018年、2019年明略与秒针合并,公司通过并购成为数据赛道第一大公司,并融资两轮各20亿,账上现金超10亿[1][40] - 2020年底收购企业微信SCRM工具夜莺科技,旨在获取企业微信内的销售数据用于AI训练[40] - 2021年因战略节奏失控、过度扩张导致资金链断裂,未能完成5亿美金融资,团队裁员95%[44][45][47] - 2022年底至2023年逐步偿还员工离职补偿,腾讯在危难时提供资金支持[48][55][56] - 近期公司拟通过港交所上市,并在IPO前发布新产品Mano和DeepMiner[2] 核心技术产品 - 新推出的网页GUI智能体Mano在Mind2Web与OSWorld两大国际权威基准上刷新纪录,双双登顶SOTA,具备在真实网页环境中完成复杂操作链的能力[1][17] - 专有大模型产品线DeepMiner正式亮相,专注于解决B端企业决策场景下AI的可信、可解释、可追溯问题[2] - DeepMiner的核心是链接企业内外部可信数据源,其数据分析全链路完全透明、可追溯,人类分析师可在任何环节进行提问和修改[68][69][70] - 产品具备强大的数据分析洞察能力,并链接到图像和视频生成能力,在效果广告领域可实现基于可信数据的内容生成和投放优化[71] - DeepMiner被定位为Foundation Agent(通用智能体),可裂变出多个垂直领域的智能体,终极目标是在各行各业帮助人类构建可信的AI决策模型[81] - 公司早期技术积累包括硕士论文研究的推荐系统和自然语言处理技术,为当前多模态大模型研发奠定了基础[16][17] 商业模式与战略 - 秒针系统通过坚持“中立第三方”定位,解决广告主与媒体间互信问题,并以数据作为结算标准成为行业基础设施[22][24][25] - 公司战略演进从广告监测到广告推荐,再到“everything的推荐”,最终聚焦于利用AI技术重塑数据驱动决策的商业模式[22][27][75] - 当前战略核心是利用AI新武器突破原有业务卡点,通过DeepMiner产品将数据分析能力赋能给更广泛的企业用户,降低使用门槛[61][67][74] - 公司选择To B赛道,认识到其难以爆发但需长期坚持的特点,愿景是打造可信的AI,成为商业决策的“守门员”[4][74][75][81] - 未来商业模式类似链家与贝壳的关系,DeepMiner有望成为承载各类数据服务的平台,而原有业务成为平台上的使用者[75] 行业趋势与定位 - 创始人经历了PC互联网、移动互联网、大数据和人工智能多个技术周期,公司业务随之持续迭代[2][32] - 行业趋势是AI从C端走向B端,从消费场景迈入企业决策,对AI的可信度要求越来越高[2][79] - 公司在AI时代的定位是解决商业社会中的数据造假问题,打造真正让人类信得过的可信AI[79][80] - 面对通用大模型的竞争,公司策略是在细分垂直领域深耕,通过Foundation Agent裂变出差异化、可落地的垂直智能体[81][85] - 行业存在创新空间,巨头无法覆盖所有领域,为具备独特定位和可衡量系统的创业者提供了机会[83][85]
如何驯服“侵入式AI”?从滥用无障碍权限到构建可信AI未来
36氪· 2025-10-23 12:13
文章核心观点 - AI代理滥用手机“无障碍功能”实现跨应用操作,虽带来便利但构成“侵入式AI”,存在严重的隐私和安全风险 [2][5][9] - 滥用无障碍权限的技术路径与恶意软件相同,已导致多起不正当竞争和诈骗案件,对用户经济利益构成直接威胁 [7][8][9] - 存在更安全的技术替代方案(如意图框架和API集成),但受商业成本和市场竞争驱动,部分厂商选择高风险的“捷径” [10][11][12] 技术原理与风险 - “无障碍权限”最初为残障人士设计,拥有更高系统权限,可读取屏幕内容和自动点击屏幕 [3] - AI代理使用该功能相当于获得“万能钥匙”,能实时监控和操控整个手机系统,访问所有应用内的敏感数据 [3][4] - 这种“侵入式”实现方式导致对用户数据的“过度、持续、侵入性的数据收集”,用户控制权旁落 [5] 实践案例与风险印证 - 2017年自动抢红包软件通过无障碍功能拦截微信数据传输,实现作弊功能并窃取用户信息 [7] - 2022年法院判决“红包猎手”等软件滥用无障碍功能构成不正当竞争,被告赔偿腾讯公司70万元 [8] - 2025年诈骗案件利用仿冒软件诱导用户开启无障碍权限,实现对手机的完全控制并威胁经济利益 [8] - 2025年“315晚会”曝光不法软件通过滥用无障碍功能窃取20亿条个人信息 [8] 安全替代方案 - 标准化接口(如意图框架和API集成)可使AI助手通过直接获取结构化数据完成任务,无需触及无关敏感信息 [10] - 苹果公司的AI实践表明,其在数据共享前会明确征求用户许可、告知共享内容,并与合作伙伴达成隐私保护协议 [12] - 该方法符合《个人信息保护法》的“最小必要”原则,交互流程和数据处理有明确协议规定 [10][12] 行业标准与商业博弈 - 2025年中国软件行业协会发布标准,提出禁止滥用无障碍服务、保障用户权益、双重授权等四项原则 [13][17] - 2025年广东省标准化协会团体标准《智能体任务执行安全要求》也明确禁止滥用无障碍服务 [10][14] - 部分厂商选择无障碍功能是出于商业成本考量,避免为不同手机厂商的框架进行开发和适配所需的经济和时间投入 [11]
打造AI“虚拟开发区”,广州黄埔全国首创可信AI赋能平台
南方都市报· 2025-09-12 11:19
项目核心:AI时代“虚拟开发区”与“湾区智城”平台 - 广州开发区、黄埔区将打造全国首创的AI时代“虚拟开发区”,深化产业数字化和数字产业化协同发展 [1] - “虚拟开发区”的坚实数字底座为可信AI先进赋能平台“湾区智城”,该平台于2025人工智能创新生态大会上正式发布 [1][3] - 平台旨在有效沉淀运用区内各大产业链数据资源,突破数据应用流通壁垒,引导聚集新型产业,打造辐射大湾区的AI产业共性平台 [1] “湾区智城”平台定位与核心特质 - 平台定位为面向黄埔区内众多规上企业的普惠AI赋能平台,核心特质是“可信” [1][4] - 平台将可信算力服务、可信智能体服务与可信数据空间融为一体,为数据交换流通共享创造安全可控环境 [4] - 平台通过融合“数据、算力、场景”关键要素,激活全产业链数字化转型场景价值,形成“数据筑基、场景赋能、模型落地”的AI产业发展新模式 [4] 平台对企业的核心价值与服务 - 企业借助平台可享受更低算力成本、更可信数据支撑,并可安全自由地开发交易AI智能体和数据产品 [1][4] - 平台为企业提供“一站式”AI定制方案,包括数据分析、挖掘、咨询、资产入表、交易等数据全栈服务,以及图形化开发工具等行业知识图谱 [5] - 企业可将训练出的AI行业模型及智能体在平台“上架”交易,实现“边用边赚”,平台将落地数据脱敏后沉淀为标准化数据产品 [5] - 企业可享“零租金算力+营收分成”优惠扶持,实现低门槛研发,加速创意转化为新质生产力 [5] 平台运营机制与五大中心 - 平台以“半公益、半市场”的国有平台为纽带,形成“产业数据沉淀—大模型训练—跨行业赋能—新数据反哺—AI产品流通交易”的正向循环 [4] - 平台计划打造五大中心:可信AI算力服务中心、产业孵化中心、可信AI中试基地、可信AI创新中心、人才孵化中心,以需求为导向培养AI产业人才 [5] 关键产品与技术合作 - 科学城数科集团数字员工中心自主孵化国内首个定位第五级AGI“组织者”阶段的数字员工“智小瞳”,具备理解使命、组织资源、自主行动等特性 [8] - “湾区智城”联盟产品启动,腾讯、阿里云、新华三、海康威视、图灵等企业带来各类AI技术创新应用,从技术研发到场景应用展现创新能力 [9] - 腾讯云表示将帮助科学城集团落地内部AI场景,并将成功方案辐射至黄埔区其他企业,共同提升区域AI水平,帮助企业降本增效 [9] - 阿里云希望借助平台持续提供智能算力技术支撑,推动其计算、AI大模型能力与区内产业结合,围绕高质量行业数据集建设等开展合作 [9] 算力基础设施支持 - “黄埔1号”智算推理集群一期项目已投入使用,可支撑大规模模型训练和推理 [9] - 黄埔区率先融入全国一体化算力网,落地全省首个“东数西算”结对子合作 [9] - 该区派发1000万元“算力券”,以“平价算力”助力AI项目先起跑再加速 [9] - 为支撑AI技术规模化应用,黄埔区积极布局“黄埔1号”智算推理集群,携手部署南网中试基地与数据采集训练场,构建“算力-算法-数据”全链条支撑体系 [10]
观点| 杜雨博士接受吴晓波频道专访:解读AI生成内容强制标识政策
未可知人工智能研究院· 2025-09-08 11:01
政策落地意义 - 政策是应对AIGC技术应用风险的及时且必要的监管举措 强制内容标识为AI生成内容贴上电子身份证 赋予公众知情权与选择权 成为防范风险和构建行业信任的第一道防线[3] - 政策标志着AIGC治理从行业自律迈向国家监管的成熟升级 形成行业标准先行探索与国家办法兜底规范的多层次治理体系[3] - 标识推动责任溯源与技术向善 确立谁生成谁发布谁负责的责任追溯机制 倒逼AI服务提供者与应用者审慎对待内容输出与传播[5] 核心防范目标 - 防范欺诈与虚假信息传播 AIGC技术能批量生成高度逼真内容 强制标识如同电子水印帮助公众辨别真伪[7] - 明确版权与内容归属 标注来源可有效厘清权利边界减少法律纠纷 保护原创生态[7] - 防止互联网数据污染 强制标注为数据构建隔离带 避免低质量AI生成内容被回收训练导致模型性能退化的恶性循环[7] 政策影响 - 引导内容创作从拼速度拼数量转向拼质量拼可信度 推动行业摆脱低水平同质竞争[8] - 净化训练数据池为技术迭代筑牢根基 在新闻金融医疗教育等高信任度领域为AI规模化应用提供准入许可[8] - 总体呈积极正向 不是给技术踩刹车而是为其铺轨和校准方向 让AI在健康轨道上发展[8] 长效治理配套 - 强化责任追溯技术支撑 需配合数字水印区块链等隐形技术确保AI内容从生成到传播可追踪溯源[11] - 从源头把控数据质量 行业需共建干净数据推动数据使用标准化[11] - 构建人加AI协同审核机制 形成机器初筛加人工重点核查模式 建立风险预警共享机制[11] - 加强公众AI素养教育 通过科普培训中小学教育及科普读物出版帮助公众正确认识AI能力边界[11] 国际监管对比 - 美国偏向行业自律加事后监管 联邦层面无统一强制标识法规 仅加州等州要求潜在标注并提供检测工具[15] - 欧盟采取风险分级严格监管 通过人工智能法案对生成式AI要求不可删除水印与训练数据版权披露[15] - 日本态度谨慎保守 依赖现有法律与指导方针 未出台新立法 企业应用AIGC时对数据安全与隐私顾虑较高[15] - 韩国通过人工智能发展与信任基础建设等基本法 试图在技术发展与信任监管间寻找平衡[15] - 中国路径特色鲜明 采用办法加国标组合拳 显式加隐式标识双轨并行 注重源头与过程管理 明确服务提供者与平台的共同责任[16] 企业影响与机遇 - 企业需应对技术改造成本 需在产品与流程中嵌入标识功能产生额外投入[17] - 企业需承担全流程管理责任 不仅自身生成内容要标识 使用第三方AI工具或分发内容时也需核验[17] - 企业面临违规风险提升 未按要求标识或冒充真人创作将面临明确处罚[17] - 可信AI成为核心竞争力 合规且内容优质的AI产品将更获用户信任建立品牌优势[20] - 合规技术赛道崛起 数字水印AI内容检测工具合规解决方案等需求激增形成新产业增长点[20] - 高质量内容价值凸显 低质AI内容被过滤后优质创意内容市场价值将进一步提升[20] 社会长期影响 - 对内容创作者行业将迎来洗牌 纯AI洗稿粗制滥造模式难以为继 创作者核心价值回归真知灼见独特视角与情感连接[26] - 对媒体行业是一场信任保卫战 权威媒体公信力优势进一步凸显 推动行业脱离流量导向回归内容质量本质[26] - 对社会信息生态强制标识如同为互联网修筑堤坝 防止虚假信息污染认知空间 守护公众对信息的基本信任[26]
不止是“更会画画”,Google发布Gemini 2.5 Flash Image,为何Adobe率先拥抱?投资人必读
36氪· 2025-08-28 18:07
产品核心突破 - 模型代号为Gemini 2.5 Flash Image-preview 精准解决AI图像生成三大痛点:角色不一致、修改需重绘、风格混乱 [3] - 实现多图无缝融合与角色一致性 支持IP系列插画和产品营销图生成 [6] - 通过自然语言对话式编辑调用世界知识库 支持精细化修改和手绘草图完善 [6] - 具备低延迟高响应特性 单张图片生成成本约0.039美元(0.2元人民币) [7] 产业生态整合 - Adobe旗下Firefly和Express深度集成该模型 赋能数百万设计师与营销人员工作流 [11][13] - 云端算力需求激增 推动Google Cloud等云服务商增长 [14] - 模型即服务(MaaS)商业模式巩固 催生API经济生态 [14] - 所有生成图片嵌入SynthID数字水印 保障版权溯源与合规性 [15][17] 行业影响与投资方向 - 广告营销、影视游戏、电商等行业将迎来AI降本增效 成本结构需重估 [19] - AI工具采纳率成为企业估值新因子 类似研发投入占比指标 [19] - 算力需求利好AI芯片(如NVIDIA)、光模块及数据中心产业链 [20] - SaaS平台通过整合顶尖模型提升用户粘性与ARPU值 [20] - 头部科技公司竞争聚焦模型性能、生态构建与商业化落地 [21] - 数据安全与版权保护技术投入成为风险评估核心要素 [22]
从“幻觉”到“可信”,漆远谈AI如何跨越“敢用”门槛
钛媒体APP· 2025-08-05 15:35
行业趋势 - 全球AI行业正从技术探索转向价值深耕阶段 焦点从技术突破转向实际应用[2] - 当前大模型产品同质化严重 市场趋近饱和[2] - 通用大模型市场格局已近收敛 但行业应用正迎来爆发 新技术突破仍可能带来变量[2] 公司战略 - 无限光年2025年实施双领域布局:横向以启智平台形成可复用AI基础设施 纵向深耕金融与科学智能两大核心领域[3] - 公司提出"灰盒大模型"理念 融合大语言模型概率预测与符号推理逻辑推理 破解AI幻觉问题[2] - 构建"双引擎技术体系" 将神经符号计算与大模型有机融合 形成精准计算-可控推理-透明决策闭环[9] 金融领域应用 - 指数动态定制方案将成分股覆盖从600只拓展至2600只 调仓周期从季度压缩至分钟级实时响应[4] - AI投研助手5分钟内完成单份财报全维度分析 效率较人工提升超90% 覆盖A股5364家上市公司且财务指标计算零误差[10] - 智能信贷分析整合多源信息实现自动化风控 提升中小银行普惠金融服务质效[10] - 金融专业培训通过智能化体系大幅提高员工知识掌握率[4] 科学智能应用 - 联合推出星河启智科学智能开放平台 聚焦科研者核心诉求[5] - 专为平台打造启智Lab算力服务平台 采用智能容错 动态部署 GPU/CPU融合技术[5] - 创新CPU/GPU融合调度 将分子生成研究流程从8小时压缩至1分钟 效率提升99.7%[6] - 平台已完成昇腾 沐曦等国产化芯片适配[7] 可信AI技术 - 透明化推理机制使AI决策过程清晰可见 增强用户信任[8] - 强化学系框架INF-Aspire支持双引擎高效调度 确保系统稳定运行[9] - 智能体应用在科学智能领域自动分解科研任务 在金融场景通过多智能体分工协作实现合规可控决策流程[12] 发展理念 - AI竞争不是算力或参数比拼 而是价值创造能力较量[12] - 技术需完成从能用到敢用再到好用的三重跨越[5] - 关键看能否解决真实场景问题 而非概念包装[12]
直击WAIC 2025丨无限光年创始人漆远:对场景的深度理解和精耕是可信AI价值释放的终点
每日经济新闻· 2025-07-29 21:56
行业趋势 - 人工智能产业正经历从技术崇拜到价值回归的本质转变 可信性成为变革的核心枢纽 [1] - 行业重点从通用大模型转向垂直领域模型和智能体开发 [3] - 技术发展需完成从能用 到敢用 再到好用的三重跨越 尤其在科研 金融 医疗等开放域场景 [7] 竞争格局 - 大部分赛道马太效应和先发优势不明显 个别细分领域可能存在 [5] - 未来竞争核心是价值创造能力而非算力或参数比拼 [1] - 技术没有绝对壁垒 真正的优势在于创新速度 [4] 产品战略 - 垂类大模型发展核心在于差异化的产品价值 需解决用户痛点 [4] - 产品市场匹配(PMF)成为下一阶段重点 需要行业深耕 [5] - 优秀合作伙伴能提升产品表现 行业积累形成优势 [4] 技术架构 - 可信AI架构包含三层: RAG检索增强生成层 强化学习奖励函数层 神经符号计算与深度学习融合层 [6] - 开放域场景需要结合行业知识定义奖励函数 解决真实场景问题 [6] - 2023年下半年强化学习应用后 大模型幻觉问题得到改善 [6] 展会规模 - 2025世界人工智能大会展出800余家企业 3000余项前沿展品 规模创历届之最 [1] - 展品涵盖40余款大模型 50余款AI终端产品 60余款智能机器人以及100余款全球首发或中国首秀新品 [1]
WAIC UP! 之夜:一场关于AI与人类未来的星空思辨
观察者网· 2025-07-29 15:07
活动背景与主题 - 威客引力主办的「WAIC UP! 之夜」活动于2025年7月27日在世界人工智能大会期间举办 主题为“AI有什么大不了” 聚焦技术、文明与人类未来的思辨 [1] - 活动旨在探讨AI技术普及背景下人类价值的核心命题 超越“岗位替代”或“奇点临近”的常规讨论框架 [4] - 2025年全球AI领域呈现中国大模型崛起、具身智能爆发、应用狂飙等趋势 AI技术正重塑世界格局 [3] 技术发展与创作变革 - AI技术实现创作领域的“平权革命” 例如虚拟偶像Yuri的案例显示AI降低创作门槛 强调创意(idea)价值高于工具本身 [8][10] - AI被定义为“创作维度的拓展者” 例如导演Junie通过AI放大十年创作积累 实现人机协同的混合心流状态 [10] - 技术面临被资本“规驯”的危机 需警惕在降本增效浪潮中丧失创作本质 [10] 人类价值与AI局限性 - AI擅长“三生万物”的扩展性创作 但人类核心价值在于“道生一”的原始创造能力 例如矿工诗人的生命体验构成算法无法复制的“人文孤本” [12][14] - 情感连接、真实体验与陪伴成长是AI无法取代的人类特质 杰弗里·辛顿指出AI将寻求更多控制权 但人类需守护本质特质 [14][18] - 人类行为数据成为训练AI的语料 碳硅共生时代需保持提出新问题的能力 [17] 教育与社会转型挑战 - AI导致90%工作去中心化 大学文凭加速贬值 教育需从“能力培养”转向“愿力激发” 回归生命影响生命的本质 [17] - 沟通能力、审美判断和共情力成为核心竞争力 跨学科素养构建完整知识体系 [17] - 高学历高薪岗位面临30%-50%替代风险 农业机械化淘汰体力劳动 AI将淘汰低阶脑力劳动 催生深度决策新职业 [31] 技术实践与行业应用 - 大模型面临Scaling Law局限性及决策不可解释性难题 上海交通大学团队提出“等效与或交互”理论 实现神经网络稀疏符号化解释 提升军事、法律、医疗等高敏感领域可信度 [25] - Hugging Face工程师强调开源对透明性的关键作用 通过opt-out机制保障被遗忘权 防止生成引擎优化(GEO)技术操控模型输出 [27] - 天文学领域通过“公众科学”游戏化(如星系迷宫分类天体)和AI协同智能(active learning机制)处理年增量相当于全球互联网流量的数据 [33] 人文与技术平衡 - 建筑师提出AI时代需守护情感空间 防止“一键生成”设计侵蚀集体记忆 重寻技术与人文的十字路口 [29] - 辩论环节聚焦专业技能与综合素质之争 专业技能派主张细分领域深度(如法律、蛋白质结构研究) 综合素养派强调跨界思维与审美力不可量化 [22][23] - 需构建性能与可信度兼备的AI生态系统 推动从“更大”模型转向“更深”和“更懂”的智能形态 [25] 技术展望与行业活动 - 场外设置知乎学术酒吧、AI春晚互动区、通义体验区等10余个主题区域 覆盖技术趋势、行业洞察与人文思考 [36] - 活动通过数字艺术、人机共创旋律及公益项目体现科技温度 形成开放智性交流平台 [36] - 杰弗里·辛顿比喻人类与AI关系如饲养小虎崽 需找到永久保护自身的方法 [36]
AI幻觉成WAIC首个关键词,Hinton敲响警钟,讯飞星火X1升级展示治理新突破
量子位· 2025-07-28 10:26
行业趋势 - 2023年WAIC大会将"幻觉"列为首个热议话题,反映AI可靠性问题已成为全球技术焦点[1][12] - 行业进入Agent元年与具身智能量产元年,大模型落地应用呈现爆发态势[11] - 国际学界与产业界罕见联手推进AI安全研究,OpenAI、谷歌、Anthropic等40余家机构联合发布CoT监测论文[9][21] 技术突破 - 讯飞星火X1升级版在幻觉治理取得突破:事实性幻觉率降至9.52%(对比GPT-4的14.23%),忠实性幻觉率仅2.39%[7][30] - 采用多路径采样验证+事实性约束强化学习技术,实现慢思考模式下幻觉率显著低于主流模型[29] - 强化学习框架创新:通过"评语模型+细粒度反馈"解决奖励稀疏问题,数学推理步骤准确率提升至90.16%[27] 模型性能 - 综合能力对标国际一流模型,数学能力突破140分(高考数学一卷),最后难题完整解答率100%[31] - 多语言覆盖130+语种,语音同传模型实现语种免切换技术,实时响应与专业术语处理领先行业[32][37] - 医疗大模型在三甲医院双盲测试中,心血管内科诊断合理率达91.2%,超越主治医师水平[40][41] 产业应用 - 教育场景实现全链路升级:数学步骤批改F1值83.4%(较竞品提升20.7个百分点),英语口语学习可用率92.3%[39] - 代码大模型赋能100+企业,项目级代码理解使研发效率提升超50%,集成16000+工具构建Agent平台[42][43] - 技术落地形成闭环:从数据反写引擎(降低70%标注成本)到医疗/教育/工业全场景渗透[28][44][47] 学术观点 - 诺奖得主Hinton提出人类与AI认知同源论,指出数字化大脑在知识传递效率上远超生物大脑[3][15][16] - 郑南宁院士强调幻觉成因在于统计相关性驱动缺乏因果推理,导致多轮对话中系统性误导风险[18] - 技术演进双路径:短期需攻克幻觉等可靠性难题,长期需建立可持续的信任机制[25]