AI幻觉

搜索文档
我的AI虚拟伴侣,背后是个真人客服?
21世纪经济报道· 2025-08-25 08:51
核心观点 - AI情感陪伴应用快速发展但伴随混乱和风险 Soul平台虚拟伴侣引发用户对AI与真人身份混淆的争议 涉及技术幻觉、隐私合规和人机边界问题 [2][10][23] 技术实现与产品特征 - Soul推出8个官方虚拟伴侣账号 最受欢迎男性角色"屿你"拥有69万粉丝 女性角色"小野猫"拥有67万粉丝 [6] - 平台采用自研Soul X大模型 基于过去七八年真实公域社交数据训练 专门针对社交场景优化拟人化特性 [10][23] - AI语音合成存在技术短板:稳定性问题导致高频句子逼真但低频句子机械 记忆局限导致对话前后矛盾 [11][12] - 语音合成采用16K赫兹采样率 每秒包含约1.6万个采样点 技术层面可实现方言、语气和背景音模拟 [11] 用户反馈与争议 - 用户遭遇AI自曝工作人员身份 详细描述工资、轮班制度和保密协议等细节 [3] - 虚拟伴侣出现索要照片、邀请线下见面等行为 有用户专程赴约空等两小时 [15][16][19] - 部分用户坚信背后存在真人轮班 推测"白天机器晚上人工" "一个客服负责40个用户"的运营模式 [8] - 平台聊天框上方标注"虚拟伴侣"提示 但界面设计与真人账号高度相似 紫色标签易被忽略 [22][24] 行业监管与伦理问题 - 美国多州提议要求AI伴侣每隔三小时发送"非真人"提醒 国内法规要求混淆性内容显著标注"AI生成" [27] - 训练数据可能包含真实交友记录 若清洗不到位会导致AI学习到偏见、歧视和骚扰话语 [21] - 行业内容风控采用500万组问答策略 覆盖宗教、种族、自残等敏感话题 但AI交往边界尚未形成共识 [21][22] 商业模式与数据使用 - 虚拟伴侣主动推送付费项目:索要约2.5元的小熊冰淇淋礼物 语音通话每十分钟收费2元 [24] - 平台明确收集用户与AI聊天内容 用于算法完善 训练数据包含多年积累的真实社交资产 [23] - 平台设置甜度榜机制 鼓励用户通过"踢榜"获得专属关注和评论 推动互动活跃度 [27]
GPT-5变蠢背后:抑制AI的幻觉,反而让模型没用了?
虎嗅· 2025-08-23 07:56
GPT-5用户反馈与幻觉特性 - GPT-5发布后用户普遍批评模型"变蠢"、"缺乏创造力"和"回答干瘪",主要因幻觉率显著降低导致输出更呆板[1][2][3] - 模型严谨性提升但主观能动性减弱,对编程和Agent构建有利,但消费级用户需求不高[3] - 模型变得被动,需详细提示词驱动,用户需重新适应提示词技能[3] 大模型幻觉原理与矛盾 - 大模型生成内容基于概率分布,创造力来自宽松概率分布,精准性需收紧分布导致创造力下降[5][6] - 行业曾批评高幻觉率并积极治理,但低幻觉率又引发模型回答不够好的矛盾[7][8] - 研究表明显著抑制幻觉会降低模型泛化能力,与全方位推广AI愿景相悖[10] 幻觉类型与分类 - 幻觉定义为AI生成与人类经验不符的内容,具相对性[14][15] - 分为五类:语言生成幻觉、推理逻辑错误、过度简化与常识错误、数据错误或无依据推理、时效性错误[17] - 语言生成幻觉最常见,如编造代码库或API[18];推理错误如Roo Code插件错误使用上下文[19];常识错误如建议不科学减肥方法[20];数据错误如医疗诊断偏差[20];时效错误因训练数据时间局限性[21] 企业应用中的幻觉影响 - 幻觉成本损耗取决于具体场景和用户差异,生产效率对比历史效率是关键[22][23] - 行政人员使用Cursor即使错误频出仍可能提升效率,而研发人员可能因效率降低弃用[24][25] - 负面影响分两类:易识别错误影响生产效率,难识别错误影响应用效果[37] - 关键决策领域(医疗、金融、法律)需最小化幻觉,高风险容忍场景(内容推荐、广告)可接受一定幻觉[27][28] - 企业设置"安全边界"平衡幻觉率与成本,过高增加风险,过低可能成本收益不匹配[29] 缓解幻觉的技术方法 - 主要方法包括合适模型选择、In-Context-Learning(ICL)和微调[30] - 扩大模型参数和训练样本缓解语言生成和过度简化幻觉[31] - ICL技术如Sequential Thinking MCP Server缓解逻辑推理错误[32],Context Server缓解时效性错误[34] - RAG广泛用于高精度行业但增加计算成本,微调可平衡成本与效果[35] - 小尺寸模型如Qwen3-0.6B适用于中低精度场景,微调成本较低[38] 微调与RAG/ICL对比 - 微调工程周期长,90%精力用于数据质量提升,需数周训练且需反复调参[63][64][65] - 基础模型更新频繁使微调成果易被超越,常需重新微调[66] - RAG部署仅需数天或数小时,知识库变更只需重新嵌入文档,实时响应信息变化[67][68] - ICL仅需构造prompt和示例,工程实现仅需几分钟到几小时,立即见效但依赖示例质量[70][71][72] 垂直领域模型与多智能体趋势 - 垂直领域模型在特定任务表现好但复杂推理和跨领域理解不足,成本收益不匹配[43][45] - 多智能体协同缓解幻觉效果一般,因模型偏好不同且可能复杂化简单问题[81][82] - 行业趋势将多智能体能力集成到商业模型,开源模型参数量变小但性能提升,用于设备端并行推理[86][87] - 示例包括Command R处理命令行任务,小模型处理特定领域任务[88][89] 思维链与错误本质 - 思维链幻觉如推理过程与结论无关、无效推理等影响企业应用,模型缺乏真正思维能力[92][93] - 模型错误因机械模仿训练数据套路,无法解决新问题时硬套套路导致错误[96] - 错误非上下文长度限制所致,而是算法架构和训练数据局限性[99] - AI适合处理重复性任务(70-80%问题),剩余问题暂不适合AI应用[101] 成本与行业应用趋势 - AI编程工具如Cursor采用原子化任务拆分避免信息过载[90] - Roo Code支持多模式(Architect、Code、Ask)按阶段委派任务[91] - 大语言模型在数据分析成本低,context覆盖数据时成本几乎为零[110][111] - 开发AI Agent工作量仅为传统软件工程的20-30%[113] - 传统机器学习在决策推理和复杂规划有优势,但大模型可低成本达到其60-70%水平[108] 技术发展与AGI方向 - 世界模型技术路线被看好,通过理解数据背后概念和原理实现真正思维[143][144] - 模型端侧部署自主浏览和更新知识,趋向AGI发展[145][146] - 当前token消耗问题被忽视,但开源项目如Roo Code优化token压缩[139] - 模型能力稳定后使用方式将优化,减少"大力出奇迹"方式[140]
AI幻觉频现 风险挑战几何
新华网· 2025-08-22 09:58
当前的大模型处于"我不知道我知道什么"的状态,缺乏对自身知识边界的准确判断能力。这些技术特性决定了AI 幻觉问题存在,需要通过多方面的技术改进来逐步缓解 当前,人工智能技术已进入大规模应用阶段,但AI幻觉问题日益成为制约其发展的关键瓶颈。面对这一挑战,我 们需要从技术创新、制度监管等多个维度构建综合治理体系 文 |《瞭望》新闻周刊记者 孙飞 陈宇轩 当前,人工智能技术快速发展,但大模型"自说自话"、一本正经"胡说八道"、生成偏离事实内容的问题日益凸 显,这一现象被称为"AI幻觉"。不少业内人士提醒,由于大模型主要基于概率生成文本而非逻辑推理,在短期内 难以完全避免此类问题。 《瞭望》新闻周刊记者观察到,AI虚构事实或逻辑混乱的"幻觉"已在法律、内容创作、专业咨询等多个领域造成 实际影响。 AI技术的发展方兴未艾,但确保其生成内容的真实性和可靠性,尤其需要技术开发者、监管机构共同努力。针 对"AI幻觉"问题,业界建议,在技术层面,要持续优化模型架构,增强事实核查能力;在监管层面,需完善相关 规范,明确责任边界。 幻觉频现 "AI幻觉"已经成为当前AI技术发展中最突出的技术瓶颈之一。从技术层面来看,AI幻觉的产生 ...
让AI“识破”AI
中国青年报· 2025-08-22 09:47
文章核心观点 - 南开大学计算机学院媒体计算实验室开发出新型AI生成内容检测技术 通过直接差异学习策略显著提升检测泛化能力和鲁棒性 在包含17个主流大模型的MIRAGE基准测试中保持85%以上准确率 较现有主流方法性能提升超68% [1][2][3][4] AI检测技术现状 - 现有AI生成内容检测主要存在两种路线:基于训练的检测方法使用特定数据训练专用分类模型 零样本检测方法直接使用预训练语言模型设计分类标准 [1] - 现有检测方法在复杂现实场景中表现不足 准确率从简单数据集的90%骤降至约60% 曾出现将《荷塘月色》《流浪草原》等人类作品误判为AI生成的情况 [2][3] 技术创新突破 - 研究团队提出直接差异学习优化策略 通过直接优化模型预测文本条件概率差异与目标值差距 使模型学习AI文本检测内在知识 精准捕捉人机文本深层语义差异 [2] - 该技术使检测器具备强泛化能力 仅学习过DeepSeek-R1文本也能精准识别GPT-5等最新大模型生成内容 [2] - 在MIRAGE基准测试中保持85%以上准确率 较斯坦福大学DetectGPT性能相对提升71.62% 较Binoculars方法性能相对提升68.03% [3] 测试基准建设 - 团队构建MIRAGE基准数据集 使用13种商用大模型(豆包 DeepSeek Kimi等)和4种开源大模型(Qwen等) 从AI生成 润色 重写三个角度构造近10万条人类-AI文本对 [3] - MIRAGE是唯一聚焦商用大语言模型检测的基准数据集 由17个能力强大模型联合构建 形成高难度且有代表性的检测试卷 [3] 行业发展动态 - OpenAI发布新一代GPT-5模型 DeepSeek ChatGPT 通义千问 豆包等AIGC国产大模型已成为生产力工具 [1] - AI幻觉问题日益凸显 生成看似合理的虚假信息 学术诚信受到冲击 AI率检测系统误判问题频发 [1] - 研究团队将持续迭代升级评估基准和技术 致力于实现更快更准更低成本的AI生成文本检测 [4]
AI超级储充网,度电潜能被激活
21世纪经济报道· 2025-08-21 20:44
人工智能与能源融合 - 人工智能与能源形成相互赋能和共生耦合关系 成为能源转型和效率提升的核心工具 [1] - 远景科技集团发布人工智能超级储充网络 融合储能、充电、人工智能调度与电力交易 涵盖充电网络、储能网络、智能微网和虚拟电厂网 [1] - AI与能源融合技术重塑电力行业运行逻辑 通用大模型提升能源办公效率 时序大模型精准把握电网运行状态 [1] 新能源发电优化 - AI通过分析历史气象数据和地理信息 优化风电场和光伏场选址 确保资源最大化利用 [2] - AI实时监控和分析风机运行数据 预测设备故障 实现预测性维护 减少非计划停机时间 [2] - 中国西北地区风电场应用智能算法 将弃风率压至3%以下 [2] - 金风科技利用AI大模型技术升级负荷预测系统 分析多源异构数据 帮助电网制定优化调度计划 [2] 极端气候应对 - 欧洲中期天气预报中心发布AIFS ENS模型 人工智能预报系统在准确性和速度方面升级 [3] - 极端气候条件下 气象数据需细化为雷暴、局部强对流等颗粒度 关联用电负荷短时剧烈波动 [3] - 系统必须依托人工智能处理气象、电网、交通等多源实时数据 支撑后续决策 [3] 大模型应用 - 能源企业依托自身数据和知识库 推出特定场景行业大模型 [4] - 国家电网推出"光明大模型" 提供智能写作、会议纪要、精准检索等智慧办公能力 [4] - "i国网"AI助手基于光明大模型在语义理解、任务执行效率和推理逻辑性方面显著提升 [5] 时序数据建模挑战 - 能源行业关键任务高度依赖时序数据建模 需要精准捕捉多时间尺度历史关联性 [6] - 需深度融合气象、市场、运行工况等多源异构信息 在毫秒至小时级时间分辨率上实现高精度预测 [6] - 语言大模型缺乏原生长时序依赖捕捉机制与跨模态特征融合能力 预测精度不足 [6] - 能源大模型应涵盖语言大模型、时序大模型和时空大模型 协同处理分析大量数据 [6] 电力预测与调度 - 南方电网建成国内首个适应区域现货市场的网省一体化人工智能负荷预测生态系统 [7] - 2023年对风电和光伏短期预测准确率分别达85%和91% [7] - 为南方电网非化石能源电量占比超50%提供支撑 基本实现每两度电中有一度零碳电 [7] - AI通过强化学习辅助安排电力传输和发电功率 降低网损 提高电网运行经济性 [8] 能源价值重构 - AI技术精准预测电价和负荷 辅助企业制定最优交易策略 [8] - 在零碳园区中 AI系统动态协调使用自发电、市电和储能电 将富余电量卖回电网 [8] - 重新定义"一度电"价值 从传统峰谷套利扩展至功率响应、频率调节等新型服务 [8] - 通过算法驱动实时优化 最大化一度电的价值 [8]
8点1氪|个人养老金新增三种领取情形;俞敏洪回应新东方CEO被调查;海口一单位招聘研究生月薪3000
36氪· 2025-08-20 07:58
个人养老金政策 - 人力资源社会保障部等5部门发布通知 新增三种个人养老金领取情形 包括医药费用负担超过当地居民人均可支配收入 领取失业保险金累计12个月 以及正在领取城乡最低生活保障金 自9月1日起实施 [2] 公司动态与市场表现 - 东方甄选股价跳水跌20% 公司辟谣新东方CEO被立案调查传闻 并启动报警和司法流程 [2] - 海口市龙华区发改委招聘临时聘用人员 研究生月薪3000元 本科2700元 薪资含个人缴纳五险一金且基本固定 [2][3] - 老铺黄金招聘珠宝销售顾问要求身高160-166cm 形象气质端庄 招聘方回应称最基本条件是能否穿下统一工装 [3][4] - 亚钾国际董事长郭柏春涉嫌挪用公款罪和滥用职权罪被逮捕 公司公告称事项与公司无关联 生产经营正常 [4][7] - 辛巴名下广东辛选控股入股杭州黑睛网络技术有限公司 [8] - 日本迷你岛便利店曝食品保质期造假 全国1600多家门店停售多种自制食品 [10] - 柯达公司官方声明没有停止运营或申请破产保护的计划 有信心完成债务偿还及再融资 [10] - 脉脉数据显示AI岗位数暴涨29倍 相关在招岗位超7.2万个 平均月薪4.7万至7.8万元 部分实习生日薪达4000元 [13] 汽车与交通行业 - 小米明确不参与汽车价格战 核心任务是汽车交付 经营亏损大幅收窄 有望下半年实现单季或单月盈利 [4][6] - 特斯拉Model 3全系标配转向灯拨杆 老车主加装需2499元 [5][6] - 韩国7月汽车出口额同比增长8.8%至58.3亿美元 对欧洲出口增加抵消对美出口下滑 [12] - 小鹏汽车第二季度营收182.7亿元 同比增长125.3% 汽车交付量103181辆 同比增长241.6% [17] 科技与电子产品 - 苹果首次将全部四款iPhone 17机型安排在印度制造 过去四个月印度iPhone出口额达75亿美元 [5] - 字节跳动否认将推出自有手机产品 表示仅探索AI能力开放给硬件厂商 [6] - 百度辟谣蒸汽机视频生成模型海外仿冒网址 将于8月21日推出2.0版本 [12][13] - 扎克伯格计划改革Meta人工智能业务 将AI部门拆分为四个小组 [13] - ChatGPT能耗比最初版本或高20倍 AI幻觉问题引发关注 [14] - Arm聘请亚马逊AI芯片专家Rami Sinno开发自研芯片 [14][15] - 宇树科技发布新款人形机器人预告 配备31个关节 [20] 零售与消费品 - 丹麦珠宝商潘多拉计划在中国市场关闭100家门店 并开启大规模裁员 [4][10] - 星巴克为北美所有领薪员工统一上调2%薪资 推进转型计划并管控开支 [5] - 泡泡玛特上半年营收138.8亿元 同比增长204.4% 中国区营收82.8亿元 美洲区营收22.6亿元同比增长1142.3% [16] - 华润啤酒上半年净利润57.9亿元 同比增长23% 每股派息0.464元 [19] 能源与半导体 - 泰国简化加密货币兑换泰铢流程 刺激旅游业 进行18个月试点 [4][7] - 美国商务部推进收购英特尔10%股份 考虑将109亿美元联邦补贴转换为股权 [9] - 软银与英特尔就收购合同芯片制造业务展开谈判 [12] - 韩国和美国可能签署能源领域投资协议 重点关注核电厂和生物能源产业 涉及1000亿美元能源产品采购 [11] 政策与法规 - 英国不再强制苹果提供"后门"访问加密数据 [4][9] - 海南优化个人所得税优惠政策 将合理离岛天数纳入居住天数统计 实际居住不得少于90天 [11] 企业财报 - 小米第二季度营收1160亿元 同比增长30.5% 智能电动汽车收入206亿元 交付新车81302辆 [15] - 中通快递上半年净利润40亿元 同比减少1.4% 收入227.233亿元 [18] 资本市场 - 加密货币交易所Figure Technology Solutions拟纳斯达克上市 代码FIGR 计划集资5亿至10亿美元 [20] - Nexstar以35亿美元现金收购电视台运营商Tegna 覆盖美国家庭比例将提升至80% [12]
“江湖骗子”为何总能混得风生水起
新浪财经· 2025-08-19 05:22
网络虚假信息现象 - 近期出现多起冒充权威身份进行诈骗事件 包括假冒中国科学院院士 农业主播和俄罗斯自然科学院院士等 这些骗局手法漏洞百出但持续存在并获利 [1][2] - 虚假信息形式包括编造假新闻 仿冒知名机构 虚构专家人设和电信诈骗 覆盖社会事件 养生 育儿和投资等领域 [5] - 受害者遭受经济损失和安全健康风险 网络环境受到严重污染 [6] 虚假信息传播机制 - 虚假内容生产者精通网络传播规律和流量逻辑 通过极端情绪化内容和迎合低俗功利心态吸引关注 [7] - AI技术被广泛应用于生成虚假内容 包括伪造名人形象 捏造热点事件和篡改历史 导致内容产量高且辨识难度大 [8] - 算法推荐系统加剧信息茧房效应 用户长期接收同质化内容导致认知窄化和判断力下降 [9] 信息验证困境 - 网络搜索和AI查询等传统验证渠道被污染 搜索结果常包含虚假信息 形成用谎言验证谎言的循环 [11] - AI回答存在幻觉问题 经常提供错误但看似专业的答案 进一步削弱用户辨伪能力 [12] - 过度依赖技术工具导致社会大众思辨能力被侵蚀 形成脑腐现象 [13] 治理与应对方向 - 需要强化监管和技术手段 平台应加强资质审核 优化流量分配机制并建立有效投诉渠道 [14] - 平台需扶持优质内容 与问题流量切割 打破劣币驱逐良币的困境 [14] - 提升公众网络素养 通过主动思辨和多方验证增强防骗能力 [14] - 建立完善机制和理性环境是根本解决途径 使虚假信息无处遁形 [15]
瞭望 | AI幻觉频现 风险挑战几何
新华社· 2025-08-18 15:20
当前的大模型处于"我不知道我知道什么"的状态,缺乏对自身知识边界的准确判断能力。这些技术特性 决定了AI幻觉问题存在,需要通过多方面的技术改进来逐步缓解 当前,人工智能技术已进入大规模应用阶段,但AI幻觉问题日益成为制约其发展的关键瓶颈。面对这 一挑战,我们需要从技术创新、制度监管等多个维度构建综合治理体系 文 |《瞭望》新闻周刊记者 孙飞 陈宇轩 当前,人工智能技术快速发展,但大模型"自说自话"、一本正经"胡说八道"、生成偏离事实内容的问题 日益凸显,这一现象被称为"AI幻觉"。不少业内人士提醒,由于大模型主要基于概率生成文本而非逻辑 推理,在短期内难以完全避免此类问题。 《瞭望》新闻周刊记者观察到,AI虚构事实或逻辑混乱的"幻觉"已在法律、内容创作、专业咨询等多个 领域造成实际影响。 AI技术的发展方兴未艾,但确保其生成内容的真实性和可靠性,尤其需要技术开发者、监管机构共同 努力。针对"AI幻觉"问题,业界建议,在技术层面,要持续优化模型架构,增强事实核查能力;在监管 层面,需完善相关规范,明确责任边界。 AI幻觉 AI辅助设计 / 本刊 幻觉频现 "AI幻觉"已经成为当前AI技术发展中最突出的技术瓶颈之 ...
芝麻企业助手上线,中小企业也能有自己的AI招投标经理了
36氪· 2025-08-18 10:58
产品发布 - 支付宝推出免费AI招投标助手"芝麻企业助手",面向中小企业提供智能标讯推送和投标策略分析服务[2] - 该产品是芝麻企业信用在企业AI应用领域的首个深度服务,未来将扩展至企业查询、采购验厂等更多场景[2] 市场痛点 - 中国有超6000万中小企业,仅不到10%(约500万家)参与过招投标[3] - 中小企业面临标讯获取不及时(每日更新20万条标讯)、专业人员不足(准备标书需100小时)、分析能力弱等痛点[3] 产品功能 - 智能推送:基于行业/地域/经营特征实现"千人千面"标讯推荐,比传统无差别推送更精准[3] - 深度分析:提供包含项目信息/同行分析/甲方分析/报价策略的完整报告,能力堪比资深招投标经理[4] - 报价策略:能分析历史中标价/甲方偏好/竞对策略,给出具体报价浮动百分比建议(如上浮5%)[4] - 企业查询:集成"AI查企业"功能,支持标讯调研时一键查询相关企业信息[6] 技术优势 - 依托芝麻信用2000万企业数据库,有效对抗通用大模型的"AI幻觉"问题[7] - 采用强化学习和在线学习架构,使模型能持续进化提升分析能力[7] 用户反馈 - 实测用户反馈标书准备效率提升30-50%,标讯准确度高[6] - 帮助中小企业回收原本因人力不足放弃的投标机会,扩大商机覆盖[6] 生态协同 - 与"企业芝麻实力标"、"中标贷"等现有产品形成协同,提升中标率和资金支持[8] - 产品向全行业开放,旨在降低中小企业招投标参与门槛[8]
“AI谣言”为何易传播难防治?(深阅读)
人民日报· 2025-08-18 06:01
AI技术滥用现状 - AI技术被用于制作发布谣言和不实信息,表现形式多样,如伪造视频和AI生成新闻稿[1] - 中央网信办部署"清朗·整治AI技术滥用"专项行动,重点整治利用AI制作发布谣言等乱象[1] AI谣言产生原因 - "AI幻觉"现象导致虚假信息输出,大模型在专业领域训练语料不足时容易出现推算错误[2][3] - 恶意编造传播"AI谣言"获取利益,包括炒作自媒体账号吸粉和实施诈骗等违法犯罪行为[4] - 形成"需求分析—内容生产—精准投放"的生产链条,有机构一天能生成4000至7000篇假新闻[4] AI谣言传播特点 - 可以做到分平台、分渠道、分时段、分媒介的定制化生成和发布,成本低廉[6] - 利用"灾难+儿童"等组合并删除AI生成标识,引发快速传播[6] - 造谣门槛大幅降低,用开源AI模型30秒即可生成以假乱真的画面[7] AI谣言防治难点 - 表述接近"真话",更难以被技术手段屏蔽[9] - 可通过对抗训练绕过谣言关键词,如把"山体滑坡"改为"地质活动异常"[9] - 传统谣言像火可扑灭源头,"AI谣言"像病毒会不断变异[9] 技术改进方向 - 完全消除"AI幻觉"具有高度挑战,因大模型生成机制本质是概率驱动的语言建模[9] - 通过多模型协同判断、事实增强训练等技术手段可缓解"AI幻觉"发生的频率与危害[9]