Workflow
大模型幻觉
icon
搜索文档
爆火AI神器“智算一体机”,如何迎接Agent元年?
21世纪经济报道· 2025-08-11 18:05
智算一体机市场发展 - 伴随DeepSeek推动AI大模型低成本化,智算一体机作为新兴形态迅速走红,市场已涌现百款接入DeepSeek的产品 [1] - 行业面临应用落地挑战,需解决"最后一公里"问题,确保企业配置后"上手即好用" [1] - AI大模型持续进化,需减少模型幻觉并应对技术演化趋势,供应商已开始思考解决方案 [1] 智算一体机技术特点 - 智算一体机是预集成硬件、软件平台、模型、应用的一体化解决方案,降低AI普及门槛并推动基础设施向边缘端演进 [2] - 需通过性能优化、定制化能力和业务创新打造差异化竞争力,避免同质化价格战 [2] - 核心关注算力、模型、应用三方面:提供异构加速算力满足多元化需求,模型需开源开放,应用需软硬件协同优化实现成本最优 [2] 行业应用现状与挑战 - 中兴AiCube一体机已在知识问答、客服助手、代码助手等场景商用,但行业数据质量不均、高价值场景挖掘困难、缺乏专业AI人才等问题限制应用深度 [3] - 企业需根据业务需求灵活调整算力,同时引入更高能力模型并持续优化应用落地效果 [3] - 中兴引入AIS一站式智能平台和Co-Sight智能体工厂,提供低代码开发工具协助企业打通端到端流程 [4] 模型幻觉与解决方案 - 大模型幻觉是技术自带属性,与训练数据质量、人类观念分歧相关,生成式模型的概率特性决定幻觉必然存在 [4][5] - 短期可通过RAG、安全护栏、有监督微调等技术提升准确性,长期需联合产学研力量探索机理并改进评测标准 [5] Agent与一体机结合 - Agent降低开发门槛并具备复杂任务处理能力,与一体机形成"身体+灵魂"关系,结合后实现1+1>2效果 [5] - 一体机提供强大计算能力,Agent增强任务处理适应性,但传统一体机在固定功能场景仍具价值 [6] - 中兴一体机将在代码编程、客户服务等领域持续拓展,并向工业设计、电力能源等更多行业渗透 [6]
紫东太初开源视觉神经增强方法,即插即用终结多模态幻觉 | ACL 2025
量子位· 2025-06-27 18:57
核心观点 - 中科院自动化所联合新加坡国立大学、东南大学等团队提出大模型幻觉的高效解决方案VHR,通过"视觉神经增强"机制直接放大模型中的视觉关键注意力头输出,显著降低模型的幻觉现象 [1][2] - 此前主流方法如对齐训练或输出层分布修正仅作用于模型最终输出阶段,未能深入干预其内部表征和生成机制,难以实现高效精准的幻觉抑制 [3] - 大型视觉语言模型(LVLMs)常因过度依赖语言先验知识而非图像真实内容导致事实性错误,这种幻觉是受内部语言建模偏好的系统性影响 [4][5] - 研究发现注意力机制内部的不平衡性是幻觉根本原因,少数注意力头对视觉信息敏感,大多数头更依赖语言规律 [7][8] - 提出视觉感知头散度(VHD)指标量化注意力头对视觉输入的响应强度,并开发视觉感知头增强(VHR)技术强化视觉敏感注意力头输出 [8][9] - VHR在多个基准测试中优于现有方法,几乎不增加额外时间开销 [8][16] 技术方法 VHD指标 - 提出VHD指标量化每个注意力头对视觉信息的敏感度,通过对比有无图像输入时注意力头输出的差异计算 [9] - 仅有少数注意力头表现出高VHD值,表明模型内部存在视觉感知与语言偏好头的显著分化 [9] - 进一步提出Token-VHD(T-VHD)指标评估生成每个词时模型对视觉信息的依赖程度,统计表明幻觉词通常对应较低的T-VHD值 [10][11] VHR技术 - VHR通过三个步骤动态强化视觉敏感的注意力头:异常VHD过滤、注意力头选择与强化、分层渐进式增强 [14][15] - 每层选择VHD得分前50%的注意力头,将其输出缩放α倍以增强视觉上下文的贡献 [15] - 采用逐层强化策略避免层间干扰,并在首步生成时确定每层的关键注意力头 [16] SSL方法 - SSL方法从语义引导角度出发,通过分析模型内部表征空间缓解LVLMs幻觉问题 [19] - 利用稀疏自编码器(SAE)识别"幻觉"和"真实"两种语义方向,在特定层进行针对性干预 [19] - 在视觉信息融合阶段注入真实语义方向增强视觉表示忠实性,在语言生成阶段抑制幻觉语义方向投影 [19] - SAE识别的语义方向在不同架构LVLMs中展现出良好跨模型迁移能力 [22] 实验结果 - 在MSCOCO数据集CHAIR评估中,VHR在InstructBLIP、LLaVA-1.5和LLaVA-NeXT模型上分别达到85.52、85.47和88.87分,优于其他基线方法 [17] - SSL方法在POPE数据集上取得显著F1分数提升,同时保持推理效率 [20] - VHR和SSL方法均保持高效性,几乎不增加额外时间开销 [16][20]
海致科技港股IPO:自称技术实力全球领先 研发费用及费用率连续下降且低于同行
新浪证券· 2025-06-20 15:39
公司概况 - 海致科技于2025年6月17日向港交所递交招股说明书,联席保荐人为招银国际、中银国际和申万宏源香港 [1] - 公司自称是中国首家通过知识图谱有效减少大模型幻觉的AI企业,但AI智能体业务收入占比仅为17.2%(2024年)[1] - 2024年公司主营业务国内市占率仅1.11%,AI智能体业务市占率为2.8% [1] 财务表现 - 2022-2024年营业收入分别为3.13亿元、3.76亿元、5.03亿元,年复合增长率26.7% [4] - 同期净亏损分别为1.76亿元、2.66亿元、0.94亿元,呈现亏损收窄趋势 [4] - Atlas图谱解决方案收入占比从100%(2022年)降至82.8%(2024年),AI智能体收入占比从0升至17.2% [3][4] 市场地位 - 2024年中国产业级AI服务市场规模453亿元,公司对应市盈率1.11% [4] - 在以图为核心的AI解决方案细分市场(规模100亿元)中占据5%份额 [4] - 在集成知识图谱的产业级AI智能体市场(规模31亿元)排名第五,份额2.8% [5] - 跨行业产业级AI智能体解决方案供应商中按收入排名第一(收入0.87亿元)[5] 研发投入 - 研发费用连续两年下降:2022年8694万元→2023年7271万元→2024年6068万元 [6][8] - 研发费用率从27.8%(2022年)降至12.1%(2024年),显著低于同行明略科技(25.56%)和星环科技(61.19%)[6][9] - 员工福利费用从6629.5万元(2022年)降至5225.2万元(2024年)[7][8] 技术优势 - 采用图模融合技术减少大模型幻觉,该技术将知识图谱与大语言模型协同 [10] - 中国集成知识图谱的产业级AI智能体市场规模预计从2亿元(2024年)增至132亿元(2029年),CAGR达140% [10] - 2025年最后一轮融资后估值达33亿元,估值逻辑基于减少大模型幻觉的技术叙事 [10] 行业竞争 - 互联网巨头正布局类似技术,可能引发价格战 [11] - 大模型自身推理能力突破可能弱化知识图谱的"补丁"价值 [11]
DeepSeek R1幻觉率降低,用户喊话:想要R2
第一财经· 2025-05-29 23:13
DeepSeek-R1模型更新 - 公司发布R1模型更新,重点提升深度思考能力、减少幻觉并优化创意写作[2] - 新版模型在数学、编程与通用逻辑基准测评中表现国内领先,接近国际顶尖模型如o3与Gemini-2.5-Pro[9] - 幻觉率降低45%-50%,旧版模型幻觉率为21%,在SuperCLUE中文大模型测评中排名第五[9][10] 性能提升与优化 - 在AIME 2025数学测试中准确率从70%提升至87.5%[12] - 优化议论文、小说等文体输出,生成更长且结构更完整的内容[12] - 代码能力显著提升,在Live CodeBench中性能接近OpenAI的o3-high模型[12] 技术参数与开源 - 模型参数为685B,开源版本上下文长度128K,网页端/API支持64K[13] - 仍基于2024年12月发布的DeepSeek V3 Base模型,通过增加算力提升推理能力[12][13] - 开源权重采用MIT License,允许用户自由使用与二次训练[13] 行业动态与用户反馈 - 用户对下一代R2模型期待强烈,猜测公司可能因基准测试未超越o3而暂缓发布[13] - 行业关注基座模型竞争,公司未回应外界猜测,可能优先更新V4模型[13] - SuperCLUE测评显示推理模型平均幻觉率22.95%,非推理模型为13.52%[11]
DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型
第一财经· 2025-05-29 22:10
模型性能提升 - 更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得国内领先成绩,接近国际顶尖模型如o3与Gemini-2 5-Pro [4] - 新版模型在AIME 2025数学测试中准确率从旧版70%提升至87 5% [18] - 代码能力显著提升,在Live CodeBench平台性能媲美OpenAI的o3-high模型 [18] 幻觉问题优化 - 新版R1模型在改写润色、总结摘要、阅读理解等场景中幻觉率降低45%-50%,此前旧版幻觉率为21% [4][18] - SuperCLUE测评显示推理模型平均幻觉率为22 95%,非推理模型为13 52% [18] 文本生成能力 - 针对议论文、小说、散文等文体优化,能输出篇幅更长、结构更完整的长篇作品,写作风格更贴近人类偏好 [18] - 深度思考能力与创意写作能力得到强化 [1] 技术细节与开源策略 - 新模型参数为685B,开源版本上下文长度128K(网页端/App/API提供64K),仍采用MIT License允许商用与二次训练 [19] - 基于DeepSeek V3 Base模型基座,后训练投入更多算力提升思维深度与推理能力 [18] 行业动态与用户反馈 - 用户对下一代R2模型期待强烈,X平台评论区出现"We want R2"呼声 [19] - 业界猜测R1更新可能延迟R2发布,或与基准测试未超越OpenAI o3有关 [19] - 海内外基座模型竞争持续,DeepSeek更新后行业关注下一家突破者 [19]
巴菲特刚退休,他的 “替身” 就来帮大家炒股了?
搜狐财经· 2025-05-19 00:18
AI Hedge Fund 项目概述 - AI Hedge Fund 是一个模拟明星投资人策略的开源项目,提供 9 位投资人的策略模拟,包括巴菲特、Graham 和 Fisher 等 [1] - 项目通过大模型模拟投资人决策过程,展示投资逻辑和思考过程 [6] - 支持命令行操作,可选择单一或组合投资人策略进行预测 [6] 测试结果分析 - 单一策略测试中,"巴菲特"策略对苹果(AAPL)预测准确,基于高负债(债务股本比4.2)、流动性差(流动比率0.9)、资本回报率下滑(-12%)等因素建议做空,最终苹果股价从230美元跌至198美元 [7][8] - 在五支股票测试中,单一"巴菲特"策略准确率达80%(5中4),仅英伟达(NVDA)预测错误 [11] - 组合策略(6位投资人)准确率降至60%(5中3),显示策略叠加可能降低预测效果 [15] 技术实现与成本 - 系统架构分为数据输入、大模型分析和策略输出三部分 [22] - 需接入OpenAI或Groq API,成本示例:OpenAI o3模型每百万字符输入收费10美元,输出40美元 [17] - 支持8个开源模型通过ollama运行,可降低部分成本 [18] - 仅苹果、谷歌等5家公司数据免费,其他需通过Financial Datasets API获取,标准套餐199美元/月 [19][21] 功能特点 - 提供回测功能,可用历史数据验证策略准确性 [16] - 核心价值在于reasoning模块,展示投资人决策逻辑和财务指标分析(如债务股本比、资本回报率等) [26] - 存在模型不稳定性问题,相同股票相邻预测可能出现买卖相反建议 [23] 适用性与局限 - 项目定位为教育研究工具,明确不建议用于实际交易 [28][30] - 免费版仅支持有限股票数据,完整功能需支付API费用 [19][21] - 模型幻觉可能导致策略波动,需人工判断决策合理性 [22][23]
整理:昨日今晨重要新闻汇总(5月18日)
快讯· 2025-05-18 08:17
国内新闻 - 朱雀二号改进型遥二运载火箭发射成功 [4] - 歼-10CE首次实战大放异彩,引发全球军事爱好者的高度关注 [4] - 深交所将在深圳举办2025全球投资者大会 [4] - 天津引导社会资本面向AI领域设立天使投资基金、创业投资基金 [4] - 蚂蚁集团CTO何征宇表示大模型幻觉的源头是缺乏数据 [4] - 3月中国减持189亿美元美债,持仓规模降至第三,英国升至第二 [4] - 宁德时代山东时代电池生产基地正式投产 [4] - 广州房贷利率今起上调10BP,多家银行已执行 [4] 国际新闻 - 特朗普称印度提出削减美国关税,但他不着急达成协议 [3] - 越南和美国举行了首次部长级直接谈判 [3] - 日本考虑在与美关税谈判中为特斯拉充电站提供补贴 [3] - 以方称哈马斯愿意释放部分人员换取两个月停火 [3] - 俄官方表示有关"普泽会"有可能 [4] - 特朗普将于周一上午10点与普京通话 [4] - 特朗普称若不能就乌克兰问题达成协议会对俄实施"破坏性"制裁 [4] - 乌称苏梅州一公共汽车遭俄军袭击,致9死4伤 [4] - 哈马斯与以色列举行新一轮加沙停火谈判 [4] - 美国提议对非公民汇款征收5%的税 [4] - 秘鲁中部发生6.0级地震,震源深度100千米 [4] - 欧洲央行施纳贝尔表示应在利率举措上保持谨慎 [4]
李彦宏说 DeepSeek 幻觉高,是真的吗?
36氪· 2025-05-02 12:29
大模型幻觉问题现状 - DeepSeek-R1在苹果美区App免费下载排行榜上力压ChatGPT,成为国产开源大模型的代表,但其"胡说八道"的批评频发,用户反馈其生成内容真伪难辨[2] - 李彦宏在2025百度AI开发者大会上直接批评DeepSeek-R1存在"单一模态支持、高幻觉率、速度慢且成本高"三大痛点[2] - Vectara的HHEM评估显示DeepSeek-R1幻觉率高达14.3%,较前代V3的3.9%提升近4倍,阿里通义QwQ-32B-Preview幻觉率更高达16.1%[6] - OpenAI内部测试发现o3模型在PersonQA基准测试中幻觉率达33%,轻量版o4-mini更达48%,均显著高于前代o1的16%[8] - 谷歌Gemini 2.0的Flash-Thinking版本比标准版幻觉更突出,显示推理能力增强可能加剧幻觉问题[10] 行业技术挑战 - 推理模型采用多轮思考策略易产生偏差累积,导致多米诺骨牌式幻觉放大,例如DeepSeek-R1的长链式思考会逐步放大微小错误[16] - 当前主流解决方案RAG(检索增强生成)通过先检索权威资料再生成回答,百度2024年发布的iRAG技术已应用于文生图领域[20][22] - 腾讯混元模型T1采用"双重把关"策略,训练Critic批判模型筛选长思维链中的逻辑错误,但数据治理仍面临互联网语料复杂性挑战[23] - OpenAI承认模型规模扩大与推理能力增强后幻觉增多的机制尚未明确,需进一步研究[23] 幻觉的双面性 - 大模型幻觉分为事实性幻觉和忠实性幻觉,后者可能产生"外箱式创意",例如DeepSeek续写刘慈欣小说章节被评价优于原作[23][26] - 刘慈欣认为AI可能突破人类认知极限,OpenAI CEO奥特曼也指出幻觉在创作领域具有积极意义[26] - 行业需根据应用场景差异化接受幻觉程度,高风险领域需严格限制,创意领域则可利用其创新潜力[27] 厂商竞争格局 - 百度等大厂既依赖DeepSeek流量导入,又因自研深度推理模型难以突破用户心智而陷入竞争困境[2] - 阿里通义Qwen系列与DeepSeek-R1同属国产模型第一梯队,但QwQ-32B-Preview幻觉率更高达16.1%[6] - 谷歌Gemini、IBM Granite、Anthropic Claude等国际主流模型幻觉率普遍在14%-17%区间,显示该问题具行业普遍性[7]
ERP厂商要被集体颠覆了?
虎嗅APP· 2025-03-27 18:21
核心观点 - 传统ERP和工具型SaaS将被以AI Agent为载体的新一代SaaS淘汰 [3] - DeepSeek的强推理、低成本、开源特性正在颠覆SaaS行业 [4] - AI Agent将率先在B端场景落地并颠覆传统SaaS [6] - 智能体可实现人"做不到、做不精"的事情,将大量进入工作场景 [16] - 应用层将涌现大量小微创新团队,软件开发门槛大幅降低 [19] - 用友、金蝶等SaaS企业股价上涨反映市场对智能体带动业绩增长的预期 [21] 行业变革 - 传统SaaS厂商面临被AI Agent替代的风险,需抓住变革机会实现二次增长 [4] - 强推理模型成本较高,短期内更可能在专业B端场景落地 [7] - 企业服务生态将重构:底层大模型厂商、中层垂直服务商、上层场景化应用 [19] - DeepSeek开源使服务商可本地化部署,行业know-how能力成为关键竞争优势 [19] 用友案例 - 用友内部已广泛使用数智员工,IT零基础员工10分钟即可构建智能体 [9] - 智能体在费控场景实现20分钟完成交通补贴支付全流程 [9] - 采购合同智能体可自动审核标记不合规条款并生成修改建议 [10] - 流水认领场景中智能体通过自我学习将准确率从50%提升至80% [14][16] - 用友计划在第二季度密集发布一系列AI智能体 [11] 技术特性 - DeepSeek-R1幻觉率达14.3%,高于Deepseek-V3的3.9% [18] - 智能体存在生成内容与事实不符的风险,关键决策仍需人工复核 [17][18] - 智能体可适应业务变化无需二次开发,显著提升人效 [16] 市场影响 - 资本市场看好智能体对SaaS企业业绩和人效的提升潜力 [21] - 能否实现智能体落地带来的实质性增长将决定企业价值重估 [21] - 跟不上AI变革的SaaS企业将被淘汰 [21]
AI的胡编乱造,正在淹没中文互联网
虎嗅APP· 2025-03-05 18:03
核心观点 - DeepSeek-R1的广泛使用导致中文互联网信息污染加剧,生成内容真假难辨且传播广泛 [2][9][16] - AI生成内容具有极强迷惑性,通过消除"AI味"和编造细节使普通用户难以识别 [9][12][15] - 大模型行业面临"幻觉"问题,DeepSeek-R1幻觉率达14.3%,高于行业平均水平 [13][15] - AI内容工业化生产对信息生态造成系统性冲击,远超人类造谣的规模和影响 [18][19] 行业影响 内容生产模式 - AI生成内容已渗透时政、历史、文化、娱乐等领域,成为自媒体流量获取工具 [16] - 推理模型通过自行完善故事骨架和细节,产生真假混杂的高迷惑性内容 [12][16] - 生产效率呈几何级提升,单周出现至少3例刷屏的AI生成虚假内容案例 [2][9] 技术特性 - DeepSeek-R1作为当前主流免费推理模型,中文支持度高但存在14.3%幻觉率 [12][15] - 模型训练机制导致过度迎合用户指令,为完成任务自行编造论据和数据 [12][14] - 技术优势反成隐患,创造性输出与事实准确性尚未实现平衡调节 [15] 典型案例分析 影视行业虚假信息 - 编造追光动画员工福利(成都分房)及技术突破(水下流体特效)等细节 [10] - 虚构《哪吒》参展法国昂西动画节情节,混淆不同版本电影信息 [9] - 通过职业成就感等情感要素增强内容可信度,获7036知乎用户赞同 [6][8] 敏感领域风险 - 涉军题材出现直升机设计图暗网交易等完全虚构的情节 [11] - 历史领域利用未数字化文献的考证难度,伪造史料误导专业人士 [17] - 商业领域为证明用户观点编造阿里巴巴估值数据 [14] 行业治理挑战 - 虚假信息从资料层向信源层渗透,治理成本随时间呈几何级增长 [18] - 现行声明机制效果有限,仅约50%内容真实性提示难以发挥作用 [16] - 平台需推进数字水印等技术方案,当前治理进度滞后于污染速度 [20]