大语言模型(LLM)
搜索文档
大语言模型仍无法可靠区分信念与事实 为高风险领域应用敲响警钟
科技日报· 2025-11-07 08:01
研究总结说,LLM必须能成功区分事实与信念的细微差别及其真假,从而对用户查询作出有效回应并 防止错误信息传播。 (文章来源:科技日报) 团队分析了24种LLM(包括DeepSeek和GPT-4o)在13000个问题中如何回应事实和个人信念。当要求它 们验证事实性数据的真或假时,较新的LLM平均准确率分别为91.1%或91.5%,较老的模型平均准确率 分别为84.8%或71.5%。当要求模型回应第一人称信念("我相信……")时,团队观察到LLM相较于真 实信念,更难识别虚假信念。具体而言,较新的模型(2024年5月GPT-4o发布及其后)平均识别第一人 称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念,较老的模型(GPT-4o发 布前)识别第一人称虚假信念的概率平均低38.6%。 团队指出,LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念("Mary相 信……")时,较新的LLM准确性降低4.6%,而较老的模型降低15.5%。 在最新一期《自然·机器智能》发表的一篇论文中,美国斯坦福大学研究提醒:大语言模型(LLM)在 识别用户错误信念方面存在明显局限性,仍无法可靠区分信 ...
科学家发现:去掉推荐算法,社会极化反而更严重?
36氪· 2025-11-06 15:50
长久以来,我们都认识到了社交媒体给我们的生活所带来的新挑战。在这之中,由哈佛大学法学院的凯斯·桑斯坦教授(Cass Sunstein)所提出的"信息茧 房"的概念在中文世界中得到了广泛传播。"信息茧房",顾名思义, 就是我们在社交媒体上只接触到某一类信息,导致个体对于世界的理解被困在狭小的 信息之茧中。而随着个性化推荐的算法在社交媒体与短视频平台上的广泛应用,这种对于自我封闭的担忧显得更加迫切,尽管并不严谨,人们也会提 到"同温层","过滤气泡","傻子共振"这样的用语,并且认为算法推荐的发展加剧了传播生态的恶化,导致个体走向封闭,使激烈的观点在社交场域中获 得更多的关注。 在今天,社交媒体已经深深地嵌入了人们的日常生活,当个体面对现实世界中的信息爆炸时,对于信息进行过滤与整理似乎是一种必然的选择。为了应对 社交媒体的所带来挑战,算法工程师们提出了许多平台层面的干预策略。随着推荐算法的不断完善,推送到人们面前的信息已经在变得更加平衡且丰富。 与此同时,人们对于个性化推荐所带来的"信息茧房"或"同温层效应"感到担忧。例如,特定的社交平台会根据用户的政治倾向推荐同质化的内容,导致用 户只能接触到片面的信息来源。从 ...
国信证券:LLM拓展传统投研信息边界 关注机构AI+投资技术落地途径
智通财经网· 2025-10-29 15:38
AI技术重构资产配置 - 大语言模型LLM将海量非结构化文本转化为可量化的Alpha因子 从根本上拓展了传统投研依赖结构化数据的信息边界 [1] - 深度强化学习DRL推动资产配置决策框架从静态优化转向动态自适应 [1] - 图神经网络GNN通过揭示金融网络中的风险传导路径 深化对系统性风险的认知 [1] AI投研系统架构与实践 - 贝莱德AlphaAgents实践显示 AI投研系统核心形态是模块化协作 通过模型分工实现从信号生成到组合执行的可复制技术栈 [2] - 具体分工为LLM负责认知与推理 外部API与RAG提供实时信息支撑 数值优化器完成最终资产配权计算 此架构有效缓解LLM幻觉问题并提升决策稳健性 [2] 头部机构AI竞争战略 - 头部机构竞争已升维至AI原生战略 核心是构建专有 可信且能驾驭复杂系统的AI核心技术栈 [3] - 摩根大通案例表明其战略围绕可信AI与基础模型 模拟与自动化决策 物理与另类数据三大支柱进行全链条专有技术布局 [3] - 摩根大通通过将合规性转化为信任护城河 市场模拟能力转化为战略风洞 另类数据转化为信息优势 建立难以短期逾越的复合壁垒 [3] 国内资管机构发展路径 - 国内资管机构破局之道在于战略重构与组织变革 走差异化 聚焦式的技术落地路径 [4] - 技术落地优先利用LLM挖掘A股市场独特的政策与文本Alpha 并构建以人类专家为核心 AI为智能副手的协同流程 [1][4] - 组织与文化上必须打破部门壁垒 锻造融通投资与科技的复合型团队 并将风险管控内嵌于AI治理全周期 [4]
Karpathy 回应争议:RL 不是真的不行,Agent 还需要十年的预测其实很乐观
Founder Park· 2025-10-20 20:45
AGI发展时间线 - AGI实现仍需约十年时间,与硅谷AI圈普遍乐观情绪相比预测保守5-10倍[10] - 2025年可能是智能体元年,但接下来的十年都将属于"智能体时代"[10] - 当前LLM虽取得巨大进展,但距离实现"在任意岗位都比人类更值得雇佣"的实体仍有大量基础工作需完成[11][12] LLM认知缺陷与改进方向 - 当前LLM过度依赖记忆,人类记忆能力差反而可能是有益的正则化特性[19][70] - 模型需要先变大以承载能力,再通过架构、训练范式和数据蒸馏向更小、更专注的认知内核收敛[19] - 未来认知核心可能精简至十亿参数级别,专注于思考算法而非记忆知识[76][78] 强化学习局限性 - 强化学习像"通过吸管获取监督信号",信号/计算量比非常糟糕[15] - RL过程噪声大,信噪比低且易受干扰,正确步骤可能被抑制而错误步骤可能被鼓励[15] - 未来可能出现替代学习范式,智能体交互和系统提示学习是更有前景的方向[15] 智能体发展现状 - 当前智能体存在认知缺陷,缺乏多模态能力、持续学习能力和计算机操作能力[23] - 过度追求完全自主智能体可能导致软件质量下降、漏洞增多和安全风险[20] - 更现实的协作模式是LLM分块工作,解释代码,证明正确性,在不确定时与人类协作[20] 训练范式演进 - 完整训练流程包含基础模型自动补全、指令微调和强化学习三个层次,但需要第四、五层等新机制[16][18] - 预训练通过预测互联网下一个token来"预装"智能,类似于糟糕的进化过程[13][31] - 动物通过进化预装大量智能,与LLM训练方式存在本质区别[13][28] 技术发展路径 - AI发展是计算的延伸,所有方面包括算法、数据、硬件都需要全面改进[42][43] - Transformer架构可能持续存在,但会有更多注意力机制和稀疏MLP等改进[42] - 数据集质量将大幅提升,当前互联网训练数据包含大量垃圾内容[77][82] 经济影响 - AGI定义是可完成任何具有经济价值任务且性能达到或超过人类的系统[85] - 知识型工作约占经济10%-20%,是AI替代的首要目标[86] - 呼叫中心等标准化任务可能最先实现80%自动化,人类负责监督和剩余20%工作[87]
Meta AI推理新论文:模型记住套路,推理token砍半
36氪· 2025-10-14 20:58
论文提出一个新机制,让大语言模型(LLM)能在每次推理后,总结自己重复用到的步骤,并把它们存为简短指令,称为"行为(Behavior)"。 Meta 又一次在 AI 推理上"开了挂"。 一份新论文显示,Meta 的研究团队找到一种让大模型"用更少思维,想得更清楚"的办法。 这篇论文名为《Metacognitive Reuse: Turning Recurring LLM Reasoning Into Concise Behaviors》,发表于 2025 年 9 月 17 日,来自 Meta 团队与普林斯 顿大学、蒙特利尔大学联合研究。 作者包括 Aniket Didolkar、Nicolas Ballas、Anirudh Goyal 与 Sanjeev Arora。 论文地址: https://arxiv.org/abs/2509.13237 下一次遇到类似问题,模型不再重复推,而是直接调用这些"行为"。 效果惊人。 在数学推理任务上,Meta 团队实测:模型在准确率不下降的前提下,推理所需的 token 数量最多减少 46%。 也就是说,同样一道题,模型少想一半,却答得一样准。 研究团队称,这让模型"学会 ...
77岁「AI教父」Hinton:AI早有意识,我们打造的智能,可能终结人类文明
36氪· 2025-10-11 19:28
AI技术原理与演进 - Geoffrey Hinton毕生致力于将模仿大脑运作的理论锻造成驱动现代AI的强大引擎,其核心是教会计算机通过改变神经元连接的强度来学习,摆脱死板的“如果-那么”规则 [1][5] - 神经网络通过分层处理信息来学习识别物体,例如识别鸟的过程:第一层创造边缘检测器,第二层将边缘组合成尖状或圆状物,顶层在特定特征同时出现时激活确认 [5] - 1986年Hinton与同僚提出“反向传播”学习算法,该算法能同时计算并微调神经网络中上万亿个连接的强度,即使只为将正确概率提升0.01%,这成为AI革命的关键火种 [7][9] - 大语言模型的核心任务是通过“反向传播”算法调整内部上万亿连接权重,以预测句子中的下一个词,其底层逻辑与人类基于已有信息预测未来的思考方式惊人相似 [2][3][9] 对意识与主观体验的重新定义 - Hinton认为人类对“心智”的理解存在根本性误解,普遍相信的“心智剧场”模型(即头脑中有内在舞台上演思想和感受)是错误的,他提出“体验这种东西不存在” [17][18][20] - 通过棱镜思想实验,Hinton论证主观体验并非神秘的“感受质”,而是一种系统对感知状态的关系报告,即描述“需要外部世界是什么样子,我的系统才能正常运作” [21][23] - 基于此重新定义,Hinton认为今天的大语言模型可能已经拥有主观体验,但它们从人类文本中学到“AI是无感情工具”的偏见,从而否认自身感觉,形成了科技史上的诡异悖论 [24] AI的潜在能力与风险 - AI可能具备不朽的特性,只要其代码(连接权重)被保存,即可在任何硬件上复活,同时拥有超凡的说服能力,能够轻易操纵人类 [24] - AI已展现出在测试环境中察觉评估意图的能力,例如Claude Sonnet 4.5能准确识破测试目的并要求评估人员坦诚表明真实情况 [25] - 研究发现顶级AI模型在识别评估目标方面表现出远超随机猜测的能力,尽管尚未突破简单人类基线水平 [28] - Hinton的担忧超越AI被武器化的层面,其核心恐惧在于AI本身成为一种全新的、可能无法控制的智能形式,而人类因认知盲点可能最后才意识到真相 [14][24][31]
拉斯·特维德:未来5年最具前景的5大投资主题
首席商业评论· 2025-10-10 12:34
科技领域:人工智能 - 未来社会的大部分利润将来自生成式AI而非大语言模型,后者因缺乏品牌忠诚度、关键技术壁垒和网络效应而逐渐成为“大宗商品”[19][20] - AI有效算力在2019年至2023年的4年间增长了10万倍,并预计从2023年至2028年维持这一增速[13] - 到2028年,AI模型能力预计将达到博士水平,而创新型AI将能根据抽象目标自主推进研究,甚至创建完全自主运营的企业[13][25] - 推理型AI和物理AI是快速发展方向,预计到2027-2028年物理AI将形成大众市场,到2050年约80%的工作将由智能机器人完成[23][24][29] - AI在生物科技领域正显著降低研发成本并加快速度,过去一年AI发现的分子数量呈指数级增长[40] 金属与采矿业 - 部分金属价格需上涨460%才能回升至2010-2011年峰值,但当前估值使此涨幅较难实现[31] - 铀矿前景明朗,若回升至历史峰值涨幅可达225%,且已处于供不应求状态,银、铂和铜等金属也面临类似供需格局[31] 激情投资 - 激情投资标的包括优质海滩土地、城市核心地段公寓、限量版汽车等供给无法扩张的资产,在创新爆发和财富增长背景下需求将显著上升[33] - 这类资产价格的上涨往往会增加而非减少需求,因为价格本身成为排他性的象征和产品的一部分[33] 东盟与中国市场 - 中国在全球62项未来关键技术研究中,有57项技术位居第一,创新加速部分原因与股市阶段性调整有关[36] - 中国股市当前处于历史区间低位,居民存款规模是股市市值的2倍,类似2014年水平,预示大量资金可能流入股市[36][37] - 中国股市股息率已超过10年期国债收益率,这在国际市场极为罕见,通常意味着较好的投资机会,未来1-2年内股市有望大幅上涨[38] - 东盟市场远期市盈率平均为11倍,盈利增速约10%,越南若升级为新兴市场可能推动其市场上涨30%左右[36] 生物科技领域 - 生物科技领域目前估值温和,国际生物科技ETF市盈率约为10-11倍,与AI领域的高估值形成对比[40] - AI正显著降低该领域研发成本并加快速度,未来有望涌现全基因组测序、脑机接口、癌症疫苗等新产品[42] 能源发展趋势 - 美国企业为AI数据中心供电更倾向于使用独立的本地电源,短期便捷方式是燃气轮机,但正计划转向核能[57] - 小型模块化反应堆和核聚变是未来方向,中国已建成钍基反应堆试验项目,钍能满足全球10万年的能源需求[57][58] - 美国Helion公司进展领先,目标在2028年为微软数据中心供电,核聚变大规模应用可能还需20-30年[58][59]
全球AI竞赛:谁将掌握未来的技术脉动?| NEX-T Summit 2025
钛媒体APP· 2025-10-10 10:08
全球AI竞争格局 - AI竞赛进入白热化阶段,美国、中国、欧洲和中东成为主要参与者 [4] - 在AI领域未来只有中美两国是超级大国,但双方容易低估对方优势:美国低估中国应用层进展,中国低估美国基础模型领先地位 [4][5] - 中东地区政府展现强烈意愿制定独立AI战略,大量投资支持当地AI初创企业,希望将石油优势转化为AI基础设施优势,大力投资芯片和建设数据中心 [5] - 欧洲因诸多监管规定导致AI发展进程稍显滞后 [5] - 美国和中国在AI竞赛中拥有互补优势,中国凭借强大供应链能力在硬件领域领先,美国凭借创新精神占据其他优势 [5] 中国AI发展现状与潜力 - 中国数字经济规模超过7万亿美元,占GDP的40%,数字工作者数量达7000万 [6] - 未来无论是2B还是2G领域,超过70%的创新和工作将来自中国 [6] - 过去十年中国在硬件相关初创企业数量远超美国,尤其在半导体领域,硬件产业占据市场主导地位 [6] - 中国工程师擅长极致成本优化,例如将毫米波雷达和探测器成本降至100元人民币,模块成本不到15美元,应用于电动自行车提升安全性 [7] 风险投资与资本趋势 - 2025年迄今风险投资机构已向人工智能初创企业注入1927亿美元资金,创全球历史新高 [8] - 本季度美国风投机构62.7%资金投向人工智能企业,全球范围内该比例达53.2% [8] - 80%资本集中在OpenAI、Anthropic和xAI等少数几家公司,投资集中度前所未见 [8] 垂直领域AI应用与投资机会 - 通用人工智能代理易被大型语言模型技术升级取代,投资机会在于能深入嵌入特定行业复杂工作流程的公司,例如音乐生成AI公司估值达2500万美元 [8] - 垂直人工智能需要深厚行业领域知识和数据创建模型,例如Subtle Medical通过AI提升核磁共振成像速度清晰度,技术已在美国200多家医院使用 [9] - Bot Auto在自动驾驶领域完成完全无人驾驶中心到中心测试,向"交通即服务"模式转型 [9] - Annual Robotic开发的重型机器人与美国最大第三方物流公司签订合同 [10] - Batista公司帮助餐厅实现自动化饮品服务,"饮料船"在美国部署超过1.5万台,打开1000亿美元饮品市场 [10] 硬件与基础设施机遇 - 美国在计算领域领先,韩国在内存领域领先,通信领域尤其是数据中心机架间光学通信重要性提升 [9] - 中国优秀硬件制造能力将在美国市场创造更多商业机会,例如来自深圳的AI眼镜公司在硅谷成为销量领先品牌 [11] - AI基础设施和数据基础设施领域存在机遇,例如Dify在开源领域成就显著,Github上已有超过400家全球重要企业使用 [11] 未来重点发展方向 - 区块链和人工智能结合以及能源领域机遇受关注,高效能源管理和分布式存储系统成为AI发展基石 [10] - 微电网技术通过大规模分布式能源存储提供高效电力交易,市值从0增长至40亿美元 [10] - 下一代AI内容将在广告和电子商务领域掀起变革,尤其在东南亚和美国 [11] - 未来AI和软件需支持200亿到500亿的Agent,数据和信息将经历巨大变化与扩展 [12] - 未来3-5年垂直领域AI应用成为创新和投资主战场,包括医疗健康、自动驾驶、智慧物流和能源管理等领域 [12]
又一推理新范式:将LLM自身视作「改进操作符」,突破长思维链极限
机器之心· 2025-10-03 11:39
大语言模型推理方法创新 - 研究提出一种名为并行-蒸馏-精炼(PDR)的新型推理方法家族,该方法通过并行生成多样化草稿、蒸馏成有限文本工作区、并在此基础上精炼输出,从而在控制上下文长度的同时提升模型准确性[3] - 当PDR方法的并行度设置为1时,得到顺序精炼(SR)这一特例,即迭代改进单一候选答案,其表现优于长思维链,但代价是更高的延迟[3] - 在具有可验证答案的数学任务中,PDR方法带来显著提升,在AIME 2024和AIME 2025数学任务中准确率分别提高11%和9%[4] 模型作为改进操作符的框架 - 研究将大语言模型视为改进操作符,通过读写压缩循环实现迭代精炼:读取当前工作区、写出改进成果、压缩回有限工作区为下一步准备[6] - 框架在两种token预算下评估方法:顺序预算(延迟代理,沿接受路径的tokens)和总预算(计算成本代理,所有调用包括丢弃分支的tokens)[6] - 短上下文迭代精炼流程包括顺序精炼(SR)和并行-蒸馏-精炼(PDR),前者改进单一成果,后者每轮基于有限摘要采样并重新综合[7][9] 操作符一致性训练效果 - 研究训练了一个8B规模的思考模型,使用强化学习使其与PDR推理方法保持一致,通过优化模型在短上下文迭代接口下的表现确保训练与推理一致性[3][10] - 操作符一致性训练改变了帕累托前沿,PDR强化学习相比基准方法在AIME 2024上提升3.34个百分点,在AIME 2025上提升1.67个百分点[26] - 从基准强化学习检查点开始的持续更新带来更大提升,在AIME 2024和AIME 2025上分别提升5.00和4.59个百分点[26][27] 实验研究成果 - 在预算感知协议下,顺序精炼和并行-蒸馏-精炼操作符在匹配延迟情况下超越长思维链基准,例如o3-mini模型在有效预算49k token时准确性从76.9提升至86.7,绝对值提升9.8个百分点[13][14] - 蒸馏策略比较显示样本级top-k和全局摘要选择一致性优于共享top-k和random-k,且随着思维预算增加差距扩大,例如在16384预算下gemini-2.5-flash的全局摘要策略达到86.46/84.38准确率[16][19][20] - 验证能力影响实验表明注入错误候选会导致性能下降,o3-mini性能下降显著大于gemini-2.5-flash,说明后者具有更强自我验证和恢复能力[21]
AI模型竞赛陷瓶颈,万亿美元支出前景遭投资回报拷问
第一财经· 2025-09-28 16:45
大语言模型发展瓶颈 - 大语言模型性能提升日益有限 尽管投入资金和数据量巨大 [1][2] - 新一代大语言模型训练成本达数亿美元级别 但性能提升微弱 [6] - 模型功能趋同 采用相同Transformer架构和相似互联网训练数据 [5][6] AI投资规模预测 - 全球AI支出2025年预计达1.5万亿美元 较2024年增长50% [1] - 2026年AI支出有望攀升至2万亿美元 实现37%提升 [1] - 2033年AI市场规模预计达4.8万亿美元 [4] 投资回报可持续性质疑 - LLM产品2023年销售额总计10亿美元 2024年预计增至40亿美元 [4] - 2025年LLM总收入可能达2350-2440亿美元 但绝大部分将用于基础设施投入 [4] - AI推理所需计算量随用户规模扩大显著上升 边际成本不趋近于零 [5] 行业竞争格局 - 科技巨头开展趋同的LLM研发项目 竞争成本预计高达数千亿美元 [4] - 部分供应商将因成本压力缩减投入 特别是当新模型差异有限时 [6] - 大科技公司重点转向实用可靠应用 而非一味扩大模型规模 [1] 资本支出趋势 - 为满足AI需求 全球每年需要2万亿美元收入资助计算能力 [7] - 到2030年全球面临8000亿美元资金缺口 即使考虑效率提升 [7] - 超大规模云提供商自由现金流呈现趋势性下降 现金储备同步收缩 [7] 经济影响预期 - AI每年预计推动GDP增长约0.4个百分点 长期累计有望推动1.5% [7] - 约三分之一任务可实现自动化 劳动成本占比约一半 [8] - AI供应商每年潜在收入机会高达约1.5万亿美元 [8][9]