大语言模型(LLM)

搜索文档
错过互联网不能再错过AI,欧盟迎来背水一战
第一财经· 2025-09-17 17:31
作者 | 汤拯 2025.09. 17 过去30年,互联网和智能手机迅速发展,成为现代社会的关键基础设施,深刻改变了人类的生活方式。然而,欧盟却未能孕育出可与美国硅谷或东亚 科技巨头比肩的新兴企业,与互联网移动时代屡屡失之交臂。 当前,人工智能(AI)正以惊人的速度成为下一代"数字基础设施",其重要性可媲美当年的互联网和智能终端。这一次,欧盟各界弥漫着一股危机感。 从重新审视产业政策到加大研发投入,越来越多欧洲人意识到,AI时代很可能是重塑这片大陆竞争力的最后窗口期。如果再度错失良机,欧盟在未来 的产业与科技角逐中或将被彻底边缘化。 本文字数:3858,阅读时长大约6分钟 AI将成为未来社会的基础设施 首先,欧洲资本市场整体偏保守且碎片化,高风险创新项目难以获得持续大规模的融资。欧洲风险投资的规模和激进程度远不及美国。数据显示, 2018年至2022年欧洲深度科技创业公司仅吸引到约325亿欧元投资,同期美国这一数字超过1200亿欧元。欧洲社会和资本对失败的容忍度较低,更青 睐稳健经营,这种保守文化使很多创业者不敢或无力采取激进扩张策略。 其次,欧洲大型企业对初创公司的带动作用不足。统计显示,只有约12%的欧洲 ...
日本要借助高质量数据优势推进国产AI研发
日经中文网· 2025-09-14 08:33
日本AI国家战略 - 日本政府制定AI开发和应用战略方案 利用高质量数据优势推进国产AI研发[2] - 战略目标在2025年内敲定 强调日本仍有迎头赶上机会[4] - 战略包含四大核心内容:推进应用 强化开发 主导治理 推动面向AI社会的持续性变革[4] 数据优势与开发支持 - 日本在高质量AI数据及数据可靠性方面比其他国家有优势 被视为"一条取胜的道路"[6] - 政府将通过增加预算和放宽规定支持数据中心及半导体等相关投资需求[2] - 总务省信息通信研究机构已开发3110亿参数规模的日语专用大语言模型 为同类最大[7] 具体实施措施 - 推进从国内外吸纳具备专业知识的开发人才[6] - 完善和扩充日语数据资源[6] - 开发融入日本文化、习俗及日语数据的高可靠性国产AI[7] - 与KDDI联合研究日语专用生成式AI[7] 行业挑战与机遇 - 数据投毒现象已成为重大问题 数据准确性和可靠性愈发重要[6] - AI技术日新月异导致竞争环境瞬息万变[4] - 除美国和中国外 新兴市场国家也加入AI开发竞争[4]
复盘“学习之道”:如何忍受无知带来的痛苦,实现知识的复利增长?
36氪· 2025-09-14 08:05
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。 编者按:感觉良好、追求地位的学习,往往是无效的。真正的成长,始于直面"我很愚蠢"的痛苦。文章来自编译。 心态 学习 vs. 假装学习 工具 心态 学习 vs. 假装学习 如果我们总是放任自己,就会永远等到这样或那样的干扰结束,然后才能真正开始干活。唯一能取得巨大成就的,是那些对知识极度渴望,以至 于在条件依然不好的时候仍不懈追求的人。因为你永远也等不到条件好的时候。——C.S. 刘易斯 学习大量真正有用的信息极其重要。这也许是利用时间可做的最重要的一件事,它能改善生活,让你更有能力在世界上有所作为。哪怕你就读于顶尖学府或 从事对认知能力要求很高的工作,也很容易在不知不觉中让大量时间流逝,却没有真正学到很多东西。真正持续的学习需要高度的警觉、自我反省、坚韧的 心态、有效的策略和工具,以及问责体系。 根据我的经验,无论在哪里,人们都非常乐于见到那些真正花了很多时间和心思去学习某件事并进行深入思考的人,而不是那些只学习表面知识、懂得在适 当的时候说出正确"暗号"的人。我感觉有些人身上散发着一种独特的、充满活力的温暖 ...
李飞飞的答案:大模型之后,Agent 向何处去?
36氪· 2025-09-04 16:28
Agent AI核心架构 - 提出由环境与感知、认知、行动、学习与记忆五大模块构成的完整认知闭环架构 实现从感知到行动的动态迭代智能体系[5][10] - 感知模块主动从物理或虚拟世界获取多模态信息 并内嵌任务规划与技能观察能力实现有目的的信息理解[7][8] - 认知模块作为处理中枢 由大语言模型(LLM)和视觉语言模型(VLM)驱动 负责解释信息、多步推理和策略制定[8] - 行动模块生成具体操作指令 通过控制器执行物理世界交互或虚拟世界API调用[8] - 学习模块支持预训练、零样本/少样本学习、强化学习和模仿学习等多种机制 通过环境反馈实现持续优化[9] - 记忆模块突破传统上下文窗口限制 形成持久化结构系统存储知识、逻辑和推理结果[10] 大模型驱动机制 - LLM和VLM通过海量数据预训练内化世界常识 为Agent提供强大的零样本规划能力 显著降低任务规则编写成本[11][12] - 环境交互成为解决大模型幻觉问题的关键锚点 通过真实或模拟环境的物理反馈倒逼模型实现知识与现实对齐[13] - 需通过多元化数据训练和偏见检测机制解决基础模型继承的社会偏见问题 将包容性作为核心设计原则[13] - 在医疗等敏感领域需建立明确法规框架 通过提示工程和人类监督层确保数据隐私与行为安全[13] 应用场景实践 - 游戏领域彻底改变NPC行为模式 基于LLM的Agent可拥有独立记忆情感 实现动态行为调整和自然语言交互 提升沉浸感与开发效率[14][15] - 机器人领域实现自然语言指令驱动 通过GPT-4V理解人类演示视频并转化为可执行任务 结合多模态感知实现精细物理操作[17] - 医疗健康领域应用包括智能问诊聊天机器人 连接实时医学数据库进行事实核查 以及慢性病监控与预警系统提升诊疗效率[19][21] 行业影响与验证 - 论文框架已获谷歌 OpenAI和微软等主流厂商实际验证 其核心打法均遵循论文提出的能力栈推进[1][4] - 尽管发表仅半年 该综述已成为AI领域纲领性著作 为碎片化的Agent研究提供系统化框架与发展地图[4][22] - 行业面临多模态深度融合、跨领域通用化及标准化评测体系建立等核心挑战 需突破现有技术局限[22]
拒稿警告,靠大模型「偷摸水论文」被堵死,ICLR最严新规来了
机器之心· 2025-08-27 16:36
ICLR 2026大语言模型使用政策 - ICLR 2026出台LLM使用政策 规范论文作者与审稿人在研究和审稿过程中使用LLM的行为[2] - 政策以ICLR《道德准则》为基础 旨在确保学术诚信 规避事实幻觉/剽窃/数据失实等风险[4] - 违反政策将面临直接拒稿等处罚[7] 核心政策要求 - 政策1: 任何对LLM的使用都必须如实披露 遵循贡献认可原则[6] - 政策2: 论文作者和审稿人最终需为自己的贡献负责 禁止虚假声明或数据伪造[6] - 禁止"提示词注入"等操纵审稿流程的行为 被视为严重学术不端[12] 具体应用场景规范 - 辅助论文写作: 使用LLM润色语法/调整措辞/草拟章节必须披露 作者对全部内容承担责任[9] - 辅助研究: 使用LLM提出思路/生成代码/分析结果需披露 人类作者必须验证有效性和准确性[9] - 审稿过程: 使用LLM撰写审稿意见必须披露 需确保不泄露投稿论文机密信息[11] 其他顶会类似规定 - NeurIPS 2025: 允许LLM作为工具 但作为核心方法需详细描述 审稿人严禁输入机密信息[15] - NeurIPS禁止提交完全由LLM生成的论文文本 允许用于编辑润色作者自写文本[16] - IEEE会议: 需在致谢声明AI工具及用途 人类对科学诚信与保密性负全责 禁止AI伪造数据[17] - ACM会议: 使用LLM生成文本/表格/代码需明确披露 仅语言润色可免披露[20] 行业背景与趋势 - 顶会投稿数量以每年数千规模递增 ICLR 2025接收11565份投稿 录用率32.08%[2][14] - LLM使用提升论文撰写与审稿效率 但引发虚假引用/抄袭拼接/责任模糊等担忧[14] - 清晰LLM使用细则将促进AI工具透明合理使用 形成更系统学术规范[21]
相信大模型成本会下降,才是业内最大的幻觉
Founder Park· 2025-08-19 16:01
模型成本与市场需求 - AI创业者普遍认为模型降价将改善收入状况,但实际情况是只有老旧模型成本下降,而市场始终需求最新模型[2][3][4] - a16z数据显示大语言模型成本每年下降10倍,但仅限于性能老旧的模型,最新模型成本保持稳定[5][6] - 当新模型发布时,99%市场需求会立即转移,用户总是追求最高质量模型[16][20] 模型定价与使用趋势 - GPT-4价格从2023年3月的60美元/百万tokens降至2024年3月的1.5美元/百万tokens,但最新Claude 3 Opus仍保持75美元/百万tokens[19] - 前沿模型单位token价格未上涨,但token消耗量爆炸式增长,任务长度每6个月翻一番[24][26] - 20分钟"深度研究"当前成本约1美元,预计2027年24小时AI Agent运行成本将达72美元/次[26] 商业模式挑战 - 固定费率订阅模式面临崩溃,Anthropic取消200美元/月无限套餐,因用户token消耗激增1000倍[28][33][34] - 行业陷入囚徒困境:按量定价理论上可持续但用户偏好包月制,固定费率导致比烂竞争[35][36][39] - 重度用户补贴不可持续,Windsurf已倒闭,多家公司面临资金链危机[13][27][43] 潜在解决方案 - 建立高切换成本的企业级服务,如Devin与花旗银行合作,获取稳定高利润率收入[39][40] - 垂直整合模式如Replit,将AI作为引流品,通过其他服务盈利[40][42] - 新云厂商(neocloud)可能成为可行方向,但需避免无规划的早期入场[44][45]
Discrete Tokenization:多模态大模型的关键基石,首个系统化综述发布
机器之心· 2025-08-06 02:56
大语言模型多模态离散化技术综述 - 核心观点:Discrete Tokenization成为多模态LLM统一建模的关键技术,通过向量量化将非文本模态转化为LLM可处理的离散表示,实现跨模态理解与生成[2][8][39] - 首次系统化梳理八类向量量化方法,构建完整技术地图[7][8][14] - 按输入模态组织内容结构,覆盖单模态到多模态应用全景[6][39] 核心技术体系 - 八大类向量量化方法:VQ(经典码本)、RVQ(残差量化)、PQ(乘积量化)、AQ(加性量化)、FSQ(有限标量量化)、LFQ(无查表量化)、BSQ(球面二值量化)、GART(图锚点关系量化)[9][14][16] - 不同方法在码本构建(显式/隐式)、梯度传播、量化精度等方面存在显著差异[10][14] - FSQ/LFQ/BSQ等隐式码本方法天然避免码本坍塌问题[16] 码本坍塌挑战 - 核心问题:训练中码字收敛到极少数,导致利用率下降与多样性不足[12] - 解决方案:码本重置、线性再参数化、软量化、正则化等[15] - VQ/RVQ等显式码本方法坍塌风险较高,需额外缓解措施[16] 早期单模态应用 - 图像领域:VQ-VAE/VQGAN实现高效视觉表示[3] - 音频领域:SoundStream/Encodec构建语音离散单元[6] - 视频领域:VideoGPT/MAGVIT支持帧级量化[6] - 图结构:NodePiece等降低图数据存储开销[6] LLM驱动的单模态建模 - 图像:SPAE/LlamaGen等将视觉特征映射到LLM词表空间[23][25] - 音频:TWIST/JTFS LM实现语音离散化处理[25] - 图结构:NT-LLM/Dr.E通过量化支持图节点分类[25] - 推荐系统:LC-REC/LETTER量化用户行为特征[25] LLM驱动的多模态融合 - 双模态组合:Text+Image(SEED/LaVIT)、Text+Audio(AudioPaLM/SpeechGPT)成为主流方向[26][28][34] - 三模态及以上:AnyGPT(文本+图像+音频)、VideoPoet(文本+图像+音频+视频)展现扩展性[29][34] - 统一token机制实现跨模态语义对齐与任务协同[27][30] 未来研究方向 - 技术瓶颈:码本利用率、信息损失、梯度传播、粒度对齐等[36][40] - 突破方向:自适应量化、统一框架、生物启发码本、可解释性提升[37] - 模态扩展:向触觉、嗅觉等更复杂模态延伸[39]
英伟达最新研究:小模型才是智能体的未来
36氪· 2025-08-05 17:45
小语言模型(SLM)的优势 - SLM已足够强大,能处理AI智能体中大多数重复、专一的任务,且天生更适合智能体系统的架构,灵活且易集成 [3] - 从经济角度看,SLM更省钱、更高效,能大幅降低AI运行成本 [3] - SLM小巧,训练/微调成本低(几小时GPU就行),易适应新需求(如新法规),带来"民主化",让更多人能开发智能体,减少偏见,促进创新 [5] AI智能体市场的现状与问题 - 2024年AI智能体市场已达52亿美元,预计到2034年飙升至2000亿美元,企业中超过一半已经在用 [5] - 目前大多数AI智能体依赖LLM作为"大脑",但任务往往重复单一(如"检查邮件""生成报告"),用LLMs过于浪费资源 [5] - 智能体系统任务的特点使得小模型能更好的适配智能体生态,从而更有可能交付出更符合要求的结果 [5] SLM的技术特点与性能 - SLM能装进普通消费电子设备(如手机或笔记本),推理速度快,能实时服务一个用户的智能体请求,10亿参数以下的模型可以算是SLM [9] - 最前沿的小模型如Phi-3和Hymba,在工具使用、常识推理和指令遵循方面,性能足以媲美30B到70B的大模型,但在实际工作流中的计算量却降低了10-30倍 [11] - 英伟达测试发现:MetaGPT 60%的任务可用SLM取代,Open Operator 40%,Cradle(图形界面自动化)70% [11] SLM未被广泛采用的原因 - 路径依赖:大量资金(高达570亿美元)被投入了中心化的大模型基础设施,团队倾向于重复使用付费设置,短期内难以转变 [11] - 行业内对「大即是好」的偏见依然强烈,小型模型的研究一直在追逐用于大型模型的相同广泛基准,这些测试体现不出小模型在智能体任务上的优秀表现 [12] - SLM几乎没有GPT-4那样的热度,小模型也不像大模型那样经历营销热潮,许多构建者从未尝试过更便宜更合理的路线 [13] SLM的未来发展建议 - 收集梳理数据,针对特定任务微调SLM,把任务进行聚类并建立SLM的"技能" [13] - 智能体运行时自然产生的专精数据可用来微调SLM,形成良性循环,使得结果越来越好 [6] - 智能体系统天然异构利于混用模型,主智能体用LLM,子任务用SLM [5] 作者背景 - SHIZHE DIAO:先后就读于北京师范大学、香港科技大学,曾在UIUC做访问学者,字节AI LAB实习,2024年加入英伟达担任研究科学家 [15][17] - Xin Dong:博士毕业于哈佛大学,曾在腾讯、Meta等公司工作和实习,现为英伟达研究科学家 [20][22][24]
英美情报界如何使用AI模型?
观察者网· 2025-07-31 13:52
【文/经济学人】 7月23日,美国总统特朗普在参加"赢得AI竞赛"峰会期间展示关于人工智能行动计划的行政命令 7月14日,五角大楼向Anthropic、谷歌、OpenAI以及埃隆·马斯克旗下的xAI(该公司的聊天机器人在最 近一次更新后一度自视为希特勒)等企业分别授予了最高达2亿美元的合同。这些公司将测试"代理 型"(agentic)AI模型。此类模型能够代替用户执行任务,并将复杂任务拆分为若干步骤,还可以操控 其他设备,比如汽车或计算机。 这些前沿实验室不仅活跃在军事领域,也正深度介入欧美的情报界。早期的大多数应用都集中在利用大 语言模型分析机密数据这方面。今年1月,微软公司表示,其26款云计算产品已获准用于美国情报机 构。6月,Anthropic宣布推出Claude Gov,并称该模型"已部署在拥有最高国家安全保密级别的情报机构 中"。目前,美国所有的情报机构都在广泛使用AI模型,其中不乏来自多个实验室的竞品。 AI公司通常会根据情报机构的需求对模型进行"微调"。例如,出于安全考虑,Anthropic面向公众开放的 Claude模型可能会拒绝处理带有"机密"标识的文件;而Claude Gov版本则会被调校 ...
EvaLearn:AI下半场的全新评测范式!
机器之心· 2025-07-28 18:45
AI研究范式转变 - AI研究正从"能不能做"转向"学得是否有效",传统基准测试难以衡量AI实际效用,因忽略任务连贯性和长期适应能力[1] - 更类人的动态学习能力体现在通过实践经验不断优化策略,如学生解题时逐步掌握高效方法[3] - 大语言模型(LLM)是否具备类似"成长"能力关乎其迈向通用人工智能,但长期缺乏有效评估手段[4] EvaLearn基准框架 - EvaLearn是首个量化LLM学习能力与效率的基准,以「连续问题求解」为核心重新定义评估逻辑,开源一个月星标数突破400+[5][6] - 构建648个挑战性问题组成182个序列,每个序列含7个同类任务问题,前序解答经验直接影响后续表现评估[9] - 采用顺序评估流程,结合专业评分标准和GPT-4o验证器,评估准确率超95%实现高效自动化[11][13] 关键研究发现 - 模型学习能力存在任务类型差异:数学/逻辑推理任务更易利用经验提升,摘要类任务更依赖预训练知识[14] - 思维链模型在学习能力和稳定性上普遍优于非思维链模型,能更好利用经验解决新问题[15] - 反馈学习比示例学习效果更显著,可将模型解答准确率提升最高达+18%(如Claude-3.7-Sonnet数学推理)[16][24] - 学习能力与静态模型能力无强相关性,静态高性能模型并非在所有任务学习能力上都占优[17][38] 评估指标体系 - 设计6类任务评估维度:摘要/分类/信息抽取/逻辑推理/数学推理/序列推理[20] - 5大核心指标:整体序列准确率/准确率曲线斜率/首次正确位置/连续正确次数/热身后准确率[21] - 4种学习范式对比:零样本/少样本/示例学习/反馈学习,后者平均提升效果最优[22][48] 模型表现分析 - 9个前沿LLM测试显示:5个模型从顺序学习中获益,思维型模型变化更显著(如OpenAI-o3-mini整体提升+10.5%)[27] - 非思维型模型学习效率斜率更陡峭(起始性能低易提升),思维型模型收益更稳定[44] - 首个正确解答位置(P_first)指标显示,反馈学习比示例学习更能促进模型早期掌握任务[52][53] 研究意义与展望 - EvaLearn提供动态评估新范式,揭示模型与人类学习能力差距,推动更强模型发展[55][56] - 开创性实现从静态评估转向动态学习潜力评估,为AGI发展提供重要测量工具[57]