大语言模型
搜索文档
【有本好书送给你】人类在被大语言模型“反向图灵测试”
重阳投资· 2025-09-24 15:32
公众号专栏定位 - 专栏定位为读书交流栏目,通过书评、书单或书摘的形式与读者互动 [4] - 每期设置交流主题,鼓励读者通过留言参与互动 [5] - 根据留言质量精选优质好书送出,鼓励原创内容 [6] 推荐书籍信息 - 本期推荐书籍为《大语言模型》,作者特伦斯·谢诺夫斯基,由中信出版集团于2025年7月出版 [8][10] - 互动话题为"结合本书,谈谈你对大语言模型的认识",留言时间为2024年9月24日至2025年10月8日 [10] 大语言模型的发展与影响 - 深度学习算法在20世纪80年代被发明时,计算机性能仅为今日的百万分之一 [10] - 到21世纪10年代,深度学习在图像识别、语音识别和语言翻译等经典难题上取得突破,并与强化学习结合取得显著成就(如2017年AlphaGo击败围棋世界冠军) [11] - 自OpenAI于2022年11月推出ChatGPT以来,大语言模型的快速发展引发世界关注,公众反应喜忧参半 [11] 大语言模型的智能本质探讨 - 大语言模型在处理和提取海量文本数据方面已超越人类能力,但在是否真正理解内容方面存在争议 [12] - 在实际交互中,大语言模型表现出反向图灵测试的特性,其智能表现与对话者的思维水平和提示质量正相关 [13] - 大语言模型展现出通用人工智能的潜力,其实现形式与早期设想不同,并表现出超预期的社交智能 [14] 关于智能标准的重新审视 - 专家对大语言模型智能的认知分歧凸显传统认知框架的局限性,需要重新审视"智能"、"理解"等核心概念 [20] - 大语言模型的出现为理解智能本质提供契机,可能催生新的概念框架,类似于17世纪物理学的变革 [21] - 通过研究大语言模型,可能会发现关于语言智能的基本原理,这些原理可推广到社会智能、机械智能等其他形式 [21] 思维与语言关系的哲学思考 - 关于语言与思维孰先孰后存在两种主要观点:语言决定论认为语言决定思维,思维优先论认为思维独立于语言存在 [24][25] - 大多数学者认为语言与思维是在复杂互动中相互塑造的关系 [25] - 著名语言学家诺姆·乔姆斯基提出人类思维的三个层次:现象描述、预测推断和因果解释,而研究发现ChatGPT已能成功应对该思维测试 [26] 书籍内容概述 - 书籍将深入探讨大语言模型的原理与应用,包括Transformer等核心技术 [28] - 内容涵盖大语言模型在医疗、法律、教育、编程、艺术等领域的广泛应用和深远影响 [28] - 书籍旨在帮助读者在智能革命中把握机遇,理解智能、思维与意识的本质 [28] 作者背景 - 作者特伦斯·谢诺夫斯基是美国四院院士,创办了《神经计算》期刊并担任主编 [29][30][31] - 担任神经信息处理系统大会基金会主席,目前是索尔克生物研究所弗朗西斯·克里克讲席教授 [32][33] - 与图灵奖得主杰弗里·辛顿共同发明了玻尔兹曼机,为深度学习奠定基础 [34]
2025年9月荐书 | 三力协同 资本重估
第一财经· 2025-09-24 14:34
宏观投资环境 - 低利率环境持续,政府债务成本被经济增长动态稀释,为财政扩张提供自我偿付空间 [1][14] - 全球资本再配置推动风险溢价与治理溢价重估,资产边界随产业链地理重构而外移 [1] - 货币政策逼近零下限后,公共投资应主动补位,通过提升潜在产出率抬高中性利率 [14] 技术变革与投资机会 - 生成式人工智能可将非结构化文本即时转化为可计算因子,显著降低信息摩擦与策略开发门槛 [1] - 人工智能发展推动人类从石油驱动经济步入电力驱动经济时代,电力重要性将等同于过去的石油 [5] - 机器人普及将推动聚醚酮、镁合金、钛合金、碳纤维、钕铁硼磁材等高性能材料需求激增 [5] 资产配置与投资策略 - 全球资产轮动遵循货币、资源、人口、科技线索,资本流向等于财富流向 [3] - 在美元周期、地缘博弈与产业变迁中锁定稀缺标的,利用ETF等低门槛工具构建确定性组合 [3] - 投资需看清趋势转换过程中产生的巨大机会,原有力量与新生力量的重叠使转换过程显得模糊 [5][6] 金融科技应用 - 大语言模型是自然语言处理组成部分,可跨越计算机科学与语言学,用于理解和生成人类语言 [10] - 金融行业对高效处理大量自然语言数据需求增长,但中文的含蓄多义特性对机器处理构成挑战 [11] - 大模型技术可应用于投研、风控、监管等十二大金融场景,从文本中提炼金融决策信息 [9]
Plaud正式进入中国大陆市场:同步发售三款产品
环球网· 2025-09-24 10:09
公司市场与产品发布 - Plaud公司宣布正式进入中国大陆市场并同步推出三款产品:Plaud Note Pro、Plaud Note以及可穿戴式产品Plaud NotePin [1] - 升级后的Plaud NotePin S将在国内进行首发 [1] Plaud Note Pro产品特性 - 产品采用全新人机交互方式实现人与AI的实时协同 多模态输入中的“一键标记”功能可实时将重要信息同步给大模型以实现人与大语言模型的实时对齐 [3] - 智能双录音模式通过算法自动识别通话或面对面对话场景 无需手动切换以实现无缝录音体验 [1][3] - 产品采用4个全向MEMS麦克风阵列设计和AI声学波束成型技术 可在最远5米范围内进行专业录音棚级音频捕捉 [3] - 产品机身厚度为2.99毫米 重量为30克 尺寸如银行卡般大小 [3] - 单次充电可支持最长50小时的连续录音 足以应对一周的工作需求 [3] Plaud Intelligence平台升级 - 平台核心升级包括可捕捉音频、文本、图片并支持“一键标记”功能以获取更丰富的上下文信息并生成更全面的摘要 [4] - 通过优化整合DeepSeek R1、千问、豆包等大模型来深挖对话价值并将细节转化为深度见解 [4] - 平台可区分不同说话人并支持112种语言的转写 [4] - 可从全球3000多个模板中优选覆盖不同行业和领域的专业模板并根据使用者角色和习惯进行智能推荐 [4] - 新增基于完整上下文的深度问答功能 所有答案信息来源可追溯 并新增智能建议追问、跨文件查询及精彩回答一键保存成新笔记等功能 [4] 产品支持与用户体验 - Plaud旗下所有产品均支持Plaud Intelligence平台 相关功能可通过支持iOS和Android的Plaud APP及网页端实现 [5] - 新版本将采用全新设计界面以简化多模态交互操作并确保在所有智能功能间实现无缝切换 [5]
网络基础设施如何支撑大模型应用?北京大学刘古月课题组5大方向研究,相关论文入选ACM SIGCOMM 2025
AI前线· 2025-09-23 14:37
作者 | 刘古月课题组 在大规模智能计算和未来网络快速演进的背景下,业界迫切需要更高带宽、更低成本、更智能化和更安全的网络基础设施,以支撑大语言模型训练、生 产网络运维与数据中心安全等多样化场景。 围绕这些需求,北京大学计算机学院网络与高能效计算研究所刘古月助理教授课题组长期聚焦于智能计算时代的网络体系结构、运维智能化和安全防护 研究,并从不同层面呼应行业痛点,形成互补合力,来推动新一代智能网络系统发展。 在今年的 ACM SIGCOMM 2025 上,该课题组共有 5 篇高水平论文(4 篇长文 +1 篇短文)入选,成为本年度 SIGCOMM 全球发文数量最多的高校课 题组 。据悉,SIGCOMM 作为计算机网络系统领域历史最悠久、最具权威性的学术会议,以严苛的录用标准著称。今年共有 461 篇投稿,录用仅 74 篇,录取率仅为 16.1%。这五篇论文的研究内容大概如下: 基于光交换收发器的大语言模型数据中心规模高带宽域架构 大语言模型(LLM)的训练依赖多维并行,其中高带宽域(High-Bandwidth Domain,HBD)是支撑张量并行等通信密集型并行方式的关键。 然而,现有 HBD 架构在可扩展性、 ...
Grok: xAI引领Agent加速落地:计算机行业深度研究报告
华创证券· 2025-09-23 11:41
报告行业投资评级 - 计算机行业评级为"推荐(维持)" [3] 报告核心观点 - Grok系列模型由xAI公司开发 通过快速迭代实现多模态与智能体能力突破 最新版本Grok-4在学术测试和多场景应用中建立技术壁垒 [6][8][29] - 海外大模型(OpenAI GPT-5、Google Gemini 2.5 Pro、Anthropic Claude 4)与国产模型(Kimi K2、DeepSeek-V3.1、阿里Qwen3)形成多极竞争格局 国产模型以成本效率优势(如Kimi K2输入成本仅为GPT-4.1的1/3)实现性能追平 [6][8][73] - AI Agent商业化落地加速 推动企业级服务与行业场景应用需求增长 涵盖办公、编程、金融、教育、医疗等细分领域 [6][8][83] 模型技术迭代与性能 Grok系列演进 - Grok-1(2024年3月):开源MoE架构 3140亿参数 在HumanEval编码测试达63.2% MMLU任务达73% 优于ChatGPT-3.5 [13][14][15] - Grok-1.5V(2024年4月):新增图像理解功能 在Mathvista测试准确率52.8% TextVQA达78.1% [17][18] - Grok-2(2024年8月):整合实时检索与图像生成 在MATH测试追平GPT-4o DocVQA测试领先同期模型 [19][21] - Grok-3(2025年2月):参数规模2.7万亿 引入Think分步推理和DeepSearch联网检索 在AIME、GPQA测试超越GPT-4o等旗舰模型 [20][24][25] - Grok-4(2025年7月):上下文窗口256K tokens 计算资源投入较Grok-2增加100倍 在HLE测试以44.4%准确率刷新纪录 在AIME、SAT、GRE测试超越GPT-4o等模型 [29][30][35] 海外大模型进展 - OpenAI GPT-5:在SWE-bench Verified测试达74.9% Aider Polyglot测试达88% [59][61] - Anthropic Claude 4:在SWE-bench Verified测试中Claude Sonnet 4达80.2% Claude Opus 4达79.4% 超越GPT-4.1和Gemini 2.5 Pro [64][66] - Google Gemini 2.5 Pro:在LiveCodeBench测试达74.2% Aider Polyglot达82.2% 多模态与推理能力领先 [68][71] 国产模型突破 - Kimi K2:在SWE-bench Multilingual和Tau2测试接近Claude 4 输入成本仅为GPT-4.1的1/3 [73][77] - DeepSeek-V3.1:通过Post-Training优化增强Agent能力 工具调用效率提升 [6][74][76] - 阿里Qwen3 Coder:编码基准测试媲美Claude Sonnet 4 中文语义任务保持优势 [79][80] 算力与生态布局 - xAI计划五年内实现5000万块H100等效算力规模 支撑Grok系列迭代 [30][50][53] - 国产模型累计备案服务439款 登记应用233款 商业化进程加速 [6][73] 投资应用方向 企业级服务 - 办公:金山办公、合合信息、福昕软件、三六零 [6][84] - 编程:卓易信息、普元信息 [6][84] - ERP:金蝶国际、用友网络 [6][84] - 多模态:万兴科技、美图公司、虹软科技、当虹科技 [6][84] 行业场景 - 金融:大智慧、同花顺、恒生电子、京北方、宇信科技 [6][84] - 教育:科大讯飞、视源股份、新开普、佳发教育 [6][84] - 医疗:阿里健康、卫宁健康、讯飞医疗科技 [6][84] - 工业:华大九天、中控技术、中望软件、索辰科技 [6][84] [6][8][83][84]
8点1氪丨英伟达拟向OpenAI投资至多1000亿美元;万豪酒店承认拖鞋循环多次使用;“最快女护士”张水华发文道歉
36氪· 2025-09-23 08:04
人工智能与科技合作 - OpenAI与英伟达宣布合作伙伴关系意向书 英伟达将逐步向OpenAI投资至多1000亿美元用于支持数据中心及相关基础设施建设 双方合作将为OpenAI的下一代人工智能基础设施部署至少10吉瓦的英伟达系统 首批吉瓦级系统将于2026年下半年部署[3] - OpenAI已就具体项目与国内供应链展开合作 产业链人士证实相关合作正在进行中[2][16] - 美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking 该模型是国内首个兼具深度思考与工具调用能力的大语言模型 在逻辑数学代码智能体等多领域推理任务中达到全球开源模型最先进水平[25] - DeepSeek线上模型升级至DeepSeek-V3.1-Terminus版本 针对语言一致性和Agent能力进行改进 缓解中英文混杂及异常字符问题 优化Code Agent与Search Agent表现[24] - OpenAI将推出若干计算密集型新功能 部分功能初期仅面向Pro订阅用户开放 部分新产品将收取额外费用[24] - Meta为Facebook Dating接入人工智能约会助手 通过Meet Cute功能基于算法每周为用户推荐惊喜匹配对象[24] 半导体与硬件投资 - 小米旗下基金入股旗芯微半导体 该公司为汽车控制器芯片研发商 注册资本增至1546.39万元[13] - 英伟达股价涨超3%创历史新高 美股三大指数集体收涨 纳指涨0.7% 道指涨0.14% 标普500指数涨0.44%[7] - 硅谷灵巧手创业公司TetherIA.ai完成数百万美元天使轮融资 由经纬创投领投 奇绩创坛跟投 资金用于团队扩充及初代产品研发推进[22] 新能源汽车与电池 - 比亚迪李云飞回应巴菲特清仓比亚迪股份 表示股票投资有买就有卖是正常现象 伯克希尔于2022年8月开始陆续减持 去年6月持股已低于5%[12] - 天赐材料向港交所提交上市申请书 联席保荐人为摩根大通中信证券和广发证券[19] - 新能源航空器研发制造商零重力飞机工业完成近亿元A++轮战略融资 由云时资本和盐城黄海汇创科泰低空经济产业投资基金联合投资 资金用于推进适航认证及产品研发量产[23] 消费与零售动态 - 太二酸菜鱼等多款预制菜在山姆会员店上架 包括太二酸菜鱼每份119.9元 松鼠桂鱼每份129.9元 九毛九西北菜卤牛腱拌凉皮每份69.9元[2][9][10] - 百果园拟筹约3亿元还债 通过配售2.795亿股H股 配售价每股1.17港元 公司半年亏损超3亿 一年关店超1600家[2][10] - 转转集团宣布逐步关停自由市场业务 未来全力聚焦官方验业务模式[14] - 山寨美心月饼售价60至80元 仅为正品官方定价368元的20% 采用无痕发货模式 生产源头多数位于广东[10][11] 企业资本运作 - 大洋电机向港交所提交上市申请书 联席保荐人为华泰国际和花旗[18] - 浩博医药完成6300万美元B2轮融资 由启明创投携手产业投资机构共同领投 资金用于推进核心产品AHB-137临床试验及商业化布局[20] - 沃庭科技完成数千万元天使轮融资 资金用于技术研发投入和产业布局完善[21] 企业回应与声明 - 贵州茅台否认下调今年业绩目标 公司证券部表示上半年已按计划完成目标进度[2][15] - 罗永浩回应债务问题 称作为被执行人冻结股权总额约为1758万元 表示五年前已还清法律强制个人偿还的债务 后续主动偿还公司债务[2][9] - 抖音电商货架场GMV同比增长49% 过去一年超过511万名新电商作者和536万新商家通过平台获得收入 平均每天有125万场电商直播开播[15] 行业监管与法律 - 美国寻求拆分谷歌数字广告业务 法官裁定谷歌部分数字广告技术构成非法垄断 认为其行为抑制市场竞争损害在线出版商利益[16] - 外交部发言人表示希望美方为中国企业到美国投资提供开放公平非歧视的营商环境 尊重企业符合市场规则的商业谈判[11]
GPT-5编程测评大反转,表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
36氪· 2025-09-22 19:39
行业基准测试 - Scale AI推出全新软件工程基准SWE-BENCH PRO 旨在通过更严格的测试标准评估大语言模型在实际开发场景中的能力[4] - 新基准包含1865个问题 覆盖商业应用 B2B服务和开发者工具的多元化代码库 包括731个公共集问题 276个商业集问题和858个保留集问题[7] - 测试设计采用human in the loop模式 每个问题都经过人工增强 包含问题陈述 需求说明及接口信息 并在容器化环境中进行评估[8][9][10] 模型性能表现 - 在SWE-BENCH PRO测试中 主流大语言模型解决率普遍低于25% 其中GPT-5以23.3%的解决率位列第一 Claude Opus 4.1以22.7%居次 Gemini 2.5 Pro Preview以13.5%排名第三[1][13] - 若仅统计已提交任务 GPT-5准确率达63% 显著高于Claude Opus 4.1的31% 显示其在擅长领域的稳定性[3] - 在商业集测试中 最优模型得分仍低于20% 表明当前模型处理真实商业场景问题的能力有限[13] 技术细节分析 - 测试结果显示编程语言难度影响显著 Go和Python语言上部分模型解决率超过30% 而JavaScript和TypeScript表现波动较大 介于0%至30%之间[15] - 不同代码库解决率差异明显 部分代码库解决率低于10% 另一些超过50%[15] - 模型失败模式各异 Claude Opus 4.1主要因语义理解不足失败(错误解答35.9% 语法错误24.2%) GPT-5未回答率高达63.1% Claude Sonnet 4存在35.6%的上下文溢出问题[16][17] 测试方法论 - SWE-BENCH PRO针对SWE-Bench-Verified的缺陷进行改进 使用全新题目避免数据污染 并排除1-10行代码的琐碎编辑 专注于需要大量多文件修改的复杂任务[4][7] - 测试通过fail2pass和pass2pass双验证机制确保质量 fail2pass测试经过人工筛选 偶尔失败的测试会运行三次以保证结果稳定性[10] - 基准采用分集策略 公共集在HuggingFace发布 商业集和保留集保持私有 商业集测试结果公开 保留集用于验证模型过拟合情况[7]
苹果传统强项再发力,视觉领域三种模态终于统一
机器之心· 2025-09-22 18:27
机器之心报道 编辑:冷猫 苹果新品发售的热度还没消退,大家都在讨论新手机的硬件进化。 而在 AI 功能方面,苹果仍然没有拿出什么颠覆性的应用,Apple Intelligence 在国内仍然遥遥无期。 再叠加上近期苹果 AI 团队和 硬件团队的人才流失 ,这一切似乎对苹果而言都不是太乐观。 虽说苹果在大模型领域上总是吃瘪,但说一个不冷不热的知识:苹果在计算机视觉领域的智能研究是其传统强项。 在构建和视觉相关的大模型时,有一个非常显著的痛点。视觉模态包含图像、视频和三维这三种,这些视觉模态具备不同是数据维度和表征方式,在研究中几乎 不可避免的需要分开处理,使得视觉模型被拆分为三个相不互通的研究领域,难以实现视觉领域的统一泛化。 但大语言模型却已经通过统一的分词方案展现出了强大的泛化能力。 然而, 视觉 AI 仍然呈现 出割裂状 态 ,不同任务与模态依赖专门化的模型:图像、视频和三维资产通常需要独立的分词器,这些分词器往往只在 高保真重建 或 语义理解 其中之一上进行优化,而极少兼顾二者。 为此, Apple 研究团队 提出了 ATOKEN(A Unified Tokenizer for Vision) ,针对这 ...
氪星晚报|国泰航空恢复西雅图航线每周五对直航往返航班;马斯克称明年SpaceX可能将全球总有效载荷的95%送入轨道
36氪· 2025-09-22 16:49
航空与交通 - 国泰航空将于2026年3月30日重启西雅图直航航线 成为其在北美第九个客运航点 2026年夏季每周提供超过110对往返北美航班 [1] - 印尼鹰航计划2026年与捷蓝航空 利雅得航空及维珍航空建立合作关系以拓展全球航线网络 [5] 航天与科技 - SpaceX在2025年第二季度发射了88.5%的卫星 按送入轨道重量计算占全球总量86% 马斯克预计2026年可能将全球总有效载荷95%送入轨道 2027年比例或达98% [2] - 美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking 该模型是国内首个兼具深度思考与工具调用能力的大语言模型 在多领域推理任务中达到全球开源模型最先进水平 部分任务性能接近闭源模型GPT5-Thinking [9] 电商与零售 - 淘宝2025年双11将首次同步在全球20个国家和地区启动 以五种语言版本面向全球消费者 并在海外市场投入10亿元营销补贴 目标帮助10万商家实现海外成交翻倍 [3] - 抖音电商过去一年货架场GMV同比增长49% 超过511万名新电商作者和536万新商家通过平台获得收入 平均每天有125万场电商直播被3亿多人观看 [4] - SHEIN在2025年8月美国时尚与服饰类别中排名第一 全球流量环比增长9.74% 谷歌搜索量增长25% [5] 电信与基础设施 - VodafoneThree与爱立信和诺基亚签订价值20亿英镑(约26.9亿美元)网络合同 由两家企业为其在英国全境提供网络技术 [6] 资本市场与投融资 - 京东工业股份有限公司港股IPO获中国证监会备案 拟发行不超过253,309,800股普通股在香港联合交易所上市 [7] - 零重力飞机工业完成近亿元A++轮战略融资 由云时资本和祥源文旅参股基金联合投资 资金将用于推进适航认证及产品研发与量产交付 [8] - 辉瑞可能以73亿美元收购减肥药开发商Metsera 包括每股47.50美元现金收购及每股22.50美元基于业绩里程碑的额外支付 [9] 金融与货币政策 - 人民币已成为中国对外收支第一大结算货币 全球第三大贸易融资货币和第三大支付货币 在IMF特别提款权货币篮子中权重位列第三 [10] - 金融监管总局扩大无还本续贷政策覆盖范围 涉及贷款9.4万亿元 去年以来通过小微企业融资协调工作机制发放贷款22万亿元 [11] - 中国跨境资金流动总体均衡 人民币汇率在主要货币中表现稳定 经济基本面长期向好为外汇市场提供坚实保障 [12] 能源与工业 - 伯克希尔·哈撒韦通过增持持有三井物产10%以上表决权股份 成为其主要股东 [12] - 华能新能源股份有限公司成立华能(北京)综合能源科技服务有限公司 注册资本2亿元人民币 经营范围包括碳减排技术研发和储能技术服务等 [12]
27亿美元天价回归,谷歌最贵“叛徒”、Transformer作者揭秘AGI下一步
36氪· 2025-09-22 16:48
大模型核心需求 - 大模型最核心需求是算力 具体表现为更多FLOPS意味着更好性能 [5][9][21] - 内存容量和带宽对模型结构灵活性至关重要 不足会限制非线性层添加 [24][26] - 网络带宽是关键但常被忽视因素 影响分布式训练和推理时参数访问速度 [27][28] 硬件资源需求 - 计算资源需求急剧增长 从2015年32个GPU训练发展到需要数十万个GPU [12] - 内存系统需要多层次优化 包括片上SRAM、HBM和DRAM等中高速缓存 [14][26] - 集群需要更大更快设备 更大内存带宽直接决定推理速度 [15][28] 精度与性能平衡 - 低精度运算成为趋势 可使用8-bit甚至4-bit换取更多FLOPs [32][33] - 需确保训练精度足够和推理误差小 accumulator使用更高精度或进行裁剪防止溢出 [34][40] - 可重复性至关重要 除非获得10倍性能否则不应牺牲确定性 [35][39] AI技术发展路径 - AI发展处于早期阶段 当前LLM只是单步预测引擎 [47] - 未来将加入持久记忆和长期预测能力 发展为具备完整规划能力的行动型AI [48] - 技术飞跃可能在2026年底前实现 一切都将发生深刻变化 [49] 行业影响与社会挑战 - AI将导致大规模失业潮 未来20年内白领认知劳动将被高效替代 [52] - 需要政府通过税收等再分配机制缓冲社会巨变 [52] - 面临"遏制困境"挑战 当执行想法成本趋近零时可能引发大量冲突 [54][55] 安全与治理框架 - 设定四条不可逾越红线:递归式自我改进、自主设定目标、获取自身资源、在世界上自主行动 [56] - AI存在于物理数据中心 可通过"拔掉电源"方式控制 [56] - 需要建立识别和集体决策机制来应对可能出现的失控情况 [56]