大语言模型(LLM)

搜索文档
马来西亚,下一个全球数据中心霸主?
财富FORTUNE· 2025-05-09 21:03
马来西亚柔佛州即将建成的"探索新城"办公楼的内部设计效果图。图片来源:Courtesy of ZA 19世纪40年代,新加坡的华人先民横渡柔佛海峡(Johor Strait),在马来西亚柔佛州的原始丛林中披荆 斩棘,建立起绵延不绝的黑胡椒种植园。20世纪的英国殖民时期,这些胡椒农场逐渐被广袤的橡胶林与 油棕榈园所取代。如今,在同一片土地上,柔佛州正在悉心培育数字时代的新型经济作物——为缓解全 球算力饥渴而建设的人工智能数据中心群。 柔佛的数据中心建设狂潮,与当年改种胡椒的产业转型如出一辙,根源都在新加坡的资源瓶颈。这个城 邦国家虽然贵为东南亚的数字中枢,却连水电供给都依赖进口。2019年,因为庞然巨物般的数据中心不 仅消耗大量水资源,更消耗了新加坡7%的电力,政府不得不叫停新建项目。投资方与运营商旋即跨海 而来,在土地成本优势显著、能源供给充沛,以及矢志助推数字经济发展的马来西亚落子布局。 而柔佛跻身数据中心重镇的另一关键推力,在于全球算力争夺战的白热化。尽管新加坡在2022年1月已 经放开数据中心禁令,但岁末ChatGPT的震撼问世引爆全球人工智能基础设施需求,也在马来西亚掀起 新一轮的投资狂潮。房地产咨询 ...
苹果谷歌“闹分手”?iPhone搜索或转投AI,高管揭秘
36氪· 2025-05-09 07:59
此案核心争议是两家公司价值约200亿美元(约合人民币1447亿元)/年的协议,该协议让谷歌搜索成为苹果浏览器默认搜索引擎。此案可能迫 使科技巨头解除合作,颠覆iPhone等设备长期以来的运作方式。 01.Safari搜索量首次下滑,AI抢夺传统搜索引擎"蛋糕" 自2007年初代iPhone发布以来,苹果用户始终通过谷歌进行网页搜索,而如今消费者将进入由多家公司AI主导的新时代。 苹果和谷歌要"分手"? 智东西5月8日消息,据知名苹果爆料人、彭博社记者马克·古尔曼(Mark Gurman)最新报道,苹果公司正在"积极考虑"彻底改造其设备上的 Safari网络浏览器,将重点转向AI驱动的搜索引擎。 苹果与谷歌持续二十年战略合作关系似乎出现"裂痕",重大行业变革被按下"加速键"。 本周三,苹果互联网软件和服务部门高级副总裁埃迪·库(Eddy Cue)在美国司法部起诉谷歌母公司Alphabet的案件中作证时披露了这一信息。 埃迪·库提到,Safari搜索量上月首次下滑。他认为这是因为AI工具吸引了部分用户的视线,包括OpenAI、Perplexity AI和Anthropic在内的AI搜 索提供商终将取代Alphab ...
GPT-4o医学知识覆盖率仅55%?腾讯优图团队发布大模型医疗能力“体检报告”
量子位· 2025-04-30 12:10
医疗大模型知识覆盖度评估框架MedKGEval - 腾讯优图实验室天衍研究中心提出MedKGEval框架,首次通过医疗知识图谱(KG)的多层级评估系统量化GPT-4o等主流模型的医学知识覆盖度,该研究被WWW 2025会议录用为口头报告[1][2] - 当前主流评估体系(如Prompt-CBLUE、Medbench)存在三大局限:罕见病症覆盖不足、难以量化知识储量、无法捕捉医学概念间复杂关联[5] - MedKGEval创新性设计三级评估体系:实体层(医学概念理解)、关系层(医学关联区分)、子图层(结构化推理),通过真伪判断和多选题形式实现任务导向与知识导向的双重评测[6][7][11] 评估任务架构设计 - 实体层面包含3项任务:实体类型标注(ET)、实体聚类(EC)、实体消歧(ED),验证模型对"糖尿病"等医学概念的分类与等价性判断能力[11] - 关系层面包含3项任务:关系类型标注(RT)、事实核验(FC)、关系预测(RP),检验模型对"并发症"等医学关联的认知[11] - 子图层面包含3项任务:错误识别(ER)、子图推理(R1/R2),评估模型在多跳关系(如"高血压→并发症→脑出血→影像检查→CT")中的结构化推理能力[11] 实验数据与模型表现 - 采用中文医疗知识图谱CPubMedKG和CMeKG作为基准,评估11个LLM(含开源通用模型、医疗垂类模型、闭源模型)[15][16] - GPT-4o以70.65%平均准确率领先,参数量翻倍可使同架构模型性能提升3-5%,通用模型整体表现优于医疗垂类模型[16] - 知识覆盖度方面,GPT-4o在CPubMedKG上覆盖65.66%实体、55.60%关系、62.31%三元组,Qwen2-7B和Baichuan2-13B分别达到61.95%和62.05%的三元组覆盖率[17][18] 关键发现与应用价值 - 模型对高关联度实体(如糖尿病)和高频关系(如鉴别诊断)表现更优,例如GPT-4o在"超声"实体相关问答中正确率达94.16%[19][24] - 框架可精准定位知识缺陷,如WiNGPT在"肺结核"实体、Baichuan2-13B在"相关(转换)"关系中存在明显短板,建议针对性补充专项数据优化[20][25] - 该研究为医疗领域LLM的可靠性验证提供量化依据,代码已开源(GitHub地址)[21][22][23]
评论 || 舱驾一体化下的几点思考
中国汽车报网· 2025-04-27 13:45
舱驾一体化趋势 - 汽车行业正从以驾驶员为核心的传统模式向以用户体验为中心的智能模式转型 [2] - 驾驶域与座舱功能域深度融合成为行业热点话题 [2] - 传统汽车控制系统存在功能模块分割明显、跨域协作困难的问题 [2] - 驾驶系统与座舱系统在架构和技术路径上差异大导致用户体验割裂 [2] 技术实现路径 - AI技术特别是大语言模型(LLM)推动驾驶与座舱域协同 [2] - 需构建以中央智能大脑为核心的整车架构实现跨域协作和数据共享 [2] - 中央智能大脑需具备空间理解能力和多维数据分析能力 [3] - 系统需实现毫秒级响应以平衡用户体验与驾驶安全 [3] 行业挑战 - 舱驾一体化需要对底层架构、数据融合、用户交互逻辑进行系统性重构 [3] - 产业生态面临用户画像构建、个性化推荐效果提升等现实问题 [3] - 需解决跨域协作中的信息延迟安全风险和各智能体模块协同挑战 [3] - 当前商业化进程未达标 多数功能处于技术验证或初步应用阶段 [4] 市场现状 - 车企存在过度营销舱驾一体化概念的现象 [4] - 行业宣传超前于实际技术成熟度 功能未达到无缝协同要求 [4] - 需更多关注技术稳定性、可行性和用户真实需求 [4] 发展核心 - 舱驾一体化的本质是为用户创造价值而非技术炫技 [4] - 需实现从功能堆叠向体验融合的跨越式升级 [4] - 最终目标是提升用户满意度和出行安全性 [4]
具身智能 “成长”的三大烦恼
21世纪经济报道· 2025-04-24 21:07
人形机器人产业化进展 - 人形机器人产业化进展飞速,从春晚表演到半程马拉松赛事引发广泛关注[1] - 具身智能技术突破是关键,大语言模型(LLM)、视觉语言模型(VLM)和视觉语言动作端到端模型(VLA)显著提升交互感知和泛化能力[1] - 行业面临数据采集、机器人形态应用和大小脑融合等挑战[1] 具身智能发展阶段 - 具身智能概念1950年提出,近年成为科技热点,被定义为能理解、推理并与物理世界互动的智能系统[2] - 当前具身智能模型已具备小范围场景行为复现能力,但力触动作和多指协同仍困难[3] - 泛化能力主要来自视觉语言模型,动作轨迹缺乏泛化性,依赖训练数据[3] 数据采集解决方案 - 行业面临三维数据采集难度大、周期长、成本高的问题[3] - 跨维智能采用3D生成式AI的Sim2Real仿真解决数据需求[4] - 智元机器人采用真机数据采集模式,年完成亿级数据采集,发布GO-1模型实现小样本泛化[4] 机器人形态发展 - 机器人发展经历工业自动化、大模型和端到端大模型三个阶段,不同架构各有优势[6] - 端到端大模型融合多模态输入与动作输出,提升决策效率,加速人形机器人发展[6] - 人形机器人不等于具身智能,但仍是最大需求者和挑战者[7] 非人形机器人应用 - 非人形机器人在垂直领域更具效率优势,如跨维智能DexVerse引擎在30余行业批量应用,精度超99.9%[8] - 中间态机器人(轮式、双臂等)可在工业、应急等场景承担任务,为具身智能公司提供营收[7] 大小脑融合技术 - 通用人形机器人本体分大脑、小脑和肢体三部分,独立系统导致通讯延迟[9] - 英特尔和东土科技提出大小脑融合方案,采用单一芯片架构降低成本[9][10] - 大小脑融合面临实时控制(1毫秒内完成99%任务)和动态计算负载等挑战[10] 技术路线融合趋势 - 厂商技术路线分化,有的聚焦大脑(场景化落地),有的专注小脑(高精度运动控制)[12] - 市场需求将推动两种技术路线融合,要求机器人兼具智能交互和灵活动作能力[12]
我悟了如何与AI说话!谷歌 69 页官方提示词秘籍全解析,中文版免费下载
AI科技大本营· 2025-04-22 18:26
核心观点 - Google发布69页Prompt Engineering白皮书,系统性梳理AI沟通方法论和最佳实践[1][6] - 提示工程是精确引导AI输出的关键技能,可解决AI输出不稳定、偏离预期等问题[3][4][9] - 白皮书提供分层方法论:从理解LLM原理到参数调节再到高级提示技巧[8][11][24] AI工作原理 - 大语言模型本质是预测引擎,通过提示词引导其预测方向[8] - 模型根据输入提示预测下一个token,循环生成输出内容[8] - 提示词质量直接影响输出效果,明确指令可提升预测准确性[9] 关键参数调节 - 温度(Temperature)控制输出随机性:0.1-0.3适合严谨任务,0.8-1.0适合创意任务[14][15][23] - Top-K限制候选词数量,Top-P动态调整候选词概率范围[23] - 推荐初始参数组合:Temp=0.2, Top-P=0.95, Top-K=30[23] 提示技巧 基础技巧 - 零样本提示:直接给出指令不含示例[25] - 少样本提示:提供3-5个高质量示例引导输出格式[26][28] 高级技巧 - 分层指令:系统提示定角色+上下文提示给背景+角色提示定风格[29] - 退步思考:先解决抽象问题再处理具体任务[29] - 思维树:生成多条推理路径投票选择最优解[33][37][40] - ReAct框架:思考-行动-观察循环,可调用外部工具[41] 最佳实践 - 保持提示简洁明确,指定输出格式要求[44] - 使用模板变量提高重复任务效率[44] - 建立实验记录文档追踪优化过程[44] - 不同模型/任务需重新调试参数和提示[41]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 20:02
技术原理 - 强化学习(RL)是用于解决多步决策问题的算法框架,与传统机器学习不同,无标准答案但有反馈机制评判结果[3][7] - 大语言模型(LLM)本质是预测下一个词,存在不遵从指令的缺陷,通过与 RL 结合解决该问题[8][9][10] 行业应用 - RL+LLM 应用广泛,海外 OpenAI 的 RL 已从纯推理进化到 Agent 范式,实现多轮交互和上网互动[21] - 国内豆包和 DeepSeek 等团队在探索 RL+LLM 的新可能性,不同公司在该路径上出现编程、Agent、通用泛化能力等分支[21][26][27][28] 发展趋势 - 预训练的规模法则收益变小,但仍有数据和模型小型化两个发展方向;RL 的规模法则处于初始阶段,决策能力将持续提升[26] 人才与基建 - RL 人才稀缺,因门槛高、工业界应用少、对工程要求高;开源工作可降低使用门槛,如 AReaL - boba 框架[33][34][35][36] 训练与评估 - RL 训练中基建最重要,其次是数据和算法;评估可看准确率和多轮交互体验[29] 组织架构 - 大模型团队最好将 LLM 和 RL 两条线融合,至少设预训练和后训练团队,再按目标细分[31]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 20:01AI Processing
文章核心观点 文章围绕强化学习(RL)展开,介绍其与传统机器学习的区别、与大语言模型(LLM)的结合应用、行业发展现状与方向,还提及人才稀缺原因及人生与RL的关联等内容 强化学习概念 - RL是机器学习下用于解决多步决策问题的算法框架,与传统机器学习不同,无标准答案,有反馈机制评判结果,逻辑接近真实生活解决问题方式 [2][7] - 传统机器学习本质是记住大量标注过正确答案的数据对,用于解决单一步骤、有明确标准答案的分类问题,如人脸识别等 [3][4] RL与LLM结合 - 最初RL和LLM无关联,LLM本质是预测下一个词,存在不遵从指令缺陷,OpenAI在InstructGPT中将二者结合解决该问题 [8][9][11] - 为定义模型输出与指令需求的一致性,用人为定义数据训练出奖励模型,衍生出RLHF概念,其主要价值是让LLM好用,与RL不同,RL可让LLM更聪明 [11][12][13] - OpenAI发现让LLM“多吐点字”实现“慢思考”可使其更聪明,该过程叫推理时间缩放,训练时用有标准答案问题训练推理能力,还需用文科训练平衡模型 [13][16][19] 行业发展现状与方向 - 国内部分团队如豆包和DeepSeek在探索新可能,海外团队有不同理念,OpenAI的RL已进化到Agent范式,实现多轮交互和与虚拟世界互动 [21][22] - RL和LLM缺一不可,二者结合实现智能,目前最好的Agent模型按此整合,但范式和算法有发展空间 [25][29] - 预训练的规模定律收益变小,发展方向包括合成高质量图文混合数据和蒸馏小规模但能力同等的模型 [29][30] - RL的规模定律处于初始阶段,决策能力会提升,不同大模型公司在RL+LLM路径上会分化,主要分支有编程、Agent、通用泛化能力 [31][32][33] 用户感知与训练过程 - 用户可通过准确率和多轮交互体验判断强化学习效果,准确率可通过基准测试或体感验证,多轮交互体验好的模型如Claude [34] - 强化学习训练中基建最重要,决定迭代效率,其次是数据,最后是算法,训练效果受多种因素耦合影响,存在不确定性 [34][35] 组织架构与人才问题 - 大模型团队组织架构中预训练和后训练团队最好不分开,成员需有破圈意识,可按目标分工,如多模态、RLHF分支等 [36] - RL人才稀缺因门槛高、工业界应用少、对工程要求高,吴翼回国做开源工作,联合蚂蚁研究院发布开源框架AReaL - boba [39][40][42] - 公司招或培养RL人才,建议注重“动手能力”和“不给自己设限” [45] 人生与RL关联 - 人生类似强化学习过程,需探索自己的奖励函数,很多人可能找错奖励函数,应追求“熵值最大化”生活方式,勇敢试错 [8][47][48] - 传统RL难中途改变奖励函数,但在多智能体强化学习和人机交互中,AI需主动探索正确奖励函数,人生也需主动探索找到自己的奖励函数 [48][49][50]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 20:01
强化学习(RL)基础概念 - 强化学习是机器学习中解决多步决策问题的算法框架 其特点在于没有标准答案 通过最终反馈机制评判结果好坏[6] - 与传统监督学习不同 RL不需要标注数据 而是通过环境交互获得奖励信号 更接近人类解决问题的逻辑[6][7] - 典型应用场景包括游戏(如乒乓球)和复杂任务(如行程规划) 每个决策步骤会影响最终结果[6] RL与LLM的结合发展 - OpenAI首次在InstructGPT中将RL与LLM结合 解决大模型指令遵从问题 衍生出RLHF技术[10][11] - RLHF通过人工标注数据训练奖励模型 使LLM输出更符合人类需求 但本质是对齐而非增强模型能力[12][13] - RL实现"慢思考"机制 通过延长推理过程(token量增加)提升LLM准确性 形成inference time scaling范式[14][15] 行业技术路径分化 - OpenAI聚焦Agent范式 实现多轮交互和虚拟世界操作 完成从单轮到多轮的跃迁[20][21] - Anthropic专注编程能力 在简单问题快速响应与复杂问题深度思考间取得平衡[17][30] - DeepSeek探索通用泛化能力 通过理科训练与文科调校结合实现平衡输出[18][31] 技术实现关键要素 - 基建框架决定迭代效率 7B模型训练周期从7天缩短至2天可提升3倍试错机会[33] - 数据质量比数量更重要 针对性训练数据可显著提升模型性能[33] - 理解能力依赖LLM预训练 决策能力依赖RL 二者形成乘法效应缺一不可[23][24] 行业应用与人才现状 - RL人才稀缺源于技术门槛高 论文引用量比NLP/CV少一个数量级 工业级应用场景有限[39][40] - 开源框架AReaL-boba实现7B模型SOTA性能 推动RL技术普及[43] - 创业公司需把握技术窗口期 在终局到来前快速验证产品 而非追求长期技术优势[37][38] 企业组织架构建议 - 预训练与后训练团队需紧密协作 成员需具备跨领域知识避免能力盲区[36] - 按目标划分专业团队(多模态/RLHF等) 同时保持技术路线的灵活性[36] - Agent公司需储备RL人才 尽管当前技术门槛较高但未来可能成为标配能力[37]
阿里的理想,腾讯的现实
创业邦· 2025-03-25 11:09
以下文章来源于20社 ,作者贾阳 20社 . 关注年轻人的钱包、工作和生活。 来源丨20社(ID:quancaijing_20she) 作者丨贾阳 图源丨电影《无间道》 去年观察中国互联网公司,最重要的指标是"回购"。 Capex视角下 阿里腾讯作风大不同 腾讯本周发布了2024年Q4财报,万众瞩目的Capex终于出炉。 腾讯"计划在2025年进一步增加资本支出,并预计资本支出将占收入的低两位数百分比。"也就是说,腾讯今年的Capex将达到 千亿级别。 在内外都缺乏新故事可讲的时候,各个公司在"成长性"上令人失望,那么回馈股东成了负责任公众公司的一致选择。 今年则大不相同。经历了连续数年的低迷周期后,巨头们纷纷进入投资周期,加入AI军备竞赛。Capex(Capital Expenditure),也就是资本开支,成为了最受关注的指标。 腾讯的Capex去年Q4开始飙升 不过,各家公司对AI Capex的力度、态度又有一些微妙差别。 阿里高歌猛进,一鼓作气。腾讯则相对更步履款款。字节砸钱力度同样大。美团试探而克制…… 将这些结合起来,我们可以大致看到中国AI产业的独特图景了。 腾讯的投资从去年就开始加速,Q4资本 ...