Workflow
大语言模型(LLM)
icon
搜索文档
苹果谷歌“闹分手”?iPhone搜索或转投AI,高管揭秘
36氪· 2025-05-09 07:59
苹果与谷歌合作裂痕 - 苹果正在积极考虑彻底改造Safari浏览器 重点转向AI驱动的搜索引擎 [1] - 苹果与谷歌持续二十年的战略合作关系出现裂痕 可能被迫解除价值约200亿美元/年的默认搜索引擎协议 [1][4] - 苹果互联网软件和服务部门高级副总裁埃迪·库在美国司法部起诉谷歌母公司Alphabet的案件中作证披露相关信息 [1] AI对传统搜索引擎的冲击 - Safari搜索量上月首次下滑 因AI工具吸引了部分用户 [2] - OpenAI Perplexity AI和Anthropic等AI搜索提供商可能取代谷歌搜索等传统搜索引擎 [2] - 苹果未来会将这些AI搜索选项引入Safari 已与Perplexity进行磋商 [2] - 2024年第四季度谷歌在全球搜索市场的份额自2015年以来首次跌破90% [10] - ChatGPT已有每周5亿活跃用户 25年3月网站访问量达39亿次 [10] 苹果的战略调整 - 苹果在iOS 18 Apple Intelligence组件中加入ChatGPT之前曾与谷歌进行竞标 但最终选择OpenAI [7] - 苹果目前已在Siri数字助理中提供ChatGPT选项 预计今年晚些时候加入谷歌Gemini [9] - 与OpenAI的协议允许苹果在操作系统中添加其他AI服务商 包括苹果自研产品 [9] - 苹果评估了Anthropic Perplexity 中国深度求索及马斯克xAI的Grok等AI服务商 [9] 财务影响 - Alphabet股价周三暴跌7.3% 创2月以来最大跌幅 苹果股价也下跌1.1% [4] - 苹果服务部门3月季度创下266亿美元收入纪录 但搜索合作破裂可能导致收入损失 [7] - 埃迪·库坦言因可能失去谷歌协议分成收入而失眠 认为当前协议仍是财务条件最优惠的安排 [7] 行业变革趋势 - 埃迪·库认为技术变革速度之快 可能几年后人们使用的设备都将不同 [8] - 十年后可能不再需要iPhone AI为新入局者创造机遇 [8] - AI公司需改进搜索索引才能提升竞争力 但其显著优越的其他功能会吸引用户转向 [9] - 搜索引擎的AI转向势不可挡 新入局者正以全新方式解决问题 [10]
GPT-4o医学知识覆盖率仅55%?腾讯优图团队发布大模型医疗能力“体检报告”
量子位· 2025-04-30 12:10
医疗大模型知识覆盖度评估框架MedKGEval - 腾讯优图实验室天衍研究中心提出MedKGEval框架,首次通过医疗知识图谱(KG)的多层级评估系统量化GPT-4o等主流模型的医学知识覆盖度,该研究被WWW 2025会议录用为口头报告[1][2] - 当前主流评估体系(如Prompt-CBLUE、Medbench)存在三大局限:罕见病症覆盖不足、难以量化知识储量、无法捕捉医学概念间复杂关联[5] - MedKGEval创新性设计三级评估体系:实体层(医学概念理解)、关系层(医学关联区分)、子图层(结构化推理),通过真伪判断和多选题形式实现任务导向与知识导向的双重评测[6][7][11] 评估任务架构设计 - 实体层面包含3项任务:实体类型标注(ET)、实体聚类(EC)、实体消歧(ED),验证模型对"糖尿病"等医学概念的分类与等价性判断能力[11] - 关系层面包含3项任务:关系类型标注(RT)、事实核验(FC)、关系预测(RP),检验模型对"并发症"等医学关联的认知[11] - 子图层面包含3项任务:错误识别(ER)、子图推理(R1/R2),评估模型在多跳关系(如"高血压→并发症→脑出血→影像检查→CT")中的结构化推理能力[11] 实验数据与模型表现 - 采用中文医疗知识图谱CPubMedKG和CMeKG作为基准,评估11个LLM(含开源通用模型、医疗垂类模型、闭源模型)[15][16] - GPT-4o以70.65%平均准确率领先,参数量翻倍可使同架构模型性能提升3-5%,通用模型整体表现优于医疗垂类模型[16] - 知识覆盖度方面,GPT-4o在CPubMedKG上覆盖65.66%实体、55.60%关系、62.31%三元组,Qwen2-7B和Baichuan2-13B分别达到61.95%和62.05%的三元组覆盖率[17][18] 关键发现与应用价值 - 模型对高关联度实体(如糖尿病)和高频关系(如鉴别诊断)表现更优,例如GPT-4o在"超声"实体相关问答中正确率达94.16%[19][24] - 框架可精准定位知识缺陷,如WiNGPT在"肺结核"实体、Baichuan2-13B在"相关(转换)"关系中存在明显短板,建议针对性补充专项数据优化[20][25] - 该研究为医疗领域LLM的可靠性验证提供量化依据,代码已开源(GitHub地址)[21][22][23]
评论 || 舱驾一体化下的几点思考
中国汽车报网· 2025-04-27 13:45
舱驾一体化趋势 - 汽车行业正从以驾驶员为核心的传统模式向以用户体验为中心的智能模式转型 [2] - 驾驶域与座舱功能域深度融合成为行业热点话题 [2] - 传统汽车控制系统存在功能模块分割明显、跨域协作困难的问题 [2] - 驾驶系统与座舱系统在架构和技术路径上差异大导致用户体验割裂 [2] 技术实现路径 - AI技术特别是大语言模型(LLM)推动驾驶与座舱域协同 [2] - 需构建以中央智能大脑为核心的整车架构实现跨域协作和数据共享 [2] - 中央智能大脑需具备空间理解能力和多维数据分析能力 [3] - 系统需实现毫秒级响应以平衡用户体验与驾驶安全 [3] 行业挑战 - 舱驾一体化需要对底层架构、数据融合、用户交互逻辑进行系统性重构 [3] - 产业生态面临用户画像构建、个性化推荐效果提升等现实问题 [3] - 需解决跨域协作中的信息延迟安全风险和各智能体模块协同挑战 [3] - 当前商业化进程未达标 多数功能处于技术验证或初步应用阶段 [4] 市场现状 - 车企存在过度营销舱驾一体化概念的现象 [4] - 行业宣传超前于实际技术成熟度 功能未达到无缝协同要求 [4] - 需更多关注技术稳定性、可行性和用户真实需求 [4] 发展核心 - 舱驾一体化的本质是为用户创造价值而非技术炫技 [4] - 需实现从功能堆叠向体验融合的跨越式升级 [4] - 最终目标是提升用户满意度和出行安全性 [4]
具身智能 “成长”的三大烦恼
21世纪经济报道· 2025-04-24 21:07
人形机器人产业化进展 - 人形机器人产业化进展飞速,从春晚表演到半程马拉松赛事引发广泛关注[1] - 具身智能技术突破是关键,大语言模型(LLM)、视觉语言模型(VLM)和视觉语言动作端到端模型(VLA)显著提升交互感知和泛化能力[1] - 行业面临数据采集、机器人形态应用和大小脑融合等挑战[1] 具身智能发展阶段 - 具身智能概念1950年提出,近年成为科技热点,被定义为能理解、推理并与物理世界互动的智能系统[2] - 当前具身智能模型已具备小范围场景行为复现能力,但力触动作和多指协同仍困难[3] - 泛化能力主要来自视觉语言模型,动作轨迹缺乏泛化性,依赖训练数据[3] 数据采集解决方案 - 行业面临三维数据采集难度大、周期长、成本高的问题[3] - 跨维智能采用3D生成式AI的Sim2Real仿真解决数据需求[4] - 智元机器人采用真机数据采集模式,年完成亿级数据采集,发布GO-1模型实现小样本泛化[4] 机器人形态发展 - 机器人发展经历工业自动化、大模型和端到端大模型三个阶段,不同架构各有优势[6] - 端到端大模型融合多模态输入与动作输出,提升决策效率,加速人形机器人发展[6] - 人形机器人不等于具身智能,但仍是最大需求者和挑战者[7] 非人形机器人应用 - 非人形机器人在垂直领域更具效率优势,如跨维智能DexVerse引擎在30余行业批量应用,精度超99.9%[8] - 中间态机器人(轮式、双臂等)可在工业、应急等场景承担任务,为具身智能公司提供营收[7] 大小脑融合技术 - 通用人形机器人本体分大脑、小脑和肢体三部分,独立系统导致通讯延迟[9] - 英特尔和东土科技提出大小脑融合方案,采用单一芯片架构降低成本[9][10] - 大小脑融合面临实时控制(1毫秒内完成99%任务)和动态计算负载等挑战[10] 技术路线融合趋势 - 厂商技术路线分化,有的聚焦大脑(场景化落地),有的专注小脑(高精度运动控制)[12] - 市场需求将推动两种技术路线融合,要求机器人兼具智能交互和灵活动作能力[12]
我悟了如何与AI说话!谷歌 69 页官方提示词秘籍全解析,中文版免费下载
AI科技大本营· 2025-04-22 18:26
核心观点 - Google发布69页Prompt Engineering白皮书,系统性梳理AI沟通方法论和最佳实践[1][6] - 提示工程是精确引导AI输出的关键技能,可解决AI输出不稳定、偏离预期等问题[3][4][9] - 白皮书提供分层方法论:从理解LLM原理到参数调节再到高级提示技巧[8][11][24] AI工作原理 - 大语言模型本质是预测引擎,通过提示词引导其预测方向[8] - 模型根据输入提示预测下一个token,循环生成输出内容[8] - 提示词质量直接影响输出效果,明确指令可提升预测准确性[9] 关键参数调节 - 温度(Temperature)控制输出随机性:0.1-0.3适合严谨任务,0.8-1.0适合创意任务[14][15][23] - Top-K限制候选词数量,Top-P动态调整候选词概率范围[23] - 推荐初始参数组合:Temp=0.2, Top-P=0.95, Top-K=30[23] 提示技巧 基础技巧 - 零样本提示:直接给出指令不含示例[25] - 少样本提示:提供3-5个高质量示例引导输出格式[26][28] 高级技巧 - 分层指令:系统提示定角色+上下文提示给背景+角色提示定风格[29] - 退步思考:先解决抽象问题再处理具体任务[29] - 思维树:生成多条推理路径投票选择最优解[33][37][40] - ReAct框架:思考-行动-观察循环,可调用外部工具[41] 最佳实践 - 保持提示简洁明确,指定输出格式要求[44] - 使用模板变量提高重复任务效率[44] - 建立实验记录文档追踪优化过程[44] - 不同模型/任务需重新调试参数和提示[41]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 20:02
技术原理 - 强化学习(RL)是用于解决多步决策问题的算法框架,与传统机器学习不同,无标准答案但有反馈机制评判结果[3][7] - 大语言模型(LLM)本质是预测下一个词,存在不遵从指令的缺陷,通过与 RL 结合解决该问题[8][9][10] 行业应用 - RL+LLM 应用广泛,海外 OpenAI 的 RL 已从纯推理进化到 Agent 范式,实现多轮交互和上网互动[21] - 国内豆包和 DeepSeek 等团队在探索 RL+LLM 的新可能性,不同公司在该路径上出现编程、Agent、通用泛化能力等分支[21][26][27][28] 发展趋势 - 预训练的规模法则收益变小,但仍有数据和模型小型化两个发展方向;RL 的规模法则处于初始阶段,决策能力将持续提升[26] 人才与基建 - RL 人才稀缺,因门槛高、工业界应用少、对工程要求高;开源工作可降低使用门槛,如 AReaL - boba 框架[33][34][35][36] 训练与评估 - RL 训练中基建最重要,其次是数据和算法;评估可看准确率和多轮交互体验[29] 组织架构 - 大模型团队最好将 LLM 和 RL 两条线融合,至少设预训练和后训练团队,再按目标细分[31]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 20:01AI 处理中...
文章核心观点 文章围绕强化学习(RL)展开,介绍其与传统机器学习的区别、与大语言模型(LLM)的结合应用、行业发展现状与方向,还提及人才稀缺原因及人生与RL的关联等内容 强化学习概念 - RL是机器学习下用于解决多步决策问题的算法框架,与传统机器学习不同,无标准答案,有反馈机制评判结果,逻辑接近真实生活解决问题方式 [2][7] - 传统机器学习本质是记住大量标注过正确答案的数据对,用于解决单一步骤、有明确标准答案的分类问题,如人脸识别等 [3][4] RL与LLM结合 - 最初RL和LLM无关联,LLM本质是预测下一个词,存在不遵从指令缺陷,OpenAI在InstructGPT中将二者结合解决该问题 [8][9][11] - 为定义模型输出与指令需求的一致性,用人为定义数据训练出奖励模型,衍生出RLHF概念,其主要价值是让LLM好用,与RL不同,RL可让LLM更聪明 [11][12][13] - OpenAI发现让LLM“多吐点字”实现“慢思考”可使其更聪明,该过程叫推理时间缩放,训练时用有标准答案问题训练推理能力,还需用文科训练平衡模型 [13][16][19] 行业发展现状与方向 - 国内部分团队如豆包和DeepSeek在探索新可能,海外团队有不同理念,OpenAI的RL已进化到Agent范式,实现多轮交互和与虚拟世界互动 [21][22] - RL和LLM缺一不可,二者结合实现智能,目前最好的Agent模型按此整合,但范式和算法有发展空间 [25][29] - 预训练的规模定律收益变小,发展方向包括合成高质量图文混合数据和蒸馏小规模但能力同等的模型 [29][30] - RL的规模定律处于初始阶段,决策能力会提升,不同大模型公司在RL+LLM路径上会分化,主要分支有编程、Agent、通用泛化能力 [31][32][33] 用户感知与训练过程 - 用户可通过准确率和多轮交互体验判断强化学习效果,准确率可通过基准测试或体感验证,多轮交互体验好的模型如Claude [34] - 强化学习训练中基建最重要,决定迭代效率,其次是数据,最后是算法,训练效果受多种因素耦合影响,存在不确定性 [34][35] 组织架构与人才问题 - 大模型团队组织架构中预训练和后训练团队最好不分开,成员需有破圈意识,可按目标分工,如多模态、RLHF分支等 [36] - RL人才稀缺因门槛高、工业界应用少、对工程要求高,吴翼回国做开源工作,联合蚂蚁研究院发布开源框架AReaL - boba [39][40][42] - 公司招或培养RL人才,建议注重“动手能力”和“不给自己设限” [45] 人生与RL关联 - 人生类似强化学习过程,需探索自己的奖励函数,很多人可能找错奖励函数,应追求“熵值最大化”生活方式,勇敢试错 [8][47][48] - 传统RL难中途改变奖励函数,但在多智能体强化学习和人机交互中,AI需主动探索正确奖励函数,人生也需主动探索找到自己的奖励函数 [48][49][50]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 20:01
强化学习(RL)基础概念 - 强化学习是机器学习中解决多步决策问题的算法框架 其特点在于没有标准答案 通过最终反馈机制评判结果好坏[6] - 与传统监督学习不同 RL不需要标注数据 而是通过环境交互获得奖励信号 更接近人类解决问题的逻辑[6][7] - 典型应用场景包括游戏(如乒乓球)和复杂任务(如行程规划) 每个决策步骤会影响最终结果[6] RL与LLM的结合发展 - OpenAI首次在InstructGPT中将RL与LLM结合 解决大模型指令遵从问题 衍生出RLHF技术[10][11] - RLHF通过人工标注数据训练奖励模型 使LLM输出更符合人类需求 但本质是对齐而非增强模型能力[12][13] - RL实现"慢思考"机制 通过延长推理过程(token量增加)提升LLM准确性 形成inference time scaling范式[14][15] 行业技术路径分化 - OpenAI聚焦Agent范式 实现多轮交互和虚拟世界操作 完成从单轮到多轮的跃迁[20][21] - Anthropic专注编程能力 在简单问题快速响应与复杂问题深度思考间取得平衡[17][30] - DeepSeek探索通用泛化能力 通过理科训练与文科调校结合实现平衡输出[18][31] 技术实现关键要素 - 基建框架决定迭代效率 7B模型训练周期从7天缩短至2天可提升3倍试错机会[33] - 数据质量比数量更重要 针对性训练数据可显著提升模型性能[33] - 理解能力依赖LLM预训练 决策能力依赖RL 二者形成乘法效应缺一不可[23][24] 行业应用与人才现状 - RL人才稀缺源于技术门槛高 论文引用量比NLP/CV少一个数量级 工业级应用场景有限[39][40] - 开源框架AReaL-boba实现7B模型SOTA性能 推动RL技术普及[43] - 创业公司需把握技术窗口期 在终局到来前快速验证产品 而非追求长期技术优势[37][38] 企业组织架构建议 - 预训练与后训练团队需紧密协作 成员需具备跨领域知识避免能力盲区[36] - 按目标划分专业团队(多模态/RLHF等) 同时保持技术路线的灵活性[36] - Agent公司需储备RL人才 尽管当前技术门槛较高但未来可能成为标配能力[37]
阿里的理想,腾讯的现实
创业邦· 2025-03-25 11:09
文章核心观点 - 中国互联网巨头已从强调股东回报的回购周期,进入大规模投资人工智能的资本开支周期,资本开支成为观察其战略动向的核心指标 [3][4] - 国内主要公司在AI资本开支的力度和战略风格上存在显著差异,例如阿里高歌猛进寻求增长引擎,腾讯则精打细算强调投资回报,这反映了中国AI产业多元化的探索路径 [7][8][20] - 中国AI产业的发展逻辑与海外存在差异,受益于DeepSeek等后发技术优势,国内公司可能以更高的资本效率和更低的成本实现追赶,当前正处于生成式AI应用爆发的关键起点,整个投资周期才刚刚开始 [22][25][31] Capex视角下的巨头对比 - **腾讯**:2024年第四季度资本支出达370亿元人民币,超过阿里的314亿元,主要由于大批采购GPU [11];2024年全年资本支出770亿元人民币,占收入比提升至12% [11];计划2025年资本支出达千亿级别,占收入的低两位数百分比 [11];据报道2024年从英伟达采购约23万张GPU芯片 [11];投资风格务实,优先支持广告、游戏等成熟场景,其次是大模型训练,最后是云服务 [19];管理层强调AI已助力广告业务增长和游戏内容生产,并承诺2025年继续提供至少1210亿港元的股东回报 [18][19] - **阿里巴巴**:宣布未来三年将投资3800亿元人民币于AI等领域 [11];投资带有“革新”气质,旨在用AI打造新增长引擎,并接受短期利润受影响 [12];采用6年折旧长周期计划 [12];市场将其视为“成长股”和“国运股”,股价在2个月内上涨约80% [13];据高盛预计,3800亿投资中约80%将用于AI服务器 [15];此轮市值重估很大程度上是阿里云业务的重估 [16] - **字节跳动**:据报道2024年AI投入约800亿元人民币,2025年预算达1500亿元人民币 [11];2024年从英伟达的GPU采购量与腾讯相当,同为英伟达全球第二、三大买家 [11] - **其他公司**:中国移动计划投资373亿元,中国联通计划投资550亿元,美团计划投资“数十亿美元”于AI [22] 中国AI产业的发展逻辑与阶段 - **与海外的差异**:海外巨头(尤其是北美)的AI资本开支合集高达3200亿美元,在量级上远超国内 [22];海外算力投资逻辑基于对训练与推理成本降低将激发更大需求的判断 [22];中国因DeepSeek等技术突破获得了后发优势,实现了优秀模型训练推理的低成本,站在了新的发展起点 [22];中国公司的资本开支普遍低于西方同行,因其更优先考虑效率和GPU服务器的高效利用 [25] - **投资回报预期**:中国巨头在AI基建或应用上的资本开支回报率,可能远高于有“历史包袱”的海外巨头 [23];DeepSeek的突破提高了现有GPU的训练生产力,使得中国公司不必按原预期速度激进采购GPU [25] - **发展阶段**:行业目前正处于第二阶段的开端,即企业尝试将生成式AI融入现有业务并探索价值创造模式 [25];完整四阶段包括:1) 大语言模型开发;2) 通用AI在现有应用和服务中的应用;3) 互联网服务消费量激增并带来财务收益;4) 原生通用AI“杀手级应用”出现并改变市场格局 [26][27][28][29] - **产业链影响**:算力产业链正进入“技术迭代+资本共振”的增长周期,将驱动光模块、算力配套等环节的结构性增长 [29];巨头在AI基建上的大规模投入,将形成廉价算力供给,惠及产业链上下游更多企业,降低AI创业门槛,促进全行业创新 [29][30]
杨立昆“砸场”英伟达:不太认同黄仁勋,目前大模型的推理方式根本是错的,token 不是表示物理世界的正确方式|GTC 2025
AI科技大本营· 2025-03-21 14:35
英伟达GTC 2025大会核心观点 - 杨立昆从视觉派角度否定当前主流语言派AI技术路线 认为token不是表示物理世界的正确方式 [8][9] - 杨立昆提出联合嵌入预测架构(JEPA)作为替代方案 强调需要在抽象表示空间而非像素层面进行预测 [14][15] - 杨立昆预测高级机器智能(AMI)可能在十年内实现 但当前大模型扩展路线是错误的 [19][20] AI技术发展方向 - 当前大语言模型已进入产业优化阶段 未来重点应转向机器理解物理世界、持久记忆、推理规划四大方向 [10][11][12] - 世界模型概念被提出 认为人类通过内部物理世界模型处理现实 未来AI需要完全不同架构 [13] - 系统1(快思考)与系统2(慢思考)的区别被强调 当前大模型仅实现系统1水平 [36][37] 硬件与计算技术 - 神经形态硬件和光学计算近期难有突破 量子计算应用前景受质疑 [39][43] - 内存计算技术在边缘设备如智能眼镜上有应用潜力 [40][41] - 视网膜处理机制被作为高效感知系统的生物参考 [43] 开源与创新生态 - Llama系列模型下载量超10亿次 开源模式推动行业创新 [30] - 全球分布式训练开源基础模型被认为是未来趋势 [32] - 中国科学家贡献被肯定 DeepSeek和ResNet案例显示创新可来自任何地方 [8][27] AI应用前景 - AI在医疗影像、自动驾驶等感知领域已产生实际价值 [20] - 科学研究和药物设计是AI最具潜力的应用方向 [20] - AI助手多样化发展需要开源平台支持 未来人机关系将转向管理者-虚拟员工模式 [32][58] 技术挑战与突破 - 残差连接等工程技巧对深度学习发展至关重要 [51] - 为JEPA架构寻找有效"配方"是当前主要挑战 [56] - 视频预测任务显示联合嵌入架构相比重建方法更具优势 [45]