Workflow
语言模型(LLM)
icon
搜索文档
本周WWDC推出新Siri无望?华尔街质疑苹果AI能力
华尔街见闻· 2025-06-09 10:43
苹果AI技术进展受阻 - 苹果在升级Siri整合大型语言模型(LLM)时遭遇技术难题,核心AI功能"Apple Intelligence"未能如期落地 [1][3] - 技术整合过程中出现大量bug,前员工指出渐进式开发("爬山"方法)无法从根本上重建Siri [3] - 竞争对手(OpenAI/谷歌)从零构建生成式AI语音助手时未面临类似问题,当前Siri技术被评价为"明显落后" [8] 资本市场反应 - 2025年至今苹果股价下跌18%,在"科技七巨头"中表现最差,且低于基本持平的纳斯达克指数 [4] - 摩根大通分析师指出投资者更关注公司兑现去年承诺而非新消息,WWDC大会预期低迷 [4] - 美国银行分析师预计苹果需三年以上才能推出现代化AI助手,进度远落后于谷歌等竞争对手 [8] 战略调整与品牌重塑 - WWDC或将重点转向品牌战略而非技术突破,包括操作系统重命名及现有功能的"AI驱动"重新包装 [9] - 计划向第三方开发者开放基础模型(参数约30亿个),但其规模远小于OpenAI云端模型及苹果自用云端模型 [9] - 内部人士对大会AI展示部分已做好"令人失望"准备,外界担忧发布会暴露更多技术短板 [9] 外部环境压力 - 特朗普政府关税政策及服务业务面临的法律压力加剧投资者对长期增长的担忧 [7] - 公司撤下由Bella Ramsey主演的Siri宣传广告,并因虚假宣传面临消费者诉讼 [8] - 前高管透露分散的领导团队导致AI战略缺乏统一性,初期预算分配不足进一步拖累进展 [8]
硅谷风投a16z:GEO将重塑搜索 大语言模型取代传统浏览器
36氪· 2025-06-05 19:39
6月5日消息,在ChatGPT、Perplexity、Claude等大语言模型快速普及的当下,传统的搜索引擎优化(SEO)正在逐步被一种全新的策略 所取代:生成式引擎优化(GEO)。硅谷风险投资巨头a16z于5月28日撰文称,GEO正在成为品牌提升营销效果的核心手段,其重要性甚 至已超越SEO。 a16z强调,在AI主导的信息获取时代,品牌的竞争焦点将从"如何操控搜索排名"转向"如何被AI模型主动引用"。未来,最具影响力的品 牌不仅会出现在生成式AI的回答中,更将深度参与这些内容的构建与定义。换句话说,品牌成功的关键,不再是向搜索引擎靠拢,而是 让AI模型"记住你"。 以下为a16z撰文全文: 二十多年来,SEO一直是获取在线曝光机会的黄金标准,催生了大量关键词堆砌者、外链交易经纪人、内容优化者,以及各种审计工具 和服务。这个庞大的产业链帮助无数企业在数字营销方面取得了成功。然而,到了2025年,搜索的主战场正在发生剧变,传统搜索引擎 浏览器正逐渐被大语言模型(LLM)平台所取代。 随着苹果宣布将AI原生搜索引擎(如Perplexity和Claude)集成到Safari浏览器中,谷歌一统江湖的搜索霸主地位正面 ...
AI 编程终结的不是代码,而是作为「容器」的软件
Founder Park· 2025-06-03 20:56
以下文章来源于范阳 ,作者范阳 范阳 . This is a "living media", 目标是建立一种文化, 使前沿科技和风险投资为人类服务,而不是把人类和生态作为手段。我是一名创业者,科技投资人和内容创 作者,这里也是我学习和成长的地方。 2005 年 YouTube 的「上传」按钮开启了内容创作的民主化时代。而现在,AI 以「描述」这一动词,正在改变我们对于软件的认知与生产方式。 一年后,这个预测逐渐应验。Chris Paik 近期再次发布了一篇博客文章《无限代码的黎明》,顺着这个方向,提出随着大语言模型(LLM)将代码生成的 成本降至趋近于零,传统意义上作为独立「应用程序」或「平台」存在的软件形式将逐渐消失。这篇文章的最核心观点是:软件的终结并非代码的死亡, 而是其作为「容器」的消融。 以下为文章原文,内容略有调整。 原文链接: https://docs.google.com/document/d/1Dm9UrhgaRMu_DjOz5KluO7ibOsPaUVQgwnC5-ccw9_g/mobilebasic 超 4000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者 ...
疯了!我那些怀疑 AI 的程序员朋友,都疯了!网友:越聪明越觉得 LLM 不行
程序员的那些事· 2025-06-03 18:12
关于讨论 AI 编程助手/ LLM 的文章,最近发了几篇: 今天在 HackerNews 看到一篇讨论 AI 辅助编程的文章,再次引爆这个话题了。 早上我刷到这篇文章收藏时也就 600 多个留言,在 18:01 已有 1830 个留言,也是吵得不可开交了。 我那些怀疑 AI 的朋友都疯了 这是一篇关于 AI 辅助编程的诚挚探讨 。 科技公司高管们都在强推大语言模型(LLM)的应用,这策略着实不咋地,但我能理解他们的出发点。 我认识的一些聪明人坚信 AI 不过是昙花一现的潮流,就跟当年的 NFT 热潮差不多。我一直不太敢反驳他们, 毕竟,人家确实比我聪明。但他们的观点站不住脚,值得好好说道说道。有些极有才华的人,纯粹出于抵触情 绪,还在做那些 LLM 早已能出色完成的工作。 就算从今天起,LLM 的发展彻底停滞,它也依然是我职业生涯中第二重要的事物。 重要提醒:我这里只讨论 LLM 对软件开发的影响。至于在艺术、音乐和写作领域,我没啥看法。我倾向 于认同这些领域里质疑者的观点,但在我自己的专业领域,我可不信他们那一套。 先自报家门: 从上世纪 90 年代中期起,我就开始搞软件开发了。最开始写盒装的 C 语言代码 ...
低空经济与卫星互联网安全专题论坛举行
搜狐财经· 2025-05-31 18:55
低空经济发展与数字化转型 - 中国低空经济将进入万亿级市场,具有辐射面广、产业链条长、成长性强、带动性强等特点 [2] - 低空经济发展需全面认识无人机的安全性并加强风险防控 [2] - 无人机事故频发已成为制约产业发展的瓶颈,需构建"政府监管+产业防护+公众意识"三位一体的协同体系 [2] 无人机集群协同与安全技术 - 多智能体系统(MAS)与大型语言模型(LLM)在无人机集群协同中有创新应用,可解决广域监控、动态物流等场景的覆盖不足和实时性差问题 [3] - 身份认证、通信加密等安全机制对无人机集群系统稳定性至关重要 [3] - 未来研究将深化MAS+LLM融合,推动无人机集群向智能化、自主化与高安全性发展 [3] 卫星通信与无人机应用 - "空天一体"通信架构推动传统无人机在远距离、复杂环境下的应用 [3] - 卫星互联网网络攻击手段日趋多样,卫星通信链路复杂性增加,用户端流量管控需求强烈 [3] - 构建高效、可靠的安全防护体系是卫星互联网发展的重要课题 [3] 行业合作与未来展望 - 2025年将深耕低空经济与卫星互联网安全领域,深化"空天地一体化"安全生态布局 [5] - 产业链上下游伙伴、高校及科研院所将携手共建技术标准与创新应用,开拓低空经济新场景 [5] - 《2024卫星互联网安全年度报告》发布,推动低空经济与卫星互联网安全领域系统化、智能化发展 [5]
ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉
机器之心· 2025-05-30 11:28
多智能体系统自动化失败归因研究 核心观点 - LLM驱动的多智能体系统存在脆弱性,Agent间误解、信息传递错误或决策不当易导致整体任务失败,但缺乏系统化方法定位失败原因[3][5] - ICML 2025论文首次提出「自动化失败归因」新任务,目标是自动识别导致失败的Agent(Who)和错误步骤(When)[1][5] - 研究构建首个基准数据集Who&When,包含127个多智能体系统失败日志,涵盖GAIA等公开基准,并标注细粒度失败原因[6][7] 技术方法 - 提出三种自动归因方法:All-at-Once(整体判断,成本低但易忽略细节)、Step-by-Step(逐轮分析,精度高但成本高)、Binary Search(二分法平衡成本与精度)[13] - 混合策略(如All-at-Once+Step-by-Step)可提升准确率,但计算成本显著增加(达149,177 Token)[10][11] 实验结果 - 当前方法效果有限:最佳模型识别出错Agent准确率仅53.5%,定位错误步骤准确率仅14.2%[13] - 方法互补性明显:All-at-Once擅长识别责任Agent(57.02%准确率),Step-by-Step更适合定位错误步骤(7.9%准确率)[11][13] - 现有SOTA模型(如OpenAI o1、DeepSeek R1)表现不理想,远未达实用水平[14] 行业意义 - 填补多智能体系统评估空白,首次将失败原因量化,为改进协作策略提供依据[5][7] - 基准数据集和初步方法为后续研究建立标准测试床,推动更可靠的多Agent系统开发[6][16]
搜索Agent最新高效推理框架:吞吐量翻3倍、延迟降至1/5,还不牺牲答案质量丨南开& UIUC研究
量子位· 2025-05-29 09:08
大语言模型(LLM)驱动的搜索智能体,通过动态拆解问题、交错执行"思考"(推理)和"查 找"(检索)来解决复杂任务,展现了惊人能力。 SearchAgent-X团队 投稿 量子位 | 公众号 QbitAI AI越来越聪明,但如果它们反应慢,效率低,也难以满足我们的需求。 然而,这种深度交互的背后,也隐藏着显著的效率痛点。 处理复杂任务时,查得慢、查得不准,都会拖慢整个流程。 来自南开大学和伊利诺伊大学厄巴纳-香槟分校的研究人员深入剖析了这些效率瓶颈,并提出 了一套名为 SearchAgent-X 的高效推理框架。 实践表明,SearchAgent-X实现了 1.3至3.4倍 的吞吐量提升, 延迟降至原来的 1/1.7至 1/5 ,同时不牺牲最终的答案质量。 解析搜索智能体中的两大效率瓶颈因素 研究者发现,看似简单的检索环节,隐藏着两大关键的效率制约因素: 检索精度:并非"越高越好"的微妙平衡 直觉上,检索越准,LLM获取信息质量越高,效率也应该越高。但实际情况是 非单调关系 过低精度 LLM需更多轮检索和推理弥补,总时间增加。 过高精度 检索本身计算资源消耗巨大,拖慢整体速度。 研究表明,系统吞吐量随近似检索 ...
LLM加RL遭质疑:故意用错奖励,数学基准也显著提升,AI圈炸了
机器之心· 2025-05-28 16:09
大模型强化学习有效性研究 - 核心观点:虚假奖励(随机/错误信号)在Qwen-Math模型上能显著提升数学推理能力,但对其他模型无效,挑战了强化学习依赖高质量监督信号的传统认知[5][9][16] 实验发现 虚假奖励效果 - 随机奖励使Qwen2 5-Math-7B在MATH-500准确率提升21%,错误奖励提升25%,接近真实奖励的28 8%增幅[5] - 仅要求答案包含`\boxed{}`格式的虚假奖励使Qwen2 5-1 5B准确率绝对提升49 9%,但损害Llama3和OLMo2性能(分别降低7 3%和5 3%)[23] 模型特异性 - 虚假奖励仅对Qwen系列有效:Qwen-Math-7B代码推理频率达65%,RLVR训练后提升至90%以上[28][34] - Llama3和OLMo2等模型无法从虚假奖励中获益,甚至出现性能下降[17][23] 机制分析 预训练策略影响 - Qwen-Math通过RLVR强化了预训练已有的代码推理能力(Python代码生成频率与性能强相关)[27][34] - 虚假奖励通过GRPO裁剪触发"集中效应",使模型聚焦现有优势策略而非学习新能力[46] 策略转换收益 - Qwen-Math从自然语言推理转向代码推理时,单问题性能提升55%(虚假奖励)至60 2%(真实奖励)[36] - 模型总增益:Qwen2 5-Math-7B提升23 5%,1 5B版本提升28 5%[37] 方法论启示 - 当前RLVR研究过度依赖Qwen模型,结论可能无法泛化至其他架构[21][25] - 建议未来研究需跨模型验证,并优先分析预训练获得的推理策略[50]
全球首个宠物翻译器,上线爆火
36氪· 2025-05-23 08:47
近期,谷歌推出 DolphinGemma 大模型, 称将让人类听懂海豚的语言,实现人与海豚在水下的实时交流。另一个由华人团队研发、面向全球英文用户的 人狗交流应用Traini在去年6月出现,成为全球首个实现人宠语言互译的AI原生应用。AI正步入跨物种交流领域,拓宽着人们对非人类语言理解的边界。 一条联系了Traini的CEO孙邻家,他是80后、中国人,老家在吉林长白山。我们与他聊了聊AI新技术对人宠交流领域的影响,从0到1探索过程中的挑战, 以及他三年来身处行业内部的感受。 除此之外,我们还想知道:当人类暂时离开语言的中心,开始尝试建立起与非人类语言平等对话的可能,在新奇感过后,AI+跨物种交流对我们具有怎样 的意义? 孙邻家,80后,吉林长白山人 知名投行高盛近期的一份报告显示,中国的宠物数量首次超过 4 岁以下婴幼儿总量。 同时 根据艾媒咨询的数据, 2023 年中国宠物经济产业规模 就已经 达到 5928 亿元。 根据《2025宠物品牌网红营销生态报告》,以年轻群体为代表的养宠人多将宠物视作"孩子"与"朋友",呈现出情感消费与拟人化养宠的趋势。 这样的需求也催生了相关产业,比如几年前备受争议的宠物灵媒师 ...
领域驱动的 RAG:基于分布式所有权构建精准的企业知识系统
搜狐财经· 2025-05-22 21:37
作者 | George Panagiotopoulos 译者 | 明知山 策划 | 丁晓昀 我们的背景 作为一家在银行技术领域拥有超过 30 年行业经验的领军供应商,我们拥有丰富且极具创新性的代码库,并通过战略性收购不断扩大业务。多年来,我们 一直将自己定位为行业的创新者,但创新的迅猛步伐也为我们带来了在庞大产品线中保持文档一致性与时效性的挑战。 虽然我们代码库的部分模块拥有坚实且管理得当的文档,但仍有部分模块存在文档不清晰或内容过时的问题,这导致我们的销售工程师和客户架构师很难 找到所需的信息。此外,我们的领域专家在各自的专业领域拥有深厚的知识和丰富的经验,但这些宝贵的专业知识往往分散且孤立,难以被系统地整合和 获取。 此前,我们曾尝试通过知识共享计划和培训项目来解决这一问题,但由于文档分散和专业知识孤立,这些努力的效果并不理想。我们还尝试引入基于静态 预定义问题和答案数据库的事实查找工具。然而,这些工具在使用过程中面临一个重大挑战——缺乏上下文信息。通常情况下,如果问题本身或其上下文 (或两者)稍有不同,针对特定问题在特定上下文中的答案就难以复用。为了克服这些获取准确技术信息的障碍,我几个月前决定探索使用 ...