Workflow
Gemini 1.5 Pro
icon
搜索文档
过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败
36氪· 2025-07-04 18:47
Gartner 高级分析师 Anushree Verma 表示:"目前大多数代理型 AI 项目仍处于早期实验或概念验证阶 段,其背后的主要驱动因素是炒作,而这些技术往往被错误地应用。这可能使企业忽视 AI 代理大规模 部署所需的真正成本与复杂性,导致项目迟迟无法落地。企业需要穿透炒作迷雾,制定更为审慎和战略 性的决策,明确在哪里、以及如何采用这一新兴技术。" 2025 年 1 月,Gartner 对 3412 名网络研讨会参与者进行了一项民意调查,发现 19% 的组织报告在代理 型 AI 方面进行了大量投资,42% 的组织进行了保守投资,8% 的组织根本没有投资,31% 的组织正在 等待或不确定。 更为值得关注的是,Gartner 发现了一种普遍存在的"代理清洗"趋势,即供应商将现有的人工智能助 手、聊天机器人或机器人流程自动化 (RPA) 工具重新包装成"代理人工智能",而实际上并没有提供真 正的代理功能。Gartner 估计,在数千家声称提供代理解决方案的供应商中,只有约 130 家真正提供了 真正的代理功能。 当人工智能在大模型能力突破、推理能力提升以及多模态技术进步的推动下走向新阶段,"Agentic ...
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
量子位· 2025-06-03 14:21
西风 发自 凹非寺 量子位 | 公众号 QbitAI 斯坦福最新大模型医疗任务全面评测, DeepSeek R1 以66%胜率拿下第一 ! 歪国网友纷纷被惊艳住了,原因在于该评测 重 点聚焦临床医生的 日常工作场景 ,而非仅局限于传统医疗执照考试题。 要评测就要全 方 位。 31页论文最终得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在内的9个前沿大模型,DeepSeek R1以66%胜率、0.75宏观平均分 领先。 为当前的基准测试结果,团队还打造了一个可公开访问的排行榜。 团队构建了 含35个基准测试的综合评估框架 ,覆盖 22个子类别 医疗任务。 整个评测的分类体系还经过了临床医生验证, 由29名来自14个医学专科的执业医师共同参与开发 。 光作者名单就老长,斯坦福大学医学院、斯坦福医疗中心、斯坦福大学基础模型研究中心 (CRFM) 、微软的研究人员均在列。 | Accuracy | Efficiency | General information | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- ...
胡泳:超级能动性——如何将人类潜能提升到新高度
36氪· 2025-05-28 19:54
历史已经多次表明,每一次重大经济和技术的变迁,都是企业兴衰更替的关键时刻。40 多年前,互联网诞生。从那以后,包括 Alphabet(谷 歌 母公司 )、亚马逊、苹果、Meta 和微软在内的一些企业成长为市值万亿美元的科技巨头。更重要的是,互联网改变了工作的组织方式与 人们信息获取的方式。 如今的 AI,正如多年前的互联网一样,仍处于变革的初期。对商业领袖而言,最大的风险不是雄心过大,而是格局太小。 想象一个这样的世界:机器不仅能够从事体力劳动,还能够思考、学习,并自主做出决策。在这个世界中,人类处于技术循环之中,人机协 作达到一种"超级能动性"的状态,从而提升个人的生产力与创造力。这正是 AI 所带来的变革性潜力:它可能带来的影响将超过以往任何重 大发明,包括印刷机与汽车。 超级能动性:AI 将如何影响人类 经历一项变革性技术的诞生是一种怎样的感受?历史上,这种体验常常令人感到不安。虽然印刷机、动力织布机、电话和汽车等技术最终确 实改变了世界,带来了积极影响,但它们刚出现时,悲观主义者却更多关注其潜在的负面后果。比如,印刷机可能助长异端邪说和错误信息 的传播,电话曾被视为对面对面人际关系的威胁,而汽车则被认 ...
胡泳:超级能动性——如何将人类潜能提升到新高度
腾讯研究院· 2025-05-28 16:34
核心观点 - AI正处于变革初期,其影响可能超过印刷机与汽车等重大发明,将重塑工作方式和社会结构 [1] - AI的核心潜力在于实现"超级能动性",即通过人机协作大幅提升人类生产力与创造力 [4][5] - 当前AI技术呈现五大创新方向:智能推理、代理式AI、多模态功能、硬件升级和透明度提升 [8] - 90%企业领导者预期AI将在3年内推动营收增长,但70%企业转型面临失败风险 [26] 技术进展 智能与推理能力 - GPT-4在美国律师考试中进入前10%考生行列,医师资格考试正确率达90% [9][10] - 大语言模型上下文窗口显著扩展:Gemini 1.5 Pro可处理200万词元(2024年6月) [8] - OpenAI的o1模型具备类人推理逻辑,可进行目标导向的任务规划 [10] 代理式AI - 英伟达CEO黄仁勋称代理式AI为"万亿美元机会",预测2025年将出现数字员工 [12] - Salesforce推出Agentforce平台,可构建自主AI智能体处理产品发布等复杂任务 [13] 多模态功能 - Gemini Live实现带情感色彩的类人对话,Sora可将文本转化为视频 [15] - 谷歌PaLM-E模型结合视觉与语言控制机器人,Flamingo模型实现跨模态推理 [17] 硬件创新 - 英伟达H100 GPU加速大模型训练,2025年Cosmos世界模型将整合RTX芯片 [19] - 量子计算与神经形态芯片可能带来革命性突破,边缘计算提升实时响应能力 [20][21] 行业应用挑战 实施障碍 - 五大关键挑战:领导层战略对齐(分歧率70%)、成本不确定性、人才短缺、供应链脆弱性、模型可解释性 [26][27] - AI透明度指数显示Anthropic得分提升15分至51分,亚马逊提升3倍至41分(2023-2024) [23] 转型策略 - 推荐"迭代部署"模式:小步快跑开发,社会共建治理 [29] - 仅1%企业达到AI成熟水平,需结合自上而下战略与自下而上员工创新 [33] 企业战略思考 领导者维度 - 需重新构想成本中心为价值创造部门,通过AI建立差异化竞争力 [34] - 建议设立AI价值与风险负责人角色,统一跨部门目标 [27] 员工维度 - AI原生员工需掌握提示工程等新技能,企业需建立持续学习机制 [32][33] - 工作设计应鼓励自下而上的创新,如黑客松等实验形式 [33]
大模型的 5 月:热闹的 30 天和鸿沟边缘
晚点LatePost· 2024-05-29 22:00
"Mayday" 可直译为 5 月天,它也是国际通用的无线电求助信号。当飞机有坠落危险时,飞行员会对着对讲机大喊 "Mayday"! 这个 5 月,可能是 ChatGPT 发布至今大模型行业最热闹的时候:OpenAI、Google、微软、字节跳动、阿里巴巴等中美两国公司至少举办了 13 场与 大模型相关的发布会,介绍了 10 多款新模型,拿出了一堆新产品。 热闹中的风险与失望是:不少从业者认为技术没有重大进步。 OpenAI 本月新发布的 GPT-4o 处理语言的能力停留在 GPT-4 水平,被期待已久的 GPT-5 仍未登场。 多模态成为顶尖 AI 公司的技术焦点:从 OpenAI、Google 到微软,发布能同时处理语音、图像,甚至理解现实世界的模型。但这些能力支持的产品 和应用都还在 Demo 阶段,没正式发布就引出了侵权、隐私隐患等各种麻烦。 唱衰大模型创业机会的金沙江创投主管合伙人朱啸虎有一个观点:如果语言能力的进化速度变慢,"这波热潮就到头了"。 "没什么令人兴奋的。" 一位在中国大公司带队研发大模型的人士说,一系列发布会让他更相信,开发能力更强的小模型才是未来。 一位 AI 创业者说 GPT-4 ...