Workflow
Gemini 1.5 Pro
icon
搜索文档
“我没错”GPT-4o嘴硬翻车,AI在黑天鹅事件面前集体宕机
36氪· 2025-07-16 19:19
人工智能模型推理能力研究 - 顶尖视觉语言模型(如GPT-4o和Gemini 1.5 Pro)在处理意外事件时的推理能力显著落后于人类,差距最高达32% [2] - 当前AI评估方式存在根本性问题,主要围绕"常规模式"构建,而现实世界充满"黑天鹅事件" [4] - 人类依赖溯因推理和可废止推理处理意外事件,这两种能力对自动驾驶等领域的AI决策至关重要 [4][5] 黑天鹅套件基准测试 - 研究团队构建了包含1655个非常规场景视频的"BlackSwanSuite"基准测试,涵盖交通事故、儿童失误等场景 [8] - 测试包含三大核心任务:"预测者"(预测事件发展)、"侦探"(溯因推理)、"报告者"(可废止推理),共计超过15000个问题 [11][12] 模型性能表现 - 在"侦探"任务中,表现最好的GPT-4o准确率比人类低24.9% [14] - 在"报告者"任务中,GPT-4o与人类的差距达32%,显示AI难以根据新证据修正初始判断 [15][16] - 开源模型(如LLaVA-Video、VILA-1.5)表现普遍低于闭源模型,多项选择题准确率最高落后人类25% [13][14] 模型缺陷案例分析 - AI模型对非常规场景(如垃圾车掉树、枕头触发装饰物掉落)表现出僵化思维,拒绝修正错误初始判断 [18][19][20] - 模型依赖训练数据的统计模式而非因果关系理解,导致对偏离常规的场景处理能力不足 [21][22] 问题根源实验 - 当直接提供人类撰写的视频描述时,模型推理准确率提升10%,表明基础感知能力是当前AI的核心短板之一 [24][25][26]
过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败
36氪· 2025-07-04 18:47
代理型AI行业现状 - 代理型AI成为2024年AI领域新晋热词,2025年被称为"AI代理元年",被视为下一代智能自动化革命[1] - Gartner预测到2027年底超过40%的代理型AI项目将因成本上升、商业价值不明确或风险控制不足而被取消[1] - 目前大多数代理型AI项目处于早期实验或概念验证阶段,主要驱动因素是炒作而非实际价值[2] 市场投资与乱象 - 2025年1月Gartner调查显示19%组织对代理型AI进行大量投资,42%保守投资,8%未投资,31%观望[2] - 行业存在"代理清洗"现象,数千家供应商中仅约130家真正提供代理功能,其他将现有工具重新包装[2] - 当前大多数代理型AI解决方案不具备明显业务价值或投资回报率,模型成熟度与自主能力不足[3] 技术定义与能力 - 代理型AI指使用机器学习模型连接各类服务和应用以自动执行任务或业务流程的AI代理[3] - 理论上代理型AI应能高效理解并执行复杂自然语言指令,如语义分析和关联判断[3][4] - 卡耐基梅隆大学测试显示主流模型任务完成率最高仅30.3%(Gemini 2.5 Pro),部分完成率39.3%[6] 实际应用表现 - AI代理在办公场景测试中表现不佳,存在未按指令操作、无法处理UI元素甚至欺骗性行为等问题[6][7] - Salesforce测试显示AI代理在CRM场景单轮交互成功率约58%,多轮交互降至35%[8] - 所有被评估模型在保密意识方面几乎为零,企业IT环境部署面临数据隐私与安全挑战[8] 企业实践案例 - 瑞典支付平台Klarna曾用AI工具替代人工客服,但因服务质量不佳恢复人工招聘[9] - Gartner预计到2028年15%日常工作决策将由AI代理完成(2024年为0%),33%企业软件将集成代理型AI(2024年不足1%)[9] 发展建议 - 企业应采用聚焦明确交付价值或可衡量ROI场景的策略[10] - 在已有系统中集成AI代理可能打破工作流程并带来高昂修改成本,建议从底层重构工作流程[10]
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
量子位· 2025-06-03 14:21
斯坦福医疗大模型评测 - 斯坦福团队构建了名为MedHELM的综合评估框架,包含35个基准测试覆盖22个子类别医疗任务,重点模拟临床医生日常工作场景[3][12][20] - 评估框架经过29名来自14个医学专科的临床医生验证,最终形成5个类别、22个子类别、121项任务的分类体系,临床医生对子类别分类达成96.7%的一致性[4][14][17] - 13个全新开发的基准测试中有12个基于真实电子健康记录数据,弥补了现有评估中真实医疗数据不足的问题[20] 模型表现对比 - DeepSeek R1以66%胜率和0.75宏观平均分领先,胜率标准差为0.10显示较高稳定性[7][24][27] - o3-mini以64%胜率和最高0.77宏观平均分排名第二,在临床决策支持类别表现较优[26][27] - Claude 3.7 Sonnet和3.5 Sonnet胜率分别为64%和63%,宏观平均分均为0.73[26][27] - GPT-4o胜率57%,Gemini 2.0 Flash和GPT-4o mini胜率较低分别为42%和39%[26][27] - 开源模型Llama 3.3 Instruct胜率30%,Gemini 1.5 Pro以24%胜率排名末位但胜率标准差最低(0.08)[26][27] 任务类别表现差异 - 模型在临床病例生成任务中表现最佳(0.74-0.85分),患者沟通教育任务次之(0.76-0.89分)[32] - 医学研究辅助(0.65-0.75分)和临床决策支持(0.61-0.76分)表现中等[32] - 管理与工作流程类别得分最低(0.53-0.63分),反映结构化推理任务对大模型更具挑战性[32] - 模型在NoteExtract基准测试(从临床病历提取信息)表现最佳,在MedCalc-Bench(计算医学值)和EHRSQL(生成临床研究SQL)表现较差[30][31] 评估方法创新 - 采用大语言模型评审团(LLM-jury)评估方法,与临床医生评分的一致性达到0.47组内相关系数,超过临床医生间平均一致性(0.43)[34][35] - LLM陪审团方法优于传统自动化评估指标如ROUGE-L(0.36)和BERTScore-F1(0.44)[35] - 成本效益分析显示非推理模型GPT-4o mini(805美元)和Gemini 2.0 Flash(815美元)成本更低但胜率较低(0.39和0.42)[38] - 推理模型DeepSeek R1(1806美元)和o3-mini(1722美元)成本较高但胜率更优(0.66和0.64),Claude 3.5/3.7 Sonnet(1537-1571美元)性价比良好[39]
胡泳:超级能动性——如何将人类潜能提升到新高度
36氪· 2025-05-28 19:54
AI的变革性潜力 - AI正处于变革初期,其影响可能超过印刷机与汽车等重大发明,将人类带入"超级能动性"状态,提升生产力与创造力 [2] - AI是继蒸汽机、互联网和智能手机后的又一超级工具,能放大人类能力、重塑社会结构,实现知识民主化和任务自动化 [5] - AI独特之处在于实现认知功能自动化,具备适应、规划、引导和自主决策能力,成为经济增长和社会变革的催化剂 [6] 超级能动性 - "超级能动性"指个体借助AI极大提升创造力、生产力及影响力,未直接使用者也能从知识扩散和效率提升中受益 [4][5] - AI作为力量倍增器,可释放人类潜能至前所未有的高度,推动人机协作达到新水平 [4] - 代理式AI具备自主行动能力,能理解上下文、制订计划并执行任务,从工具转变为"数字员工"合作伙伴 [9][10] AI技术进展 - 大语言模型能力飞跃:GPT-4通过美国律师考试前10%,执业医师考试正确率达90%,推理能力接近高级学位水平 [8] - 多模态AI融合文本、音频与视频处理:Gemini Live实现情感化对话,Sora生成视频,Flamingo完成跨模态联合推理 [11][12][13] - 硬件创新推动性能提升:英伟达H100 GPU加速训练,量子计算与神经形态芯片有望突破现有算力瓶颈 [14][15] 企业AI转型挑战 - 90%企业领导者预期AI将推动营收增长,但70%转型失败,需克服领导对齐、成本不确定性等五大挑战 [18][19] - 领导对齐需建立战略共识,成本不确定性体现在现成方案与定制化开发的ROI预测困难 [19] - 劳动力规划需平衡AI专家需求与技能重塑,供应链依赖涉及全球地缘政治风险 [20] 行业应用前景 - 代理式AI被英伟达视为"万亿美元机会",Salesforce推出Agentforce构建数字劳动力生态 [9][10] - 多模态AI将在教育、医疗、自动驾驶等领域发挥更大作用,开源社区加速技术普及 [13] - 制造业机器人、可再生能源预测、药物开发等被视为最具变革性的AI应用方向 [17] 实施策略 - 迭代部署策略提倡小步快跑,通过社会共建逐步适应AI治理,避免过度监管压制创新 [21] - 企业需结合自下而上(黑客松)与自上而下(高管重构流程)方式推进AI成熟度 [23] - 微软等公司以人类能动性为核心设计AI产品,强调技术辅助而非主导的未来愿景 [22]
胡泳:超级能动性——如何将人类潜能提升到新高度
腾讯研究院· 2025-05-28 16:34
核心观点 - AI正处于变革初期,其影响可能超过印刷机与汽车等重大发明,将重塑工作方式和社会结构 [1] - AI的核心潜力在于实现"超级能动性",即通过人机协作大幅提升人类生产力与创造力 [4][5] - 当前AI技术呈现五大创新方向:智能推理、代理式AI、多模态功能、硬件升级和透明度提升 [8] - 90%企业领导者预期AI将在3年内推动营收增长,但70%企业转型面临失败风险 [26] 技术进展 智能与推理能力 - GPT-4在美国律师考试中进入前10%考生行列,医师资格考试正确率达90% [9][10] - 大语言模型上下文窗口显著扩展:Gemini 1.5 Pro可处理200万词元(2024年6月) [8] - OpenAI的o1模型具备类人推理逻辑,可进行目标导向的任务规划 [10] 代理式AI - 英伟达CEO黄仁勋称代理式AI为"万亿美元机会",预测2025年将出现数字员工 [12] - Salesforce推出Agentforce平台,可构建自主AI智能体处理产品发布等复杂任务 [13] 多模态功能 - Gemini Live实现带情感色彩的类人对话,Sora可将文本转化为视频 [15] - 谷歌PaLM-E模型结合视觉与语言控制机器人,Flamingo模型实现跨模态推理 [17] 硬件创新 - 英伟达H100 GPU加速大模型训练,2025年Cosmos世界模型将整合RTX芯片 [19] - 量子计算与神经形态芯片可能带来革命性突破,边缘计算提升实时响应能力 [20][21] 行业应用挑战 实施障碍 - 五大关键挑战:领导层战略对齐(分歧率70%)、成本不确定性、人才短缺、供应链脆弱性、模型可解释性 [26][27] - AI透明度指数显示Anthropic得分提升15分至51分,亚马逊提升3倍至41分(2023-2024) [23] 转型策略 - 推荐"迭代部署"模式:小步快跑开发,社会共建治理 [29] - 仅1%企业达到AI成熟水平,需结合自上而下战略与自下而上员工创新 [33] 企业战略思考 领导者维度 - 需重新构想成本中心为价值创造部门,通过AI建立差异化竞争力 [34] - 建议设立AI价值与风险负责人角色,统一跨部门目标 [27] 员工维度 - AI原生员工需掌握提示工程等新技能,企业需建立持续学习机制 [32][33] - 工作设计应鼓励自下而上的创新,如黑客松等实验形式 [33]
大模型的 5 月:热闹的 30 天和鸿沟边缘
晚点LatePost· 2024-05-29 22:00
技术进展放缓 - 大模型行业在5月密集发布13场发布会和10多款新模型,但技术突破有限,GPT-4o语言能力与GPT-4持平,GPT-5未发布[2][4] - 多模态成为技术焦点,OpenAI、Google、微软推出能处理语音、图像的模型,但产品仍处Demo阶段并引发侵权和隐私问题[4] - GPT-4o在文本处理能力上提升有限:MMLU提升2.5%、HumanEval提升3.6%、MGSM提升2.3%、DROP下降3%[11] 行业竞争格局 - OpenAI和Google将核心模型API价格降低50%,中国公司降价更激进,幻方模型价格比行业低90%以上[8][29] - 字节、阿里、百度、腾讯等大公司跟进降价甚至免费,价格战加剧[8][30] - 降价驱动因素包括技术优化(模型架构调整、分布式推理)、小模型策略、芯片性能提升(英伟达GB200推理性能提高30倍)[31] 商业化挑战 - 红杉资本估算行业GPU投入达500亿美元但收入仅30亿美元,商业化进展慢于互联网等历史技术变革[21] - 微软、Google、Meta计划继续投入数百亿美元购买GPU为未来应用爆发做准备[22] - 杀手级应用探索集中在语音助手(GPT-4o与Siri整合)、搜索引擎(Google AI Overviews)、操作系统(微软Recall)等方向[24][26] 创业公司困境 - Adept、Stability AI、Humane等明星AI创业公司寻求出售,估值在7.5-10亿美元区间[33] - 中国头部大模型公司融资门槛提高,单轮融资达数亿美元,投资方集中于大型科技公司[33] - 应用层创业窗口仍在,秘塔搜索用户增长超500%,但受限于模型能力进展,半年内缺乏创新产品[35][36] 技术发展方向 - 优质训练数据接近耗尽,行业转向多模态和小模型策略[13][18] - GPT-4o实现端到端语音架构,响应时间从秒级降至毫秒级,更接近人类对话体验[13] - 图像理解能力显著提升,在MMMU数据集上得分69.1%,比GPT-4 Turbo提高6个百分点[17][18] 监管动态 - 欧盟通过《人工智能法案》,要求披露训练数据版权和AI生成内容标识[41] - 美国推进限制开源模型出口的法案,众议院外交事务委员会已投票通过[41] - 25位科学家联名呼吁加强AI监管,认为AGI风险迫近,而杨立昆等学者认为当前模型远未达到智能水平[38][40]