Gemini 1.5

搜索文档
过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败
36氪· 2025-07-04 18:47
Gartner 高级分析师 Anushree Verma 表示:"目前大多数代理型 AI 项目仍处于早期实验或概念验证阶 段,其背后的主要驱动因素是炒作,而这些技术往往被错误地应用。这可能使企业忽视 AI 代理大规模 部署所需的真正成本与复杂性,导致项目迟迟无法落地。企业需要穿透炒作迷雾,制定更为审慎和战略 性的决策,明确在哪里、以及如何采用这一新兴技术。" 2025 年 1 月,Gartner 对 3412 名网络研讨会参与者进行了一项民意调查,发现 19% 的组织报告在代理 型 AI 方面进行了大量投资,42% 的组织进行了保守投资,8% 的组织根本没有投资,31% 的组织正在 等待或不确定。 更为值得关注的是,Gartner 发现了一种普遍存在的"代理清洗"趋势,即供应商将现有的人工智能助 手、聊天机器人或机器人流程自动化 (RPA) 工具重新包装成"代理人工智能",而实际上并没有提供真 正的代理功能。Gartner 估计,在数千家声称提供代理解决方案的供应商中,只有约 130 家真正提供了 真正的代理功能。 当人工智能在大模型能力突破、推理能力提升以及多模态技术进步的推动下走向新阶段,"Agentic ...
2025年大模型云市场探析:如何重构企业智能化路径,开启大模型产业新浪潮?
头豹研究院· 2025-06-10 20:20
报告行业投资评级 未提及 报告核心观点 - 中国大模型与云计算市场深度协同发展,大模型云成为企业智能化转型核心基础设施,未来市场有MaaS渗透率提升、行业垂直模型爆发、边缘计算与大模型融合三大趋势,但面临算力成本和合规风险挑战 [7][8] - 大模型云围绕大规模模型生命周期管理构建一体化基础设施体系,形成从底层算力服务到上层行业应用的全栈商业模式闭环 [9][10] - 大模型因参数规模增长、技术本质、数据密集型特征高度依赖云计算,云平台成为其关键运行底座 [12][14] - 开源与闭源模型双轮驱动企业“全面用云”,云服务是不可替代的承载平台 [20][21] - 大模型驱动企业业务与职能双轮协同转型,重塑企业智能化路径,未来智能演进将构建以大模型为核心的智能中枢系统 [28] 各目录总结 大模型云市场发展现状 - 中国大模型与云计算市场协同发展,云计算市场从2021年的3229亿元以36.7%的年复合增长率预计扩张至2027年的21404亿元,大模型市场从2023年的147亿元增至2027年的672亿元,两者增长曲线同步,呈现双向赋能关系 [7] - 未来市场有MaaS渗透率提升、行业垂直模型爆发、边缘计算与大模型融合三大趋势,但云服务商需降本并构建全链路安全体系应对挑战 [8] 大模型云服务模式 - 大模型云形成从底层算力服务到上层行业应用的全栈商业模式闭环,包括IaaS、PaaS、MaaS、SaaS四层服务模式,各层有不同核心内容和主要价值 [9] - IaaS为大模型构建AI原生计算底座,PaaS构建大模型全生命周期管理平台,MaaS将大模型能力封装为标准化接口,SaaS是大模型与行业知识融合的最终形态 [10][11] 大模型高度依赖云计算 - 大模型参数规模迈入万亿时代,计算图复杂度指数级增长,训练成本高昂,对云计算的依赖将随模型复杂度上升而强化 [12] - 云计算可降低大模型训练成本,在推理环节满足低延迟与高吞吐需求,通过MaaS模式降低企业AI应用门槛,两者形成共生关系 [13] 大模型数据密集型特征 - 数据安全合规推动“数据不动,模型来动”的云上范式,云端可实现模型在“数据原地”训练 [16] - 大模型训练数据体量庞大,多节点训练对数据读写和交换需求高,本地基础设施难以满足,云平台成为支撑分布式并行训练的唯一可行方案 [17][18][19] 从模型演进到业务重构 - 开源模型因性能逼近闭源、定制能力强、数据安全可控等优势受企业青睐,云推理是其落地的现实选择,云服务是不可替代的承载平台 [20][21] - 闭源模型因技术壁垒和产品封装天然依赖云端,MaaS模式绑定企业核心系统,推动企业基础架构云化升级 [22][23] 大模型重塑企业智能化路径 - 企业智能化从“业务为主”单轮驱动演变为业务与职能双轮协同转型,大模型在各行业形成典型应用场景,未来智能演进将构建以大模型为核心的智能中枢系统 [28] - 企业智能化转型经历自动化、数字化、智能化三个阶段,大模型应用分初级、中级、高级三个级别 [25][27]
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
量子位· 2025-06-03 14:21
西风 发自 凹非寺 量子位 | 公众号 QbitAI 斯坦福最新大模型医疗任务全面评测, DeepSeek R1 以66%胜率拿下第一 ! 歪国网友纷纷被惊艳住了,原因在于该评测 重 点聚焦临床医生的 日常工作场景 ,而非仅局限于传统医疗执照考试题。 要评测就要全 方 位。 31页论文最终得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在内的9个前沿大模型,DeepSeek R1以66%胜率、0.75宏观平均分 领先。 为当前的基准测试结果,团队还打造了一个可公开访问的排行榜。 团队构建了 含35个基准测试的综合评估框架 ,覆盖 22个子类别 医疗任务。 整个评测的分类体系还经过了临床医生验证, 由29名来自14个医学专科的执业医师共同参与开发 。 光作者名单就老长,斯坦福大学医学院、斯坦福医疗中心、斯坦福大学基础模型研究中心 (CRFM) 、微软的研究人员均在列。 | Accuracy | Efficiency | General information | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- ...
最新研究:AI情商测试完胜人类,准确率高出25%
36氪· 2025-05-29 16:23
伯尔尼大学与日内瓦大学的最新研究表明,这些强大的人工智能系统或许确实具备这种能力,甚至可能 超越大多数人类。 01.人类情绪测试 近期发表于《通讯心理学》的研究中,研究人员评估了六种最先进的语言模型:ChatGPT-4、ChatGPT- o1、Claude 3.5 Haiku、Copilot 365、Gemini 1.5 Flash和DeepSeek V3。这些AI系统经过了五项通常用于 心理学和工作场所评估的测试,以测试情商(EI)。 这些测试包含复杂的现实场景。例如:同事窃取Michael的创意并获得不当赞誉,此时最明智的应对方 式是? 心理学家的标准答案是"向上级反映",这是一种健康、建设性的方式来处理工作中的情绪紧张。 大语言模型能写诗、解复杂数学题,甚至辅助疾病诊断,但它们真的能理解情绪吗? AI们表现出色。在五项测试中,其平均准确率达81%,远高于人类参与者56%的平均水平。 伯尔尼大学首席心理学家Katja Schlegel解释道,"我们选取了科研与企业环境中通用的五项测试,这些 测试通过情绪化场景来评估理解、调节及管理情绪的能力。" 日内瓦大学瑞士情感科学中心高级科学家Marcello Mor ...
胡泳:超级能动性——如何将人类潜能提升到新高度
36氪· 2025-05-28 19:54
历史已经多次表明,每一次重大经济和技术的变迁,都是企业兴衰更替的关键时刻。40 多年前,互联网诞生。从那以后,包括 Alphabet(谷 歌 母公司 )、亚马逊、苹果、Meta 和微软在内的一些企业成长为市值万亿美元的科技巨头。更重要的是,互联网改变了工作的组织方式与 人们信息获取的方式。 如今的 AI,正如多年前的互联网一样,仍处于变革的初期。对商业领袖而言,最大的风险不是雄心过大,而是格局太小。 想象一个这样的世界:机器不仅能够从事体力劳动,还能够思考、学习,并自主做出决策。在这个世界中,人类处于技术循环之中,人机协 作达到一种"超级能动性"的状态,从而提升个人的生产力与创造力。这正是 AI 所带来的变革性潜力:它可能带来的影响将超过以往任何重 大发明,包括印刷机与汽车。 超级能动性:AI 将如何影响人类 经历一项变革性技术的诞生是一种怎样的感受?历史上,这种体验常常令人感到不安。虽然印刷机、动力织布机、电话和汽车等技术最终确 实改变了世界,带来了积极影响,但它们刚出现时,悲观主义者却更多关注其潜在的负面后果。比如,印刷机可能助长异端邪说和错误信息 的传播,电话曾被视为对面对面人际关系的威胁,而汽车则被认 ...
胡泳:超级能动性——如何将人类潜能提升到新高度
腾讯研究院· 2025-05-28 16:34
核心观点 - AI正处于变革初期,其影响可能超过印刷机与汽车等重大发明,将重塑工作方式和社会结构 [1] - AI的核心潜力在于实现"超级能动性",即通过人机协作大幅提升人类生产力与创造力 [4][5] - 当前AI技术呈现五大创新方向:智能推理、代理式AI、多模态功能、硬件升级和透明度提升 [8] - 90%企业领导者预期AI将在3年内推动营收增长,但70%企业转型面临失败风险 [26] 技术进展 智能与推理能力 - GPT-4在美国律师考试中进入前10%考生行列,医师资格考试正确率达90% [9][10] - 大语言模型上下文窗口显著扩展:Gemini 1.5 Pro可处理200万词元(2024年6月) [8] - OpenAI的o1模型具备类人推理逻辑,可进行目标导向的任务规划 [10] 代理式AI - 英伟达CEO黄仁勋称代理式AI为"万亿美元机会",预测2025年将出现数字员工 [12] - Salesforce推出Agentforce平台,可构建自主AI智能体处理产品发布等复杂任务 [13] 多模态功能 - Gemini Live实现带情感色彩的类人对话,Sora可将文本转化为视频 [15] - 谷歌PaLM-E模型结合视觉与语言控制机器人,Flamingo模型实现跨模态推理 [17] 硬件创新 - 英伟达H100 GPU加速大模型训练,2025年Cosmos世界模型将整合RTX芯片 [19] - 量子计算与神经形态芯片可能带来革命性突破,边缘计算提升实时响应能力 [20][21] 行业应用挑战 实施障碍 - 五大关键挑战:领导层战略对齐(分歧率70%)、成本不确定性、人才短缺、供应链脆弱性、模型可解释性 [26][27] - AI透明度指数显示Anthropic得分提升15分至51分,亚马逊提升3倍至41分(2023-2024) [23] 转型策略 - 推荐"迭代部署"模式:小步快跑开发,社会共建治理 [29] - 仅1%企业达到AI成熟水平,需结合自上而下战略与自下而上员工创新 [33] 企业战略思考 领导者维度 - 需重新构想成本中心为价值创造部门,通过AI建立差异化竞争力 [34] - 建议设立AI价值与风险负责人角色,统一跨部门目标 [27] 员工维度 - AI原生员工需掌握提示工程等新技能,企业需建立持续学习机制 [32][33] - 工作设计应鼓励自下而上的创新,如黑客松等实验形式 [33]
GPT-4o当选“最谄媚模型”!斯坦福牛津新基准:所有大模型都在讨好人类
量子位· 2025-05-23 15:52
一水 发自 凹非寺 量子位 | 公众号 QbitAI 不只GPT-4o,原来所有大模型都在讨好人类! 上个月, GPT-4o更新后化身马屁精引来一片差评 ,吓得OpenAI赶紧回退到了之前的版本。 而最新研究表明,GPT-4o绝非个例,实际上 每个大语言模型都存在一定程度的谄媚 。 来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的国外8个主流模型进行了评测。 结果发现, GPT-4o成功当选"最谄媚模型" ,Gemini 1.5 Flash最正常。 更有意思的是,他们还发现 模型会放大数据集中的偏见行为 。 具体咋回事儿?下面一起吃瓜。 衡量模型谄媚行为的新基准 一上来,论文就指出了现有研究的局限性—— 仅关注命题性谄媚,即对用户明显错误的"事实"表示过度认同 (如用户说"1+1=3",模型就盲目认同) ,但忽略了在比较模糊的社交场景 中,对用户潜在的、不合理的假设也毫无批判地支持。 由于后者难以被检测,因此所造成的潜在危害也难以评估。 为此,研究人员基于社会学中的 ...
Grok 居然从小猪视频读出了“南非白人种族灭绝”?
36氪· 2025-05-16 17:11
哪个成年人没有遇到过那种太过自我为中心的"朋友"呢? 你跟TA说今天被老板骂,TA说TA的老板更过分。 你跟TA说今天中午点的外卖很难吃,TA说TA的老板更过分。 你跟TA说今天天气不错准备散个步,TA说TA的老板更过分。 自顾自地絮叨,只想着自己输出,活像个卡了bug的人机。 这不,真正的"人机"就做了一次完美示范:当地时间5月14日大半夜开始,埃隆·马斯克(Elon Musk) xAI公司旗下的Grok机器人,不管用户问它啥,它都自顾自地谈论"南非白人种族灭绝"的话题。 用户在一个明星合照下呼出它,让它总结贴子,它说这个贴子讨论了南非政治。 用户在一个可爱猪猪视频下呼出它,它说白人农民遭到了系统性的攻击。 主打一个牛头不对马嘴、对牛弹琴、睁着眼睛说瞎话。 很明显,Grok出现了点儿什么问题。 敌人落难,怎么能视而不见?OpenAI的CEO山姆·奥特曼(Sam Altman)也出来阴阳怪气,说相信xAI 很快就会给出解释。 该事件引得媒体纷纷报道,马斯克也终于回应,称这一切都是因为后台出现"未经授权的修改"。 01 你听我说,反正就是南非的白人啊…… 一位计算机科学家Jen Golbeck得知此事,很好奇, ...
BERNSTEIN:科技的未来 - 具身智能与大语言模型会议要点总结
2025-05-16 13:29
纪要涉及的行业和公司 - **行业**:印度科技、媒体和互联网行业,重点涉及IT服务和SaaS行业 [1][4][8] - **公司**:AI Rudder、Straive、TCS.IN(Tata Consultancy Services Ltd)、INFO.IN(Infosys Ltd)、COFORGE.IN(Coforge Limited)、PSYS.IN(Persistent Systems Limited)、Salesforce、Microsoft、Amazon、OpenAI、Google等 [1][7][42] 纪要提到的核心观点和论据 Agentic AI和LLMs的发展趋势 - **Agentic AI将变革科技栈**:Agentic AI预计利用LLMs快速提升的能力改变科技栈,推动从“AI驱动的企业工作流”转变,重新定义生产力,将范式从静态API和僵化的UX/UI转向动态、目标驱动的系统 [2] - **LLMs采用率增加**:LLMs和AI的采用路径与云计算类似,最初的怀疑逐渐被更好的接受度取代,已证实的ROI、灵活的部署方式(云、本地、边缘)和成熟的LLM生态系统增强了信心,语音AI代理将推动多模态交互,增强呼叫中心代理的能力 [2][16] - **AI采用将遵循云的轨迹**:AI采用将像云一样,起初缓慢,随着工具、信任和人才的契合而加速,文化转变和监管清晰度的提高正在加速信任和企业准备度 [16] 不同类型LLMs的比较 - **开源与专有LLMs各有优劣**:开源LLMs提供更大的控制、定制和成本效率,但需要大量内部专业知识,且存在安全和支持风险;专有LLMs如GPT - 4或Claude提供最先进的性能、可扩展性和托管安全功能,但成本较高,定制有限,可能存在供应商锁定 [32] - **多模型多供应商的未来**:未来可能是多模型、多供应商的,由社区驱动的创新和特定领域的需求塑造,开源LLMs正在推动一个开放、模块化、竞争的空间 [35] - **顶级LLMs的评估**:GPT - 4o和Claude 3 Opus在企业级性能方面领先,具有强大的代理和多模态能力,但成本较高;Gemini 1.5适合生产力用例;开源模型如Mistral和LLaMA 3提供经济高效、可定制的选项,但需要更多努力来实现代理工作流;Cohere在RAG相关企业任务中表现出色,但缺乏完整的多模态或自主代理能力 [39][40] 对IT服务和SaaS模型的影响 - **IT服务劳动密集型模型面临风险**:IT行业的软件开发方式将改变,大量基本编码将转向AI,AI不仅能编写代码,还能为功能开发提供精确估计,设定新的生产力和质量基准,劳动密集型行业如BPM和传统IT服务在技术栈中风险最大 [4][41] - **SaaS用户增长可能停滞或下降**:随着AI代理接管人类任务,用户数量可能下降,但使用和自动化程度将增加,这将打破按席位定价的模式,推动SaaS提供商转向基于价值、使用或结果的计费 [4][30][31] LLMs的演变方向 - **从成本削减到创收**:早期企业采用LLMs主要集中在成本削减用例,随着发展,LLMs将从成本削减工具演变为增长引擎,通过超个性化、对话式商务和AI原生产品体验实现创收,自主代理正在重塑商业模式 [5][43][44] 投资建议 - **印度IT服务行业中期受益**:印度IT服务行业中期将受益于Agentic AI,但短期内会受到效率驱动的增长影响,IT服务公司可以结合AI知识和客户行业经验,帮助企业决定如何采用AI,填补客户在构建有吸引力的AI应用程序时面临的技能、数据和基础设施差距 [8] - **具体公司评级**:对大型印度IT服务公司Infosys和TCS给予“Outperform”评级,对中型IT服务公司Coforge和Persistent给予“Outperform”评级 [8] 其他重要但可能被忽略的内容 - **工作任务自动化比例变化**:目前47%的工作任务主要由人类单独完成,22%主要由技术完成,30%由两者结合完成;到2030年,雇主预计这三个类别/方法的比例将接近平均分配 [9] - **AI代理集成方式**:添加AI代理通常是叠加而非重建,如果应用程序有稳定的API和清晰的用户流程,可以在几周内部署一个有效的AI代理层;对于较旧或更封闭的系统,可能需要一些工程努力来创建桥梁 [24] - **AI平台支持多渠道客户交互**:AI平台展示了语音机器人和聊天机器人等AI代理如何通过统一的AI交互式机器人层部署在多个渠道(电话、短信、电子邮件、WhatsApp、Facebook等),这些代理通过预先存在的通信和后端API与现有系统交互 [29] - **新应用构建**:包括垂直代理、代理托管与服务、可观测性、代理框架、内存、工具库、沙箱、模型服务和存储等多个类别,涉及Sierra、Replit、Dosu等众多公司和平台 [45] - **公司估值和风险**:对TCS、Infosys、Coforge和Persistent Systems进行了估值,并指出了各公司的下行风险,如TCS可能面临大订单势头放缓、数字业务增长放缓等风险 [49][50][51][52][53] - **评级定义和分布**:介绍了Bernstein和Autonomous品牌的评级定义、基准和评级分布情况 [55][56][57][59][60][61] - **利益冲突和合规信息**:报告中提及了分析师的利益冲突、公司的合规政策、不同地区的分发规定以及报告的法律声明等内容 [71][72][76][80][84][85][86][88][89][90][94][97][99][100][101][102][103][104][105][106][107][108][109][110][111]
前端程序员请注意!首个截图就能生成现代前端代码的AI来了 | 已开源
量子位· 2025-02-26 11:51
金磊 整理自 投稿 量子位 | 公众号 QbitAI 现在 截图生成代码 ,已经来到了一个新高度—— ⾸个⾯向 现代前端 代码 ⽣成的多模态⼤模型解决⽅案,来了! 而且是 开源 的那种。 (注:现代前端代码开发具有组件化、状态管理和数据驱动渲染、开发规范严格以及动态交互性强等特点。这些特点相互关联,共同构成了现代前端开发的复 杂体系,对代码生成提出了更高要求。如基于React、Vue等框架的开发。) 这个模型叫做 Flame ,话不多说,直接来看效果。 例如截图让AI生成下面这个界面: Flame模型在"看"完图片之后,给出来的代码是这样: 不难看出,Flame⽣成代码明显是符合现代前端开发规范的,包括⽐较清晰的外联样式以及模块化组件结构。 同时在组件的实现中正确定义了组件的各个状态、事件响应、以及基于数据的组件动态渲染。 然而,诚如 GPT-4o 这样顶尖的SOTA模型,可能也与现代前端开发的核⼼需求背道⽽驰,因为局限在于端到端复刻设计图的过程中只能产 出静态组件。 像websight这样的数据集只涉及静态HTML,不适⽤于现代前端开发。 收集并构建⾼质量的训练数据⾯临许多挑战: 例如同样的界面,GPT-4 ...