Gemini 2.0

搜索文档
大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲
机器之心· 2025-08-16 13:02
大语言模型(LLM)推理机制 - LLM中的推理定义为在输出最终答案前生成一系列中间token,其核心在于通过中间token增强模型能力而无需扩展模型规模 [6][15] - Transformer模型通过生成中间token可解决布尔电路理论框架下的复杂问题,逻辑电路规模决定解决能力上限(逻辑门数量可达数万亿) [17] - 标准贪婪解码会抑制推理能力输出,需采用链式推理解码(生成多候选答案并筛选高置信度结果)或提示工程(如"逐步思考"指令)触发推理 [22][23][27] 推理优化方法演进 - 监督微调(SFT)依赖人工标注问题与解决方案数据,但泛化能力有限,需依赖数据规模扩展 [29][33][36] - 自我提升方法利用模型生成解决方案数据(Reject Sampling),通过迭代优化降低人工标注成本,如STaR论文提出的自举推理框架 [39][40] - 强化学习微调(RL finetuning)成为当前最优方法,直接优化生成质量指标,谷歌、OpenAI等多团队独立验证其有效性 [42][43][49] 关键技术突破方向 - 多响应聚合策略显著提升推理准确率,通过边缘化方法选择高频答案(如生成10个响应取众数) [60] - 检索增强推理结合外部知识库,解决模型固有知识盲区(如坐标计算需先检索距离公式) [62][63] - 模型组合技术并行运行多个模型对比输出,类似AlphaGo的集成学习思路 [62] 行业应用与未来趋势 - Gemini 2.0展示符号推理能力,通过乘法分解解决数字组合问题(如2025=45×45),体现类人推理过程 [51] - 工业界更关注实际性能而非学术争论,检索与推理结合已应用于代码生成、写作等复杂任务 [62][65] - 未来研究将聚焦非确定性答案任务(如创意生成),推动基准测试向真实场景迁移 [66][68] 学术资源与课程 - 斯坦福CS25课程汇聚Geoffrey Hinton等顶尖学者,YouTube播放量达数百万,涵盖GPT到机器人应用前沿 [9][10] - Denny Zhou论文引用超83,000次,主导语言建模大会(CoLM 2024),研究涵盖链式思考提示与自一致性算法 [8]
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
量子位· 2025-06-02 12:13
视觉语言大模型的空间推理能力 - 当前视觉语言大模型(VLMs)在大规模图文数据中学习到的空间信息是片段化的,仅限于静态视角的理解,缺乏多维度、多视角的空间推理能力 [1] - 面对需要多视角空间推理的任务时,模型表现不佳,缺乏空间感与换位思考能力 [2][20] - 具备稳健的空间推理能力与视角理解能力的AI系统才能成为与人类协作的智能体 [3] ViewSpatial-Bench基准体系 - 研究团队提出首个系统评估VLM多视角多任务下空间定位能力的基准体系ViewSpatial-Bench,涵盖五种任务类型,覆盖相机和人类双重视角 [4][7] - 基准包含5700个问答对,通过自动化3D标注流水线生成精确方向标签,覆盖丰富3D场景 [4][16] - 五大任务包括:物体相对方向识别、人物视线方向识别(相机视角),以及从人类视角出发的三类任务(物体相对方向识别、人物视线方向识别、场景模拟的相对方向识别) [9][10][11][12][13][14] 主流模型的表现评估 - 评估显示GPT-4o、Gemini 2.0等主流模型在空间关系理解上表现不足,整体准确率不高 [19] - 模型在摄像头视角下的人物面朝方向判断任务平均准确率仅为25.6%,远低于物体相对方向判断的38.9%,但在人物视角下趋势反转 [22] - 大多数模型在人物视角任务上表现略优于摄像头视角,如GPT-4o在人物视角平均准确率为36.29%,高于摄像头视角的33.57% [25] Multi-View Spatial Model(MVSM) - 研究团队开发MVSM专门用于跨视角空间理解优化,采用自动化空间标注框架生成约43000个高质量样本 [27][28] - MVSM相比骨干模型Qwen2.5-VL实现46.24%的绝对性能提升,验证针对性训练的有效性 [5][28] - 在VSI-App评估中,MVSM在室内场景表现提升20%,户外场景提升4.00%,展示处理动态轨迹和人机交互场景的能力 [32] 研究意义与未来方向 - ViewSpatial-Bench和MVSM为多模态模型空间理解能力提供系统评估工具,重构视角采择建模方式 [33] - 研究揭示当前训练语料在视角分布上存在结构性不平衡,为未来数据构建和模型优化指明方向 [26] - 更聪明的空间感知是下一代机器人与多模态助手的关键一步 [34]
胡泳:超级能动性——如何将人类潜能提升到新高度
腾讯研究院· 2025-05-28 16:34
核心观点 - AI正处于变革初期,其影响可能超过印刷机与汽车等重大发明,将重塑工作方式和社会结构 [1] - AI的核心潜力在于实现"超级能动性",即通过人机协作大幅提升人类生产力与创造力 [4][5] - 当前AI技术呈现五大创新方向:智能推理、代理式AI、多模态功能、硬件升级和透明度提升 [8] - 90%企业领导者预期AI将在3年内推动营收增长,但70%企业转型面临失败风险 [26] 技术进展 智能与推理能力 - GPT-4在美国律师考试中进入前10%考生行列,医师资格考试正确率达90% [9][10] - 大语言模型上下文窗口显著扩展:Gemini 1.5 Pro可处理200万词元(2024年6月) [8] - OpenAI的o1模型具备类人推理逻辑,可进行目标导向的任务规划 [10] 代理式AI - 英伟达CEO黄仁勋称代理式AI为"万亿美元机会",预测2025年将出现数字员工 [12] - Salesforce推出Agentforce平台,可构建自主AI智能体处理产品发布等复杂任务 [13] 多模态功能 - Gemini Live实现带情感色彩的类人对话,Sora可将文本转化为视频 [15] - 谷歌PaLM-E模型结合视觉与语言控制机器人,Flamingo模型实现跨模态推理 [17] 硬件创新 - 英伟达H100 GPU加速大模型训练,2025年Cosmos世界模型将整合RTX芯片 [19] - 量子计算与神经形态芯片可能带来革命性突破,边缘计算提升实时响应能力 [20][21] 行业应用挑战 实施障碍 - 五大关键挑战:领导层战略对齐(分歧率70%)、成本不确定性、人才短缺、供应链脆弱性、模型可解释性 [26][27] - AI透明度指数显示Anthropic得分提升15分至51分,亚马逊提升3倍至41分(2023-2024) [23] 转型策略 - 推荐"迭代部署"模式:小步快跑开发,社会共建治理 [29] - 仅1%企业达到AI成熟水平,需结合自上而下战略与自下而上员工创新 [33] 企业战略思考 领导者维度 - 需重新构想成本中心为价值创造部门,通过AI建立差异化竞争力 [34] - 建议设立AI价值与风险负责人角色,统一跨部门目标 [27] 员工维度 - AI原生员工需掌握提示工程等新技能,企业需建立持续学习机制 [32][33] - 工作设计应鼓励自下而上的创新,如黑客松等实验形式 [33]
2025Q1人工智能现状分析:中国
搜狐财经· 2025-05-25 11:21
中国人工智能实验室发展 - 中国人工智能实验室在数量和质量上均有显著提升 正逐步缩小与美国实验室的差距 [1] - DeepSeek的R1模型和阿里巴巴的Qwen系列已接近OpenAI的o1级智能水平 性能表现突出 [1] - 多家中国实验室推出高性能推理模型 该类模型在回答前进行"思考" 提升了文本理解和生成能力 [9] 大型科技公司动态 - 阿里云、腾讯、百度等公司利用资金和技术优势 快速推出前沿模型如Qwen 2.5和豆宝1.5 Pro [2] - 阿里巴巴的Qwen系列和DeepSeek的R1模型开放权重 促进技术共享和生态发展 [1] 行业挑战与应对 - 美国对NVIDIA H100/A100等高端GPU的出口管制对中国AI硬件供应造成压力 [2] - 中国公司积极开发国产芯片或使用合规硬件作为替代方案 [2] 初创企业表现 - MiniMax、智浦等初创公司在医疗、自动驾驶等垂直领域推出创新模型 获得市场认可 [2] 技术竞争格局 - 2024年末中国顶尖实验室密集发布高性能模型 智能水平差距从85缩小至80(基于Artificial Analysis基准测试) [9] - 美国实验室中Google Gemini 2.0和Meta模型正快速逼近OpenAI的GPT-4 Turbo [9] - OpenAI的o3模型在2024年引领GPT-4之外的智能飞跃 推理模型和数据质量成为性能提升关键杠杆 [9] 市场趋势 - 中国AI领域投入持续增加 大型企业和初创公司共同推动技术进步 [3] - 行业预计未来几年中国将在部分AI细分领域实现超越 带来新的商业机会 [3]
AI辅助编码将如何改变软件工程:更需要经验丰富的工程师
AI前线· 2025-05-12 12:28
生成式AI对软件工程的影响 - 生成式AI将继续改变软件开发方式,75%的开发者已使用AI工具进行软件工程相关工作[1] - AI工具仍处于创新周期早期阶段,软件工程AI智能体可能成为2025年创新核心[1] - 主流媒体对AI取代软件工程师的讨论多出自非专业人士,未能准确评估GenAI工具的效率和局限性[1] AI工具在软件开发中的使用模式 - 开发者分为"加速器"和"迭代器"两类,使用方式截然不同[3][7] - 加速器模式:从零快速构建最小可行产品,如Bolt、v0等工具可在几小时内将设计转化为可运行原型[10][11] - 迭代器模式:用于日常开发,如Copilot等工具辅助代码补全、重构和测试生成[11][12] AI辅助开发的挑战 - "70%问题":AI可快速完成70%工作,但剩余30%需要大量人工调试[14][15] - "两步后退悖论":修复一个问题可能导致更多新问题,形成恶性循环[16] - "知识悖论":AI工具对经验丰富开发者帮助更大,而非初学者[20][22] - 初级开发者容易接受AI输出导致"纸牌屋代码",缺乏可维护性[18] 有效的AI开发模式 - AI初稿模式:生成基本实现后人工重构和增强[28] - 持续对话模式:保持紧密反馈循环,频繁评审变更[29] - 信任加验证模式:生成代码后人工评审关键路径和边缘情况[30] 软件工程智能体的兴起 - 2025年将出现更自主的AI智能体,能规划、执行和迭代解决方案[35][38] - 多模态能力将整合视觉理解、口头对话和环境交互[40] - 英语优先的开发环境使自然语言沟通变得与编程技能同等重要[44] 软件质量与工艺 - AI加速开发但未显著提升软件质量,关键仍依赖人类判断[54] - AI生成代码可能导致"演示品陷阱",忽视边缘情况和用户体验[48][49] - 个人软件可能复兴,开发者将更关注细节和完整用户体验[53] AI对软件工程流程的影响 - AI主要帮助编码环节(占40%时间),对其他环节如规划、验证等帮助有限[58] - 自20世纪60年代以来,无开发者软件工程的梦想仍未实现[59] - 抽象层次越高,越难明确表达复杂软件需求[63] 行业趋势与人才需求 - 对经验丰富软件工程师的需求可能增加,因其能更有效使用AI工具[67] - AI智能体领域将吸引大量风投,价格有望下降[64] - 开发者需要掌握系统设计、架构思维和AI协作等新技能[45][46]
李彦宏说 DeepSeek 幻觉高,是真的吗?
36氪· 2025-05-02 12:29
大模型幻觉问题现状 - DeepSeek-R1在苹果美区App免费下载排行榜上力压ChatGPT,成为国产开源大模型的代表,但其"胡说八道"的批评频发,用户反馈其生成内容真伪难辨[2] - 李彦宏在2025百度AI开发者大会上直接批评DeepSeek-R1存在"单一模态支持、高幻觉率、速度慢且成本高"三大痛点[2] - Vectara的HHEM评估显示DeepSeek-R1幻觉率高达14.3%,较前代V3的3.9%提升近4倍,阿里通义QwQ-32B-Preview幻觉率更高达16.1%[6] - OpenAI内部测试发现o3模型在PersonQA基准测试中幻觉率达33%,轻量版o4-mini更达48%,均显著高于前代o1的16%[8] - 谷歌Gemini 2.0的Flash-Thinking版本比标准版幻觉更突出,显示推理能力增强可能加剧幻觉问题[10] 行业技术挑战 - 推理模型采用多轮思考策略易产生偏差累积,导致多米诺骨牌式幻觉放大,例如DeepSeek-R1的长链式思考会逐步放大微小错误[16] - 当前主流解决方案RAG(检索增强生成)通过先检索权威资料再生成回答,百度2024年发布的iRAG技术已应用于文生图领域[20][22] - 腾讯混元模型T1采用"双重把关"策略,训练Critic批判模型筛选长思维链中的逻辑错误,但数据治理仍面临互联网语料复杂性挑战[23] - OpenAI承认模型规模扩大与推理能力增强后幻觉增多的机制尚未明确,需进一步研究[23] 幻觉的双面性 - 大模型幻觉分为事实性幻觉和忠实性幻觉,后者可能产生"外箱式创意",例如DeepSeek续写刘慈欣小说章节被评价优于原作[23][26] - 刘慈欣认为AI可能突破人类认知极限,OpenAI CEO奥特曼也指出幻觉在创作领域具有积极意义[26] - 行业需根据应用场景差异化接受幻觉程度,高风险领域需严格限制,创意领域则可利用其创新潜力[27] 厂商竞争格局 - 百度等大厂既依赖DeepSeek流量导入,又因自研深度推理模型难以突破用户心智而陷入竞争困境[2] - 阿里通义Qwen系列与DeepSeek-R1同属国产模型第一梯队,但QwQ-32B-Preview幻觉率更高达16.1%[6] - 谷歌Gemini、IBM Granite、Anthropic Claude等国际主流模型幻觉率普遍在14%-17%区间,显示该问题具行业普遍性[7]
向AI电商领域进军,ChatGPT搜索上线购物推荐功能
观察者网· 2025-04-29 12:25
产品功能更新 - 人工智能公司OpenAI宣布更新网络搜索工具ChatGPT Search,新增购物推荐功能以改善用户在线购物体验 [1] - 购物推荐功能目前覆盖时尚、美妆、家居用品和电子产品等少数类别,未来计划纳入更多商品类别 [1] - 该功能向全球付费、免费及未登录访客用户开放,推荐机制基于用户评价、讨论重点及产品优缺点分析,而非传统算法信号 [3] 技术实现与用户体验 - ChatGPT将记住用户历史行为,结合多网络渠道产品评论以提供高度个性化商品推荐 [3] - 公司计划为Pro和Plus用户整合记忆功能与购物功能,进一步提升服务体验 [3] - 当前服务不支持应用内结账,用户需跳转至商家网站完成交易 [3] 商业模式与竞争策略 - OpenAI暂未对通过ChatGPT的购买行为收费,也未明确链接推广营销的分成收益模式 [3] - 公司表示首要任务是提供高质量推荐,未来将探索多种合作模式 [3] - 此次更新是OpenAI与谷歌竞争的措施之一,旨在通过更个性化的互联网产品提升用户体验 [4] 行业竞争格局 - AI搜索领域竞争加剧,尤其在在线购物方向,OpenAI此前通过AI代理平台Operator开发类似功能 [4] - 竞争对手Perplexity已于去年底推出"Buy with Pro"功能,支持应用内直接购物 [4] - ChatGPT Search于2024年10月31日上线,12月16日全面开放,直接对标谷歌同期发布的Gemini 2.0模型 [4]
速递|Llama 4突袭周末发布!Meta用2万亿参数怪兽硬刚GPT-4.5,却暗禁欧盟用户
Z Finance· 2025-04-06 15:45
文章核心观点 Meta发布新一代AI模型集合Llama 4,该系列模型有新特性和优势,但授权条款或引发争议,且在应答策略上有调整以应对行业问题 [1][2][9] 模型发布情况 - Meta在周六发布Llama 4系列,含Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth四款新模型 [1] - Scout和Maverick已通过Llama.com及Hugging Face等平台开放获取,Behemoth仍在训练阶段 [1] - Meta旗下AI助手Meta AI完成升级,将在40个国家启用Llama 4技术,多模态功能仅限英语版美国用户使用 [1] 研发推动因素 - 中国AI实验室深度求索开源模型成功,性能超Meta前代旗舰Llama模型,推动Llama研发进程加速 [1] - 据传Meta紧急组建战情室,试图破译深度求索降低模型运行和部署成本的技术路径 [1] 授权条款情况 - 欧盟境内注册或主要营业地的用户及企业被禁止使用或分发Llama 4模型,受该地区AI与数据隐私法规合规要求影响 [2] - 月活用户超7亿的企业须向Meta申请特殊授权,Meta拥有绝对审批权 [2] 模型架构特点 - Llama 4是Meta首个采用混合专家(MoE)架构的模型系列,能提升训练及查询应答的算力效率 [4] - MoE架构将数据处理任务分解为子任务,交由小型专业化“专家”模型处理 [4] 模型参数情况 - Maverick总参数量达4000亿,通过128个“专家”模型仅激活170亿参数 [4] - Scout激活170亿参数,包含16个专家模型,总参数量1090亿 [4] - Behemoth激活参数达2880亿,包含16个专家模型,总参数近2万亿 [6] 模型性能表现 - Maverick在编程、推理等测试中超越OpenAI的GPT - 4o和谷歌Gemini 2.0,但逊色于部分最新顶级模型 [5] - Scout在文档摘要和大规模代码库推理任务有优势,拥有1000万token的超大上下文窗口 [5] - Behemoth在数学解题等STEM能力评估中表现优于部分模型,但不及Gemini 2.5 Pro [6] 模型架构差异 - Llama 4全系均未采用类似OpenAI o1和o3 - mini的专用“推理”架构 [9] 模型应答策略调整 - Meta对Llama 4全系模型调优,使其更少拒绝回答“争议性”问题,回应涉及政治社会议题的提问 [9] - Meta表示新模型在拒绝回答的提示词选择上“显著更平衡” [9] 行业相关问题 - AI偏见是行业公认的技术难题,马斯克自创的xAI公司也未能造出完全政治中立的聊天机器人 [9] - OpenAI等公司持续调整模型策略,使其能应答更多过往被规避的问题 [10]
速递|Meta发布Llama 4,首批采用混合专家模型,但非真正的推理模型
Z Potentials· 2025-04-06 12:55
Meta发布Llama 4系列AI模型 - Meta发布Llama 4系列AI模型,包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth,这些模型在未标记的文本、图像和视频数据上进行训练,具备广泛的视觉理解能力 [1] - 中国人工智能实验室DeepSeek的开源模型成功促使Llama开发加速,Meta成立战情室研究如何降低运行和部署模型的成本 [1] - Scout和Maverick已公开获取,Behemoth仍在训练中,Meta AI助手已在40个国家更新使用Llama 4,多模态功能目前仅限于美国的英语用户 [1] Llama 4的许可证限制 - 欧盟用户和公司被禁止使用或分发Llama 4模型,可能是由于人工智能和数据隐私法律的要求 [2] - 拥有超过7亿月活跃用户的公司需向Meta申请特别许可,Meta自行决定是否授予许可 [2] Llama 4的技术架构 - Llama 4是Meta首批采用专家混合(MoE)架构的模型,训练和查询时更具计算效率 [3] - Maverick拥有4000亿总参数和170亿活跃参数,分布在128个专家中,Scout拥有170亿活跃参数和16个专家,总参数1090亿 [3] Llama 4的性能和应用 - Maverick在通用助手和聊天场景中表现优异,在某些基准测试中超越GPT-4o和Gemini 2.0,但仍不及Gemini 2.5 Pro、Claude 3.7 Sonnet和GPT-4.5 [4] - Scout擅长文档摘要和大型代码库推理,具有1000万标记的上下文窗口,能处理极长文档 [4] - Scout可在单个Nvidia H100 GPU上运行,Maverick需要Nvidia H100 DGX系统或同等设备 [5] Behemoth的性能 - Behemoth拥有2880亿活跃参数和16个专家,总参数近2万亿,在多个评估中超越GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Pro,但不包括Gemini 2.5 Pro [5] - Llama 4系列模型不是真正的推理模型,不进行答案事实核查,因此交付答案时间比推理模型更快 [5]
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
量子位· 2025-04-06 10:33
Llama 4系列模型发布 - Meta发布首个基于MoE架构的Llama 4系列模型,包括Llama 4 Scout、Llama 4 Maverick和尚未推出的Llama 4 Behemoth [3][4] - 前两款被官方称为"最先进的型号"和"最好的多模态型号",其中Llama 4 Scout有16位专家的170亿激活参数,Llama 4 Maverick有128位专家的170亿激活参数 [4][5] - Llama 4 Behemoth为2万亿参数的教师模型,多个基准测试超过GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro [5][50][52] 模型性能与技术特点 - Llama 4 Maverick在大模型竞技场排名中得分1417,超越DeepSeek-V3成为排名第一的开源模型 [8][9] - 系列模型采用MoE架构,Llama 4 Scout和Maverick分别有16和128个专家模型,总参数分别为17B和400B [15][16][17][58] - 提供超长上下文窗口,Llama 4 Scout达100万token,预训练后长度泛化能力达256K [20][27] - 原生多模态设计支持图像理解,在MMMU、ChartQA等基准测试中超越Gemma 3、Gemini 2.0等竞品 [30][31][43] 训练与技术创新 - 预训练使用FP8精度实现390TFLOPs/GPU效率,训练数据达30万亿token是Llama 3的两倍 [63][64] - 采用MetaP新技术设置超参数,在200种语言上训练,词库总量是Llama 3的10倍 [62][63] - 后训练采用轻量级SFT>在线RL>轻量级DPO的课程策略,通过数据过滤提升推理和编码能力 [68][69][70] - 创新iRoPE架构使用交错注意力层无需位置嵌入,支持"无限"上下文长度目标 [70] 商业化与竞争格局 - Llama 4 Maverick推理成本仅$0.19-$0.495/百万token,价格显著低于GPT-4o等竞品 [49] - 行业竞争加剧,OpenAI计划提前发布o3和o4-mini应对,DeepSeek等中国厂商也在加速创新 [80][81] - 模型已在官网和Hugging Face开放下载,支持12种语言方便全球开发者部署 [13][45]