Workflow
GPT系列
icon
搜索文档
AI终局之战:美国目前赢了技术,但中国会赢下未来?
虎嗅APP· 2025-09-13 11:24
以下文章来源于TOP创新区研究院 ,作者趋势研究组 TOP创新区研究院 . 创新区研究,就在TOP研究院。TOP研究院专注于全球创新区的一体化研究,从Talent(个人), Organization(组织), Place(区域)三大维度出发,通过"研究/连接/分享",探索中国创新区的实践路径。 因为这可能是一个正在我们眼前发生的,足以载入史册的世纪阳谋。 一、美国的"王牌",中国的"底 本文来自微信公众号: TOP创新区研究院 (ID:TOP_Lab) ,作者:TOP创新区研究院,头图来 自:视觉中国 2025年9月初,《经济学人》发表了一篇重磅文章—— 《谁在人工智能中获胜——中国还是美国? Who is winning in AI—China or America? 》。 文中说,美国的优势是技术:美国在私营部门创新、前沿研究 (包括人工通用智能或AGI) 、人工 智能模型开发、投资和先进计算基础设施方面领先。 而中国则通过其"AI+"举措 (如在农业、制造业和监控领域) 在各个部门大规模部署人工智能方面 表现出色,在人工智能相关出版物和专利总量上领先。 当然,经济学人不会停留在事实的叙述层面,而且它对咱 ...
李飞飞的答案:大模型之后,Agent向何处去?
虎嗅APP· 2025-09-07 10:51
Agent AI核心框架 - 提出由环境与感知、认知、行动、学习、记忆五大模块构成的智能体认知闭环架构 这代表对未来通用人工智能发展路径的前瞻性思考[10][12][17] - 感知模块具备多模态信息接收能力和任务规划与技能观察功能 使智能体能主动从物理或虚拟世界获取信息[12] - 认知模块作为处理中枢 由大语言模型和视觉语言模型提供世界知识、逻辑推理和上下文理解能力[14] - 行动模块通过控制器生成物理世界交互指令或虚拟世界API调用[15] - 学习模块支持预训练、零样本/少样本学习、强化学习和模仿学习等机制 实现持续自我进化[16] - 记忆模块采用持久化结构化系统存储知识、逻辑和推理结果 支持长期经验积累[17] 大模型驱动机制 - 大型基础模型特别是LLM和VLM的成熟是Agent AI框架的根本驱动力 为智能体提供零样本规划能力[20] - 大模型存在的"幻觉"问题可通过环境交互机制解决 环境反馈能迫使模型内部知识与外部现实对齐[21] - 基础模型存在社会偏见风险 需通过多元化数据训练和偏见检测机制确保包容性[22] - 个人数据隐私保护需建立明确法规框架 通过提示工程和人类监督层确保安全可控[22] 游戏领域应用 - 彻底改变传统NPC由固定脚本驱动的模式 实现基于记忆、目标和情感的动态行为调整[25] - 支持玩家用自然语言与游戏世界互动 为开放世界游戏带来前所未有的沉浸感和自由度[25] - 可作为创作者副驾驶 根据指令自动生成游戏关卡、道具和完整3D场景 大幅提升开发效率[25] 机器人领域应用 - 用户可用日常语言下达指令 机器人自主规划执行复杂物理操作 如GPT-4V可将人类演示视频转化为可执行任务序列[27] - 通过领域随机化技术在模拟训练中引入变化 增强对真实世界差异的鲁棒性[27] - 融合视觉、语言、触觉等多模态信息理解环境 实现更精准的物理交互[27] 医疗健康应用 - 作为医疗聊天机器人进行初步问诊和病史收集 基于医学知识库提供诊断建议 提升初级诊疗覆盖率[29] - 连接实时更新的医学数据库 在生成诊断时同步进行事实核查和来源引用 抑制模型幻觉[29] - 处理分流患者信息并监控慢性病患者生命体征 实现高效个性化健康管理[31] 发展挑战与方向 - 需解决视觉、语言、听觉、动作等多模态深度融合问题 而非浅层拼接[32] - 需训练能跨游戏、机器人和医疗等不同领域工作的通用智能体 而非定制化模型[32] - 建立科学评测体系至关重要 研究团队已提出CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准[32]
李飞飞的答案:大模型之后,Agent 向何处去?
创业邦· 2025-09-05 19:12
论文核心观点 - 李飞飞领衔的80页综述论文《Agent AI: Surveying the Horizons of Multimodal Interaction》为AI智能体领域建立统一框架 提出从感知到行动的认知闭环架构 并前瞻性预测行业技术演进路径 [5][6][9] - 论文定义Agent AI五大核心模块(环境感知、认知、行动、学习、记忆) 构成动态迭代的智能体体系 被视为实现AGI的系统性蓝图 [12][18] - 大模型(LLM/VLM)是驱动Agent的核心引擎 但需通过环境交互解决幻觉与偏见问题 需建立伦理安全机制 [5][20][21] - 应用潜力覆盖游戏、机器人和医疗三大领域 包括游戏NPC动态交互、机器人自主物理操作、医疗智能问诊与健康管理 [5][24][30] 技术架构 - 环境与感知模块:智能体主动从物理/虚拟世界获取多模态信息(视觉、听觉、文本) 并具备任务规划与技能观察能力 [13] - 认知模块:由LLM/VLM驱动 负责复杂推理、策略制定及上下文理解 是智能体的核心处理中枢 [14] - 行动模块:将决策转化为具体操作指令 包括机器人控制命令或API调用 通过控制器改变环境状态 [15] - 学习模块:支持预训练、零样本/少样本学习、强化学习及模仿学习 通过环境反馈实现持续优化 [16] - 记忆模块:存储知识、逻辑与推理结果 形成长期记忆体系 支持经验复用与举一反三 [17][18] 大模型驱动机制 - LLM/VLM提供零样本规划能力 例如将"热午餐"指令分解为具体子任务序列 显著降低规则编写成本 [20] - 环境交互是关键锚点:通过真实/模拟环境反馈校准模型输出 减少幻觉(如机器人操作错误)并对齐现实世界 [21] - 需解决数据偏见问题:通过多元化训练数据、偏见检测机制及道德指导方针确保包容性 [21] - 隐私与安全挑战:需建立数据使用监管框架 通过提示工程或人类监督层确保敏感领域(如医疗)安全可控 [22] 行业应用场景 - 游戏领域:变革传统NPC脚本模式 实现动态对话、行为调整及社会关系构建 支持自然语言交互与AI辅助内容生成 [25][26] - 机器人领域:实现自然语言指令解析(如"收拾桌子") 结合GPT-4V理解人类演示视频 并通过模拟训练与多模态融合提升物理操作鲁棒性 [28] - 医疗领域:智能问诊机器人提升初级诊疗效率 连接实时医学数据库进行事实核查 支持慢性病监控与个性化健康管理 [30][32] 行业发展与挑战 - 2025年被普遍视为Agent元年 谷歌、OpenAI和微软等巨头技术布局均遵循论文能力栈框架 [5][9] - 当前需突破多模态深度融合、跨领域通用化及标准化评测(如CuisineWorld、VideoAnalytica基准)等核心挑战 [33]
李飞飞的答案:大模型之后,Agent向何处去?
虎嗅· 2025-09-05 08:34
论文核心观点 - 李飞飞领衔的14位专家团队发布80页Agent AI综述 提出统一的多模态智能体认知框架 为行业提供前瞻性发展蓝图 [1][2][3][5][6][61] 技术架构 - 建立感知-决策-行动加记忆与学习的五模块认知闭环架构 形成动态迭代的智能交互系统 [9][10][26] - 感知模块支持多模态信息输入 包含视觉听觉文本传感器数据 并具备任务规划与技能观察能力 [12][13][14] - 认知模块由大语言模型和视觉语言模型驱动 负责多步推理与策略制定 [16][17] - 行动模块生成物理世界或虚拟世界的操作指令 通过控制器改变环境状态 [18][19] - 学习模块支持预训练/零样本/强化学习/模仿学习等多种机制 通过环境反馈持续优化 [20][21][22] - 记忆模块实现持久化结构化存储 保留知识逻辑推理路径 支持经验复用 [23][24][25] 基础模型作用 - 大语言模型和视觉语言模型为智能体提供世界知识库与零样本规划能力 显著降低任务规则编写成本 [28][29][31] - 模型存在幻觉问题 Agent通过环境交互获得物理规律反馈 倒逼模型与现实世界对齐 [32][33][34][35] - 基础模型可能继承社会偏见 需通过多元化训练数据和偏见检测机制确保包容性 [36][37] - 在医疗等敏感领域需建立数据隐私保护框架 通过提示工程和人类监督层确保安全可控 [38][39] 应用场景 - 游戏领域可创建具备记忆情感的NPC 支持自然语言交互与动态行为调整 显著提升开放世界沉浸感 [41][42][43][44] - 作为AI副驾驶自动生成游戏关卡道具及3D场景 大幅提高开发效率 [45] - 机器人领域实现自然语言指令解析 自主规划复杂物理操作序列 [47][48] - 通过GPT-4V理解人类演示视频并转化为可执行任务 简化编程流程 [49] - 采用领域随机化技术增强模拟到现实的迁移能力 提升环境适应性 [50] - 融合视觉语言触觉等多模态信息实现精细环境交互 如根据"易碎"指令调整抓取力度 [51] - 医疗领域作为聊天机器人进行初步问诊病史收集 提升初级诊疗覆盖率 [54] - 连接实时医学数据库实现事实核查与来源引用 抑制模型幻觉保障诊断准确性 [55] - 处理分流患者信息并监控慢性病体征数据 实现高效个性化健康管理 [57] 发展挑战 - 需突破视觉语言听觉动作等多模态深度融合技术 而非简单拼接 [59] - 需开发跨游戏机器人医疗等不同领域的通用智能体 而非定制化模型 [60] - 建立科学评测体系如CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准 [61]
构建创新与安全并重的大模型竞争治理体系丨法经兵言
第一财经· 2025-08-25 19:37
大模型产业发展现状 - 中国大模型产业面临低水平竞争与结构性垄断风险 同时存在产业管制与监管失灵等政策性干预可能[1] - 对外需摆脱人工智能技术与供应链依赖 进行充分创新与竞争[1] - 开源创新生态处于初步探索阶段 底层基础研究能力相对薄弱 数据和算力基础制约性能提升[2] - 产业内各类创新主体间未形成有效协同 无序竞争引发乱象丛生[2] 开源与闭源模式对比 - 闭源模式以OpenAI的GPT系列、Anthropic的Claude及谷歌的Gemini为代表 通过API访问和企业解决方案实现盈利[2] - 开源模式以深度求索(DeepSeek)为代表 发布多款较低训练成本、较高计算效率、高水平算法优化的开源模型[2] - 开源大模型公地治理复杂 需考虑跨国组织、政府机构、非营利性组织等多元群体差异化利益诉求[3] - 开源大模型建设维护成本高昂 投资回报无法短期兑现 传统开源治理机制面临重大挑战[3] 市场竞争治理挑战 - 现行市场界定方法无法适应动态竞争的大模型市场 相关市场边界模糊[4] - 经营者集中制度存在漏洞 营业额作为唯一申报标准不适用于提供免费服务的开源模型[5] - 通用大模型训练与推理过程不可解释 缺乏算法透明度强制性审查要求[6] - 产业政策与竞争政策失衡 地方政府算力补贴存在区域限制和标准差异[6] - 截至2024年7月底 中国智算中心达87个 但平均利用率仅30%左右 部分区域算力闲置率超25%[6] - 尚未形成具有国际约束力的标准体系 高性能计算场景对进口芯片存在依赖性[7] 监管优化路径 - 需建立鼓励创新的包容性监管 避免过早建立刚性监管框架增加合规成本[8] - 完善反垄断事前监管规则 通过必需设施原则进行垄断分析而非仅看市场份额[9] - 将数据聚集程度和算力基础设施控制力纳入核心审查指标[9] - 允许通用大模型经营者通过承诺开源核心算法或开放API接口进行创新抗辩[9] - 借鉴英国CMA战略市场地位调查经验 对数据、算力等关键资源进行初步研究[10] - 强化中央与地方产业政策协同 国家层面制定产业发展指南 地方层面因地制宜出台政策[11]
美国清洁能源前景遭重挫! 特朗普豪言不再批准太阳能或风能项目
智通财经· 2025-08-21 10:19
特朗普政府可再生能源政策 - 特朗普宣布联邦政府不会批准任何风能或太阳能发电项目 并称太阳能为"毁农"项目 [1] - 美国联邦政府上个月收紧可再生能源项目联邦许可流程 许可权全面集中至内政部长办公室 [1] - 特朗普政府通过的"大而美法案"规定到2027年末全面终止风能和太阳能的投资税收抵免与生产项目税收抵免 [2] 电力市场供需状况 - 美国部分地区电力需求已显著超过供给 PJM Interconnection电网电力基准价格大幅上涨 [1] - PJM Interconnection上月电网拍卖中新增电力容量价格较去年大幅上涨22% 该系统覆盖美国13个州 [2] - 煤电资源退役与AI数据中心等科技行业快速发展导致电力供应紧张 [1] 可再生能源行业影响 - 可再生能源公司担心项目无法获得联邦许可 特朗普对钢铁和铜征收的高额关税大幅提高太阳能和风能项目成本 [2][3] - 美国农业部终止对农田上大型太阳能项目的政府支持 [3] - 劳伦斯伯克利国家实验室统计显示太阳能与电池储能系统是能最快缓解电力供需缺口的电源 因占据电网并网项目绝大多数 [2] 科技行业与数据中心影响 - AI数据中心可能面临电力成本急剧上升 科技巨头的碳排放目标将遭受打压 [3] - 谷歌微软等对清洁能源有强劲需求 因风电地热等可再生能源将是未来全球发电体系最重要源头 [3] - AI数据中心作为核心基础设施 其高耗能特性使电力供应成为关键基础 印证"AI尽头是电力"市场观点 [3] 州级政策应对 - 加州等州政府可能继续推进海上风电与大型太阳能项目 前提是不需要联邦用地或许可 [4] - 加州2022年"AB205"法案赋予能源委员会州级认证通道 对≥50MW光伏/陆上风电、≥200MWh储能项目实施加速环评与许可 [5] - 私人或州有土地上的清洁能源项目主要走州级与地方审批程序 联邦土地项目仍受联邦政策掣肘 [4]
大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷
量子位· 2025-08-17 11:43
大语言模型作为裁判的评估能力 - 大语言模型(LLM)正从工具进化为"裁判"(LLM-as-a-judge),开始大规模评判AI生成内容,但其可靠性与人类判断的一致性尚未深入验证 [1] - 核心问题在于AI裁判能否准确识别对话中谁在说话,这是评估角色扮演的基础 [2] - 即便表现最好的模型Gemini-2.5-pro准确率仅为68.8%,远低于人类实验组的90.8% [4][15] PersonaEval基准测试 - 上海交通大学课题组提出PersonaEval基准,测试模型从候选角色中选出真正说话者的能力 [2] - 基准特点包括:源于人类创作数据、精心设计语义接近的干扰项、专注于高难度案例 [13] - 包含三个测试集:文学小说、中文剧本、专家对话场景,覆盖不同方向 [19] 模型与人类判断的差异 - 顶尖模型在简单案例中也会失误,如混淆"罗辑"和"史强",因过度关注语言风格而非对话意图 [8][9][12] - 差异源于智能模式不同:LLM依赖语言模式匹配,人类基于意图和认知使用语言 [10] - 微调角色知识反而降低性能,而增强推理能力的模型表现更优 [20][22] 行业影响与未来方向 - 研究揭示了当前LLM-as-a-judge范式在基础维度上的缺陷,需重新思考与人类价值观对齐的方式 [23][24] - 提升方向应聚焦强化模型的上下文感知和推理能力,而非灌输角色知识 [22] - 该领域商业潜力巨大,涉及虚拟伴侣、内容创作等应用场景 [6] 研究团队与成果 - 论文由上海交通大学王德泉课题组完成,第一作者周凌枫 [26][28] - 论文将发表于2025年COLM会议,项目代码和论文已开源 [5][29]
AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河
AI前线· 2025-08-10 13:33
多模态智能体的发展现状与挑战 - 实现智能体"看懂、想透、做好"需整合视觉理解、语言推理与物理执行能力,是多模态领域的核心挑战 [5] - 视觉输入维度极高且涉及三维结构理解,需结合交互知识(如物体操作判断),当前技术距离理想目标仍有差距 [6] - 空间智能对机器人操作至关重要,但现有视觉-语言-行动模型(VLA)因缺乏物体精确定位,实际成功率远低于实用水平 [7][8] 技术落地的可行路径 - 从"半结构化"场景(如产线灵活操作)切入是务实选择,介于高重复性结构化与全开放环境之间 [11] - 工业场景中,危险操作或遥操作结合智能的闭环迭代可驱动技术进步,但家庭等开放环境落地需超5年时间 [10][11] - 视觉与三维表征方法尚未统一,斯坦福团队主张三维内部表示是建模关键,但技术鸿沟仍需逐步填补 [9] 工业界研究的平衡之道 - 研究价值评估需兼顾学术与应用双维度,避免仅追求论文发表而忽视实际问题解决 [12] - 产品开发与研究探索节奏差异显著,需给予研究人员探索空间,同时确保方向与产品关联 [14] - 目标检测等基础问题仍存挑战,突破后将带来广泛价值,需坚持本质问题研究而非跟风热点 [13] 人才培养与底层能力 - 系统级能力(如分布式计算、GPU架构优化)比模型调参经验更关键,FlashAttention案例显示基础优化可推动领域进步 [17][18] - 计算机科学基础学科训练优于过早专攻应用方向,扎实的体系结构理解能适应技术迭代 [20] - AI时代程序员需超越基础编码,通过协作提升编程深度,聚焦AI无法替代的贡献 [19][20] 行业会议与趋势聚焦 - AICon大会聚焦Agent、多模态等方向,探讨大模型降本增效案例,反映企业级AI应用趋势 [3][21]
大模型究竟是个啥?都有哪些技术领域,面向小白的深度好文!
自动驾驶之心· 2025-08-06 07:32
大语言模型(LLM) - 大语言模型是基于海量文本数据训练的深度学习模型,核心能力在于理解并生成自然语言文本,参数量通常达数十亿至数千亿级别,训练数据量可达TB级[3] - 现代LLM核心特征包括大规模参数(如GPT-3有1750亿参数)、Transformer架构、预训练+后训练范式以及多任务适应性[6] - LLM核心能力包括理解和生成两方面,技术基础是Transformer神经网络架构特别是自注意力机制[6] Transformer架构 - Transformer是LLM核心技术基础,由Google于2017年提出,包含Encoder和Decoder两部分,关键创新是自注意力机制[9] - Encoder-only架构仅保留编码器部分,典型代表是BERT模型,适合文本理解任务[10] - Decoder-only架构是现代LLM主流选择,如GPT系列、Llama系列,适合文本生成任务[11] LLM核心能力 - 文本生成与创作:如GPT-4可生成技术文档,Claude 4在工程文档生成方面比GPT-4.1高42%[12] - 代码生成与辅助编程:Claude 4 Opus在SWE-bench测试中得分80.2%,Qwen2.5-Max中文代码采纳率达82%[12] - 知识问答与推理:Gemini 2.5 Pro凭借200万token上下文窗口在实时数据分析中表现优异[12] - 文本理解与转换:Llama 3.1 8B在德语医疗文本结构化任务中准确率达89.3%[13] - 多模态处理:前沿模型如Gemini 2.5 Pro支持文本、图像、视频多模态输入输出[14] 代表性LLM工作 - GPT系列:由OpenAI开发,GPT-3有1750亿参数,GPT-5预计将具备2000万token上下文窗口[15][16][20] - Llama系列:由Meta开发的开源模型,Llama 4首次采用MoE架构,包含三个版本[17][21] - Qwen系列:阿里巴巴开发的中国最具影响力开源大模型,已开源200多款模型[18][22] - DeepSeek系列:以创新架构设计和高效推理著称,DeepSeek-V3采用MoE架构[19][23] 视觉基础模型 - 视觉基础模型是通过大规模数据预训练、具备通用视觉理解或生成能力的深度学习模型[25] - 主流架构包括视觉Transformer(ViT)、CNN与Transformer混合架构如ConvNeXt和MobileViT[26][27] - 核心任务包括图像分类与识别、跨模态理解、目标检测与定位、图像分割等[27][29] 语音大模型 - 语音大模型是经过大规模语音数据预训练的大型神经网络模型,参数规模庞大,训练数据量达百亿甚至万亿级别[31] - 主流架构以Transformer为主,采用序列到序列结构,如Whisper模型[32] - 适用任务包括语音识别、语音翻译、语音到语音翻译、文本到语音合成等[36] 多模态大模型(MLLM) - 多模态大模型能同时处理和理解文本、图像、语音、视频等多种模态信息[39] - 主流架构为"预训练模态编码器+可训练模态连接器+大语言模型+模态解码器"组合模式[40] - 适用任务包括视觉问答、图文生成、跨模态检索、视觉定位与分割等[41] - 代表性工作包括LLaVA、Qwen2.5-VL、GPT-4o等[41][42] 推理大模型 - 推理大模型聚焦于通过优化提示方式、引入外部知识或改进推理流程提升大模型推理能力[43] - 主流架构以"基础模型+增强模块"为核心,不改变原模型主干结构[45] - 核心技术方向包括提示工程、上下文学习、思维链与慢思考、检索增强生成等[46] - 代表性工作包括自动提示优化(OPRO)、思维链(CoT)、DeepSeek-R1等[47][48]
深度 | 安永高轶峰:AI浪潮中,安全是新的护城河
硬AI· 2025-08-04 17:46
AI安全风险管理 - 安全风险管理从成本中心转变为构建品牌声誉和市场信任的价值引擎 [2][3] - 安全合规从被动约束条件升级为主动战略优势,是AI企业技术同质化后的关键胜负手 [3] - 安全直接决定企业信任与市场估值的核心资产 [4] AI风险特征与挑战 - AI风险已从实验室走向实际场景,如开源工具Ollama的默认开放端口漏洞 [6] - 算法黑箱与模型幻觉导致风险隐蔽性强、责任归属难度高 [6] - AI攻击具备模型幻觉和算法黑箱等新特性,传统防护方法难以应对 [6] - AI能通过碎片化数据精准重建个人画像,推断用户未意识到的敏感信息,导致歧视性定价、精准诈骗等风险 [6] AI安全防护策略 - 企业需建立适应AI特性的新型安全防护体系,包括输入输出沙箱隔离、指令优先级管理和上下文溯源等多维度机制 [7] - 采用"核心闭源、外围开源"组合策略,核心业务用闭源模型降低风险,外围创新用开源模型提升灵活性 [7] - AI备案应转化为风险管理能力提升契机,而非简单合规动作,需建立持续监控和企业级数据治理体系 [6][15] AI安全治理框架 - 构建AI安全治理模式需从组织职责、合规、安全机制到技术手段建立完整框架 [9] - 借助"安全智能体"团队实现主动威胁狩猎和精准异常行为分析,提升安全工作效率 [9] - 形成人机协同的最终防线,AI负责自动化攻防对抗,人类专家聚焦管理决策和战略规划 [9] 企业实践建议 - 企业家需保持对技术迭代的「好奇心」、解决真问题的「务实心」和对安全合规的「敬畏心」 [7][23] - 将AI安全合规视为战略投资,完善治理体系可获得品牌认可与信任溢价 [7] - 传统企业应用AI需补齐系统性短板,包括安全合规体系、责任意识和文化建设 [13] 开源与闭源模型选择 - 开源模型优势在于透明化,但需自建端到端安全防护能力并警惕供应链污染风险 [20] - 闭源模型提供一站式安全合规保障,但算法黑箱特性可能导致解释权缺失纠纷 [21] - 技术实力强且对自主可控要求高的企业适合开源模型,技术能力有限的企业更适合闭源模型 [22] 隐私保护重要性 - "以隐私换便利"在AI时代风险不可逆,如生物特征数据泄露无法重置 [10] - AI能汇总个人所有公开渠道信息,企业需从源头做好语料清洗和拒答策略 [11] - 行业普遍疏忽隐私保护将导致更严重后果,如大模型无意泄露个人训练数据 [11] 提示词注入防御 - 提示词注入类似"社交工程学",通过语言陷阱诱骗AI执行非法操作 [16] - 防御策略包括AI行为动态检测、指令优先级隔离、输入输出沙箱化和上下文溯源 [19] - 将安全规则固化为模型本能反应,而非可被用户输入覆盖的临时指令 [19]