大型语言模型(LLMs)

搜索文档
ACL 2025|驱动LLM强大的过程级奖励模型(PRMs)正遭遇「信任危机」?
机器之心· 2025-07-27 16:45
近年来,大型语言模型(LLMs)在复杂推理任务中展现出惊人的能力,这在很大程度上得益于过程级奖励模型(PRMs)的赋能。PRMs 作为 LLMs 进行多步推理 和决策的关键「幕后功臣」,负责评估推理过程的每一步,以引导模型的学习方向。 然而,它们真的足够可靠吗?一项最新研究—— 已荣幸被 ACL 2025 Main 接收 ——揭示了现有 PRMs 在识别推理过程中细微错误方面的显著不足,其 表现甚至可能不如随机猜测,敲响了「信任危机」的警钟! PRM 真的过时了吗?基于规则奖励的强化学习不断暴露假阳性及推理过程幻觉严重等问题,因此我们需要针对过程的有效监督,而如何评测过程监督的质 量就是一个值得探索的问题,目前主流的评估方法往往过度关注最终结果的正确性,而忽视了对推理过程中细致入微的错误类型的识别。 例如,一个推理步骤可能存在冗余、部分正确、甚至完全错误等多种状态,简单的「正确/错误」标签远不足以捕捉其内在的复杂性与细微差别。这种评估 粒度的缺失,使得我们难以真正理解 PRMs 的局限性,也阻碍了其能力的进一步提升。 为填补这一空白,复旦大学、苏州大学、上海人工智能实验室、石溪大学、香港中文大学等机构联合提出 ...
最容易被AI替代的是这三类创业者
混沌学园· 2025-07-22 18:07
AI对职场和创业的影响 - AI将导致大量工作岗位被自动化替代 到2030年美国约1200万人需换工作 60%-70%白领工作将被AI取代 [2] - 未来五年全球可能减少1400万个工作岗位 尽管AI会创造6900万新岗位 但将导致8300万岗位消失 [3] - 生成式AI正在改变多个行业的工作方式 包括写作、法律、客服、金融和营销等领域 [4] 容易被AI替代的创业类型 - 依赖重复劳动的创业者 如数据录入、文档整理等标准化工作 AI通过RPA和机器学习技术能更高效完成 [7][8][9] - 缺乏创意的内容创业者 模板化或洗稿式内容创作将被AIGC技术取代 AI能快速生成专业级文本、图片和视频 [12][13][14] - 伪需求或低价值创业者 如信息搬运、简单中介服务等 AI通过大数据分析和智能匹配将消除这类业务 [16][17][18] 难以被AI替代的创业机会 - 整合AI工具开创全新业务模式 如个性化教育方案、智能医疗诊断辅助系统等 [24][25][26] - 注重品牌打造和社群建设的创业者 依靠情感连接和价值观传递建立用户忠诚度 [28][29][30] - 复杂人际协作和情感服务领域 如心理咨询、定制化教育、高端餐饮服务等 [35][36][37] AI时代的创业策略 - 创业者需从重复性低价值领域转向需要人类独特智慧和情感的领域 [44] - 将AI作为工具而非威胁 与AI协同工作提供有"人味儿"的服务 [45][46] - 典型案例包括Coursera的AI个性化教育 董宇辉的情感连接式直播带货等 [27][34]
硅谷抢人大战!OpenAI连抢特斯拉等巨头四名大将
21世纪经济报道· 2025-07-09 11:10
AI人才争夺战 - OpenAI近期从特斯拉、xAI、Meta挖角四名核心AI人才,包括特斯拉原软件工程副总裁戴维·劳、xAI原基础设施工程负责人乌代·鲁达拉朱等 [1] - Meta此前为打造超级智能实验室,以四年3亿美元薪酬包挖角OpenAI等公司的AI研究员 [1] - Meta新招聘11名AI人才,来自OpenAI、Anthropic和谷歌,旨在加速AGI研发并支持AI应用业务 [1] 人才竞争策略与薪酬水平 - Meta通过WhatsApp直接联系人才、开出数百万美元薪酬方案,并尝试收购初创公司以获取人才 [2] - OpenAI首席研究官指责Meta以高达1亿美元的签约奖金挖角员工,但MetaCTO否认称天价薪酬仅针对极少数高管 [2][3] - Meta支付给AI工程师的薪酬范围为18.6万至320万美元,OpenAI为21.2万至250万美元 [4] 行业人才供需现状 - 全球AI技能职位招聘数量自2019年起年增21%,远超人才供应速度,顶尖AI专家总数不足1000人 [2] - 贝恩咨询预测AI人才缺口将持续至2027年,硅谷抢人激烈程度已"升级至职业竞技水平" [2] 头部公司团队动荡 - 苹果AI团队关键人物庞若鸣(领导约100人LLM团队)跳槽至Meta,获数千万美元年薪待遇 [4] - 苹果基础模型团队多名工程师流露离职意向,庞若鸣助手已提前离职,团队陷入动荡 [4]
微软推出深度视频探索智能体,登顶多个长视频理解基准
机器之心· 2025-06-30 11:18
核心观点 - 大型语言模型(LLMs)和视觉-语言模型(VLMs)在处理数小时长视频时仍存在局限性[1] - 提出新型智能体Deep Video Discovery(DVD),通过分段处理视频并利用LLM推理能力实现自主规划,在LVBench上达到74.2%准确率,超越现有技术[3] - DVD采用多粒度视频数据库和搜索工具集,通过LLM协调实现自主搜索和回答[7][9] 技术架构 多粒度视频数据库构建 - 将超长视频分割为5秒片段,提取全局/片段/帧三级信息,包括摘要、字幕、嵌入向量等[10] 智能体搜索工具集 - 全局浏览工具:获取高层上下文和视频全局摘要[11] - 片段搜索工具:通过语义检索返回相关片段及其时间范围[12] - 帧检查工具:从像素级信息提取细节并提供视觉问答[13] 性能表现 - 在LVBench上:DVD(74.2%)显著超越MR Video(60.8%)和VCA(41.3%)[16] - 辅助转录后准确率提升至76.0%[17] - 各维度表现:事件推理(73.4%)、知识推理(80.4%)、时序理解(72.3%)等[16] 比较分析 - 商业VLM对比:OpenAI o3(57.1%)优于GPT-4o(48.9%)和Gemini-2.0(48.6%)[16] - 开源VLM对比:Qwen2.5-VL-72B(47.7%)低于DVD[16] - 行为分析显示GPT-4o存在过早结束推理的问题[18]
Karpathy 最新演讲精华:软件3.0时代,每个人都是程序员
歸藏的AI工具箱· 2025-06-19 16:20
软件开发范式演变 - 软件1 0定义为传统代码编程 程序员使用Python C++等语言编写明确指令 源代码编译为二进制文件 典型例子包括特斯拉自动驾驶早期C++代码 [5][6] - 软件2 0以神经网络权重为核心 通过数据集训练生成参数 优势包括计算同质性 硬件易实现性 超人性能等 代表案例有AlexNet和AlphaGo Zero [7][10] - 软件3 0由大型语言模型驱动 自然语言提示成为编程方式 LLMs被视为新型计算机 类比1960年代操作系统 具有自然语言接口和用户普及特性 [11][12][14] LLM技术特性与类比 - 公用事业特性:LLMs需要高资本支出训练 通过API提供服务 OpenRouter实现供应商切换 服务中断会导致"智能断电" [16] - 晶圆厂特性:训练需巨额投入 NVIDIA GPU类似"无晶圆厂"模式 Google TPU则像自建晶圆厂 但软件防御性弱于物理设施 [17] - 操作系统特性:LLMs形成复杂软件生态系统 应用可跨后端运行 当前处于类似1960年代的分时计算阶段 个人计算革命尚未到来 [18] LLM认知模型与缺陷 - 超能力:具备百科全书级知识记忆 远超人类个体能力 [22] - 认知缺陷:包括幻觉 锯齿状智能 顺行性遗忘和易受骗性 需要人类监督验证 [23] - 人机协作:需保持AI在"牵引绳"上 通过生成-验证循环和GUI加速审计 [26] 行业应用机遇 - 部分自主应用:应具备上下文管理 多模型编排 专用GUI和自主性滑块 类似Cursor和Perplexity的交互设计 [26][28] - Vibe Coding:降低编程门槛实现"人人都是程序员" 但产品化面临非代码操作挑战 [30] - Agent基础设施:需构建lm.txt文件 LLM优化文档 上下文工具等支持Agent交互的新范式 [33][34] 技术扩散特征 - 逆向扩散路径:LLMs首先惠及普通消费者 ChatGPT成增长最快应用 企业政府应用滞后于组织惯性和合规障碍 [19][20] - 钢铁侠战甲策略:优先开发增强工具而非完全自主Agent 通过自主性滑块渐进升级 [2][28] - 长期发展预期:2025-2035年为Agent十年 需克服演示到产品的可靠性鸿沟 [27]
速递|AvatarOS获种子轮700万美元,打造AI驱动的3D高端虚拟形象
Z Potentials· 2025-03-11 11:27
元宇宙与虚拟人行业 - 生成式人工智能为虚拟人行业注入新活力 使创建不同虚拟身份更加容易 [1] - 虚拟人应用场景多样化 包括企业 会议 时尚 学习和创作者领域 [1] - 市场缺乏外观出众且具备个性化特征的高质量虚拟形象 [1] AvatarOS公司背景 - 创始人Isaac Bratzel曾在IPsoft Brud和Dapper Labs担任设计职位 拥有丰富行业经验 [2] - 公司于2022年成立 已完成700万美元种子轮融资 由M13领投 [2] - 投资方包括Andreessen Horowitz Games Fund HF0 Valia Ventures和Mento VC [2] 公司战略与定位 - 专注于打造3D空间中的高端虚拟形象 而非一键生成内容 [4] - 目标是创造能够积累长期价值的虚拟实体 如Lil Miquela案例 [4] - 差异化在于创造具有独特移动方式的虚拟形象 模仿人类多样化动作 [5] 产品与技术 - 正在开发基于机器学习的变形器 用于创造逼真动作 [6] - 提供API接口 允许客户将虚拟形象集成到网站中 [5] - 未来计划为客户提供更多创建和调整虚拟形象的工具 [5] 融资与投资方观点 - M13将本轮投资视为探索性机会 看好创始人的行业经验 [3] - 投资方通过与虚拟化身交谈完成部分尽职调查 [3] - 资金将用于团队扩张和技术开发 [2][6]