Workflow
量子位
icon
搜索文档
AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI
量子位· 2025-06-26 11:43
核心观点 - 美国法院首次裁定AI公司可在未经作者许可情况下使用合法购买的已出版书籍训练AI 依据合理使用原则认定AI训练属于转化性使用 未取代原作市场且有利于技术创新[2][3][17] - 法院明确区分数据来源合法性 盗版书籍训练不构成合理使用 需承担侵权责任 但合法采购书籍的扫描副本可用于训练[15][16][33] - 裁决显著降低AI行业训练数据的版权风险 为LLMs发展提供法律支持 可能影响OpenAI和Meta等同类案件审理[3][32][34] 案件背景 - Anthropic被指控在2021-2022年通过盗版网站LibGen等非法下载超700万份受版权保护书籍建立数字图书馆 2023年使用子集训练Claude模型[7][8][10] - 2024年转向合法采购 雇佣前Google图书扫描项目负责人Turvey采购数百万本纸质书 但未持续跟进出版商授权沟通[11][12] - 2024年8月三位作家起诉其非法复制作品训练AI 法院最终支持合法来源数据的使用权[6][13] 法律依据 - 援引美国版权法"合理使用"原则 认定AI训练具有高度转化性 输出内容未侵犯原作且未形成市场替代[2][14] - 参考历史判例:2015年Google Books案确立数字化检索属合理使用 2022年GitHub Copilot案确认代码训练转化性[24][25][29] - 法院强调技术中立性 类比人类阅读学习过程 认为AI消化书籍信息应获同等权利[4][18] 行业影响 - 加速AI公司数据获取合规化进程 Anthropic等企业需建立正版采购渠道 避免盗版资源[11][15] - 技术解决方案受推动 GitHub Copilot已部署代码来源标注功能 防范许可证冲突[29][30] - 创作者权益保护机制待完善 需探索新型授权模式应对AI训练需求[19] 争议焦点 - 法律界对"转化性使用"标准存在分歧 部分观点认为AI大规模复制不同于人类学习[19] - 开源社区担忧商业公司滥用合理使用条款 将免费资源转化为付费服务[28][29] - 出版商面临正版采购与盗版监控的双重成本压力[12][31]
全模态RAG突破文本局限,港大构建跨模态一体化系统
量子位· 2025-06-26 11:43
技术突破 - 突破传统RAG技术局限,实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解[1] - 香港大学黄超教授团队开源多模态智能处理系统RAG-Anything,将碎片化信息转化为结构化知识网络[1] - 系统整合多模态文档解析、语义理解、知识建模和智能问答等核心能力,构建从原始文档到智能交互的完整自动化流程[2] 技术痛点与需求 - 传统RAG系统主要针对纯文本设计,无法有效处理图表、表格、公式等非文本内容[6] - 现有系统存在检索效果不理想、语义关联缺失、工作流复杂等问题[6] - 各行业迫切需要AI系统具备跨模态综合理解能力,能够同时解析文字、图像、表格和数学表达式[4] 系统架构与功能 - 采用端到端技术栈,包含文档解析、内容理解、知识构建和智能问答等关键功能[10] - 支持PDF、Office文档、图像等10多种主流文档格式[12] - 实现跨模态统一知识表示和检索方法,提供标准化API接口和灵活配置选项[10] 技术亮点 - 一站式多模态处理流程,实现从文档解析到智能问答的全流程自动化[11] - 全方位内容理解能力,包括视觉分析、语言理解和结构化数据处理[13] - 语义关联网络构建,自动识别文档中不同类型内容之间的关联关系[14] - 开放式组件生态架构,支持功能模块灵活调整和添加[15] 多模态理解能力 - 视觉内容分析:集成视觉大模型,自动生成图像描述,提取图表数据关系和视觉要素[19] - 表格智能解析:理解表格层次结构,识别表头关系和数据逻辑联系[20] - 数学公式理解:识别LaTeX格式表达式,分析变量含义和适用场景[20] - 扩展模态支持:支持流程图、代码片段、地理信息等专业内容识别[20] 知识图谱构建 - 将多模态内容统一建模为结构化知识图谱,突破信息孤岛问题[23] - 实体化建模:将异构内容统一抽象为知识实体,保留完整信息[24] - 智能关系构建:自动识别段落间逻辑关系和图文间说明关系[24] - 高效存储索引:建立图谱数据库和向量数据库双重存储机制[24] 检索机制 - 采用双层次检索问答机制,结合图谱检索和向量检索优势[26] - 分层提取细粒度关键词和概念级关键词,精准理解复杂问题[27] - 混合检索方式,通过图谱结构快速找到相关实体节点[27] 部署与应用 - 提供PyPI和源码两种安装方式,支持快速部署[29] - 模块化架构设计,支持一键式端到端处理和精细化手动构建两种使用方式[30] - 全流程自动化,从文档上传到智能问答无需人工干预[34] - 支持精确控制处理流程和定制化功能扩展[35] 未来方向 - 改进系统推理能力,处理跨模态信息深层关联[37] - 探索学术论文图表解析、财务报表数据提取、工程图纸识别等应用场景[37] - 作为构建智能Agent的基础技术,为AI应用提供多模态处理能力[37]
北大腾讯突破奖励模型瓶颈!让AI理解人类偏好,泛化能力比肩GPT-4.1
量子位· 2025-06-26 10:11
核心观点 - RewardAnything通过自然语言描述的评判原则实现奖励模型从"死记硬背"到"融会贯通"的范式跃迁 [1] - 该方法突破传统奖励模型需收集偏好数据训练的高成本瓶颈 直接利用自然语言作为RLHF标准 [2] - 在RABench基准测试中展示出与GPT-4 1相媲美的原则跟随能力与泛化能力 [2][28] 技术突破 传统奖励模型缺陷 - 当前最先进奖励模型在抵抗格式偏见测试中准确率仅46 6% 低于随机猜测水平 [4] - 存在"长回答=好回答"和"好格式=好答案"等虚假关联 学习相关性而非因果性 [6][8] - 评估过程单一价值观导向 难以衡量对多样化原则的理解能力 [9] RewardAnything创新 - 采用"原则跟随"范式 通过自然语言直接定义评判标准 [10][12] - 列表式评分技术单次调用可完成10个候选回答评估 计算效率较传统两两比较提升45倍 [14] - 引入GRPO算法训练 强化模型对原则遵守情况的相对质量辨别能力 [16] 性能表现 基准测试结果 - 在RM-Bench"困难"设置中总体得分86 4% 显著超越GPT-4 1(77 4%)和Gemini 2 5 Pro(57 9%) [19] - 在安全领域测试中保持高拒绝率(84 4%)的同时提升建设性回复比例 [19][33] - RABench测试包含1002个验证排序列表 相当于31 806个传统偏好对 覆盖5大文本质量维度 [27] 应用案例 - 仅用2000个未标注prompt和自然语言原则即实现Qwen3-8B模型安全对齐 [30] - 对齐后模型在XSTest中错误拒绝率降低 MT-Bench文本质量评分显著提升 [33] - 验证了"原则驱动"对齐范式相比传统"数据驱动"方法的效率优势 [34]
谷歌太壕了!编程Agent大招至简:开源且免费,百万上下文、多模态、MCP全支持
量子位· 2025-06-26 10:11
谷歌推出Gemini CLI - 公司推出开源免费的Gemini CLI工具,允许用户在终端直接访问Gemini模型,提供业界最高免费限额:100万上下文窗口的Gemini 2.5 Pro,每分钟60次请求,每天上限1000次 [2] - 工具不仅限于编程,还支持多模态功能,如通过命令行生成视频(调用Veo和Imagen)和图像 [3][4] - 发布后GitHub仓库标星一夜飙升至10.8k,引发广泛讨论,网友认为其免费策略对竞品(如Cursor、Claude Code、OpenAI Codex CLI)形成冲击 [4][5] Gemini CLI核心功能 - 能力覆盖代码理解、文件操作、命令执行和动态故障排除,支持自然语言指挥模型写代码和Debug [8][9] - 编码功能包括:支持100万上下文窗口查询编辑大型代码库、集成GitHub自动执行任务(如管理pull requests和分支)、根据PDF或草图生成App [11] - 多模态支持:调用Imagen、Veo、Lyria生成图像视频,并整合谷歌搜索功能 [11] 技术细节与安装 - 工具与谷歌AI编程助手Gemini Code Assist技术共享,采用Apache 2.0开源协议 [13][14] - 安装需Node.js 18+环境,通过npx或npm命令部署,登录谷歌账号即可获取免费额度,更高用量需申请API密钥 [15][16][17] - 官方提供prompt示例,如自动化生成幻灯片展示近期git历史,更多用例可在GitHub仓库查看 [18][19][20]
MIT终身教授何恺明,入职谷歌了
量子位· 2025-06-26 10:11
何恺明职业动向 - AI大牛何恺明在获得MIT终身教职后,宣布以兼职形式加盟谷歌DeepMind担任杰出科学家[1][5] - MIT官网显示其成为2025年工程学院11位新晋终身教职人员之一,距离正式入职MIT仅一年左右[2][3] - 在DeepMind的职位隶属基础研究组,直属领导职级为L8,距离CEO哈萨比斯相差三级管理层级[6] 学术成就与行业影响 - 何恺明是计算机视觉领域标杆人物,其2009年雾霾去除论文获CVPR最佳论文(亚洲学者首次)[9][10] - 2015年提出的ResNet获ILSVRC 2015分类任务冠军,论文引用量超28万次,成为其最高引研究[11][12] - ResNet框架被Transformer、AlphaGo Zero、AlphaFold及多数GenAI模型采用[13] - 在FAIR期间主导的Mask R-CNN获ICCV 2017最佳论文,解决实例级对象分割问题[15] - 谷歌学术总引用量达71万次,近期聚焦模型性能优化(如表示正则化、高压缩Tokenizer)[19][20] 与谷歌DeepMind的合作基础 - 2024年2月与DeepMind全华人团队合作提出分形生成模型,实现逐像素高分辨率图像生成并开源代码[23][24] - 2023年联合开发Fluid模型,突破视觉自回归模型扩展瓶颈,提升连续token生成质量[25][26][29] - 历史合作表明双方在生成模型领域有深度技术协同,此次加盟属强强联合[28]
老黄新鲜一刀,RTX 5050正式官宣
量子位· 2025-06-25 16:12
产品发布与定价 - 英伟达正式官宣RTX 5050桌面/笔记本GPU,定档7月上市,国内建议零售价桌面版2099元起(比RTX 5060便宜400元),笔记本版7499元起 [1] - 该产品跳过RTX 4050直接迭代,搭配DLSS 4多帧生成技术,宣称能让《赛博朋克2077》光追帧率突破150fps [1] 性能提升 - 相比RTX 3050,RTX 5050 GPU光栅化性能(1080P分辨率)平均提升60%,在支持DLSS 4技术的游戏中带来高达4倍性能提升 [3] - 笔记本版RTX 5050相比RTX 3050笔记本GPU光栅性能平均提升2.4倍,在支持DLSS 4多帧生成的游戏中带来4倍以上性能提升 [16] 产品规格与差异化策略 - 桌面版采用8GB GDDR6显存(128-bit位宽),笔记本版采用8GB GDDR7显存(24 Gbps速度),形成"新旧混搭"策略 [3][11][16] - 桌面版配备2560个Blackwell CUDA核心、第5代AI Tensor核心、第4代RT核心,基础频率2.31GHz,加速频率2.57GHz,最大功耗130W [10][11][12] - GDDR7显存能效最高可达GDDR6的2倍,有助于笔记本轻薄化和延长续航 [16] 市场定位与用户群体 - 桌面版主攻"花小钱攒光追主机"的性价比市场,适合预算有限但想体验3A大作的玩家 [6] - 笔记本版定位"背着电脑去打光追",适合学生党和移动办公族 [7] - 通过显存规格差异化实现既覆盖低端市场利润又保留高端产品溢价空间的策略 [4][5] 行业动态与配套支持 - 英伟达计划7月推出新GeForce Game Ready驱动,全面优化RTX 5050性能表现 [18] - 该驱动旨在确保玩家获得最佳游戏体验,充分挖掘显卡潜力 [18] 市场反馈 - 部分用户认为RTX 5050作为x50系列卡130W能耗过高 [21] - 在规格相近产品中,RTX 5050性能和价格(国外249美元起)优势不明显 [22][24]
华科校友在港冲刺AI infra第一股!已是中国最能赚的独立边缘云服务商,王小川天使轮就投了
量子位· 2025-06-25 16:12
公司概况 - PPIO派欧云是一家独立分布式云计算服务商,专注于边缘云计算和AI云计算服务,近期已向港交所递交招股书[2] - 公司由两位华中科技大学校友联合创立,核心团队为PPTV原班创始团队,累计完成5亿融资,投后估值达46.9亿元[3][4][44] - 主要投资者包括百川智能创始人王小川、前微软Azure中国总裁申元庆、迅雷联创程浩等知名科技界人士[3][43] 业务模式 边缘云计算服务 - 通过整合第三方分散计算资源,将算力部署在互联网边缘节点,降低延迟并提升数据处理速度[6][7] - 细分服务包括边缘节点服务(占2024年收入70%)和边缘CDN(占2024年收入28.1%),后者增速更快[8][20] - 边缘容器和边缘裸金属是核心产品,分别提供轻量级虚拟化和独立物理服务器支持[8] AI云计算服务 - 2023年新增业务,包括GPU云服务(按需付费)和模型API(开源大模型调用与自定义模型托管)[11][17] - 采用PD分离等分布式计算技术优化模型性能,使DeepSeek-R1模型吞吐量提升10倍,运营成本降低90%[14] - 注册开发者数量从2023年12,112位暴增至2024年125,545位(增长率936.5%),2025年4月达295,524位[18] 运营数据 - 计算节点总数从2022年2,629个增至2024年4,012个,覆盖县市从837个扩展至1,296个[19] - AI计算节点从2023年5个快速增至2024年19个,2025年4月达34个,覆盖县市29个[19] - 日均token消耗量从2023年0次跃升至2024年271亿次,2025年5月达1419亿次[18] 财务表现 - 营收从2022年2.86亿元增至2024年5.58亿元,CAGR达39.7%,边缘云服务贡献超98%收入[20] - AI云服务收入从2023年26.5万元增至2024年1038.7万元,增速显著但占比仍小(1.9%)[20] - 综合毛利率从2022年16.1%波动至2024年12.3%,主要因AI业务初期毛损拖累[21][22] - 年内亏损从2022年0.85亿元扩大至2024年2.94亿元,经调整亏损同期为0.39-0.62亿元[24][25] 研发投入 - 研发开支从2022年0.41亿元增至2024年0.86亿元,占收入比重维持在14.5%-18.9%[26] - 204名员工中67.6%为研发人员,团队规模达138人[28] - 现金储备充足,2024年末现金及等价物余额达11.3亿元[30] 行业前景 - 2024年全球边缘云市场1851亿元,预计2029年达5003亿元[51] - 2024年全球AI云服务市场315亿元,预计2029年达4277亿元(CAGR 68.5%)[51] - 生成式AI爆发导致算力需求指数增长,传统数据中心难以满足,分布式云迎来机遇[45] - 全球算力供需错配严重(数据中心平均利用率仅50%-70%),分布式云可提升资源利用率[45][48]
奥特曼回应OpenAI硬件抄袭:投资没谈拢就来反咬我!新一轮邮件证据曝光
量子位· 2025-06-25 16:12
OpenAI硬件"抄袭门"事件 - OpenAI被初创公司IYO指控商标侵权和不正当竞争,涉及新硬件产品命名"IO"与IYO发音相似且产品定位功能高度重合[10][12] - IYO在诉讼中提及OpenAI自2022年起频繁接触并索取设计文件,在多次抗议后仍拒绝停止使用"IO"名称[15][16] - 法院批准IYO临时限制令,OpenAI已撤下官网相关宣传信息[13] 双方核心争议点 - IYO指控OpenAI硬件抄袭产品命名及无屏幕智能交互设备定位,强调市场混淆风险[12][14] - OpenAI反驳称IO产品至少一年后上市且与IYO定制耳戴式设备存在技术差异,属于"假设性争议"[17][18] - 诉讼前IYO创始人曾主动寻求OpenAI1000万美元投资及知识产权合作,演示多次失败后合作终止[23][24][25] 事件最新进展 - OpenAI创始人奥特曼公开回应,称诉讼"愚蠢"并披露IYO寻求收购的邮件记录[2][3][21] - IYO创始人反驳称只想公平竞争并收回产品命名权,双方在社交媒体持续交锋[6][8] - 马斯克被网友卷入讨论,关联其与奥特曼过往诉讼历史[7][8] ChatGPT产品动态 - OpenAI正开发ChatGPT协作和聊天功能,直接对标Google Workspace和Microsoft Office[33][34] - 新功能聚焦文档实时协作与多模态集成,强化消费者产品属性[34][35] - 创始人发起o3-mini模型手机运行时间投票,显示研发重心仍在AI软件[31][32]
人类创造力的核心机制,AI已经开始掌握了 | 北大CogSci 2025(Oral)
量子位· 2025-06-25 13:00
核心观点 - 北大团队提出系统性框架IEI(识别-解释-引申),首次从认知科学角度量化评估AI模型的组合创造力(Combinational Creativity)[1][13] - GPT-4等先进模型在创意理解任务上已超越普通人类(准确率70% vs 50%),但在深层语义解读(如隐喻)上仍落后于人类专家(专家胜率78%)[2][21] - 通过IEI框架优化后,AI创意生成质量提升35%(基于人类专家盲测),证明AI创造力可通过结构化思维引导优化[23][26] 组合创造力机制 - AI展示三层认知能力:识别基本元素(如寄居蟹与易拉罐)→解释功能关联(容器功能相似)→引申深层含义(环保反思)[8][9][17] - 组合创造力是人类创新的核心能力,指通过重组已有概念生成新颖且有意义的想法[11] - 传统评估方法仅关注结果新颖性,而IEI框架首次揭示创造性过程的结构与机制[12][14] 实验数据 - **模型表现**:GPT-4o在识别(75.67分)、解释(85分)、引申(73.5分)任务中综合领先,显著优于平均人类(三项分别为53.42/70.33/51分)[23] - **生成优化**:使用完整IEI方法的模型生成结果排名分(2.1)接近人类专家(1.8),优于简化II方法(2.9)[24][25] - **跨模型对比**:Claude-3.5-Sonnet在引申任务得分74.19,超过Gemini-1.5-Pro(54.34)[23] 方法论价值 - 为AI创造性应用提供结构化路径:理解组合意义而非机械拼贴[33] - 首次建立人类与机器创造力的标准化比较基准[33] - 可应用于产品设计领域(如将护手霜与皇冠创意组合)[41]
人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示
量子位· 2025-06-25 13:00
核心观点 - LeVERB框架首次打通视觉语义理解与物理运动之间的断层,实现人形机器人通过感知新环境和理解语言指令直接完成全身动作 [3][15] - 该框架基于模拟数据训练实现零样本部署,在宇树G1机器人测试中简单视觉导航任务零样本成功率达80%,整体任务成功率58.5%,比传统方案强7.8倍 [1][10][36] - 采用分层双系统设计,高层专注任务理解(10Hz),底层专注动作执行(50Hz),通过潜在动作词汇实现高效协同 [17][18][23][24] 技术架构 系统设计 - 高层LeVERB-VL:102.6M参数的视觉语言主干,将指令和视觉转换为潜在动词,包含VLA先验模块、运动学编码器等组件 [23] - 底层LeVERB-A:1.1M参数的全身动作专家,通过强化学习将潜在指令解码为动力学级动作,采用Transformer架构输出关节位置指令 [23][24] - 潜在动作词汇作为接口实现两层协同,训练时通过轨迹重建、分布对齐等优化模型 [15][16][18] 性能优势 - 解决传统VLA模型只能处理准静态任务的问题,支持高频控制(50Hz)与低频规划(10Hz)结合 [12][14] - 消除人工预设动作库依赖,直接根据环境语义生成动作,如"坐下"动作通过相机感知+语言指令完成 [3][4] 基准测试 LeVERB-Bench - 首个面向人形机器人全身控制的仿真到真实基准,包含10类154个视觉语言任务和460个仅语言任务 [6][7][30] - 采用IsaacSim光线追踪渲染,程序化生成17.1小时运动轨迹和2.7小时仅语言数据,覆盖500条不同轨迹 [26][27][31] - 在20个随机环境中评估,场景纹理和物体属性完全随机化以检验泛化能力 [33] 测试结果 - 视觉导航任务:简单场景成功率80%,中级场景75%,困难场景50% [36][37] - 仅语言任务(坐/站/移动)成功率高达97% [37] - 消融实验显示判别器和运动学编码器对性能有关键影响,移除后性能显著下降 [38] 应用验证 - 成功部署于宇树G1机器人,完成"走向椅子坐下"等真实场景任务 [34] - 验证仿真到真实的迁移能力,最高实现7.8倍性能提升 [10][36] 团队背景 - 半数成员为UC伯克利、卡内基梅隆大学的华人学者 [39] - 负责人薛浩儒曾领导价值数百万美元的AI Racing Tech自动驾驶赛车项目,最高时速160英里 [43][44] - 另一位负责人廖启源在波士顿动力公司实习,研究方向为机器驱动与学习控制结合 [47][48][49]