Workflow
Gemini 2.0
icon
搜索文档
Figma partners with Google Cloud to expand AI-powered design tools
Seeking Alpha· 2025-10-09 21:52
Figma (NYSE:FIG) on Thursday announced a collaboration with Google Cloud (NASDAQ:GOOG) (NASDAQ:GOOGL) to expand the use of artificial intelligence (AI) across its design and product development platform. Google’s AI models, including Gemini 2.5 Flash, Gemini 2.0, and Imagen 4, will further help Figma's more ...
AI赋能债市投研系列二:AI应用如何赋能债市投研?
浙商证券· 2025-09-18 15:30
报告行业投资评级 未提及 报告的核心观点 本文聚焦现阶段AI技术在债券市场的应用与前沿固定收益领域的垂类大模型,介绍AI在债券投研的应用(曲线构造、投研流程优化、结构化产品定价),后续将介绍量化手段在债券市场的实际应用[1] 根据相关目录分别进行总结 引言 2025年以大语言模型为代表的AI快速演进,改变金融市场研究与实践范式,在固定收益与资产配置领域,AI的引入更具挑战与价值;传统固定收益投研方法难以在复杂数据环境中保持鲁棒性,大模型技术可提升研究深度与决策效率;全球投资机构探索AI与固收业务结合,本文为行业提供AI在固收投资应用前景的参考[11][12] 当前大模型的发展趋势 2025年大模型发展呈“旗舰化、生态化、内嵌化”趋势;旗舰化如GPT - 5等成为成熟产品,生态化表现为开源与闭源并行,内嵌化如BondGPT将生成式AI嵌入债券交易;主流模型在合规性等维度突破,满足金融行业需求;BondGPT Intelligence缩短信息检索与交易决策距离,推动市场走向“人机协同”[13][17][18] AI大模型在固收投资中的运用 以BlackRock Aladdin为例,其将AI嵌入研究与交易工作流;投研中利用大模型处理非结构化文本信息,辅助研究员判断;投资组合构建与再平衡方面,借助大模型生成情景分析和约束优化工具;交易执行维度,对债券市场流动性评分排序,提升交易效率和质量;风控环节,强化核心功能,发现潜在风险并生成报告;Aladdin实践揭示海外资管机构AI发展三条路径,未来可能演变为AI驱动的投资操作系统[19][25][30] 固定收益和资产配置领域中的垂类大模型 已落地的垂类模型包括BondGPT和BondGPT +;BondGPT由GPT - 4和专有模型驱动,用于自动化债券分析和非流动性证券查询,优势是可即时获取信息、界面直观、返回结果快,提升交易文件处理速度40%;BondGPT +是企业级版本,支持整合数据,提供多样部署方式和API套件,具备实时流动性池分析等功能,提升交易商与客户匹配效率[31][32][35] 固定收益和资产配置领域已落地AI应用 曲线构造 收益率曲线构建是将离散市场报价转化为连续可插值曲线的过程,构建的曲线是定价等的基石;生成式AI变革传统利率建模,新型深度学习框架准确率比Nelson - Siegel模型提升12%,Libor模型经AI改进后1 - 10年期限利率误差幅度低于0.5%[40] 重塑债券投研生态 大型语言模型与生成式AI重塑投研生态;交易维度,为债券分析和决策提供自然语言界面与生成能力,完成债券分析任务,实现实时流动性池分析和报价请求响应,提升交易对手匹配效率25%,实现固定收益套利自动化;风险管理领域,LLM提升信用风险评估准确率[41][43] ABS、MBS、结构化产品 AI驱动的估值框架可实现自动化现金流分析、改进提前还款速度预测(精度提升10 - 20%)、降低CMO分档定价误差;生成式AI能模拟住房市场场景、预测拖欠率、优化投资组合配置;合成数据可用于动态贷款层面建模和实时信用增级分析[44][45]
来自MIT最强AI实验室:OpenAI天才华人研究员博士毕业了
36氪· 2025-09-17 15:05
个人背景 - 陈博远现任OpenAI研究科学家 是GPT图像生成技术五位核心研究人员之一 也是Sora视频生成团队成员[5] - 拥有MIT电子工程与计算机科学博士学位 并辅修哲学 研究重点包括世界模型 具身人工智能和强化学习[7] - 本科毕业于加州大学伯克利分校 主修计算机科学和数学 辅修哲学 曾师从机器人领域专家Pieter Abbeel教授[24][25] 职业经历 - 2023年5-8月在谷歌DeepMind实习 参与基于大规模合成数据的多模态大语言模型训练项目 其指令微调技术被Gemini 2.0采用[7] - 本科期间创办机器人教育公司 主导竞赛用机器人套件的软硬件开发[25] - 博士期间发表多篇高影响力论文 包括SpatialVLM(被引367次) Diffusion Forcing(被引136次)等 总引用数达1183次[15][16] 技术研究方向 - 专注于世界模型开发 认为视觉世界模型对具身智能至关重要[4] - 主张结合世界模型 具身AI和强化学习 使AI更好地理解物理世界[7] - 预测具身智能将是未来百年最令人激动的技术 有生之年有望见证通用机器人诞生[17] 行业影响 - 其研究成果NLMap和SpatialVLM在学术界和工业界获得认可[12][15] - 加入OpenAI后将继续推进世界模型发展 参与GPT图像生成和Sora视频团队[1] - OpenAI正在加大机器人技术投入 组建团队开发控制机器人算法[20]
AI应用:浮现中的AI经济
机器之心· 2025-08-30 09:18
人类经济活动数字化进程 - 计算机发明标志着人类进入数字化时代 经济活动开始被先后顺序数字化[4][5] - 数字化使算法驱动经济活动成为可能 实现智能化[5] - 尼葛洛庞帝《数字化生存》提出"Move bits, not atoms"理念 指出比特世界效率千万倍于物理世界[8] - 数字化进程分为两个阶段:第一阶段互联网/移动互联网完成物理世界数字化 第二阶段算法开始具备交付工作能力[9] 互联网/移动互联网经济特征 - 最大特点是匹配效率极大提高 通过桌面PC和手机硬件实现主流生活需求数字化[11][12] - 三大核心赛道:搜索(信息与人匹配)、社交(人与人匹配)、电商(商品与人匹配)[12] - 匹配方式演进:前互联网阶段就近获得→互联网阶段全局搜索→移动互联网阶段个性化推荐[13] - 个性化推荐解决"知识不足导致选择低效"问题 将经验证的最佳选择推荐给共性用户[14] - 当前数字化程度:个人消费行为数字化较高 企业经济活动数字化仍有提升空间[15] AI经济系统特征 - 2017年后AI进入新阶段 具备泛化交付工作能力[18] - 计算机首次能完整参与"收集信息-决策-行动"全链条[19] - 2025年成为重要时间点 AI智商超过人类平均水平100 达到110以上[22][23] - OpenAI o3达"天才级"水平 字节豆包模型可达清华北大录取成绩[23] - 行动能力分两阶段:第一阶段完成数字世界工作(编程/文案/设计) 第二阶段具身智能完成物理世界工作(清洁/制造/护理)[21] 全天候自动运行系统 - 经济系统可自动运行直至工作完成[26] - 在同等能力下 AI每日工作量达人类3倍 每周4.2倍 每年约4.32倍[26] - Anthropic Claude 4模型可自主运行7小时 年底将实现全天候软件工程智能体[28] - 应用案例:Lovart自动生成logo及全套VI Sema4.ai实现7×24小时发票整理[29] 无劳动力供给限制 - 计算能力成为新劳动力供给 可无限复制且边际成本低[33] - 对比生物性劳动(时间/数量约束)和机械性劳动(研发成本高) AI突破传统限制[33][34] - 凯恩斯曾预测百年后生活水平提高4-8倍 但未预料到计算机带来的新阶段[40] - 发展经济学中刘易斯"二元经济"模型若成立 将是全球消费者福音[36] 非稀缺经济形态 - 数字世界先实现N倍产出能力 服务业总供给大幅提升[38] - 具身机器人成熟后拓展至物理世界 成本低于人类劳动力[38] - 凯恩斯预言"非稀缺经济":单位时间总产出可能超过总需求[39] - 实际增长超预期:1950-2000年增长率2.9% 收入水平达1930年17倍[40] 交易成本降低 - 数字技术降低五类成本:搜寻/复制/交通/追踪/验证成本[45] - AI阶段将出现"数字层" 由个人AI助理和垂类Agent组成 全面了解经济主体和物理世界[46] - "数字层"实现更精准匹配 企业内外部交易成本进一步降低[47] - 匹配方式进阶:大模型个性化推荐使商品颗粒度更细 社交推荐从"打标签"变为"全方位了解"[48] 决策理性化提升 - 计算机首次参与决策 仅从成本收益角度分析 不受心理因素影响[53] - 行为经济学发现的非理性行为(前景理论/禀赋效应/心理账户等)可能大幅减少[52][53] - 投机行为驱动因素(非理性心理/从众心理)被抑制 降低经济损耗[53] 历史数据价值释放 - 计算机突破当世人类经验限制 纳入历史事实与观点[56] - 人类可同时向当世和历史求解 寻求"时空最优解"[57] - 稀有体验可能成为历史大数据中的可归纳经典[56] 人的全面发展 - 非稀缺经济下个人拥有充足时间用于自我实现[59] - "数字层"作为普惠贴身导师 帮助每个人成为更优秀的自己[61] - 需完成两大任务:确保AI系统受人类控制 保证生产力成果为全人类共享[62] - 当前可能进入"数字轴心时代" 重新定义核心价值[62]
谷歌Nano Banana全网刷屏,起底背后团队
36氪· 2025-08-29 15:08
Gemini 2.5 Flash Image模型技术亮点 - 引入「交错生成」功能,增强模型在世界知识和创意解释方面的能力 [1] - 拥有原生图像生成与编辑能力,能快速生成高质量图像,在多轮对话中保持场景一致 [1] - 模型能够通过自然语言指令进行多轮互动,在多次编辑中保持场景一致性,无需输入冗长提示词 [27] - 能在图中正确生成简短的文字,团队将文本渲染能力当作模型评估的新指标 [27][29] - 模型在原生图像生成与多模态理解方面实现紧密结合,图像理解为生成提供信息,生成又反过来强化理解 [30] - 通过图像、视频甚至音频从世界中学习额外知识,从而提升文本理解与生成能力 [30] - 面对复杂任务时将一次性指令拆解成多轮操作,逐步生成与编辑图像,实现像素级别的完美编辑 [30] - 生成一张图只需十几秒,失败了也能迅速重试,极大提升了创作效率 [32] 核心研发团队成员背景 - Logan Kilpatrick是Google DeepMind的高级产品经理,负责领导Google AI Studio和Gemini API的产品开发工作,曾在OpenAI担任开发者关系负责人,在Apple担任机器学习工程师,在NASA担任开源政策顾问 [4][6] - Kaushik Shivakumar是Google DeepMind的研究工程师,专注于机器人技术、人工智能和多模态学习的研究与应用,毕业于加利福尼亚大学伯克利分校,在DeepMind参与了Gemini 2.5模型的开发 [10][11] - Robert Riachi是Google DeepMind的研究工程师,专注于多模态AI模型的开发与应用,尤其在图像生成和编辑领域具有显著贡献,参与了Gemini 2.0和Gemini 2.5系列模型的研发工作 [14][15] - Nicole Brichtova是Google DeepMind的视觉生成产品负责人,专注于构建生成模型,推动Gemini应用、Google Ads和Google Cloud等产品的发展,本科和研究生分别毕业于美国乔治敦大学和美国杜克大学富卡商学院 [17][19] - Mostafa Dehghani是Google DeepMind的研究科学家,主要从事机器学习,特别是深度学习方面的工作,研究兴趣包括自监督学习、生成模型、大模型训练和序列建模,参与了多模态视觉语言模型PaLI-X等项目的开发 [22] 实际应用场景与产品定位 - 在家居设计中,用户可以快速查看多种方案,如房间不同窗帘效果可视化,模型能精准修改而不破坏整体环境 [32] - 在人物OOTD中,无论是换衣服、变角度,还是生成80年代复古风形象,人物的面部和身份一致性都能保持稳定 [32] - Gemini的终极目标是整合所有模态,向AGI方向迈进,能够利用知识转移,在跨模态的复杂任务中发挥作用 [33] - Imagen专注文本到图像任务,在Vertex平台中提供多种变体,针对特定需求进行了优化,例如单张图像的高质量生成、快速输出以及成本效益 [33] - 如果任务目标明确、追求速度和性价比,Imagen是理想选择,而在复杂多模态工作流中,Gemini的优势更加突出,支持生成+编辑、多轮创意迭代,能理解模糊指令 [33] - Gemini能利用世界知识理解模糊提示,适合创意场景,可以直接将参考图像作为风格输入,比Imagen的操作更方便 [33] 未来模型能力展望 - 期待模型能展现出智能,即使不完全遵循指令,也能生成比实际描述的更好的结果 [34] - 对事实性感到非常兴奋,希望未来的模型能够生成既美观又具功能性且准确无误的图表或信息图,甚至能自动制作工作简报 [34]
谷歌Nano Banana全网刷屏,起底背后团队
机器之心· 2025-08-29 12:34
产品发布 - Google DeepMind团队推出Gemini 2.5 Flash Image模型 具备原生图像生成与编辑能力 可快速生成高质量图像并在多轮对话中保持场景一致性 [2] - 模型引入交错生成机制 将复杂指令拆解为多轮操作 实现像素级完美编辑 用户仅需自然语言指令即可完成操作 [46] - 生成单张图像仅需十几秒 支持快速重试 显著提升创作效率 [49] 技术能力 - 模型具备优秀文本渲染能力 可在图像中正确生成简短文字如Gemini Nano 团队将文本渲染作为评估图像结构能力的新指标 [39][41] - 模型通过多模态理解与生成的紧密结合提升性能 图像理解为生成提供信息 生成反过来强化理解 [44] - 模型能利用视觉信号从世界学习额外知识 从而提升文本理解与生成能力 视觉信号成为理解世界的捷径 [45] 应用场景 - 在家居设计场景中 用户可快速可视化多种方案 如房间不同窗帘效果 模型能精准修改而不破坏整体环境 [49] - 在人物形象设计中 无论是更换服装 调整角度或生成复古风格 模型均能保持面部和身份一致性 [49] - 模型适合处理以某公司风格设计广告牌等任务 可直接将参考图像作为风格输入 操作比Imagen更方便 [52] 团队构成 - Logan Kilpatrick担任高级产品经理 领导Google AI Studio和Gemini API产品开发 曾任职OpenAI开发者关系负责人和Apple机器学习工程师 [6][8] - Kaushik Shivakumar担任研究工程师 专注于机器人技术 人工智能和多模态学习 参与Gemini 2.5模型开发 [12][14] - Robert Riachi担任研究工程师 专注于多模态AI模型开发 参与Gemini 2.0和2.5系列研发 致力于图像生成与对话AI结合 [17][20] - Nicole Brichtova担任视觉生成产品负责人 专注于构建生成模型 推动Gemini应用 Google Ads和Google Cloud产品发展 [24][26] - Mostafa Dehghani担任研究科学家 主要从事机器学习研究 参与开发多模态视觉语言模型PaLI-X和220亿参数Vision Transformer [29] 产品定位 - Gemini目标为整合所有模态向AGI方向迈进 利用知识转移在跨模态复杂任务中发挥作用 [50] - Imagen专注于文本到图像任务 在Vertex平台提供多种优化变体 适合目标明确 追求速度和性价比的场景 [50][51] - Gemini在复杂多模态工作流中优势突出 支持生成加编辑 多轮创意迭代 能理解模糊指令和利用世界知识 [52] 未来展望 - 期待模型展现智能 即使不完全遵循指令也能生成比描述更好的结果 让用户感受与更聪明系统互动 [53] - 关注模型事实性与功能性 希望生成既美观又准确无误的图表或信息图 甚至自动制作工作简报 [53]
人工智能行业专题:探究模型能力与应用的进展和边界
国信证券· 2025-08-25 21:15
行业投资评级 - 人工智能行业投资评级为优于大市(维持)[2] 核心观点 - 海外大模型呈现差异化发展,企业调用考虑性价比,OpenAI在技术路径上相对领先,谷歌在端到端原生多模态领先,Anthropic强调实用性和编程场景领先[4] - 兴趣推荐成为AI赋能最明显的场景,主要应用包括广告和游戏行业,通过多模态提升内容理解,进而提升用户点击率、观看广告时长,拉动广告价格和广告位增长[4] - 模型能力不断增强,开始与应用在场景上竞争,通过五个典型案例探讨不同场景下模型与应用企业的竞合关系[4] - 投资建议推荐腾讯控股、快手、阿里巴巴和美图公司[4] 海外大模型差异化发展 - 根据OpenRouter数据,谷歌与Anthropic模型份额合计占据半壁以上江山,谷歌份额31.6%,Anthropic份额25.4%,OpenAI份额18.1%[8][9] - OpenAI技术路径领先,聚焦强化推理与专业领域能力,但端到端多模态生成能力较谷歌偏弱[13] - 谷歌端到端原生多模态领先,尤其在视频生成方向业内领先[13] - Anthropic强调实用性、编程场景领先,高准确度带来高市场占有率[13] - 模型调用价格方面,谷歌与Anthropic相比OpenAI有明显优势,例如Gemini 2.0 Flash输入价格0.10美元/百万tokens,输出价格0.40美元/百万tokens,而GPT-4.1输入价格2.00美元/百万tokens,输出价格8.00美元/百万tokens[10] 国内大模型近期进展 - 国内模型方向各家尚未拉开明显技术差距,需要观察在特定场景的差异化能力[4] - DeepSeek技术研究领先,采用混合注意力机制、动态路由MoE等架构创新,在代码生成、数学计算等专业领域表现出色,主打开源[16] - 阿里自研能力与综合能力强,模型参数与种类丰富,Qwen3.0在多模态和对话交互方面表现突出[16] - 其他厂商如字节豆包大模型各模态表现较均衡,百度文心大模型在中文场景深度优化,腾讯混元大语言模型基于DeepSeek改造[16] 兴趣推荐场景之广告 - AI对广告推荐作用主要体现在通过多模态提升对内容理解,进而提升用户点击率、观看广告时长,拉动广告价格和广告位增长[4] - 搜索和社交媒体推荐存在生产力代差,AI对后者赋能显著,抖音、快手、拼多多、小红书、腾讯视频号等偏推荐场景相比偏搜索场景赋能潜力更大[23] - META通过AI技术赋能广告量价齐升连续七个季度,AI带动广告曝光量增长,通过精准推荐、提升AI内容分发占比、数据标签体系完善提升Reels用户时长增长,AI带动广告单价增长,通过Advantage+工具带动广告主投放环节20% ROI提升[29] - 谷歌AI带动广告转化率改善,广告收入稳健增长,新功能推出后通常能带来20%左右效率改善,25Q2启用AI Max的广告客户通常能获得14%额外转化量,使用智能竞价探索的广告系列平均转化量增长19%[35][37] - Reddit广告收入大幅增加,25Q2推出AI广告工具Reddit Community Intelligence,包含Reddit Insights和Conversation Summary Add-ons,点击率比标准图片广告高出10%以上[40][42] - 腾讯广告25H1连续两个季度实现20%同比高增长,主要来自广告价格CPM提升,AI部署带来更高点击率,微信小店和小游戏带来更完善闭环交易活动[46] - 快手广告收入增长主要驱动是CPM提升,AI赋能广告在营销素材增强、营销投放Agent和营销推荐等环节,25Q1 AIGC营销素材带来日均消耗约3000万人民币,25Q2可灵收入2.5亿元[49] 兴趣推荐场景之游戏 - 游戏是兴趣推荐重要场景,海外AIGC游戏平台Roblox通过AI升级推荐算法,让更多新游戏获得曝光,25Q1平台Top100游戏中有24款是过去一年内推出的,与24Q1相比TOP15游戏推出更多内容更新[4][53] - 由于更多新游戏获得曝光和竞争推荐,平台11-50名的游戏流水同比增长超过1倍,占总流水增量的40%[4][53] - Roblox不断推出多款AI游戏创作工具以降低创作门槛,包括编程助手、各种游戏素材生成工具等,25Q1推出Roblox文本生成功能,开源3D模型Cube 3D,生成超过100万个3D模型[54][55] 模型能力增强与应用边界的争夺 - 情景一:大模型直击原有产品痛点,新增AI原生竞争对手,例如LivePerson面临AI引入新竞争者、客户流失严重,净收入留存率从2024年第二季度83%下降到2025年第二季度78%[64][65] - 情景二:大模型加速原有产品功能开发,同时创新AI原生产品,例如美图公司在原有主力产品中推出更多AI功能,驱动付费率提升,订阅渗透率从23Q1末2.9%提升至25Q2末5.5%[73] - 情景三:AI产品与传统业务收入存在此消彼长相互替代关系,例如C3.AI传统订阅收入增长承压,2025财年传统订阅收入3.276亿美元,同比+18%,但AgenticAI业务年化ARR约6000万美元、生成式AI收入同比增长超100%[78] - 情景四:AI或颠覆原有需求流量入口,市场担忧部分公司会被AI颠覆,包括搜索、广告、人力资源、旅游服务、IT软件等领域公司[79][81] - 情景五:AI在编程、客服等场景降本显著,企业人均产出持续提升,例如Shopify、Applovin、Twilio等公司在员工人数减少的同时,人均产出大幅增加[83]
大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲
机器之心· 2025-08-16 13:02
大语言模型(LLM)推理机制 - LLM中的推理定义为在输出最终答案前生成一系列中间token,其核心在于通过中间token增强模型能力而无需扩展模型规模 [6][15] - Transformer模型通过生成中间token可解决布尔电路理论框架下的复杂问题,逻辑电路规模决定解决能力上限(逻辑门数量可达数万亿) [17] - 标准贪婪解码会抑制推理能力输出,需采用链式推理解码(生成多候选答案并筛选高置信度结果)或提示工程(如"逐步思考"指令)触发推理 [22][23][27] 推理优化方法演进 - 监督微调(SFT)依赖人工标注问题与解决方案数据,但泛化能力有限,需依赖数据规模扩展 [29][33][36] - 自我提升方法利用模型生成解决方案数据(Reject Sampling),通过迭代优化降低人工标注成本,如STaR论文提出的自举推理框架 [39][40] - 强化学习微调(RL finetuning)成为当前最优方法,直接优化生成质量指标,谷歌、OpenAI等多团队独立验证其有效性 [42][43][49] 关键技术突破方向 - 多响应聚合策略显著提升推理准确率,通过边缘化方法选择高频答案(如生成10个响应取众数) [60] - 检索增强推理结合外部知识库,解决模型固有知识盲区(如坐标计算需先检索距离公式) [62][63] - 模型组合技术并行运行多个模型对比输出,类似AlphaGo的集成学习思路 [62] 行业应用与未来趋势 - Gemini 2.0展示符号推理能力,通过乘法分解解决数字组合问题(如2025=45×45),体现类人推理过程 [51] - 工业界更关注实际性能而非学术争论,检索与推理结合已应用于代码生成、写作等复杂任务 [62][65] - 未来研究将聚焦非确定性答案任务(如创意生成),推动基准测试向真实场景迁移 [66][68] 学术资源与课程 - 斯坦福CS25课程汇聚Geoffrey Hinton等顶尖学者,YouTube播放量达数百万,涵盖GPT到机器人应用前沿 [9][10] - Denny Zhou论文引用超83,000次,主导语言建模大会(CoLM 2024),研究涵盖链式思考提示与自一致性算法 [8]
检索增强生成(RAG)的版权新关注
36氪· 2025-08-14 18:11
AIGC技术演进 - AIGC进入2.0阶段,核心是从依赖模型训练生成内容转向整合第三方权威信息提升准确性、时效性和专业性[3] - 技术实现基于检索增强生成(RAG),结合语言生成模型与信息检索技术,2025年国内厂商普遍应用该功能[3] - 亚马逊2025年5月及7月与《纽约时报》、赫斯特、康泰纳仕等传媒集团达成合作,AI产品可实时展示新闻摘要和片段[2] - OpenAI于2025年4月与《华盛顿邮报》合作,ChatGPT输出内容嵌入文章摘要和原始链接,涉及20余家出版商[2] 检索增强生成崛起原因 - RAG由Facebook AI Research团队2020年提出,解决大模型"幻觉"和"时效断层"缺陷[4] - 大模型存在输出不可靠信息问题,例如2023年6月ChatGPT编造针对主持人Frederick Riehl的虚假信息导致诽谤诉讼[5] - 模型知识受训练数据时间限制,如ChatGPT训练语料截止2021年9月,Gemini 2.0截止2024年6月[5] - RAG无需重新训练模型参数,通过实时外部数据提供答案,类比"开卷考试"模式[6] 版权纠纷案例 - 2024年10月美国首例RAG版权诉讼:道琼斯和纽约邮报控股公司诉Perplexity AI,指控爬取数十万篇版权文章[8] - 2025年2月《大西洋月刊》《卫报》等14家出版商起诉Cohere,指控实时抓取内容并输出完整原文[8] - 2025年4月欧盟法院受理匈牙利新闻商Like诉谷歌Gemini案,涉及新闻出版商邻接权[9] - 2024年8月知网向国内AI检索平台发送侵权告知函,指控未经许可使用知网内容数据[9] 作品收集版权问题 - RAG数据检索阶段涉及长期复制和临时复制,长期复制如固定到硬盘或服务器可能构成侵权[11] - 道琼斯案中原告主张Perplexity AI在输入阶段大规模复制文章已构成侵权[11] - 欧盟知识产权局指出动态检索场景下临时保存内容可能适用文本与数据挖掘例外[11] - 若实时检索后内容被本地化存储,仍可能被认定为长期复制[11] 技术保护措施问题 - 规避技术措施如付费墙或登录验证可能违反著作权法,技术措施分为接触控制和利用控制[12] - 道琼斯案中《华尔街日报》付费墙属于接触控制措施,规避行为违反美国《数字千年版权法》[13] - 知网案中访问权限设置涉及技术措施,第三方绕过限制可能构成违法[12] 作品利用侵权类型 - 直接侵权包括侵犯复制权、改编权和信息网络传播权,如《纽约时报》诉OpenAI案中指控实时搜索引用内容[14] - 复制与改编区分参考北京高院指南:未形成新作品属复制,形成新作品属改编[14] - 间接侵权可能因标注盗版网站来源或用户后续传播行为,需结合模型厂商注意义务判定[15] 合理使用争议 - 使用盗版内容构建知识库不构成合理使用,如2025年6月Anthropic案中法院认定下载盗版书籍侵权[17] - 合法获取作品时市场替代性是关键,欧盟报告指出摘要内容若替代原作品访问可能侵权[17] - 日本文化厅规定输出内容若包含原作品独创性表达则不构成合理使用[17] - 规避技术措施与合理使用认定可能分离,但欧盟和日本法规将遵守技术措施作为前提[17] - 输出阶段合理使用取决于复制比例和注明来源,欧盟允许极短摘录引用[18] - 美国版权局认为输出节略版本而非超链接不太可能构成合理使用[19] - 微软允许网站通过robots元标签控制摘录长度,平衡许可费用和用户访问意愿[19]
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
量子位· 2025-06-02 12:13
视觉语言大模型的空间推理能力 - 当前视觉语言大模型(VLMs)在大规模图文数据中学习到的空间信息是片段化的,仅限于静态视角的理解,缺乏多维度、多视角的空间推理能力 [1] - 面对需要多视角空间推理的任务时,模型表现不佳,缺乏空间感与换位思考能力 [2][20] - 具备稳健的空间推理能力与视角理解能力的AI系统才能成为与人类协作的智能体 [3] ViewSpatial-Bench基准体系 - 研究团队提出首个系统评估VLM多视角多任务下空间定位能力的基准体系ViewSpatial-Bench,涵盖五种任务类型,覆盖相机和人类双重视角 [4][7] - 基准包含5700个问答对,通过自动化3D标注流水线生成精确方向标签,覆盖丰富3D场景 [4][16] - 五大任务包括:物体相对方向识别、人物视线方向识别(相机视角),以及从人类视角出发的三类任务(物体相对方向识别、人物视线方向识别、场景模拟的相对方向识别) [9][10][11][12][13][14] 主流模型的表现评估 - 评估显示GPT-4o、Gemini 2.0等主流模型在空间关系理解上表现不足,整体准确率不高 [19] - 模型在摄像头视角下的人物面朝方向判断任务平均准确率仅为25.6%,远低于物体相对方向判断的38.9%,但在人物视角下趋势反转 [22] - 大多数模型在人物视角任务上表现略优于摄像头视角,如GPT-4o在人物视角平均准确率为36.29%,高于摄像头视角的33.57% [25] Multi-View Spatial Model(MVSM) - 研究团队开发MVSM专门用于跨视角空间理解优化,采用自动化空间标注框架生成约43000个高质量样本 [27][28] - MVSM相比骨干模型Qwen2.5-VL实现46.24%的绝对性能提升,验证针对性训练的有效性 [5][28] - 在VSI-App评估中,MVSM在室内场景表现提升20%,户外场景提升4.00%,展示处理动态轨迹和人机交互场景的能力 [32] 研究意义与未来方向 - ViewSpatial-Bench和MVSM为多模态模型空间理解能力提供系统评估工具,重构视角采择建模方式 [33] - 研究揭示当前训练语料在视角分布上存在结构性不平衡,为未来数据构建和模型优化指明方向 [26] - 更聪明的空间感知是下一代机器人与多模态助手的关键一步 [34]