生成式AI

搜索文档
腾讯研究院AI速递 20250515
腾讯研究院· 2025-05-14 21:51
Notion AI新功能发布 - Notion发布AI会议笔记功能,用户输入/meet命令即可自动记录并与日历系统完全打通[1] - 推出企业级AI功能Notion AI for Work和Research Mode,已对接10个应用集成,计划再增加20多个[1] - 定位All-In-One AI平台,每月20美元包含企业AI搜索、会议笔记等全套无限制功能[1] 腾讯代码助手CodeBuddy 3.0 - 采用插件形式可集成多种IDE,突破传统AI IDE产品使用局限性[2] - 与微信开发者工具深度整合,可快速开发小程序并完全打通微信生态资源[2] - 实际测试显示能在30分钟内完成小程序开发[2] 阶跃星辰开源3D大模型 - 发布开源3D大模型Step1X-3D,总参数量4.8B,采用3D原生两阶段架构设计[3] - 基于200万高质量训练样本,提升水密几何转换成功率20%[3] - 在CLIP-Score等核心指标领先,已开源全部代码与800K高质量3D资产[3] 字节多模态推理模型 - 发布轻量级多模态推理模型Seed1.5-VL,仅用532M视觉编码器和200亿活跃参数[4] - 采用SeedViT编码器、MLP适配器和大语言模型三大核心组件[5] - 在视觉推理、OCR识别等方面表现优异,地理位置推理能力媲美GPT-4V[5] 通义千问Deep Research系统 - 可自动规划和执行复杂研究任务,将数小时工作压缩至十几分钟[6] - 基于一句用户提示即可启动完整研究流程,生成带引用来源的综合报告[6] - 融合Qwen的推理、Agent和长上下文等能力,已在QwenChat平台免费开放[6] OpenMemory MCP开源工具 - 支持100%本地运行,实现不同AI工具间的上下文信息共享[7] - 提供标准化内存操作功能,支持跨平台多客户端使用[7] - 基于Docker部署简单,解决AI工具会话即失忆问题[7] 多邻国AI教育应用 - 一年内用AI生成148门课程(传统方式需12年),完全AI化内容生产流程[8] - 采用2分钟课程设计等机制,让1000万用户保持365天以上学习连续性[8] - 认为AI将成为个性化学习主要载体,教育模式将在20年内发生重大变革[8] 苹果脑机接口技术 - 与Synchron合作开发通过脑电波转化为iPhone操作信号的技术[10] - 采用非侵入式植入方案,已在10名患者身上进行测试[10] - 计划发布脑控标准软件接口,为全球1540万潜在用户提供新交互方式[10] 特斯拉机器人进展 - 通过强化学习实现"零样本迁移"到现实世界,可执行复杂舞蹈动作[11] - 采用模拟器训练具有高效、安全、经济优势[11] - 改进机器人模型和领域随机化技术增强现实环境适应能力[11] Poe AI模型使用趋势 - DeepSeek使用率从7%降至3%,OpenAI因GPT-4o实现暴涨[12] - GPT-4.1和Gemini 2.5 Pro在编程任务中表现出色[12] - 图像生成领域竞争激烈,GPT-Image-1两周内达17%使用率[12]
搜索帝国的AI战争:谷歌的焦虑时刻
36氪· 2025-05-14 16:33
谷歌的现状与挑战 - 谷歌股价从2025年2月的历史高点206美元跌至4月的145美元附近,年初至今下跌近20%,表现逊于微软和Meta [2] - 2025年Q1营收同比增长12%至902.3亿美元,净利润增长超40%,但投资者仍担忧其未来 [3][4] - 广告业务占总营收74%(668.9亿美元),其中YouTube广告增长10.3%至89.3亿美元,云业务增长28%至122.6亿美元 [3][4] 业务表现 - 核心搜索广告收入507亿美元(+9.8%),Google Network广告收入72.6亿美元(-2.1%) [4] - Google其他业务(含硬件/订阅)收入103.8亿美元(+18.7%),Other Bets收入4.5亿美元(-9.1%) [4] - 云业务利润率从不足10%提升至约18%,成为转型亮点 [12] AI带来的威胁 - ChatGPT等生成式AI改变信息获取范式,谷歌搜索全球市场份额首次跌破90%至89% [5][6] - 2025年Q1付费点击量同比仅增2%创历史新低,AI直接回答可能削弱广告点击模式 [7][8] - 微软通过整合OpenAI技术(如Bing Chat、Copilot)形成竞争优势,Meta开源LLaMA模型推动生态创新 [15][20] 谷歌的应对策略 - 推出搜索生成体验(SGE)和Gemini模型,AI综述功能月活达15亿用户 [9] - 2025年资本开支计划750亿美元,重点投入云基础设施和AI算力 [11] - 七大核心产品嵌入AI功能覆盖20亿用户,Vertex AI平台提供多模态模型服务 [12][14] 行业竞争格局 - 微软+OpenAI联盟、谷歌、Meta形成三足鼎立,分别侧重企业服务、全生态整合和开源路线 [15][21][23] - 谷歌拥有Android/Chrome(70%智能手机份额、65%浏览器份额)的渠道优势和数据资源 [30] - 开源模型(如LLaMA)降低技术门槛,可能削弱封闭生态的护城河 [21] 长期转型方向 - 从广告依赖转向"AI+云"双引擎,云业务营收增速(28%)显著快于广告(8.5%) [4][12] - 需重构商业模式:AI可能减少短期广告收入,但可创造新盈利点如企业AI服务 [26][27] - 公司现金储备超900亿美元,年自由现金流750亿美元,具备持续投入实力 [30]
线下仅200名额!CVPR 2025北京论文分享会报名开启
机器之心· 2025-05-14 16:09
以火热的「文生图」赛道为例,自回归与扩散模型的融合与优化正在引领视觉模型架构的创新。理论突破与产业落地的结合,正在推动这一领域进入新阶 段。 此外,视频生成、多模态大模型、3D 领域同样以惊人的技术迭代速度刷新着我们的认知。 2025 尚未过半,人工智能领域的新进展已经令人应接不暇。 在计算机视觉领域,生成式 AI、多模态基础模型及实际应用落地等方向都取得了显著进展。这个领域正从单一任务模型转向通用化、多模态的基础架构,同 时加速向移动端和产业场景渗透。 热点技术怎么追?前沿研究该看哪些?不妨来参加论文分享会。 全球性的顶级学术会议,从来都是领域内的「风向标」。CVPR 全称为计算机视觉与模式识别会议,是计算机视觉领域中最重要的国际会议之一。今年的 CVPR 2025 共收到 13008 份论文投稿,最终接收 2878 篇论文,整体接收率为 22.1%。 合作伙伴介绍 腾讯青云计划 腾讯青云计划聚焦 AI 大模型等十大技术领域,面向全球招募顶尖实习生和毕业生,提供上不封顶的职级薪酬、全面定制化的培养方案,并开放核心业务工 作机会、解锁前瞻性技术课题培养中国未来的科技人才。 今年腾讯将继续深度参与多场全球顶级学 ...
DanceGRPO:首个统一视觉生成的强化学习框架
机器之心· 2025-05-14 16:09
研究背景与动机 - 视觉生成领域RLHF方案成熟度显著低于LLM领域,现有主流方案存在效果微弱或显存压力大的问题[4][5] - 当前强化学习优化生成模型的探索存在数据集小(<100 prompts)、仅支持文生图等局限性[5] - GRPO算法因R1工作成为2025年热门技术方向,促使团队在图像生成领域进行创新探索[2] 技术方案创新 - 首创DanceGRPO框架,实现单一强化学习算法覆盖两大生成范式(diffusion/rectified flow)、三项任务(文生图/文生视频/图生视频)[2][8] - 支持四种基础模型(SD/HunyuanVideo/FLUX/SkyReels-I2V)和五类奖励模型(美学/对齐/动态质量等)[2][10] - 采用GRPO策略优化但去除KL散度正则项,通过相同prompt噪声初始化防止reward hacking[9] 核心实验发现 - 训练策略:采样子集timesteps加速训练,多reward模型叠加时采用多advantage叠加方式[9] - 性能影响:强化学习会削弱生成多样性,训练时应避免开启cfg或限制单prompt梯度更新次数[9] - 视频任务:i2v任务需专注motion quality奖励,使用视觉美感奖励易导致模型发散[14] 实验结果数据 - HunyuanVideo训练后VQ指标提升45%(4.51→6.52),MQ指标激增181%(1.37→3.85)[12] - FLUX模型在HPS-v2.1&CLIP Score组合下GenEval得分达0.705,较基线提升7%[12] - Stable Diffusion结合双奖励模型时CLIP Score提升8.8%(0.363→0.395)[12] 技术实现细节 - 通过建模diffusion/rectified flow为stochastic interpolant实现SDE采样方程统一[9] - 创新提出二元奖励模型(阈值化处理美感&图文匹配结果)作为第五类评估维度[10] - 可视化验证显示FLUX训练过程中ODE solver能保持稳定输出[15]
大模型赋能投研之十一:Dify:全自动投研工作流可视化构建
国金证券· 2025-05-14 15:13
金融大模型应用现状与痛点 - 金融行业积极探索大模型应用,但现有产品多为智能客服等工具,未发挥大模型潜力[2][13] - 金融投研领域 AI 应用存在处理流程长、信息整合度高、高度数据依赖等痛点[13][14][15] Dify 优势 - 高自由度、模块化、低代码,能解决金融大模型落地痛点,降低搭建门槛[15][20][23] - 与传统工具和同类产品相比,兼顾实用性与便捷性,功能覆盖度、扩展性和灵活性表现均衡[23][26][30] Dify 功能 - 工具功能丰富,支持多种来源,可将工作流当作工具使用[36][39][40] - 知识库提供结构化事实依据,支持多种文档格式和外部知识源,可灵活配置[44][45][47] - Agent 模式让模型具备执行力,配置流程模块化,操作简便[53][55] - Workflow 功能可拆解复杂任务,提升系统可控性和应用稳定性[59] - 扩展系统支持接入自定义服务,增强模型执行范围和上下文理解能力[64] Dify 部署与配置 - 支持本地部署和云服务版本,本地部署需满足一定条件,配置大模型接口和知识库较简单[67][71][74] 应用案例 - “时间提取”工具解决时间范围指代模糊问题,可重复使用[4][75][76] - “金融分析师”能自动判断问题类型,进行针对性分析[4][82] - “地理信息检索”Agent 可定位地址和搜索周边地点,提升金融与其他领域信息整合效率[4][89][93] 风险提示 - 基于 v1.3.0 版本研究,未来版本更新可能带来功能变化[6][97] - 知识库表现受模型选择影响,大语言模型使用可能受限,输出结果有波动性[6][98] - 推荐参数与具体情形有关,使用时需根据情况调整[6][98]
近8年来最大手笔!三星电子15亿欧元拿下德国FläktGroup
国际金融报· 2025-05-14 14:54
三星电子收购FläktGroup - 公司以15亿欧元收购德国通风装置公司FläktGroup全部股份 这是自2016年80亿美元收购哈曼国际以来最大海外并购 [1] - FläktGroup拥有100多年技术积累 专注于创新节能空气解决方案 服务客户包括数据中心 博物馆 医院等近60家大型企业 含道达尔等顶级客户 [1] - 公司目标2025年暖通空调业务收入增长30%以上 预计AI等技术将推动数据中心散热需求持续增长 [1] 行业背景与竞争格局 - AI热潮推动数据中心制冷需求激增 此次收购有助于提升公司在暖通空调市场竞争力 对抗LG电子等对手 [2] - 公司过去一年因未及时应对AI半导体市场变化 在智能手机 电视等领域表现不佳 成为去年表现最差科技股之一 [2] - 原CEO承认大型收购项目进展不顺 但强调持续推进并购战略 [2] 音频业务扩张 - 子公司哈曼国际以3.5亿美元收购Masimo旗下高端音频业务 新增宝华韦健 天龙音响等奢侈品牌 [3] - 哈曼国际已拥有JBL 哈曼卡顿等品牌 便携音响市场份额约60% 此次收购将进一步巩固全球消费音频领导地位 [3] - 全球消费音频市场规模预计从2023年608亿美元增至2029年700亿美元 收购将强化智能手机 车载音响等领域技术竞争力 [3]
DISCO上调1Q出货指引,关税影响有待观察
华泰证券· 2025-05-14 09:50
报告行业投资评级 - 电子行业评级为增持(维持),半导体行业评级为增持(维持) [6] 报告的核心观点 - 2025年全球半导体设备投资或两极分化,AI相关需求及业务收入持续强劲,功率半导体投资偏弱 [1][5] - DISCO 4QFY24业绩亮眼,预计1QFY25出货量大幅增长,但销售额受汇率影响下降 [1][3] - 关税对DISCO直接影响有限,但对间接影响保持警惕,资本开支预期同比下降 [4] 各部分总结 4QFY24回顾 - 业绩增长因生成式AI驱动HBM和逻辑/封装出货强劲等因素 [1][2] - 按业务领域拆分,精密加工设备等收入占比有变化;按下游应用拆分,大尺寸硅片、存储器、功率半导体占比有预期变化 [2] 1QFY25指引 - 预计销售额环比降37.9%至JPY75bn,因汇率假设变化和功率半导体需求偏弱等 [3] - 预计出货量环比增10.3%达JPY102.0bn,因出货延迟确认、HBM相关出货增加和DRAM/NAND需求强劲 [3] 关税应对及资本开支 - FY25资本开支预期同比降52.9%至JPY3.3bn,因FY24扩张项目完成 [4] - 认为直接影响有限,对间接影响保持警惕,1QFY25指引未考虑关税影响 [4] 需求动态 - 受生成式AI推动,HBM投资需求强劲,FY25看好存储器和逻辑/封装领域 [5] - 预计2025年全球半导体设备投资两极分化,功率半导体需求偏弱,CoWoS下半年需求不确定 [5]
谷歌(GOOGL.US)欲革新搜索引擎! Google首页迎来新功能测试:AI模式取代“手气不错”
智通财经网· 2025-05-14 09:28
智通财经APP获悉,科技巨头谷歌(GOOGL.US)一贯稳固且长期无重大变动的浏览器搜索引擎按钮如今有了新伙 伴:AI Mode search(即AI模式搜索)。谷歌正在搜索引擎领域积极测试这一最新的人工智能功能,这项新功能目 前尚未面向全球广泛开放,某些用户可在Google首页的谷歌搜索栏正下方、紧邻"Google Search"搜索引擎按钮的 位置找到,取代了原先的"手气不错"(I'm Feeling Lucky)功能小部件。 这项新AI功能虽然尚未广泛提供,但正在谷歌极少改动的重要领域,同时也是其核心创收领域之一——搜索引 擎领域进行广泛的新功能测试,凸显出随着ChatGPT以及聚焦"AI搜索"的Perplexity AI等生成式AI领军者持续吸 引谷歌搜索引擎用户,谷歌力争用自身的AI搜索功能留住这些用户并且力争在生成式AI风靡全球的时代吸引更 大规模的用户。 据了解,谷歌发言人证实,该功能上周已开始向部分用户推送。发言人表示,该公司通过试验性的测试平 台Labs为选择加入的用户测试了许多新功能,并补充表示被测试的产品并不一定最终全面上线。 在经典的"Google Search"搜索引擎按钮旁,AI模 ...
英伟达股价飙升,CEO黄仁勋的薪酬猛增至5000万美元
搜狐财经· 2025-05-14 09:20
图片来源:视觉中国 智通财经记者 | 宋佳楠 当地时间5月13日,英伟达在提交给美国证券交易委员会(SEC)的一份文件中披露,公司CEO黄仁勋 在截至2025年1月的财年中,总薪酬达到近5000万美元,较上一财年的3420万美元增长约46%。 黄仁勋的薪酬主要由基本工资、股票奖励和其他部分如安保、咨询、监控和司机服务等花销构成。基本 工资方面,从2024财年的约99.7万美元上调至2025财年的148.6万美元,增长约49%。股票奖励约3880万 美元,占总薪酬的78%,较前一年的2667万美元显著增长。其他补偿则约250万美元。 截至北京时间5月14日凌晨,英伟达股价持续拉升,涨6.13%,报130.54美元/股,市值约为3.19万亿美 元。 在科技行业中,黄仁勋的薪酬水平高于许多同行。例如,AMD首席执行官苏姿丰在2023年的总薪酬为 3040万美元,而英特尔上一任CEO帕特·基辛格的薪酬为1690万美元。不过,与特斯拉CEO埃隆·马斯克 近600亿美元的薪酬相比,黄仁勋的薪酬显得相对保守。 黄仁勋1963年出生于中国台湾省台南市,先后获美国俄勒冈州立大学电子工程学士学位、斯坦福大学电 子工程硕士学位。早 ...
Duolingo (DUOL) FY Conference Transcript
2025-05-14 05:30
纪要涉及的公司 Duolingo(DUOL),是领先的移动优先学习平台,为用户和订阅者提供40多种语言课程,还有数学、音乐课程,上周新增了国际象棋课程 [1] 纪要提到的核心观点和论据 1. **用户增长** - **增长预期**:预计2季度日活用户(DAU)增长40% - 45%,虽去年2季度增长近60%,但仍能实现高增长 [5][6] - **增长策略**:采用双管齐下的方法,一是社交优先媒体策略,通过创建围绕应用的病毒式内容和用户生成内容,形成品牌飞轮;二是复活休眠用户,这些用户回归时会发现应用有所改进,从而提高留存率,在成熟市场,复活用户占漏斗顶部的比例更大 [7][8][9] - **用户留存**:从多个维度考虑用户留存,有专门团队进行小实验,如改变应用图标颜色、通知方式等,以推动用户留存 [11][12][13] - **有机增长与本地化**:90%的用户增长是有机的,同时在英语学习市场进行少量本地招聘,国家营销经理的工作是使社交优先的营销内容适应当地市场,以推动用户增长,如在日本避免不恰当的营销内容 [14][15][16] 2. **英语学习业务** - **市场现状**:46%的DAU在学习英语,在更广泛的语言学习潜在市场(TAM)中,超过75%的学习者在学习英语 [21] - **发展策略**:2023 - 2024年增加了中级和高级英语学习课程内容,推出英语到英语课程,还推出了最高价格的AI驱动订阅层级Max,其视频通话功能对英语学习者很重要;此外,计划扩展Duolingo分数,使其成为衡量英语水平的标准,并在营销中插入基于功效和影响力的信息 [23][24][26] 3. **订阅层级与平台LTV** - **Max层级**:Max是最高订阅层级,价格约为次高订阅层级Super的两倍。截至1季度末,Max占付费订阅者的7%,较4季度上升200个基点。Max单个产品的LTV更高,公司正努力推动用户转向Max层级,以提高平台LTV、增加预订量和平均每用户收入(ARPU) [28][31] - **交叉升级与新订阅**:Max订阅者一部分是从Super升级而来,另一部分是首次付费就选择Max。公司通过A/B测试优化这两条路径,对Max的发展充满信心 [34][35][36] - **家庭计划**:家庭计划成本高于个人年度计划,但可额外添加最多5名订阅者,且留存率更高。目前家庭计划约占订阅者的四分之一,公司认为仍有增长空间,如对Max家庭计划进行优化 [37][38][39] - **定价策略**:主要通过推动用户转向更高价格的计划来提高ARPU,同时保持全球定价比例相对一致,会定期进行定价实验。今年2 - 3月对新用户的Super年度计划提价10% - 15%,该实验显示对平台LTV有积极影响 [42][43][46] 4. **长期增长信心** - **增长目标**:公司认为有信心实现多年超过25%的年度预订增长 [48] - **增长驱动因素**:用户增长速度超出预期,拥有更大的用户基础;新增了Max层级和家庭计划;AI技术使内容创建能力大幅提升;数学、音乐和国际象棋等新学科有潜在的货币化市场 [51][52][53] 5. **利润与成本** - **MAX与AI对毛利率的影响**:MAX毛利率将在下半年改善,AI成本持续下降。公司目前在AI方面的投资主要用于内容创建和视频通话功能,随着成本下降,未来可能会进行更多实验,如将AI功能扩展到低价层级或新增层级,同时目前仍能在投资增长的同时保持增量利润率 [55][58][59] - **支付方式与平台LTV**:对于苹果与Epic相关的应用商店支付方式变化,公司将从平台LTV的角度评估,权衡增加的摩擦对免费转付费转化率的影响以及较低收入成本带来的增量毛利,同时考虑对订阅者留存率的影响,会进行长期实验 [60][61][63] - **OpEx信心**:公司早期的经营理念使招聘相对谨慎,在销售和营销方面相信有机增长,目前在工程、产品和设计方面的投入有助于推动长期增长,这些因素使公司对实现更高的长期利润率有信心 [66][67][68] 6. **新学科拓展 - 国际象棋** - **市场潜力**:第三方文章显示全球有超过6亿成年人经常下国际象棋,公司希望能像拓展语言学习市场一样,拓展国际象棋市场 [70] - **产品优势**:国际象棋符合应用的理念,即让用户感觉时间花得有价值,且可以进行游戏化设计。国际象棋集成在主应用中,可利用现有应用的机制和工程,有助于用户增长。目前的重点是让产品达到一定规模,确保其粘性和受欢迎程度,货币化不是近期优先事项 [71][72][74] 其他重要但是可能被忽略的内容 - 公司CFO Matt Skarupa于2020年2月加入,此前曾在高盛、KKR和贝恩工作 [2] - 公司吉祥物绿猫头鹰在社交媒体上制造病毒式内容,如在超级碗后一周有17亿次观看量 [17] - 公司有关于增长模型的博客文章,可通过谷歌搜索“Duolingo's growth model”查看 [11] - 家庭计划于2021年末或2022年初推出,早期靠有机增长,后来通过应用内广告提高了渗透率 [38][39] - 公司最近一次提价实验是在今年2 - 3月,对新用户的Super年度计划提价,此前至少两到两年半未提价 [45][46][47]