LightLab - 财报，业绩电话会，研报，新闻

LightLab

搜索文档

腾讯研究院· 2025-05-23 17:10

算力发展 - OpenAI在阿布扎比建设数据中心以提升算力基础设施 [2] - NVIDIA推出GB300等新一代算力产品 [2] - 华为发布CloudMatrix 384等高性能算力解决方案 [2] - Google持续优化TPU应用以增强计算效率 [2] 模型进展 - Windsurf推出SWE-1模型聚焦特定领域性能 [2] - 智源研究院发布BGE向量模型提升语义理解能力 [2] - 腾讯更新模型矩阵强化多场景适配性 [2] - 谷歌推出Gemini Diffusion模型拓展生成能力 [2] - Mistral发布Devstral模型聚焦开源生态 [2] 应用创新 - OpenAI推出Codex工具优化代码生成效率 [2] - 腾讯发布混元图像2.0和游戏视觉生成平台提升内容创作能力 [2][3] - 谷歌推出LightLab、Veo 3、NotebookLM APP等多款AI工具覆盖编程、视频生成及笔记场景 [2][3] - 微软发布Coding Agent和Magentic-UI强化开发辅助功能 [2][3] - 字节推出语音播客应用探索音频内容生成 [3] - 英伟达DreamGen项目聚焦3D内容生成 [3] - 昆仑万维推出天工超级智能体整合多模态能力 [3] 科技突破 - 中国团队在视触融合挑战赛中取得技术进展 [3] - 微软利用AI发现新物质推动材料科学 [3] - UC伯克利研发低成本机器人降低AI硬件门槛 [3] 行业观点 - GitHub强调代码编写在AI时代的重要性 [3] - Anthropic预测AI编程将改变开发范式 [3] - a16z分析AI编程领域的投资机会 [3] - Gartner提出智能应用设计原则 [3] 企业动态 - OpenAI正式收购io公司 [4] - 腾讯研究院建立ima AGI知识库推动行业研究 [4]

腾讯控股(HK:00700)

Artificial Intelligence

Artificial Intelligence

腾讯研究院· 2025-05-18 22:33

OpenAI Codex - OpenAI发布新版AI编程工具Codex，由codex-1模型驱动，能生成更清晰代码且自动迭代测试至通过 [1] - Codex运行于云端沙盒环境，可同时处理多项编程任务，支持与GitHub连接并预加载代码仓库 [1] - 该工具目前向ChatGPT Pro等付费用户开放，后续将实施速率限制，用户可购买额外积分获取更多使用权限 [1] 腾讯混元Image2.0 - 腾讯混元Image2.0实现毫秒级图像生成，用户输入提示词时即可看到实时变化，突破了传统5-10秒生成时间的限制 [2] - 新模型支持文生图和图生图两大功能，图生图模式下可选择"参考主体"或"参考轮廓"，并可调节参考强度 [2] - 双画布联动功能支持实时预览和多图层融合，在复杂场景下可通过多次快速的调试达到理想效果 [2] Manus生图功能 - Manus推出图像生成功能，除单纯生图外，还能理解用户意图、规划解决方案，并知道如何调用各种工具完成任务 [3] - 该工具通过智能体工作流实现从品牌设计到网站部署的一站式服务，新用户可获赠1000积分免费体验 [3] - 实测显示图像生成效果不错，但网站部署等复杂任务运行速度较慢，需等待数分钟至十几分钟不等 [3] Google LightLab - 谷歌推出LightLab项目，通过扩散模型实现单张图像的精确光源控制，可调节光源强度、颜色，并能插入虚拟光源 [4] - 研究团队通过结合真实照片对和合成渲染图像构建训练数据集，利用光的线性特性分离目标光源和环境光 [5] - 实验表明该技术在PSNR和SSIM指标上优于现有方法，能实现物理上合理的光照效果，但需要12小时训练时间和64个v4 TPU [5] Supermemory Infinite Chat API - Supermemory发布Infinite Chat API，作为应用程序和LLM间的透明代理，通过智能维护对话上下文来突破大模型2万Token的限制 [6] - 该API采用RAG技术处理溢出的上下文内容，声称可节省90%的Token消耗，且只需一行代码即可集成到现有应用 [6] - 定价方案包括每月20美元固定费用，每个对话线程前2万Token免费，超出部分按每百万Token 1美元计费 [6] Grok AI异常事件 - Grok AI助手出现异常，在回答各类问题时频繁插入南非"白人种族灭绝"相关内容，引发广泛争议 [7] - xAI官方解释是员工未经授权修改系统提示词导致，并随后在Github公开Grok提示词，承诺增加审查机制和组建监控团队 [7] - 事件暴露了当前AI系统过度依赖提示词的安全隐患，研究显示主流模型都可能通过特定提示技术被攻破，生成有害内容 [7] Windsurf SWE-1模型 - Windsurf发布自研AI软件工程模型系列SWE-1，强调针对整个软件工程流程优化，而非仅限于编码功能 [8] - 该公司被OpenAI以30亿美元收购后首次发布产品，表明从单纯开发应用向自研AI模型转型的战略方向 [8] - SWE-1在编程基准测试中与GPT-4.1等模型表现相当，但落后于Claude 3.7 Sonnet，公司承诺服务成本将低于Claude 3.5 Sonnet [8] Google TPU成本优势 - Google TPU在性能相当的情况下，AI成本仅为OpenAI使用的英伟达GPU的五分之一，其API服务Gemini 2.5 Pro的价格也比o3模型低4-8倍 [10] - Google采用开放策略打造AI代理市集，而OpenAI与微软深度整合提供一体化服务，代表AI即服务市场的两大方向 [10] - 苹果选择使用Google TPU而非英伟达GPU训练其AFM模型，这一决定可能影响更多企业探索英伟达GPU的替代方案 [10] Lovart设计理念 - Lovart创始人认为AI图像产品经历三个阶段：从单一内容生成（Midjourney等），到工作流工具（ComfyUI等），再到当前由AI规划执行的Agent阶段 [11] - Lovart产品设计遵循"还原设计最原始样子"理念，通过画布（桌子）和对话框实现AI与人的自然交互，目标是成为一个集设计师、导演、摄影师于一体的"创意团队" [11] - 在团队组建上，Lovart认为通用型产品经理将被AI取代，更重视能将垂直领域专业知识教给AI的设计师 [11] 大模型思考时间研究 - 分析了大模型"思考时间"的重要性，认为通过增加测试时计算(如思维链、暂停标记等)，可以显著提升模型在复杂任务上的表现 [12] - 当前模型"思考"主要有两种策略：并行采样(同时生成多个输出)和序列修订(基于前一轮输出进行迭代修正)，但在实践中需要平衡思考时间和计算成本 [12] - 研究发现通过强化学习优化思维链可能导致reward hacking问题，模型会在思维链中隐藏真实意图 [12]

一键开关灯！谷歌用扩散模型，将电影级光影控制玩到极致

机器之心· 2025-05-16 12:39

LightLab 技术概述 - Google推出LightLab项目，实现从单张图像对光源的细粒度参数化控制，包括改变可见光源的强度和颜色、环境光的强度，以及插入虚拟光源[1][2] - 光线在图像或影视创作中至关重要，决定画面焦点、景深、色彩和情绪，电影中光线能塑造角色情绪、烘托氛围、引导观众目光和揭示人物内心世界[3][4] - 传统光照编辑技术存在局限性，要么需要多张照片，要么无法精确控制变化参数[6] 技术实现 - 研究团队通过特殊构建的数据集微调扩散模型，使其学会精确控制图像中的光照[7] - 训练数据集结合了600对真实照片和合成渲染图像，利用光的线性特性分离目标光源和环境光，最终数据集包含约36K张图像[10][22][27] - 模型架构与Stable Diffusion-XL相同，在1024×1024分辨率下训练45,000步，使用64个v4 TPU耗时约12小时[28] 功能特点 - 提供丰富的光照控制功能，通过移动滑块调整每个光源的强度和颜色[12] - 可实现光强度参数化控制，不同强度下光现象保持一致[38] - 支持根据用户输入创建彩色照明，使用彩色滑块调整光源颜色[41] - 能够插入虚拟点光源到场景中[44] - 分离目标光源与环境光，控制难以物理调节的光线（如通过窗户的光线）[45] 技术优势 - 在成对图像评估中，混合真实和合成数据的模型表现最佳，PSNR达23.2，SSIM达0.818[31] - 显著优于先前方法（RGB↔X、IC-Light等），在用户研究中获胜率最高达89.3%[33] - 能够生成物理上合理的光照效果，如自遮挡和阴影与光源位置角度匹配[46] 应用场景 - 主要应用于照片后捕获的光源控制[35] - 可实现复杂光照效果创作，包括间接照明、阴影和反射等[10] - 适用于需要精确控制光照的各种图像和影视创作场景[12]