腾讯研究院
搜索文档
腾讯研究院AI速递 20250516
腾讯研究院· 2025-05-15 22:38
高端GPU管制 - 美参议员提出法案要求英伟达、AMD等厂商在高端GPU和AI芯片中植入地理追踪功能 6个月后生效 [1] - 管制范围包括AI处理器、高性能服务器及RTX 5090等高端显卡 目的是防止战略硬件流入未授权国家 [1] - 芯片厂商需承担产品追踪责任 法案要求进行为期三年的年度评估 或将实施更多限制措施 [1] GPT-4.1上线 - OpenAI在ChatGPT中正式上线GPT-4.1模型 Plus、Pro和Team用户可直接使用 企业版和教育版用户将在未来几周获得访问权限 [2] - GPT-4.1在编码任务和指令遵循方面表现优异 生成速度显著提升 是o3和o4-mini的理想替代品 [2] - ChatGPT版本的GPT-4.1上下文窗口仅为128k token 未能实现API版本中承诺的100万token长度 [2] Claude模型升级 - Anthropic将在未来几周推出新版Claude Sonnet和Opus 最大亮点是"极限推理"功能 能在推理和工具使用间建立动态循环 [3] - 新模型能够自主暂停、重新评估问题并调整策略 在代码生成任务中可自动测试和修正错误 [3] - 正在测试代号为Neptune的新模型 最大支持128k tokens上下文长度 [3] 语音模型突破 - MiniMax新一代语音模型Speech-02在Artificial Analysis榜单上超越OpenAI和ElevenLabs 在字错率和说话人相似度等指标上达到SOTA水平 [4] - Speech-02实现真正的零样本语音克隆 采用创新的Flow-VAE架构 只需几秒音频即可高度还原说话人音色、语调和节奏 [5] - 该模型支持32种语言 可实现任意音色灵活控制和情感调节 成本仅为ElevenLabs竞品的1/4 [5] 腾讯元宝插件 - 腾讯元宝浏览器插件在Chrome应用商店上线 支持网页划词提问、内容总结、外文网页翻译和一键收藏等功能 [6] - 插件在页面右侧设有悬浮球和侧边栏 方便用户进行截图提问、上传文件和搜索内容 [6] - 该插件基于腾讯混元与DeepSeek大模型 目前仅在Chrome可用 更多版本将推出 [6] 音频生成模型 - Stability AI与Arm合作推出Stable Audio Open Small音频生成模型 可在手机端离线运行 8秒内生成11秒音频 [7] - 该模型拥有3.41亿参数 专为生成短音频和音效设计 训练数据来自免版权的Free Music Archive和Freesound [7] - 模型对年收入低于100万美元的用户免费开放 但无法生成逼真人声和高质量歌曲 [7] 视频生成模型 - 阿里开源Wan2.1-VACE视频生成与编辑统一模型 支持文生视频、图像参考生成、重绘、局部编辑等6大任务 [8] - 模型分为1.3B(支持480P、可用消费级显卡)和14B版本(支持720P) 采用创新的视频条件单元VCU统一四大输入形态 [8] - 该模型可一次性完成画幅扩展、时长延展和图像参考等多项任务 GitHub获得1.1万star [8] 腾讯混元应用 - 腾讯混元大模型为《碧优蒂的世界》打造智能NPC系统 支持自主行动、个性化交互、情感表达和记忆推理等功能 [10] - BUD利用腾讯混元角色扮演专属模型和Turbo S快思考模型 实现NPC与玩家的立体互动 3个月内AI对话数超两千万次 [10] - 游戏通过Dify无代码开发和腾讯云向量数据库支持 大幅缩短开发周期 混元图像2.0将于5月16日发布 [10] AlphaEvolve突破 - DeepMind发布基于Gemini驱动的AlphaEvolve智能体 能够演化整个代码库 实现算法发现和优化 陶哲轩参与合作 [11] - AlphaEvolve通过"生成-评估-进化"循环机制工作 结合LLM创造力与自动评估系统 显著减少了AI幻觉问题 [11] - 该系统已应用于优化谷歌数据中心效率(提升0.7%) 改进TPU芯片设计 在75%的开放性数学问题上重现最优解 [11] AI应用层机遇 - 红杉资本认为AI正同时颠覆软件和服务两大盈利池 应用层是最大价值所在 95%的AI创业与传统创业无异 [12] - 智能体经济正在形成 AI系统能进行交易、追踪关系、建立信任 最终将形成人机深度协同的嵌套经济网络 [12] - 行业面临三大技术挑战:智能体的持久身份认证、无缝通信协议构建和安全性保障 [12]
美国住房援助体系的历史、现状及启示
腾讯研究院· 2025-05-15 17:49
美国住房援助体系概述 - 美国住房体系高度依赖私有房屋市场,住房援助体系仅覆盖总人口的2.7%[4] - 住房援助体系由联邦政府拨款、地方政府执行,提供三种支持形式:公共租赁住房(17.3%)、项目制租房援助(29.1%)、住房券补贴(53.7%)[6][9][12] - 截至2023年纳入援助体系的住宅数量为513万单位,占美国住宅存量3.6%,低于OECD国家7.1%的平均水平[9][11] 住房援助体系发展历程 - 1937年《住房法》设立美国住房管理局,初期采用政府建设公共住房模式,后因成本高、效率低及贫民窟问题被诟病[5] - 1960年代起转向市场化模式,引入私人房源占比提升至82.7%,公共住房数量从140万单位降至2023年的88.6万单位[6][8] - 现行体系采用多维评估系统(PHAS),包含实物(40分)、管理(25分)、财务(25分)、资本基金(10分)四大类指标监督地方机构[13][14] 购房者融资支持体系 - 住房抵押贷款规模从1945年占GDP不到2%增长至2023年的14万亿美元(占GDP超50%)[20][23] - 联邦政府通过设立房利美、房地美等机构推动抵押贷款证券化,2023年MBS规模达9.4万亿美元,占抵押贷款总量的67.2%[21][24][25] - 抵押贷款条件显著改善:平均期限从1963年21年延长至2023年29年,贷款价值比从72%提升至81%[20] 制度特点与经验借鉴 - 联邦与地方分工明确:联邦负责资金与监督,地方负责运营管理,形成"中央保公平、地方保效率"机制[3][30] - 采用分散房源策略缓解低收入人群聚集问题,住房券补贴成为主要形式(占比53.7%)[3][6][33] - 危机应对机制完善,历史上多次成立专项机构(如1933年屋主贷款公司、2008年联邦住房金融局)应对市场动荡[19][24][32] 住房市场发展成效 - 1965-2023年美国住宅数量从6500万增至1.46亿单位,人均住宅数从0.33提升至0.44单位[26][30] - 2020年数据显示美国人均住房面积达69平方米,套均面积169平方米,均为全球领先水平[28] - 住房抵押贷款证券化深度持续保持在60%以上,有效拓宽融资渠道[24][25]
腾讯研究院AI速递 20250515
腾讯研究院· 2025-05-14 21:51
Notion AI新功能发布 - Notion发布AI会议笔记功能,用户输入/meet命令即可自动记录并与日历系统完全打通[1] - 推出企业级AI功能Notion AI for Work和Research Mode,已对接10个应用集成,计划再增加20多个[1] - 定位All-In-One AI平台,每月20美元包含企业AI搜索、会议笔记等全套无限制功能[1] 腾讯代码助手CodeBuddy 3.0 - 采用插件形式可集成多种IDE,突破传统AI IDE产品使用局限性[2] - 与微信开发者工具深度整合,可快速开发小程序并完全打通微信生态资源[2] - 实际测试显示能在30分钟内完成小程序开发[2] 阶跃星辰开源3D大模型 - 发布开源3D大模型Step1X-3D,总参数量4.8B,采用3D原生两阶段架构设计[3] - 基于200万高质量训练样本,提升水密几何转换成功率20%[3] - 在CLIP-Score等核心指标领先,已开源全部代码与800K高质量3D资产[3] 字节多模态推理模型 - 发布轻量级多模态推理模型Seed1.5-VL,仅用532M视觉编码器和200亿活跃参数[4] - 采用SeedViT编码器、MLP适配器和大语言模型三大核心组件[5] - 在视觉推理、OCR识别等方面表现优异,地理位置推理能力媲美GPT-4V[5] 通义千问Deep Research系统 - 可自动规划和执行复杂研究任务,将数小时工作压缩至十几分钟[6] - 基于一句用户提示即可启动完整研究流程,生成带引用来源的综合报告[6] - 融合Qwen的推理、Agent和长上下文等能力,已在QwenChat平台免费开放[6] OpenMemory MCP开源工具 - 支持100%本地运行,实现不同AI工具间的上下文信息共享[7] - 提供标准化内存操作功能,支持跨平台多客户端使用[7] - 基于Docker部署简单,解决AI工具会话即失忆问题[7] 多邻国AI教育应用 - 一年内用AI生成148门课程(传统方式需12年),完全AI化内容生产流程[8] - 采用2分钟课程设计等机制,让1000万用户保持365天以上学习连续性[8] - 认为AI将成为个性化学习主要载体,教育模式将在20年内发生重大变革[8] 苹果脑机接口技术 - 与Synchron合作开发通过脑电波转化为iPhone操作信号的技术[10] - 采用非侵入式植入方案,已在10名患者身上进行测试[10] - 计划发布脑控标准软件接口,为全球1540万潜在用户提供新交互方式[10] 特斯拉机器人进展 - 通过强化学习实现"零样本迁移"到现实世界,可执行复杂舞蹈动作[11] - 采用模拟器训练具有高效、安全、经济优势[11] - 改进机器人模型和领域随机化技术增强现实环境适应能力[11] Poe AI模型使用趋势 - DeepSeek使用率从7%降至3%,OpenAI因GPT-4o实现暴涨[12] - GPT-4.1和Gemini 2.5 Pro在编程任务中表现出色[12] - 图像生成领域竞争激烈,GPT-Image-1两周内达17%使用率[12]
如何应对无聊,是后稀缺时代的最大挑战
腾讯研究院· 2025-05-14 16:35
书籍核心观点 - 《未来之地》探讨在技术问题已解决的世界中,理想社会如何实现以及为何令人向往,而非传统技术毁灭论 [3][4] - 作者提出乌托邦社会需解决的核心矛盾:物质富足后如何维持进步动力与避免人性惰性 [5][6] - 技术进步可能复制农业革命的负面效应,如强化不平等而非普惠社会 [3] 作者背景与理论框架 - 尼克·博斯特罗姆学术背景涵盖哲学、物理学与计算神经科学,创立人类未来研究所研究灭绝级风险 [1][2] - 其理论受"负熵主义"影响,主张技术可突破生命极限,但超级智能可能因漠视人类而引发文明危机 [2] - 新书采用哲学对话体,融合亚里士多德讲演、柏拉图对话与伊索寓言三种传统 [5] 乌托邦社会的关键挑战 - **进步动力缺失**:平等社会可能因缺乏竞争导致进步停滞,历史上不平等社会反而催生文艺复兴等成就 [5][6] - **消费形式创新**:提出三类新消费方向——生物增强/脑机接口、大型公共项目、社会地位竞争,但受资源与生理限制 [8] - **闲暇文化重构**:需改变稀缺社会形成的劳动伦理,上层阶级对闲暇接纳度高于中下层 [8] 深层冗余与目的生产机制 - **五环防御体系**:享乐效价、体验质地、自成目的活动、人工目的、社会文化纠缠,解决工作消失后的意义危机 [9][10][11] - **无聊的双重性**:既是精神挑战也是创新驱动力,技术手段如神经药物可能剥夺原创性 [11] - **美学尺度细分**:通过提升感知细腻度(如四色视者辨识1亿种颜色)对抗无聊 [12] 副线剧情隐喻 - 虚拟听众讨论指向"体验机"思想实验,强调自主经验不可替代 [13] - 狐狸与哲学家猪的寓言暗示乌托邦与弱肉强食现实并存的可能 [13] 现实意义 - 当前技术进步尚未实现闲暇中的美学体验提升,表明技术发展仍不完善 [15] - 开放式讨论为改变历史方向保留可能性,模棱两可的状态蕴含选择权 [14]
腾讯研究院AI速递 20250514
腾讯研究院· 2025-05-13 23:57
生成式AI - OpenAI为Deep Research新增PDF导出功能,支持表格、图片和可点击引用链接,向Plus、Team和Pro用户开放 [1] - 新任应用事业部负责人Fidji Simo上任后加速向企业市场转型,将AI能力与实际工作流程深度融合 [1] - AI研究助手竞争加剧,各公司从比拼功能转向优化用户体验和工作流集成,PDF导出成为企业级AI工具的基本门槛 [1] 设计垂类Agent - Lovart是首个设计垂类Agent,具备设计规范生成、图像生成、尺寸延展、图文分离等功能 [2] - 产品支持全流程设计,从需求分析到视频合成、二次修改,集成了可灵、11labs、suno等工具 [2] - 在Agent加持下设计工作流将发生重大变革,从单纯的作品创作转向完整的产品资产交付 [2] 交互式世界基础模型 - Matrix-Game是昆仑万维开源的首个10B+交互式世界基础模型,能生成连贯可控的游戏互动视频 [3] - 模型通过两阶段训练和Matrix-Game-MC数据集训练,实现了高精度的动作响应和场景泛化 [3] - 代表空间智能领域的重要突破,适用于游戏开发、影视、广告、XR等领域的内容生产革新 [3] 多模态统一CoT奖励模型 - 腾讯混元推出UnifiedReward-Think,首次实现具备长链式推理能力的统一多模态奖励模型 [4] - 该模型解决了现有奖励模型只能"表面判断"的问题,在图像生成和理解任务中性能显著提升 [5] - 模型已全面开源,包含模型、数据集和工具,代表奖励模型向具备认知理解的智能评估系统转变 [5] AI平台开放注册 - Manus AI取消邀请码制度,开放全民免费使用权限,每位用户可获得每日300积分的免费任务额度 [6] - 平台提供三档付费订阅方案(19美元、39美元、199美元/月),可解锁更多功能和优先服务 [6] - 近期完成由Benchmark领投的7500万美元融资,估值升至5亿美元,资金将用于拓展海外市场 [6] AI政策调整 - 美国废除《AI扩散规则》,认为其会扼杀创新并损害外交关系,计划推出新的简化规则 [7] - 加强对海外AI芯片管制,禁止全球使用华为昇腾芯片,并发布指南防止AI芯片转移 [7] - 沙特承诺向美国投资6000亿美元,涉及AI数据中心、航空航天等多个领域 [7] 医学基准测试 - OpenAI推出医疗评估基准HealthBench,由262名医生参与构建,包含5000段真实对话 [8] - 测试显示最新模型o3得分60%,远超早期GPT系列,且小型模型性能提升显著,成本降低 [8] - 项目开源两个版本并发布完整评估工具,基于模型的评分系统与医生判断达到相似一致性 [8] AI工厂产业革命 - 黄仁勋认为AI工厂将引领下一代产业革命,NVIDIA正在建设投资五六百亿美元的千兆瓦级AI工厂 [9] - AI首次实现了真正的数字劳动力扩充,将成为继信息和能源之后的新一代基础设施 [9] - 英伟达已从芯片公司转型为AI基础设施公司,年研发投入200-300亿美元,致力于构建全球AI生态系统标准 [9] AI智能体发展 - OpenAI计划将ChatGPT发展为个性化AI服务,预测2025年AI智能体大规模应用 [10] - 团队坚持精简高效结构和快速迭代策略,目标定位为用户核心AI订阅服务提供商 [10] - 不同年龄段对AI应用差异显著:老年人视为搜索工具,中年人视为顾问,年轻人已将其作为操作系统使用 [10]
人类技能的奇幻未来
腾讯研究院· 2025-05-13 16:06
未来技能发展前景 - 2037年通过增强现实(AR)和人工智能(AI)驱动的SkillNet平台可实现快速技能掌握,案例显示焊工萨拉通过10小时训练掌握超声波焊接技术[4][5][6] - 量子计算突破将加速科学发现和机器学习,量子设备计算速度比传统超级计算机快1.58亿倍[4][14] - 全球化协作平台支持跨国导师匹配,如印尼专家通过AR实时指导美国焊工[6][7] 技术应用现状 - 现有技术基础包括苹果3500美元AR头显、ChatGPT教练功能、微软/谷歌知识图谱系统[9] - GitHub/YouTube/Reddit等平台已具备直播、数据交换功能,为SkillNet提供原型[9] - 脑波视频还原技术2023年5月发表于《自然》期刊,未来或替代AR头盔[18] 行业挑战 - 仓储业存在系统性去技能化,工业工程师通过减少"技术性接触"降低工人技能要求[21] - 低薪重复性工作岗位技能退化严重,工人平均处理时间缩短但技能水平下降[21][22] - 技能不平等将加剧收入差距,如外科医生群体内技术差距导致收入差异达300%[20] 解决方案路径 - 数字化学徒制结合AI教练与人类导师,Codeorg等平台已实现小组协作式技能训练[31][32] - 嵌合系统提升生产力:燃气轮机维护效率提升40%,芯片设计节能25%,农业收割精度提高30%[28] - 开放平台如Surch系统可将医疗技能学习时间从20小时压缩至1分钟[38][39] 技术发展趋势 - 量子计算与AI协同效应显著,量子比特同时处理0/1状态使计算效率指数级提升[14] - 聚变能源突破:2022年12月美国国家点火设施实现能量净增益,商业化预计5年内落地[16] - SpaceX星链计划部署42000颗卫星,已为150万美国家庭提供高速网络[18] 企业实践案例 - 微软与Helion Energy签订5年聚变能源采购协议,推动清洁能源商业化[16] - MentorCliq平台实现企业内专家-新手长期配对,技能转化效率提升60%[32] - 可汗学院"可汗米果"AI辅导系统基于10万+教学案例数据构建[33]
腾讯研究院AI速递 20250513
腾讯研究院· 2025-05-12 22:46
Transformer八子之一 初创 Sakana AI 提出 「连续思维机器」 - CTM将神经元活动同步作为核心机制,通过时序信息实现更复杂的神经行为,推理过程更像人类思维 [1] - 神经元可访问自身历史并学习利用这些信息计算下一输出,所有行为均为自然涌现,未被预先设计 [1] - CTM在迷宫求解和图像识别等任务中展现出类人思维过程,思考时间越长准确率越高,且可根据任务难度调整思考时长 [1] 苹果发布 FastVLM, iPhone 直接运行的极速视觉语言模型 - 苹果发布移动端视觉语言模型FastVLM,采用双阶段处理(图像转token、token生成语言),可直接部署在iPhone等设备上运行 [2] - FastVLM在效率方面表现突出,0.5B版本较LLaVA首token输出快85倍,体积减少3.4倍;7B版本配合Qwen2较Cambrian模型快7.9倍 [2] - FastVLM具有高效处理高分辨率图像的能力,结合轻量级设计,显示出在智能眼镜等移动设备上的应用潜力 [2] 腾讯混元T1-Vision上线元宝:融合多模态原生长思维链 - 腾讯元宝升级视觉模型Hunyuan T1-Vision,能深度理解图片内容,支持多模态原生长思维链,完答速度提升1.5倍 [3] - 应用场景广泛,可识别植物品种、分析棋局、翻译游戏界面、进行选择分析、评估商品价值等实际场景 [3] - 新版本强调"边看图边思考"的能力,通过开启"深度思考T1"模式,可以更精确地捕捉和分析图片中的关键信息 [3] Perplexity 的Comet AI 浏览器开始内测,将在 5 月中旬发布 - 知名AI搜索工具Perplexity推出基于Chromium框架的AI浏览器Comet,预计5月中旬发布,目前开放内测申请 [4] - Comet具备AI Agent能力,能自动执行复杂任务,集成Perplexity的分析工具,简化用户工作流程 [5] - 继Arc推出Dia后,AI浏览器正成为新趋势,并显示出AI与操作系统、跨平台助手深度融合的发展方向 [5] 快手推出AI作图工具Poify,专注于 电商领域,目前免费 - 快手推出专注电商领域的AI作图工具Poify,集成多种功能如文生图、AI模特试衣、背景替换等,目前免费使用 [6] - Poify针对电商场景优化,可降低商品拍摄成本,提高制图效率,增强视觉吸引力,并适配各大电商平台规则 [6] - 相比同类工具,Poify专注电商图像创作,提供简单易用的界面和针对性功能,适合商家快速制作商品展示和营销素材 [6] 字节开源8B代码模型Seed-Coder, 自己筛数据训练自己 - 字节团队开源8B参数代码模型Seed-Coder,采用"LLM教LLM"方式筛选训练数据,构建了支持89种编程语言的6万亿token高质量代码库 [7] - 模型采用Llama 3架构,通过仓库级代码拼接支持32K长度,使用填空训练法和长思维链强化学习提升代码生成能力 [7] - Seed-Coder在HumanEval+等测试中超越70B级模型,在Codeforces达到接近人类铜奖水平,但在通用能力和数学能力方面仍有提升空间 [7] 逆向工程八出各大 AI 的隐藏人设,可能比你想象得还离谱 - 通过逆向工程获取的主流AI系统提示词揭示不同产品定位:GPT-4o注重专业理性,Grok-3强调全能助手,Gemini重视活力友好,DeepSeek追求简洁务实 [8] - 系统提示词作为AI的"行为说明书",决定了模型的边界、禁区和行为逻辑,其泄露可能导致用户更容易绕过限制或理解模型工作方式 [8] - 系统提示词对AI产品体验影响重大,未来可能发展出让用户自定义提示词的功能,但需要在自由度和安全性之间找到平衡 [8] 18岁高中生独著发顶刊 ,利用AI竟发现上百万个隐藏天体 - 18岁高中生Matteo Paz利用AI处理NASA的2000亿条NEOWISE数据,发现150万个未知天体,独著发表天文学顶刊论文,获得Regeneron科学竞赛25万美元奖金 [10] - 他创新开发VARnet模型,能快速识别天体时间序列数据中的变异性,处理速度达53微秒/天体,在变星识别任务中取得0.91的F1分数 [10] - 研究成果形成首个完整红外变异性巡天项目VarWISE,有望助力探索宇宙起源之谜,Paz已获斯坦福大学录取 [10] Agent 产品如何定价?一文说清 AI 产品的四种付费模式 - AI产品正从按量计费向更高级的付费模式演进:按工作流收费、按结果收费、按智能体收费,最终目标是将定价与客户价值对齐 [11] - AI应用最适合切入那些依赖BPO(业务流程外包)和低薪工作的领域,而非高薪工作,因为后者竞争激烈且用户更倾向于将AI作为辅助工具 [11] - Paid公司为解决AI产品定价难题应运而生,提供完整的账单、发票、变现、定价等后台运营系统,帮助AI公司避免陷入低水平的按量计费竞争 [11] a16z:Git 将被取代,AI 时代的 9 种全新软件开发模式 - a16z预测未来软件开发将围绕AI Agent重塑,核心变化包括意图驱动的版本控制取代Git、AI驱动的动态仪表盘、交互式文档系统等9大趋势 [12] - 开发方式从"自底向上"转向"自顶向上",开发者通过描述意图让AI Agent寻找合适构建块,并趋向异步协作模式,AI Agent在后台独立执行任务 [12] - MCP(模型上下文协议)有望成为AI Agent能力的通用标准,让各类工具和服务能被AI Agent直接调用,同时AI Agent仍需依赖认证、计费等基础设施服务 [12]
通用人工智能何时到来?
腾讯研究院· 2025-05-12 16:11
闫德利 腾讯研究院资深专家 一、AI已在诸多任务领域超越人类 AI发展日新月异,在许多任务上已经陆续超越人类基线水平。如2015年图像分类,2018年中等水平阅读 理解,2020年视觉推理、英语语言理解,2023年多任务语言理解、竞赛级数学,2024年博士级科学问 题。下图所示的8项关键任务技能中,AI仅在多模态理解和推理能力上还略逊人类一筹,但从2023年开 始就加速提升。我们有望很快见证AI 能力在现有主流基准上"全部超越人类水平"的奇点时刻。 图 选定的 AI 指数技术性能基准与人类表现对比 二、AGI的终极目标或于年内实现 我们已经构建了无数在特定任务上超越人类水平的AI系统,但它们缺乏通用性,无法应对超出预定任务 之外的问题,尚处于"狭义人工智能 (Narrow AI) "阶段。随着AI性能的大幅提升,具备跨领域能力、在 多个方面媲美甚至超越人类的、更强大的AI被提上日程。 人们常将之命名为"通用人工智能(AGI)" 。 各国高度重视AGI。2023年4月28日中共中央政治局会议提出:"要重视通用人工智能发展";英国《国家 人工智能战略》 (2021 ) 对AGI进行了专门强调,指出"必须认真对待A ...
腾讯研究院AI速递 20250512
腾讯研究院· 2025-05-11 22:17
OpenAI强化微调功能上线 - OpenAI发布RFT(强化微调)功能,通过思维链推理和专属评分机制,可用极少样本快速提升模型在特定领域的专业表现 [1] - RFT主要应用于指令转代码、文本精华提取、复杂规则应用三大场景,已有ChipStack等多家公司取得显著成效 [1] - 实施RFT前必须创建评估体系,明确任务定义和强化评分方案,避免模棱两可的任务目标 [1] Gemini 2.5视频理解突破 - Gemini 2.5 Pro通过低媒体分辨率技术可处理长达6小时视频,在多个学术基准测试中创下新纪录 [2] - 实现视频内容与代码无缝结合,能将视频直接转化为交互式网页应用、p5.js动画等创新应用形式 [2] - 具备精准的视频片段检索和时序推理能力,可实现复杂场景计数、时间戳定位等高级分析功能 [2] ChatGPT深度研究功能升级 - ChatGPT深度研究功能现可直接连接GitHub,团队用户可实时访问和分析代码库内容,包括代码、README和文档 [3] - 系统会根据用户提问自动生成搜索关键词查找相关内容,支持代码库搜索但需5分钟同步时间 [3] - OpenAI承诺企业级产品用户数据不会用于模型训练,但个人版用户若开启"为所有人改进模型"选项,内容可能用于训练 [3] Meta发布AssetGen 2.0 3D模型 - Meta发布新一代3D内容生成AI系统AssetGen 2.0,采用单阶段3D扩散模型,能直接从文本和图像生成高精度3D模型和贴图 [4] - 相比前代产品,新系统在几何一致性和纹理细节上有显著提升,已在Meta内部用于创建3D世界 [5] - Meta正在研发"完整3D场景生成"功能,目标通过简单文本指令一键生成完整的3D虚拟世界 [5] Multiverse:AI生成多人在线游戏 - 以色列Enigma Labs团队开发出全球首个AI生成的多人游戏Multiverse,实现了实时多人交互的赛车游戏,总开发成本不到1500美元 [6] - 技术突破在于创新的多人世界模型架构,通过沿通道轴堆叠双方玩家视图,实现共享世界状态的一致性渲染 [6] - 团队公开所有代码及数据,并通过修改《GT赛车4》游戏实现数据采集,利用B-Spec模式自动生成训练数据集 [6] Genspark推出AI Sheets工具 - Genspark AI Sheets推出全新AI表格工具,用户通过自然语言对话即可完成数据收集、整理、分析和可视化 [7] - 工具支持多格式文档导入、自动数据清洗、智能分析与可视化,官方称处理速度比传统手动操作快数十倍 [7] - 该工具目前处于Beta测试阶段免费开放,适用于销售、市场、产品等多个领域 [7] 陶哲轩数学工具升级 - 陶哲轩迅速升级其数学估计验证工具至2.0版本,将其改造为更灵活的证明助手,支持Python符号代数包sympy [8] - 新版本能处理命题逻辑、渐近估计等多种数学任务,陶哲轩在开发过程中大量依赖Github Copilot辅助编程 [8] - 陶哲轩发布数学形式化证明实验视频,展示如何在33分钟内借助Copilot和Lean证明助手完成一页纸数学证明的形式化 [8] 红杉AI峰会商业模式转型 - 红杉AI峰会提出AI商业模式转型:从卖工具转向卖成果,客户为可度量的业务结果付费,被视为"万亿美元机会" [9] - AI正从应用工具进化为操作系统级入口,谁能成为"用户意图的第一承接者",谁就能控制系统分配权 [9] - 未来AI竞争关键在于组织架构重构,从确定性执行转向目标试探模式,建立人机混合的协作体系 [9] YC合伙人谈AI应用设计 - YC合伙人指出当前AI应用不足在于产品设计思维仍停留在传统模式,未能充分发挥AI潜力 [10] - AI原生应用应该让用户能自定义系统提示词,让AI按照用户个人风格工作,而不是开发者预设的统一模式 [10] - 未来AI应用应转向"Agent构建器"而非单纯的Agent,为用户提供工具和界面来训练和定制自己的AI助手 [10] 英伟达"物理图灵测试"概念 - 英伟达机器人主管Jim Fan提出"物理图灵测试"概念:机器人能否在物理世界完成任务且让人无法分辨是人还是机器完成的 [11] - 解决机器人训练数据不足的关键在于模拟:通过高速并行模拟和域随机化生成训练数据 [11] - 未来发展方向是物理API,让机器人能像LLM处理数字信息一样处理物理世界,将催生新的技能经济和服务模式 [11]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-05-09 21:53
| 类别 | Top关键词 | 主体 | | --- | --- | --- | | 算力 | OpenAI for Countries | OpenAI | | 算力 | 网络提速技术 | DeepSeek、 | | | | 腾讯 | | 模型 | Gemini 2.5 Pro(I/O版) | 谷歌 | | 模型 | Medium 3 | Mistral AI | | 模型 | Nemotron开源模型 | 英伟达 | | 模型 | V2数学推理模型 | DeepSeek | | 应用 | Claude整合功能 | Anthropic | | 应用 | NotebookLM中文支持 | Google | | 应用 | 独立AI应用 | Meta | | 应用 | 合作氛围编程 | 苹果、 | | | | Anthropic | | 应用 | Omni-Reference | Midjourney | | 应用 | 参考图功能 | Runway | | 应用 | PDF渲染器 | Grok | | 应用 | V4.5正式上线 | Suno | | 应用 | Parakeet 语音识别 | 英伟达 | | 应用 ...