腾讯研究院
搜索文档
腾讯研究院AI速递 20250603
腾讯研究院· 2025-06-02 23:08
注意力机制优化 - Mamba核心作者提出GTA和GLA两种推理定制注意力机制,解码速度和吞吐量最高提升2倍 [1] - GTA可减少50% KV缓存使用,GLA比DeepSeek的MLA解码更快,优化内存和计算逻辑同时保持生成质量 [1] AI Agent技术突破 - Flowith的Agent Neo支持无限执行和产出,具备百万级token上下文能力,解决AI记忆问题 [2] - Agent Neo集成3D、语音、视频等多模态生成管理功能 [2] - Fairies通用AI Agent支持1000种操作,兼容GPT 4.1等主流模型,专业版每月20美元 [4][5] 多模态与图像处理 - FLUX.1 Kontext实现角色一致性保持,生成速度约10秒,支持物体修改和背景替换 [3] - 当前局限包括多轮编辑质量退化、无法参考多图像,需遵循明确保留内容的提示原则 [3] 语音交互与边缘计算 - ElevenLabs Conversational AI 2.0识别语气词意图,集成多语言和RAG技术,支持企业级应用 [6] - Google AI Edge Gallery开源手机本地AI运行器,支持离线图像生成和代码编写,性能依赖设备配置 [7] 机器人硬件与成本趋势 - Hugging Face发布250美元开源人形机器人Reachy Mini,全尺寸HopeJR含66个驱动自由度 [8] - AI推理成本两年内下降99.7%,中国模型成本或为GPT-4.5的0.2%,DeepSee等快速崛起 [9] 行业生态与战略布局 - OpenAI企业服务付费席位超300万(增长50%),推进国家级AI架构"Stargate" [9] - 下一代AI入口将转向全能智能体,OpenAI与Jony Ive合作开发环境化交互硬件 [9] 认知研究与技术瓶颈 - LeCun团队揭示LLM在精细语义任务中失效,与人类认知存在本质差异 [10] - 研究质疑单纯扩大模型规模实现AGI的路径,需重新设计优化目标 [10]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-05-31 02:51
芯片与算力 - 英伟达推出「阉割版」GPU [2] - 海光信息并购中科曙光以增强算力 [2] 模型发展 - DeepSeek开源新版R1模型 [2] - Odyssey发布世界模型 [2] - Claude Opus攻破30年历史的bug [2] - 阿里推出QwenLong-L1-32B模型 [2] - Google发布Gemma变体模型 [2] - Claude采用RLVR范式 [2] - 字节推出BAGEL模型 [2] - 红杉中国推出xbench基准测试 [2] 应用创新 - 可灵更新至2.1版本 [2] - 腾讯多产品接入R1模型 [2] - Opera推出Neon浏览器 [2] - VAST升级Tripo Studio [2] - Zochi推出AI Scientist [2] - Claude新增语音模式 [2] - AKOOL推出实时摄像头功能 [2] - 腾讯混元发布HunyuanVideo-Avatar [2] - 扣子空间推出文本生成播客功能 [2] - 腾讯元宝整合读书app功能 [2] - 阿联酋提供ChatGPT Plus免费服务 [2] - OpenAI推出GPT-4o唱歌功能 [3] - Kyutai开发模块化语音AI [3] - 秘塔AI搜索推出极速模型 [3] - 雷鸟发布AI眼镜X3 Pro [3] - VideoTutor推出AI老师功能 [3] - 企业微信推出智能机器人 [3] - Google发布Veo3实测功能 [3] - OpenAI发现o3l漏洞 [3] - 腾讯启动野朋友计划 [3] - OpenAI爆料AI项链 [3] 科技进展 - 优理奇推出Wanda 2.0 [3] - 波士顿动力升级Atlas机器人 [3] - SpaceX完成星舰九飞 [3] - 北航开发UAV-FlowColosseo [3] - 杭州举办机器人格斗比赛 [3] - 苹果更新iOS 19系统 [3] - AI科学家团队研发治盲新药 [3] 行业观点 - Google讨论AI平台变革 [3] - Claude4核心成员探讨长程任务能力 [3] - NVIDIA提供AI就业建议 [3] - Anthropic预测白领工作自动化 [3] - Anthropic分析AI产品生长逻辑 [3] - Character.AI被评为最佳AI应用 [3] 资本动态 - Salesforce收购Informatica [3] - SpAItial获得3D生成融资 [3] - Lilian Weng投资Thinking Machines [3] 行业事件 - Meta面临人才流失问题 [3]
腾讯司晓:大模型时代,内容产业智变新浪潮
腾讯研究院· 2025-05-30 14:36
大模型技术对文化内容产业的变革 - 大模型技术从"工具赋能"跃升为"生态重构",推动文化内容产业从"专业主导"向"全民共创"跨越,加速文化传承与创新的深度融合 [1] - 生成式人工智能发展迅猛,2022年底ChatGPT面世后,Midjourney、Gemini、Deepseek R1、Grok3等主流大模型密集发布,技术以"天"为单位进化 [2] - 文化内容行业成为智能实践的先锋领域,传媒、游戏等板块对大模型的应用程度在十多个不同行业中处于中上游位置 [2] 多模态技术突破 - 腾讯混元文生图能力实现跨越式升级,混元图像2.0支持边输入文字边实时生成图像,大幅优化用户体验 [5] - 文生视频领域进步明显,主流模型如混元、可灵、谷歌Veo3逐步解决手部穿模等画面缺陷,生成视频的连贯性与物理模拟能力显著增强 [5] - 腾讯混元3D生成模型2.5版本总参数量提升10倍,能够实现超高清的几何细节建模,结合家用3D打印机可制作原创玩具模型 [5] 大模型的理解与交互能力 - GPT-4o大模型具备基于视觉与推理能力的实现方式,能够准确识别物体类型和数量 [7] - 谷歌Project Astra可通过眼镜或手机指导日常操作,与现实世界实现更自然交互 [7] 内容生产范式革命 - 大模型降低表达能力门槛,用户无需专业学习即可创作复杂形态内容,创意变得易得 [11] - 阅文等平台可能形成"千人千面"的创作模式,读者可主动"许愿"剧情发展 [11] - AI平权时代推动生产效率大幅提升,创意与表达供给量趋于无穷大,催生"超级创作个体" [11] 行业应用案例 - 上海民族乐团与腾讯音乐合作打造全国首台国乐AI音乐会《零·壹 |中国色》,实现生成内容从形似到神似的跨越 [12] - 中国传媒大学师生制作AI短片《电火花之舞》获麻省理工学院AI电影节最佳叙事奖 [12] 技术可信与普惠 - 腾讯与出版机构合作构建出版智能体,如人民卫生出版社"人卫知识服务"智能体提供权威医学解答 [16] - 微信读书升级"AI问书"功能,快速定位生僻古语出处并展示相关图书链接 [16] - 腾讯开展"云游敦煌""云游长城""数字藏经洞"等项目,推动科技活化传统文化 [16] 文旅创新实践 - "探元计划"推动前沿技术与文旅应用场景匹配,如香港九龙城数字化项目融入专家级智能体,提供游戏化交互体验 [17] 知识管理与服务 - 腾讯研究院搭建AGI知识库,通过"人工+AI"方式每日整理全球AI资讯,生成内容更具可信度 [20]
腾讯研究院AI速递 20250530
腾讯研究院· 2025-05-29 23:55
开源AI模型 - DeepSeek-R1新版本开源,编程能力超越Claude 4 Sonnet,与o4-mini性能相当 [1] - 新模型具备深度推理能力、自然文本生成、支持30-60分钟长时思考,能完美执行复杂代码 [1] - 实测在3D动画、网站设计和复杂推理问题上表现优异,思考过程更稳定,能处理长链条推理 [1] AI视频创作 - 可灵2.1上线,价格降低65%,效果和速度均有提升,形成标准版、高品质版、大师版三档分层 [2] - 高品质版效果媲美旧版大师版,支持1080P画质,运动效果出色,但仅支持图生视频 [2] - 新版本性价比显著提升,普通用户适合选择高品质版,商业级制作可搭配大师版 [2] 腾讯产品AI升级 - 腾讯元宝、ima、搜狗输入法、QQ浏览器等产品接入DeepSeek R1最新版,从开源到上线仅用不到1天 [3] - 用户可在腾讯多款产品中选择DeepSeek模型R1深度思考,实现免费不限量使用 [3] - 腾讯坚持双模型驱动,选择更先进的模型并第一时间部署上线 [3] AI浏览器创新 - Opera发布首款"AI Agent"浏览器Opera Neon,重新定义浏览器在代理网络中的角色 [4] - Opera Neon由Neon Chat(聊天)、Neon Do(执行网页任务)和Neon Make(复杂创作)三大功能组成 [4] - Neon Make利用云技术执行复杂任务如生成报告、设计游戏原型和构建Web应用,离线时也能工作 [4] 3D大模型升级 - VAST升级Tripo Studio,推出智能部件分割、贴图魔法笔刷、智能低模生成和万物自动绑骨四大功能 [5] - 智能部件分割实现一键拆建,智能低模生成在保留细节前提下大幅减少面数 [5] - 万物自动绑骨功能能快速完成骨骼权重分配,非专业人士也能完成全流程3D创作,效率提升10倍以上 [5] 自动驾驶与实时视频生成 - 自动驾驶大牛创立Odyssey,推出世界模型实现视频实时生成,速度达40毫秒/帧,支持实时交互 [6] - 该技术通过真实生活视频学习像素和动作,采用窄分布模型架构解决自回归建模挑战 [6] - Odyssey已获2700万美元融资,预览版由H100 GPU集群支持,输出30FPS的5分钟连贯交互视频 [6] AI科学研究 - AI科学家Zochi的论文被顶会ACL主会录用,成为首个独立通过A*级别会议同行评审的AI系统 [7] - Zochi的论文展示了多轮攻击方法,在GPT-3.5上成功率达100%,GPT-4上达97% [7] - Zochi能自主完成从文献分析到同行评审的科学研究过程,论文质量高 [7] 具身机器人商业化 - 优理奇推出轮式双臂机器人Wanda 2.0,售价8.8万元起,已量产交付,具备自主完成复杂长序列任务的能力 [8] - Wanda 2.0搭载融合触觉的预训练多模态大模型UniTouch和长序列任务规划模型UniCortex [8] - 优理奇通过全栈自研降低70%成本,面向类C端小B客户市场,已完成数亿元融资 [8] 机器人技术升级 - 波士顿动力Atlas机器人升级,具备3D空间感知和实时物体追踪能力,可360°旋转头部和腰部 [9] - 技术核心包括2D物体检测系统、基于关键点的3D空间定位以及SuperTracker物体位姿跟踪系统 [9] - 系统融合运动学数据、视觉数据和力反馈,实现精确手眼协调,团队正致力于构建统一基础模型 [9] AI行业趋势 - Google CEO Pichai认为AI是比互联网更大的平台级变革,未来将走向多终端并行 [10] - AI进入构建可用产品的第二阶段,搜索正转变为能代表用户执行任务的Agent [10] - AI带来的关键变革在于交互方式转变和创作门槛降低,第三阶段将是AI与物理世界结合 [10]
重新理解Agent的边界与潜力|AI转型访谈录
腾讯研究院· 2025-05-29 17:28
Agent市场现状与定义 - 2025年被称为"Agent元年",各类Agent产品快速涌现,但市场尚未形成统一定义[1] - 主流观点将Agent视为传统工具升级版,但其变革潜力可能远超预期[1] - AI Native公司正突破"效率工具"框架,探索Agent在商业洞察、创意生成等领域的深层价值[1] Atypica.ai产品创新 - 采用大语言模型模拟真实用户行为,构建用户画像并驱动决策流程[3][5] - 首创发散优先模型,适合处理商业问题的非共识和艺术性部分[3][26] - 通过多智能体交互揭示人类决策盲区,形成创新研究方法[3][63] - 工作流程包括问题定义、任务分解、社交媒体搜索(Persona生成(5-100个)和访谈总结[18][19] 商业应用场景 - 解决四大类商业问题:市场洞察(如发现MPV需求)、产品共创、产品测试和内容规划[20] - 典型案例包括新能源汽车市场分析、巧克力配方测试和小红书账号定位[20] - 实现跨国调研效率提升(如法语提问直接生成中国社交媒体分析报告)[21] - 正在整合权威媒体数据源,增强定量分析能力[23] 技术实现路径 - 基于Deepseek v3构建上层推理层,专注发散优先模型开发[26][27] - 通过Context激发大模型已有个性特征,而非创造新个性[34] - 采用预设题库+动态调整的提问机制,提升访谈质量[37] - 开发重点从群体模拟转向个体行为研究[13][16] 组织变革影响 - 推动工作方式从专业化分工向复合型技能转变[43][45] - 典型项目团队从10人缩减至2-3人,开发周期从两周缩短至单日多次迭代[47] - 目标让300人公司每位员工发挥"独角兽"潜力,增强端到端责任感[45][47] - 产品开发模式从300人天规划转变为10人天为上限的敏捷模式[47] 行业转型建议 - 避免"老瓶装新酒"式AI改造,应开发真正的新型产品("新瓶装新酒")[53] - 内容行业需注重账号Personality塑造,从简单改编转向个性创作[57][58] - AI陪伴领域需突破模型过度驯服问题,增强个性表达[60][61] - 企业转型应重新设计工作流程而非单纯提升效率[56]
腾讯研究院AI速递 20250529
腾讯研究院· 2025-05-28 23:06
云计算与SaaS - Salesforce以80亿美元收购云数据管理龙头Informatica 为其自2021年收购Slack后最大交易 [1] - 此次收购将整合双方AI引擎 打造可信数据基础架构 支持代理式AI系统的企业级部署 [1] - 数据管理能力成为企业AI产品的关键差异化优势 Salesforce通过收购完善其数据管理领域布局 [1] AI模型升级 - DeepSeek R1模型完成小版本升级 编程能力有明显增强 能快速生成高质量的动态天气卡片 [2] - 此次更新可能采用DeepSeek-V3-0324模型 参数达685B 而R2版本仍未发布 [2] AI语音交互 - Anthropic推出Claude语音模式 支持五种音色选择 用户可通过语音讨论文档和图片 [3] - 功能支持文本与语音自由切换 对话结束后可查看文字记录和摘要 但语音对话计入常规使用上限 [3] AI视频技术 - AKOOL发布全球首款实时摄像头AKOOL Live Camera 实现虚拟数字人、多语言翻译等功能 94%盲测无法区分真假 [4] - 该产品通过4D面部映射、神经语音引擎等技术实现环境感知和情感响应 标志AI视频进入"智能化响应"时代 [4][5] - 腾讯混元开源语音数字人模型HunyuanVideo-Avatar 仅需一张图片和一段音频即可生成人物自然说话或唱歌的视频 [6] AI音频生成 - 字节跳动扣子空间推出一键文本生成播客功能 可在几分钟内完成原需数小时的工作 生成无机械感的"真人级"多角色对话音频 [7] - 功能应用场景广泛 可将热点新闻转为播客、课程笔记变为有声课等 实现多功能组合应用 [7] 3D生成技术 - SpAItial获1300万美元种子轮融资 专注文本生成逼真3D环境技术 团队来自Meta和谷歌 [8] - 公司瞄准游戏开发、娱乐产业和建筑可视化等场景 远期目标包括取代CAD软件 [8] AI阅读助手 - 腾讯元宝接入微信读书和起点读书 回答中出现的书名可点击直接跳转阅读 [9][10] - 用户可通过元宝一键获取书单推荐 实现从"囤书"到"读书"的无缝衔接 还能解读概念、生成思维导图 [10] 航天技术 - 星舰"九飞"使用B14 2二手助推器成功复用 但在回收着陆过程中爆炸 S35飞船未完成星链卫星模拟器部署任务 [11] - 本次测试重点验证助推器复用技术及优化减配设计 SpaceX正通过新建发射台和Gigabay总装车间扩充制造发射能力 [11] AI发展趋势 - Claude Opus 4显著提升时间跨度能力 可处理长期任务 强化学习在大语言模型训练中奏效 [12] - 预测两年内将出现"即插即用"AI白领员工 模型可解释性工作是对神经网络的逆向工程 [12]
胡泳:超级能动性——如何将人类潜能提升到新高度
腾讯研究院· 2025-05-28 16:34
核心观点 - AI正处于变革初期,其影响可能超过印刷机与汽车等重大发明,将重塑工作方式和社会结构 [1] - AI的核心潜力在于实现"超级能动性",即通过人机协作大幅提升人类生产力与创造力 [4][5] - 当前AI技术呈现五大创新方向:智能推理、代理式AI、多模态功能、硬件升级和透明度提升 [8] - 90%企业领导者预期AI将在3年内推动营收增长,但70%企业转型面临失败风险 [26] 技术进展 智能与推理能力 - GPT-4在美国律师考试中进入前10%考生行列,医师资格考试正确率达90% [9][10] - 大语言模型上下文窗口显著扩展:Gemini 1.5 Pro可处理200万词元(2024年6月) [8] - OpenAI的o1模型具备类人推理逻辑,可进行目标导向的任务规划 [10] 代理式AI - 英伟达CEO黄仁勋称代理式AI为"万亿美元机会",预测2025年将出现数字员工 [12] - Salesforce推出Agentforce平台,可构建自主AI智能体处理产品发布等复杂任务 [13] 多模态功能 - Gemini Live实现带情感色彩的类人对话,Sora可将文本转化为视频 [15] - 谷歌PaLM-E模型结合视觉与语言控制机器人,Flamingo模型实现跨模态推理 [17] 硬件创新 - 英伟达H100 GPU加速大模型训练,2025年Cosmos世界模型将整合RTX芯片 [19] - 量子计算与神经形态芯片可能带来革命性突破,边缘计算提升实时响应能力 [20][21] 行业应用挑战 实施障碍 - 五大关键挑战:领导层战略对齐(分歧率70%)、成本不确定性、人才短缺、供应链脆弱性、模型可解释性 [26][27] - AI透明度指数显示Anthropic得分提升15分至51分,亚马逊提升3倍至41分(2023-2024) [23] 转型策略 - 推荐"迭代部署"模式:小步快跑开发,社会共建治理 [29] - 仅1%企业达到AI成熟水平,需结合自上而下战略与自下而上员工创新 [33] 企业战略思考 领导者维度 - 需重新构想成本中心为价值创造部门,通过AI建立差异化竞争力 [34] - 建议设立AI价值与风险负责人角色,统一跨部门目标 [27] 员工维度 - AI原生员工需掌握提示工程等新技能,企业需建立持续学习机制 [32][33] - 工作设计应鼓励自下而上的创新,如黑客松等实验形式 [33]
腾讯研究院AI速递 20250528
腾讯研究院· 2025-05-27 23:44
全球AI合作与投资 - 阿联酋成为全球首个全民免费使用ChatGPT Plus的国家,这是OpenAI与阿联酋政府合作的一部分 [1] - 阿布扎比将建设Stargate UAE高性能AI数据中心,初期目标200兆瓦容量,最终支持1千兆瓦计算集群 [1] - 该合作属于OpenAI"面向国家"计划,阿联酋承诺匹配美国同等资金,投资总额可能高达200亿美元 [1] AI模型竞争与创新 - OpenAI为GPT-4o启用唱歌功能,被认为是对谷歌I/O大会发布Gemini 2.5 Pro和Veo3的回应 [2] - 谷歌新发布的Gemini 2.5 Pro在多项基准测试中超越OpenAI和Claude模型 [2] - Claude Opus成功解决30年经验工程师4年未解决的顽固Bug,仅用几小时和约30轮对话 [3] - 阿里通义推出QwenLong-L1-32B,通过强化学习解决长上下文推理问题,支持13万token长度 [6] - 秘塔AI搜索推出"极速"模型,实现400 tokens/秒响应速度,大部分问题2秒内完成回答 [7] AI硬件与产品创新 - 雷鸟发布全彩显示AI眼镜X3 Pro,售价8999元,搭载通义定制多模态大模型,支持实时视觉问答 [8] - X3 Pro采用4nm高通骁龙AR1平台,亮度达3500尼特(峰值6000尼特),重量仅76g [8] - 法国Kyutai推出Unmute模块化语音AI系统,具备低延迟(200-350毫秒)和70+情感风格 [4][5] 人才流动与行业趋势 - Meta的Llama核心团队14人中已有11人离职,其中5人加入法国AI开源创企Mistral [10] - NVIDIA专家建议学生融合多项技能并提高适应能力,将AI整合到日常工作流中 [12] 前沿技术突破 - 北航团队实现通过语言指令控制无人机执行精细飞行动作,填补低层次语言交互控制研究空白 [11] - 研究团队构建UAV-Flow基准数据集,包含30K真实世界飞行轨迹,覆盖八种主要运动类型 [11]
联合调研|2025空间设计行业 AI 应用趋势调研
腾讯研究院· 2025-05-27 16:06
行业趋势与调研背景 - 2024年AIGC技术浪潮推动设计行业生产力进步,同时引发技术焦虑,D5联合1810位设计从业者探讨"AI+设计"的机遇与挑战,并发布《2024设计行业AI应用展望》报告[1] - 2025年AI产品将趋向多元成熟,进一步渗透设计环节,D5联合腾讯研究院、学术团体及行业媒体发起《2025 AI+空间设计行业应用调研》[1] 调研核心议题 - 聚焦AI设计工具在类型和应用场景的年度拓展情况[2] - 挖掘不同细分领域中可复制的AI应用实践成果[2] - 探讨多学科融合趋势下AI对设计师的赋能潜力[2] 调研执行细节 - 调研对象为国内空间设计从业者,采用问卷形式收集数据,截止日期为2025年6月20日[2] - 最终将整合调研结果与行业访谈,形成公开年度报告[2] 合作机构 - 调研由D5主导,腾讯研究院提供学术支持,知名学术团体及行业媒体共同参与[1][2]
AI的落地难题、应用案例和生产率悖论
腾讯研究院· 2025-05-27 16:06
AI企业应用现状 - AI的2C应用渗透率已达39.6%(美国居民生成式AI),但企业应用仍处早期阶段,模型厂商侧重技术炫耀而非落地场景[2] - A股上市公司提及AI的企业数量从2020年172家增至2023年超1200家,但占比不足20%;美国AI企业采用率仅5.4%,欧盟平均13.5%(各国区间3.1%-27.6%)[2] 行业应用差异与信息密度 - 信息密度高的行业AI应用更深入:A股计算机行业70%企业提及AI(超250家),电子/通信/传媒/银行紧随其后;超半数行业提及比例不足10%,煤炭行业零提及[4][5] - 美国信息业AI采用率最高(18.1%),专业/科学/技术服务超10%,农林牧渔最低(1.4%)[8][9] 典型应用领域案例 - **编程**:谷歌30%新代码由AI生成,微软20%-30%;YC孵化器25%初创公司代码库95%为AI生成,Python进展显著于C++[11] - **广告**:腾讯AI广告点击率从1%提升至3%;全球生成式AI广告支出2026年将达500亿美元(占数字广告6%)[14][16] - **客服对话**:Klarna AI助手处理三分之二客服对话(230万次/月),效率提升5.5倍(11分钟→2分钟);医疗领域Abridge估值27.5亿美元,部署超100个卫生系统[17] 传统行业转型挑战 - **基础不佳**:全球85%IT支出未上云,数据孤岛普遍[19] - **精度不高**:大模型平均幻觉率6.7%(最高29.9%),工业模型需96%以上准确率[20] - **软硬不调**:中国SaaS占比仅12.7%(全球60%),IaaS占比74.2%[20] - **考核与组织**:IT部门产出难量化,转型需一把手推动[21][22] 通用技术的生产率悖论 - 蒸汽机/发电机/计算机均经历数十年滞后才显著提升生产率(蒸汽机100年、发电机90年、计算机40年)[24][26] - 当前AI未扭转美国劳动生产率下滑趋势(2024Q1下降0.8%),或处于"播种阶段"[30]