Workflow
腾讯研究院
icon
搜索文档
腾讯研究院AI速递 20250526
腾讯研究院· 2025-05-25 23:57
英伟达Blackwell GPU - 英伟达因美国出口管制在中国AI芯片市场份额从95%暴跌至50% [1] - 推出新款阉割版Blackwell GPU售价6500-8000美元远低于H20的1-1.2万美元 [1] - 新芯片采用GDDR7内存技术内存带宽约1.7TB/秒以符合出口管制限制要求 [1] Claude 4技术进展 - Claude 4采用可验证奖励强化学习(RLVR)范式在编程和数学等有清晰反馈信号的领域取得突破 [2] - 预计明年将出现能独立完成实际工作的软件工程Agent [2] - 预测到2026年底AI将具备足够的"自我意识"能执行复杂任务并判断自身能力边界 [2] Google Veo3视频生成模型 - Veo3视频生成模型实现流畅真实的动画效果和同步音效解决物理逻辑问题 [3] - 能精确呈现复杂场景细节包括流体动态、质感表现和人物动作支持多种镜头风格和特效 [3] - 已达近电影级画质支持非语言音效和多语言旁白 [3] OpenAI o3模型漏洞发现能力 - o3模型在Linux内核SMB实现中发现远程0-day漏洞CVE-2025-37899表现优于Claude Sonnet 3.7 [4] - 在3.3k行代码测试中100次运行8次成功识别已知漏洞误报率约1:4.5 [4][5] - 独立发现新UAF漏洞且洞察力超越人类专家能指出修复方案不足 [5] 字节BAGEL多模态模型 - BAGEL具备GPT-4o级图像生成能力整合图像理解、生成、编辑和3D生成于单一7B参数模型 [6] - 采用MoT架构包含两个专家模型和独立视觉编码器展现出能力涌现过程 [6] - 在多项基准测试中超越多数开源和闭源模型支持带图推理、复杂图像编辑和视角合成 [6] 腾讯"野朋友计划" - 推出AI物种识别与智能体问答交互功能可识别用户拍摄的生物并提供专业知识 [7] - 通过自然语言对话解答生物习性、迁徙规律等深度信息将专业术语转化为生活化表达 [7] - 用户上传的图片和互动内容将用于模型训练同时为科研提供数据 [7] OpenAI首款AI硬件 - 开发脖挂式设备形似iPod Shuffle无屏幕但配备摄像头和麦克风 [8] - 旨在突破屏幕界限提供更自然交互可连接手机和PC预计2027年量产 [8] - 市场上已有类似AI穿戴设备但网友对隐私安全和实用性存疑 [8] AI科学家团队新药发现 - AI科学家团队在2.5个月内发现治疗干性老年性黄斑变性的新药Ripasudil [10] - Robin多智能体系统自动化了科学发现全过程结合多个智能体完成研究流程 [10] - AI发现了人类未曾想到的治疗路径完全主导研究框架 [10] Anthropic产品开发逻辑 - 最好的AI产品往往"自下而上"生长而非计划出来从底层实验中发现潜力 [11] - 未来核心问题将从"是否AI生成"转向内容溯源、可信度与可验证性 [11] - Anthropic内部70%代码由Claude生成组织面临"非工程环节"效率瓶颈 [11] Character.AI发展观点 - 最佳AI应用尚未被发明现阶段AI领域状态类似炼金术 [12] - 通用性与易用性应并行发展Character.AI选择构建既可用又极度通用的产品 [12] - 大语言模型的价值在于利用有限训练转化为广泛应用关键挑战是计算能力 [12]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-05-23 17:10
算力发展 - OpenAI在阿布扎比建设数据中心以提升算力基础设施 [2] - NVIDIA推出GB300等新一代算力产品 [2] - 华为发布CloudMatrix 384等高性能算力解决方案 [2] - Google持续优化TPU应用以增强计算效率 [2] 模型进展 - Windsurf推出SWE-1模型聚焦特定领域性能 [2] - 智源研究院发布BGE向量模型提升语义理解能力 [2] - 腾讯更新模型矩阵强化多场景适配性 [2] - 谷歌推出Gemini Diffusion模型拓展生成能力 [2] - Mistral发布Devstral模型聚焦开源生态 [2] 应用创新 - OpenAI推出Codex工具优化代码生成效率 [2] - 腾讯发布混元图像2.0和游戏视觉生成平台提升内容创作能力 [2][3] - 谷歌推出LightLab、Veo 3、NotebookLM APP等多款AI工具覆盖编程、视频生成及笔记场景 [2][3] - 微软发布Coding Agent和Magentic-UI强化开发辅助功能 [2][3] - 字节推出语音播客应用探索音频内容生成 [3] - 英伟达DreamGen项目聚焦3D内容生成 [3] - 昆仑万维推出天工超级智能体整合多模态能力 [3] 科技突破 - 中国团队在视触融合挑战赛中取得技术进展 [3] - 微软利用AI发现新物质推动材料科学 [3] - UC伯克利研发低成本机器人降低AI硬件门槛 [3] 行业观点 - GitHub强调代码编写在AI时代的重要性 [3] - Anthropic预测AI编程将改变开发范式 [3] - a16z分析AI编程领域的投资机会 [3] - Gartner提出智能应用设计原则 [3] 企业动态 - OpenAI正式收购io公司 [4] - 腾讯研究院建立ima AGI知识库推动行业研究 [4]
探元计划香港站|AI 赋能历史溯源,解码九龙寨城中华文脉基因
腾讯研究院· 2025-05-23 15:47
探元计划2024香港场景活动 - 活动聚焦文化与科技融合 推动文化遗产数字化保护 来自文化 技术 运营领域的专家共同参与[1] - 活动包括实地调研九龙寨城公园 香港历史博物馆 现场体验大模型智能体 AI互动叙事游戏与三维虚拟空间[3] - 项目成果将在深圳文博会和香港书展展出[13] 项目背景与发起方 - 探元计划由国家文物局科技教育司指导 中国文物信息咨询中心 腾讯SSV数字文化实验室等联合发起[3] - 香港联合出版集团与华粹星光公司合作开展"在九龙城 阅见香港"项目[3] - 项目从全国81个文化需求场景中脱颖而出 入选探元计划六大文化共创场景[4] 项目技术应用 - 开发多模态知识智能体 支持两文三语交互 助力用户了解九龙城历史并创作故事[4] - 设计AI互动叙事游戏 以寻物解谜玩法激发历史文化探索兴趣[4] - 构建九龙寨城三维虚拟空间 还原不同历史时期风貌[4] 项目意义与目标 - 通过数字科技活化出版资源 构建AI赋能的沉浸式文化场景[9] - 增进香港居民对国家身份认同 向海外展现中华文化影响力[9] - 解决历史记忆碎片化 青年认知片面化等文化传承挑战[10] 专家研讨重点 - 强调技术与文化双向赋能 借助大模型提升传播精准性[11] - 推动用户参与从单向输出向共建共享转变[11] - 聚焦教育与文旅场景 构建可持续发展模式[11] 项目创新路径 - 技术应用创新:重构故事创作生产线[10] - 内容传播创新:游戏化沉浸体验激活传播场景[10] - 持续生态创新:开放知识库鼓励社会共创[10]
大模型巨浪的下一个方向:AI Ascent 2025的十个启示
腾讯研究院· 2025-05-23 15:47
AI市场与产业趋势 - AI将创造万亿美元级别市场机会,发展要素已就位,市场价值主要聚集在应用层[3][7] - 基础大模型数量将屈指可数,基模企业将重点投入强化学习推动能力突破[3][10] - 智能体经济逐步形成,未来智能体可转移资源、进行交易,催生"Agent-first"公司浪潮[9][19] 技术发展与创新方向 - 模型潜力仍有10-100倍空间,需算法突破与算力投资,测试时计算成为新缩放维度[10][17] - 未来模型趋向稀疏化与专业化,混合专家模型可实现10-100倍质量/计算量提升[17] - 编码能力飞跃使"初级工程师"水平AI一年内实现,物理机器人2-3年具备20项实用功能[15][18] 商业模式与产品策略 - 商业模式需适应价值重心转移,"品味"或成稀缺资产,用户或通过"信令"跨服务登录[3][22] - 自下而上探索开发更有效,模型能力与产品研发需紧密结合,避免"GUI思维"局限[21] - 杀手级应用已现(如ChatGPT),产品需从"副驾驶"转向"自动驾驶"模式[7][12] 企业组织与管理变革 - 组织需转向"随机性思维",从规则驱动转向概率管理,学习"管理Agent"新范式[8] - AI代码生成占比超70%后,代码审查成效率瓶颈,需优化协作流程[24] - 保持小团队高敏捷性,初创公司更易适应快速变革,需培养长期心理韧性[13] 垂直领域应用前景 - 编程为首个广泛应用场景,AI通过API调用实现任务执行,推动智能体模式转型[11] - 多模态模型加速科研,神经网络替代传统模拟器可实现30万倍加速[18] - 教育领域AI代码生成潜力大,通用信息检索与工作辅助将成商业化重点[19]
腾讯研究院AI速递 20250523
腾讯研究院· 2025-05-22 23:09
OpenAI技术更新 - Responses API新增MCP服务支持,开发者可简化外部服务连接流程,无需手动函数调用[1] - 新版API强化安全控制,通过allowed_tools参数和权限管理防止工具滥用[1] - 新增图像生成、Code Interpreter、文件搜索功能,并引入后台模式等新特性[1] 微软开源项目 - 发布Web Agent项目Magentic-UI,支持自动浏览网页和代码操作,用户可实时监控干预[2] - 采用协同规划和执行机制,生成任务计划需用户确认,集成神经样式引擎等创新技术[2] Mistral开源模型 - 发布240亿参数模型Devstral,可在RTX 4090或32GB Mac上运行,SWE-Bench测试得分46.8%超越GPT-4.1-mini[3] - 采用Apache 2.0许可证,商用定价为每百万输入Token 0.10美元,输出Token 0.30美元[3] xAI实时数据API - 推出Live Search API为Grok AI提供实时数据访问,支持X平台和网页内容检索[4][5] - 提供搜索控制功能如结果数量限制和时间范围指定,结合DeepSearch展示推理过程[5] OpenAI硬件布局 - 以65亿美元收购前苹果设计官Jony Ive的硬件团队io,开发AI耳机和可穿戴设备,预计2026年发布[6] - 关联公司LoveFrom将承担ChatGPT界面设计,Ive称此为职业生涯最重要工作[6] 昆仑万维AI办公产品 - 发布天工超级智能体,集成5个专家智能体,支持文档、PPT、表格生成,成本为OpenAI的40%[7] - 基于deep research技术,支持信息溯源和个人知识库构建,已开源相关框架[7] 微软大气AI模型 - 推出大气模型Aurora,计算速度比IFS数值预报系统快5000倍,训练周期仅4-8周[8] - 在空气质量、热带气旋预测中表现优异,采用3D Swin Transformer架构[8] Gartner智能应用原则 - 提出智能应用五大原则:自适应体验、嵌入式智能、自主编排、互联数据和可组合架构[9] - 强调AI需深度嵌入业务逻辑,实现跨系统自然语言交互和自动化流程优化[9] AI编程市场趋势 - AI Coding市场价值约3万亿美元,开发者角色将向产品经理或QA工程师转变[10] - 新范式降低编程门槛,但系统架构等专业知识仍为软件开发核心[10]
吴恩达:如何在人工智能领域打造你的职业生涯?
腾讯研究院· 2025-05-22 17:35
1.编码人工智能是新的读写能力 2.职业生涯发展的三个步骤 3.学习有前途的人工智能职业的技术技能 吴恩达 加州斯坦福大学计算机科学系和电机工程系的客座教授 本文节选自:How To Build Your Career in AI 【AI速读】 这篇文章探讨了如何在人工智能领域建立职业生涯。文章涵盖了从基础技能学习到项目实践,再到找到 合适工作的各个方面,并提供了具体的建议和步骤。以下是文章的主要内容: 4.你应该学习数学来获得人工智能的工作吗? 5.成功AI项目的范围 语言读写能力的演变:几百年前,语言读写能力并不普及,但随着时间的推移,它变得普遍并丰富 了社会。 代码的重要性:代码是人与机器之间最深入的交流方式,随着机器在日常生活中的重要性增加,编 程能力变得越来越重要。 人工智能和数据科学的应用:线性回归模型可以帮助披萨店老板优化需求预测和供应链管理。 学习基础技能:包括机器学习、深度学习、数学和软件开发。 从事项目工作:与缺乏AI专业知识的利益相关者合作,估计项目完成时间和投资回报。 找到一份工作:建立支持性社区,帮助你成长和找到工作。 基础机器学习技能:线性回归、逻辑回归、神经网络等。 深度学习:了 ...
腾讯研究院AI速递 20250522
腾讯研究院· 2025-05-21 23:01
谷歌Veo 3视频生成技术 - Veo 3实现音画同步生成功能,能根据提示词同时生成视频画面、对白、唇动和音效,实现完整的视听体验 [1] - 基于V2A技术,模型能将视频像素转化为语义信号,配合文本提示生成匹配音频 [1] - 模型支持长提示词理解和多步骤事件流生成,但目前仅限8秒视频,面向美国Ultra订阅用户开放,定价249.99美元/月 [1] 谷歌Gemini Diffusion文本生成技术 - Gemini Diffusion采用扩散技术生成文本,速度达2000token/秒,12秒可生成1万tokens [2] - 区别于传统自回归模型从左到右生成,通过逐步优化噪声学习生成输出,可快速迭代和错误纠正 [2] - 性能可与更大的模型Gemini 2.0 Flash-Lite相媲美,支持非因果推理,能一次生成整个标记块 [2] 腾讯混元模型升级 - 腾讯混元TurboS排名全球前八,引入长短思维链融合技术后,理科推理提升10%,代码能力提升24%,竞赛数学提升39% [3] - 基于TurboS新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice,前者理解速度提升50%,后者语音通话延迟降至1.6秒 [3] - 多模态领域全面升级:图像2.0实现毫秒级生图,3D v2.5提升几何精度,并承诺持续推进全系模型开源 [3] 字节语音播客模型 - 字节推出豆包·语音播客模型,基于流式模型实现文本到双人对话播客的秒级转化,支持热点内容快速生成 [4] - 模型突破传统AI播客痛点,实现双人对话自然流畅、高度拟人的语音效果,并具备深度搜索功能,5秒可生成热点播客 [5] - 支持灵感创作和超长文本转播客功能,将在豆包APP、PC端和扣子等产品陆续上线 [5] 谷歌FLOW AI视频剪辑工具 - FLOW是谷歌首个AI视频创作产品,支持Veo3视频生成,需在输入框设置选择"Highest Quality"可开启声音功能 [6] - 提供三种生成方式:文生视频(仅支持英文提示词)、图生视频(支持首尾帧控制)、素材转视频(可用3张参考图+1张风格图) [6] - 具备视频剪辑功能,可调整分镜顺序、删除分镜、延长视频(需通过"跳转到"功能实现),最终可导出1080P完整视频作品 [6] Google智能眼镜与Android XR - Google联合Xreal推出Project Aura智能眼镜,搭载Gemini 2.5 Pro和Project Astra,实现实时翻译、视觉搜索和多模态上下文理解 [7] - 作为首个Gemini时代构建的Android平台,Android XR支持150多个国家45种语言,能通过双摄像头和多个麦克风实现强大的AI交互体验 [7] - Google与Gentle Monster和Warby Parker合作开发时尚科技眼镜,注重隐私保护,但由于Gemini限制,国内用户或难以体验完整功能 [7] 英伟达DreamGen机器人学习项目 - 英伟达推出DreamGen项目,让机器人在神经网络生成的「梦境世界」中自主学习,通过生成大量带标签的神经轨迹实现技能掌握和泛化 [8] - 项目在多种机器人上验证效果显著:类人机器人GR1成功率提升至46.4%,机械臂Franka提升至37%,SO-100提升至45.5%,实现了对陌生动作和环境的泛化 [8] - DreamGen通过微调视频世界模型、生成平行世界视频、提取伪动作标签、训练机器人基础模型四大流程,将合成数据规模扩展至原始数据333倍 [8] FaceAge AI年龄预测技术 - Mass General Brigham团队开发的AI模型FaceAge,通过分析人脸照片预测生物年龄,在56,000多张60岁以上人群照片上训练,能评估癌症患者治疗预后 [10] - 研究显示AI判定"显老"10岁的患者死亡风险增加11-15%,癌症患者平均比实际年龄老4.79岁,且当前吸烟者平均增加33.24个月衰老程度 [10] - FaceAge目前存在局限性:训练数据主要基于白人面孔,整容、化妆等因素影响未知,且可能存在隐私和医疗伦理风险,距离临床应用仍有距离 [10] 微软CPO谈AI时代产品管理 - 微软CPO认为Prompt正在取代传统PRD,成为AI时代构建产品的起点,并强调"品味"和"编辑能力"成为产品经理的关键能力 [11] - AI时代的产品开发应着重于原型验证,从想法到Demo的时间缩短,但从Demo到全面上线时间变长,要避免过早设定指标,关注用户真实反馈 [11] - 好的产品需满足三个关键转折点中的两个:技术层面飞跃、用户行为变化和商业模式变化 [11] AI对未来人类社会的潜在影响 - "已解决的世界"(所有实际问题都由AI解决)可能在当代人有生之年出现,届时人类将面临意义和目标缺失的挑战 [12] - 在这个世界中,人类不再需要为生计工作,但也失去了很多传统价值来源 [12] - 当下是"目标的黄金时代",我们应该积极解决现实问题,同时为人类在AI主导的未来中找到新的定位和意义 [12]
腾讯研究院数字内容研究实习生招聘
腾讯研究院· 2025-05-21 15:51
岗位描述 - 研究方向聚焦数字内容领域,特别是游戏及电竞研究 [1][2] - 工作地点位于北京市朝阳区亚洲金融大厦 [2] - 提供税后150元/天的实习待遇 [2] - 要求每周坐班5天,实习期至少6个月,立即上岗者优先 [2] 工作内容 - 围绕游戏及电竞领域的行业发展、文化融合与科技创新提供研究支持 [3] - 需综合应用各类AI工具完成信息查询、数据分析、案例研究及文章撰写 [4] - 承担日常交办的其他工作任务 [5] 岗位要求 - 重点大学出版/经管/统计/传媒等专业的在校硕士/博士研究生,有相关研究成果者可放宽专业限制 [6] - 需了解游戏及数字内容行业趋势与技术创新,具备互联网行业研究经验及独立分析能力 [6] - 要求具备强写作能力、数据分析能力和行业研究素养,对研究工作有明确兴趣 [6] - 优先考虑责任感强且能保证6个月以上实习期的候选人 [7] 申请方式 - 邮件标题及附件需按【姓名-学校-年级-专业-每周x天】格式命名 [7] - 申请材料需包含简历及个人研究论文等成果,发送至指定邮箱 [7]
腾讯汤道生:每个企业都将成为AI公司,每个人都将是“超级个体”
腾讯研究院· 2025-05-21 15:51
腾讯AI战略与产业应用 - 生成式AI已从"量变"到"质变",公司提出"四个加速"战略(大模型创新、智能体应用、知识库建设、基础设施升级)推动AI普及[1][6] - 混元大模型TurboS进入全球Chatbot Arena前8,中国排名第二,多模态能力覆盖视觉理解、语音交互、3D建模等[2][7] - 混元开源模型GitHub Star超3万,覆盖文本/图像/视频/3D生成,应用于30+行业如医疗(近1万家医疗机构使用AI导辅诊)[8] 大模型技术进展 - 混元T1-Vision实现多模态深度推理,混元Voice支持低延时情感化语音交互,混元Image 2.0实现商用级实时生图[7] - 3D模型达到超高清几何建模精度,视觉理解/语音交互能力获行业认可[2] - 开源计划包含多尺寸多场景模型,与50家生态伙伴开展场景共创[8] 智能体平台发展 - 智能体开发平台支持零代码多Agent协同,提供工作流模式与全局Agent节点回退功能[9] - QQ浏览器QBot实现搜索/下载/分析全流程自动化,AI高考通可生成志愿填报方案[10] - 代码助手CodeBuddy使85%开发者编码时间缩短40%,企点营销云智能体提升绝味食品活动点击率40%/转化率25%[11] 知识库与行业应用 - 企业AI知识库支持多人在线编辑与权限管控,科沃斯应用后实现人效两位数提升/年省数百万成本[11][12] - ima知识号积累1000万+专业内容,健康管理智能体可自动解读体检报告并制定健康计划[10] - AI驱动广告业务双位数增长,游戏匹配优化提升用户粘性,视频/音乐制作效率显著提升[4] 基础设施优化 - 推理成本优化成为核心,训练infra综合性能提升30%,星脉网络实现三带宽(显存/存储/互联)升级[13][14] - 潮汐调度实现集群白天推理/夜间训练,荣耀手机合作案例显示推理吞吐最高提升54%[14]
腾讯研究院AI速递 20250521
腾讯研究院· 2025-05-21 00:01
微软智能体生态布局 - Coding Agent将GitHub Copilot升级为自主编程助手,实现bug修复、代码维护全流程自动化 [1] - NLWeb开源项目支持自然语言交互网站,Agent Factory平台可构建Grok等智能体应用 [1] - Copilot Tuning允许企业用自有数据微调智能体,适配独特语言风格 [1] - Microsoft Discovery具备生成科研想法、模拟结果和自主学习能力 [1] 谷歌AI编程助手动态 - 发布基于Gemini 2.5 Pro的Jules编程助手,每日提供5次免费额度并直连GitHub仓库 [2] - Jules可自主完成代码编写、Bug修复及测试运行,支持生成详细计划并在云虚拟机验证代码 [2] - 即将推出Codecast功能生成代码库音频摘要 [2] 腾讯AIGC游戏引擎突破 - 发布工业级AIGC游戏内容生产引擎"混元游戏",基于百万级游戏动漫数据集训练 [3] - 提供AI美术管线、实时画布、2D美术生成和角色多视图生成功能,后者耗时从12小时缩短至30分钟 [3] - 包含四大图像模型和五大视频模型,首创游戏特效生成模型并支持多种风格实时交互 [3] AI音频工具创新 - ListenHub支持链接/文档转2-3分钟对话式播客,生成速度优于谷歌NotebookLM且中文语音更自然 [4][5] - 产品已开放公测,支持网页/App/浏览器插件,但存在内容长度不可调等限制 [5] 智源向量模型技术领先 - BGE-Code-v1支持14种编程语言,在CoIR和CodeRAG-Bench基准超越商业/开源模型 [6] - BGE-VL-v1.5针对多模态检索优化,BGE-VL-Screenshot在MVRB基准达60.61分SOTA成绩 [6] 谷歌知识管理工具升级 - NotebookLM推出iOS/安卓APP,支持离线听书、实时互动提问和跨平台分享 [7] - 当前支持网页/PDF/视频链接转播客,但仅限海外用户使用 [7] AI科研平台突破 - Microsoft Discovery无需编程即可用超算能力,200小时内发现新型环保冷却剂 [8] - 平台结合基础/专业模型构建AI博士后团队,支持医药/芯片设计等领域研发 [8] 开源机器人进展 - UC伯克利BHL机器人总成本低于5000美元,采用3D打印模块化设计且机械效率达90% [9] - 配备英特尔N95迷你PC和手机级IMU,实现双足行走和遥操作功能 [9] AI编程行业预测 - Anthropic CEO预测AI将在3-6个月内编写90%代码,谷歌已有25%代码由AI生成 [10] - 未来程序员角色或转向AI系统架构师和训练师,人类专注创造性工作 [10] 腾讯知识管理战略 - ima产品定位为AI驱动的"搜读写"工作台,已积累近1000万篇内容 [11] - 通过知识库/知识号/知识库广场三层架构实现从个人管理到生态共建的演进 [11]