Workflow
腾讯研究院
icon
搜索文档
胡泳:在“推荐就是一切”的时代
腾讯研究院· 2025-05-08 16:43
推荐系统行业分析 行业现状与核心价值 - 推荐系统已成为数字经济核心驱动力,Netflix、Spotify、TikTok等平台通过个性化推荐重塑用户体验,Netflix界面设计完全围绕"一切皆为推荐"理念[3][7] - TikTok算法通过协同过滤和内容分析实现精准推送,视频推荐不受粉丝量影响,仅基于内容标签、用户行为等数据,使新人博主有机会快速崛起[7][8] - 行业领导者如英伟达CEO黄仁勋指出,推荐系统是当前最重要的AI应用,覆盖搜索、广告、电商、内容消费等核心场景[7] 技术指标与评价体系 - 推荐系统评价指标包括精准度、多样性、新颖性、惊喜性、可解释性及公平性,精准度衡量内容与用户兴趣匹配度,多样性避免推荐同质化[9] - TikTok算法因满足用户对新奇性需求获评《麻省理工科技评论》"全球十大突破性技术",突破传统"从众效应"[8] - 热点偏差(popularity bias)问题显著,如YouTube倾向推荐大V内容,音乐平台偏好流行歌手,导致小众创作者曝光不足[12] 公平性挑战与解决方案 - 算法偏见体现在性别(LinkedIn职位推荐)、地域(电商价格差异)、文化(西方内容主导)等多维度,2012年起学术界持续关注此问题[10][11] - 2019年研究揭示热点偏差机制,流行内容垄断流量资源,解决方案包括加入公平性约束、提升多样性、定期检测算法偏见[12][13] - 2018年提出"负责任推荐"(FAccTRec)框架,强调消除系统性偏见、增强透明度(如YouTube允许标记"不感兴趣")、建立问责机制[14][15] 企业实践与创新方向 - Netflix优化算法覆盖小众题材和多元文化内容,Spotify推出"Fresh Finds"扶持独立音乐人,LinkedIn减少性别偏见并提供推荐原因解释[17] - 推荐系统正向"自我发现引擎"演进,通过数据收集、算法创新和网络效应形成良性循环,用户行为反馈进一步优化推荐相关性[19][20] - 未来趋势包括赋能用户探索(如社交分享推荐内容)、增强自我认知(通过推荐内容反推用户兴趣图谱)、机器与人类协同进化[20][21]
活动 | 2025“文脉之光”中国国家版本馆文创设计大赛正式启动
腾讯研究院· 2025-05-08 16:43
建设中国国家版本馆,是以习近平同志为核心的党中央作出的重大决策,是文明大国建设的基础工程, 是功在当代、利在千秋的标志性文化工程。中国国家版本馆(国家版本数据中心)担负着赓续中华文 脉、坚定文化自信、展示大国形象、推动文明对话的重要使命,是中华版本典藏中心、展示中心、研究 中心、交流中心和国家出版信息服务中心。 本次 "文脉之光"文创设计大赛 ,旨在让沉睡在典籍中的文化密码"活"起来:通过开发文具、数码周边 等创意产品,让古籍纹样走进现代生活;借助AR技术让版本"开口讲故事";用当代设计语言重构传统典 籍的版式美学。活动将推动文明"基因库"成为创新"孵化器",让中华文脉在设计师的创意中焕发新生, 擦亮国家文化名片,为文化产业注入新动能。 组织机构 主办单位: 中国国家版本馆 执行单位: 阅途文化集团有限公司 广东阅途文化传播有限公司 活动对象 面向全社会广泛征集,各高校艺术院系师生、独立设计师、具有一定艺术设计基础的社会各界人士、创 意设计团队或机构均可报名参赛。 参赛作品设计手法、表现形式、材质、工艺、造型、尺寸、品类等不限,鼓励参赛者以创新视角和多元 表达,深入挖掘版本馆文化内涵,彰显版本馆特色,充分展现 ...
腾讯研究院AI速递 20250508
腾讯研究院· 2025-05-07 23:55
生成式AI - Gemini 2 5 Pro在LMeana基准测试中全面领先,首次在文本、视觉、WebDev Arena三大领域超越Claude 3 7 [1] - 新版本强化编程能力,可将图片视频转化为交互式应用,VideoMME测试得分84 8% [1] - 开发者可通过Google AI Studio和Vertex AI使用更新版本,已上线Gemini App并支持Canvas功能 [1] ComfyUI功能升级 - 新增原生API节点功能,支持10+模型系列和62个新节点,可直接调用Veo2、Flux Ultra等付费模型 [2] - 完成品牌视觉更新,新Logo采用连接方块元素设计,融入90年代动漫与Y2K风格 [2] - 即将推出用户自定义API Key、工作流并行执行功能,并增强视频处理能力 [2] Kevin模型开源 - Cognition AI开源32B参数量的Kevin模型,基于QwQ-32B通过GRPO强化学习训练,生成CUDA内核性能超越o3和o4-mini [3] - 在KernelBench数据集上平均正确率达65%,解决89%的任务,测试中实现1 41倍加速比 [3] - 在二级任务上表现尤为突出,达到1 74倍加速,显著优于其他模型 [3] 学生免费计划 - Cursor Pro和Gemini Pro向学生免费开放一年完整专业版使用权限,可节省约2000元人民币 [4][5] - 此举旨在争夺未来用户市场,通过培养学生使用习惯提前布局市场份额 [4] - 申请渠道已开放,Gemini Pro将在2025年8月重新验证学生身份 [5] 腾讯元宝功能升级 - 推出对话分组功能,支持按主题创建文件夹和历史对话归类整理 [6] - 每个分组可设置独立提示词指令,定制专属语气风格和任务目标 [6] - 全平台上线文生图功能,支持混元和DeepSeek模型生成图片,增强图文一致性和画质 [7] AI科研应用 - Anthropic启动AI for Science计划,提供最高2万美元API积分支持生物系统、遗传数据、药物研发等领域研究 [8] - 开放所有Claude系列模型,重点推动AI在科学研究的突破性应用 [8] 机器人大模型 - 清华ISRLab与星动纪元联合开发AIGC机器人大模型VPP,获ICML2025 Spotlight并全部开源 [9][10] - 在Calvin ABC-D基准测试中实现4 33平均任务完成长度,超越先前技术41 5% [10] - 支持跨本体学习,可完成100+种灵巧操作任务,具有较强可解释性和调试能力 [10] AI社会影响 - 专家警告AI正在经济、文化和社交领域取代人类,可能导致人类失去对文明的控制 [11] - 建议采取跟踪AI影响、监管AI实验室、加强人类组织能力等措施应对 [11] 软件开发革新 - Bolt new从年收入70万美元快速增长至2000万美元ARR,主打基于浏览器的快速Web应用开发 [12] - 60-70%用户为非开发者,利用Web containers技术实现100毫秒内启动开发环境 [12] - 15人团队聚焦核心产品体验,通过免费试用实现病毒式增长 [12]
MCP不是万灵药
腾讯研究院· 2025-05-07 16:29
MCP的本质与核心价值 - MCP是一种开放技术协议,旨在标准化大型语言模型(LLM)与外部工具的交互方式,相当于AI世界的通用翻译官[5] - 解决AI工具调用两大痛点:接口碎片化(不同LLM使用不同指令格式)和开发低效(需为每个API编写定制代码)[6] - 采用通用JSON-RPC格式,实现一次学习即可与所有支持协议的工具交互[8] - 技术架构由三部分组成:MCP Host(执行环境)、MCP Client(通信枢纽)、MCP Server(服务终端)[11] MCP的工作原理与定位 - 类比现代企业通信系统:大模型如高管决策,Agent如执行秘书,MCP如标准化通信平台[13] - 不是Function Call的替代品,而是基于Function Call的工具箱,三者关系为"Function Call + Agent + MCP系统"[18][19] - 典型案例:用户(老板)通过大模型(办公室主任)下发指令,Agent(秘书)通过MCP系统(采购平台)调用工具(咖啡供应商)[21] - 仅提供统一工具接口标准,不参与决策/任务规划等智能层面工作[23] MCP的市场应用现状 - 本地客户端应用(如Claude Desktop、Cursor)受益最大,实现AI助手能力无限扩展[27] - 云端应用存在局限性:需预设工具集,难以实现动态发现功能[30] - 大型企业服务商面临额外适配成本,双链接机制导致工程复杂度[29] - 协议已优化:3月26日更新支持streamable HTTP transport,兼容无状态服务场景[32] 行业生态发展现状 - 市场呈现野蛮生长:三个月涌现数千个MCP工具,但80%存在严重问题或缺乏实用价值[34] - 缺乏评价体系导致工具选择低效,Agent需反复试错浪费资源[35] - 头部公司差异化布局:百度"心响"主攻C端移动场景,字节扣子空间聚焦生产力工具,阿里集成至支付宝生态[41] - 腾讯多线布局:发布AI开发套件、代码助手Craft,地图/云存储推出MCP SERVER[42] MCP的合理定位与发展方向 - 本质是工具插座标准,不应期待其解决智能系统的全部问题[39] - 需与Agent框架、大模型能力协同构建完整解决方案[40] - 未来可能演变为底层基础设施,结合A2A架构提升抽象层次[43] - 行业正经历技术炒作周期,市场自然选择后将形成精简有价值的工具生态[36]
腾讯研究院AI速递 20250507
腾讯研究院· 2025-05-06 18:46
生成式AI - OpenAI放弃完全营利性转型,将由非营利组织继续控制,同时营利性机构转为公益公司(PBC)[1] - 公司架构调整后取消利润上限制度,采用常规股权结构,非营利组织将成为PBC主要股东[1] - 承诺继续专注AGI发展造福人类使命,并计划开源部分高性能模型[1] - 英伟达发布Llama-Nemotron开源模型家族,包含8B到253B三种规格,支持动态切换推理模式,遵循开放商业许可[1] - LN-Ultra运用Puzzle框架和FFN融合技术优化部署效率,在推理性能和吞吐量上超越DeepSeek-R1[1] - 通过Qwen和DeepSeek-R1教师模型支持,结合多阶段训练和强化学习,全面提升模型推理与通用对话能力[1] Grok PDF功能 - Grok新增PDF渲染功能,支持一句话指令快速生成格式化PDF文档,免费和付费用户均可使用[2] - 功能基于LaTeX代码实现,支持学术论文、简历、菜单等多种文档类型,可通过对话优化或直接修改代码[2] - 相比ChatGPT依赖第三方库的PDF生成功能,Grok在排版质量和用户体验上有明显优势[2] Suno音乐生成 - V4.5版本支持长达8分钟的音乐生成,并新增punk rock、jazz house等细分风格,支持跨界混搭创作[3] - 人声表现力全面升级,实现从耳语到高音的动态音域,并优化了颤音、呼吸控制等专业级细节[3] - 提升了音乐描述识别能力,可精准理解抽象表达,并支持乐器分层、环境音效等音乐元素的精细解构[3] 英伟达语音识别 - 英伟达开源的Parakeet TDT 0.6B语音识别模型创下纪录,能在1秒内转录60分钟音频,词错误率仅6.05%[3] - 模型采用FastConformer-TDT架构,可一次性处理24分钟音频片段,支持标点符号预测和时间戳[3] - 以CC-BY-4.0许可开源,参数量600M,支持商用,但目前仅支持英语识别[3] ACE-Step音乐生成 - ACE-Step结合深度压缩自编码器、扩散模型和线性Transformer,在A100上20秒可生成4分钟音乐,比基线快15倍[5] - 支持19种语言音乐生成,覆盖流行、摇滚等多种风格,并具备人声克隆、歌词编辑等高级控制功能[5] - 采用Apache License 2.0开源协议,已开放训练代码和LoRA模块,将陆续推出RapMachine、StemGen等专业功能[5] AI考古发现 - 2025年研究人员首次非侵入性读取到赫库兰尼姆古卷PHerc. 172的标题,内容为斐洛德谟的《论恶习》第一卷[5] - 该发现由两个团队同时完成,获奖团队Marcel Roth和Micha Nowak利用AI图像分割和墨迹检测技术,获得6万美元奖金[5] - 这些古卷源自公元79年维苏威火山爆发被掩埋的罗马贵族别墅,AI技术为解读这些碳化的古代智慧开创新途径[5] AI数学工具 - 陶哲轩在ChatGPT协助下,仅用4小时独立开发了一个验证数学估计的开源工具,可自动判断涉及正参数的不等式是否成立[6] - 他与ChatGPT的交互过程从基础类编写开始,逐步完善功能,显示了AI在复杂数学工具开发中的实用价值[6] - 作为早期接受AI的顶级数学家,陶哲轩认为到2026年AI将成为数学研究的可靠合作者,并建议数学家与程序员协作开发此类工具[6] AI版权问题 - 法律主要保护具体的"表达"而非抽象的"风格",单纯模仿吉卜力画风通常不构成侵权,但使用其具体角色和情节可能侵权[6] - AI训练数据未经授权存在法律风险,但传统"先授权后使用"模式已不适用,目前缺乏相关立法和豁免机制[6] - 面对AI挑战,艺术家的核心竞争力在于思想深度和时代洞察,应关注作品的独特视角而非技术层面的复制能力[6]
使命与扩张的平衡术:OpenAI平台级AI应用的进化路径
腾讯研究院· 2025-05-06 17:55
引言: OpenAI为何在收购与结构调整中双线推进? 白一 独立科技观察者 2025年5月6日,OpenAI宣布放弃全面营利化重组方案,将营利性子公司转型为公益公司(PBC),由非 营利组织继续持有控制权。 这一结构调整背后,实质上是对其快速商业化扩张节奏的制度性回应。 过 去两年,OpenAI持续通过收购和新业务布局,加速构建平台级AI应用生态,商业化步伐显著加快。 此 时宣布结构调整,既是回应监管和社会对其"逐利化"倾向的质疑,也是为下一阶段收购与扩张创造治理 前提。 尽管全面盈利化看似更有利于资本进入和商业操作,OpenAI却选择了保留非营利组织控制权的PBC结 构。原因在于,PBC制度允许公司在追求利润的同时将社会使命写入治理框架,而非营利母公司继续控 股,则进一步确保公司战略不被短期财务回报所驱动。这一治理安排既回应了外部对其使命偏移的质 疑,也保留了资本融资、员工激励和并购操作所需的灵活性。 可以说,OpenAI试图在"制度可信 度"与"商业扩张性"之间建立一种长期可持续的平衡机制。 换句话说,如果说一系列收购是OpenAI打通"从底座到入口"的平台化布局工具,那么组织架构的调整 就是对其使命合法 ...
腾讯研究院AI速递 20250506
腾讯研究院· 2025-05-05 18:05
生成式AI - DeepSeek-Prover-V2推出671B和7B模型,采用递归+强化学习提升数学推理能力,创造多项新纪录 [1] - 采用DeepSeek-V3分解定理+GRPO算法优化,结合冷启动训练实现非形式化与形式化推理统一 [1] - 7B模型在本科级测试表现优异,展现独特基数处理能力 [1] - Anthropic发布Claude整合功能(Integrations),基于MCP协议实现与Jira等10个热门服务的无缝连接 [1] - Claude新增研究能力,可在5-45分钟内完成复杂调研,支持多数据源查询并标明出处 [1] - 新功能目前在Max、Team和Enterprise计划测试,全球付费用户已可使用Web搜索 [1] AI语音与播客 - Google NotebookLM支持50种语言生成播客,语音地道,擅长模拟京腔等本地口音 [2] - 产品将文本转化为轻松对谈,摆脱AI语音生硬感,由Google产品经理Martin和编辑Johnson主导 [2] - 具备资料溯源功能,可处理2500万字内容,标注引用来源并加入音频水印 [2] 社交与AI整合 - Meta推出独立AI应用对标ChatGPT,可通过用户社交数据实现个性化服务,包含发现信息流功能 [3] - 应用与Meta社交产品矩阵打通,支持语音交互和图像生成,在美加等地区首批开放 [3] - 软件与Meta AI眼镜深度整合,扎克伯格预测未来眼镜将全面智能化,全息影像将取代实体屏幕 [3] AI编程与开发 - 苹果与Anthropic合作开发"氛围编程"软件平台,基于Claude Sonnet模型,用于代码编写和测试 [4] - 该平台为Xcode新版本,目前仅计划内部使用,此前苹果自研AI编程工具因精度不足未发布 [4] - 苹果正构建AI合作网络,此前已与OpenAI合作整合ChatGPT,并考虑引入谷歌Gemini作为备选 [4] 图像生成与一致性 - Midjourney推出Omni-Reference全向参考功能,通过--oref和--ow参数实现人物、物体、场景的超高一致性 [5] - 相比4o和Lora模型,Omni-Reference只需一张参考图即可保持细节迁移和风格统一 [5] - 新功能支持真人写实、动漫风格,还能实现机械体、装置物等复杂物体的多角度一致性呈现 [5] - Runway参考功能支持多角色参考、风格迁移等广泛应用,无需反复调参即可实现角色一致性生成 [5] - Gen-4模型支持类ChatGPT的自然语言提示,能理解复杂语义,可用于黑白照片着色、室内设计等12种创意应用 [5] AI科研与智能体 - FutureHouse推出四个AI科研智能体(Crow、Falcon、Owl、Phoenix),在文献搜索精度和准确性方面超越GPT-4.5及人类博士 [6] - 这些AI智能体可访问完整科学文献全文,具备信息质量评估能力,能透明展示推理过程,提供API集成 [6] - AI科学家团队已应用于疾病机制研究、文献矛盾梳理、实验方法分析等领域,可显著提升科研效率 [6] AGI与失控风险 - MIT研究显示:即使采用最理想的监督机制,人类成功控制超级智能的概率仅为52%,AI失控风险可能超过90% [6] - 研究提出"康普顿常数"概念,通过四种博弈场景验证了嵌套可扩展监督机制的有效性与局限性 [6] - 随着AI智能水平提升,监督难度增大,Guard获胜概率持续下降,人类最终可能难以控制超级智能AI系统 [6] 具身智能与机器人 - Physical Intelligence创始人强调收集多样化机器人数据的重要性,认为机器人需具备适应不同环境的能力 [7] - 专家低估了运动控制中蕴含的智能,机器人需要从自身物理体验中学习,而不仅仅依靠观察数据 [7] - 未来机器人形态可能呈现"寒武纪大爆发"式的多样化,针对不同场景可能出现专门的机器人设计 [7]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-04-30 15:34
| 应用 | 照片识别位置 | o3 | | --- | --- | --- | | 应用 | GPTs原生图像生成 | OpenAI | | 应用 | AI相机 | 夸克 | | 应用 | AgentUFO升级 | 微软 | | 应用 | AI玩家生成 | 巨人网络 | | 应用 | Firefly Image Model 4 | Adobe | | 应用 | 财新传媒合作 | Kimi | | 应用 | GeoGPT开放 | 之江实验室 | | 应用 | 购物搜索功能 | OpenAI | | 应用 | Agent S2 | Simular AI | | 应用 | 褐蚁HY90一体机 | 行云集成电路 | | 应用 | MCP工具箱 | 纳米AI | | 科技 | 软体机器手 | 清北团队 | | 科技 | 3D打印机械臂 | Hugging Face | | 事件 | OpenAI前高管创业 | 多家公司 | | 观点 | Agent定义 | Windsurf | | 观点 | RL推理能力边界 | 清华 | | 观点 | 「AI行动计划」 | 美国政府 | | 观点 | AI病毒学能力 | OpenA ...
腾讯研究院AI速递 20250430
腾讯研究院· 2025-04-29 22:54
ChatGPT购物功能升级 - OpenAI为ChatGPT推出购物搜索功能,支持产品推荐、详情展示和直接购买链接 [1] - ChatGPT一周搜索量超10亿次,奥特曼接受联属费用模式 [1] - 新功能将与记忆系统整合,为Plus用户提供个性化推荐 [1] Grok 3.5技术升级 - Grok 3.5早期测试版下周发布,限SuperGrok订阅用户使用,号称能基于第一性原理回答复杂技术问题 [2] - Grok 3上线后移动端下载量增10倍,美国日活增260%,全球日访问量达450万次 [2] - 用户期待Grok增加主动提醒等实用功能 [2] Qwen3模型性能突破 - Qwen3发布六款模型,包括MoE架构(30B和235B)和Dense架构(0.6B至32B),235B版本性能或超DeepSeek R1 [3] - 支持119种语言方言,引入思考/非思考模式无缝切换功能,强化Agent和代码能力 [3] - 训练过程分为预训练(36万亿token)和后训练四阶段优化,实现长文本和复杂推理能力提升 [3] Agent S2开源框架 - Agent S2为开源AI智能体框架,可直接通过图形界面操作电脑和手机,性能超越OpenAI和UI-TARS等竞品 [4] - 采用模块化设计,包含四大创新架构:主动分层规划、纯视觉定位交互、专家模块接口、经验驱动记忆机制 [5] - 框架完全开源、跨平台,能执行图片编辑、文档处理等复杂任务 [5] AI操控舆论实验 - 苏黎世大学在Reddit用AI发表1700多条评论,说服力达人类6倍且4个月内未被识破 [6] - 个性化策略表现最佳,在所有用户中排名前1%,专家中排名前2% [6] - 实验未经授权且涉及假扮弱势群体身份,引发道德争议 [6] Duolingo AI优先战略 - Duolingo宣布全面转型"AI优先"战略,类比2012年押注移动端的重要决策 [7] - 转型措施包括停用AI可替代的外包任务、将AI能力纳入招聘和考核、设立专项AI项目 [7] - 强调AI转型旨在减少重复性工作,让员工专注创造性任务 [7] DeepSeek一体机发布 - 行云集成电路推出褐蚁HY90一体机,售价14.9万元,能以22 tokens/s速度运行未量化的671B参数DeepSeek-R1模型 [8] - 通过CPU高内存带宽和异构计算架构优化,将百万级设备成本降至10万元级别 [8] - 公司由清华90后博士创立,团队拥有深厚技术积累 [8] 纳米AI MCP工具箱 - 纳米AI推出MCP万能工具箱,支持MCP协议,无需代码即可调用大量工具 [9] - 已打造多个专用智能体,覆盖股票分析、论文研究、小红书创作等场景 [9] - 系统通过隔离沙箱保障安全性,所有工具免费使用 [9] Hugging Face机械臂 - Hugging Face发布可3D打印机械臂SO-101,起售价100美元,具备物体抓取和基础任务执行能力 [10] - SO-101是SO-100升级版,组装更快、电机更好,能通过强化学习训练完成乐高积木等任务 [10] - Hugging Face正大力拓展机器人业务,已收购法国初创公司Pollen Robotics [10] Scale AI创始人观点 - Scale AI创始人强调好的数据对AI至关重要,通过Outlier平台让全球用户帮助生成和改进AI训练数据 [11] - AI将成为帮助人类实现想法的工具,未来工作形态会改变但不会消失 [11] - 美国在芯片和算法上领先,中国在数据方面可能超前 [11]