腾讯研究院
搜索文档
如何养一只安全的“小龙虾”?
腾讯研究院· 2026-03-11 16:13
腾讯发布“龙虾特工队”AI智能体产品矩阵 - 公司推出名为“龙虾特工队”的自动化行动特工(Agent),其核心是具备持续记忆与实际任务执行能力的AI,而不仅是一个聊天框 [1] - 该产品矩阵旨在支持大众用户、开发者及企业级用户一键“养虾”,即部署和使用AI智能体 [1][2] 针对个人用户的产品方案 - 推出WorkBuddy工具,定位为“免部署小龙虾”,零配置、下载即用,旨在降低普通用户的使用门槛 [3] - 为WorkBuddy新用户提供**5000 Credits**的无门槛体验补贴 [3] - 推出内测产品QClaw,用户可通过微信对话远程操控电脑,基于OpenClaw打造,支持Windows/Mac一键安装 [4] - QClaw覆盖**5000+** 技能(skills),可实现远程操控电脑进行算报表、传文件等任务 [4][5] 针对开发者与企业的产品方案 - 提供腾讯云Lighthouse云端解决方案,实现7*24小时稳定在线,支持QQ/企业微信双入口操控 [7][8] - 一个QQ号可在云端“饲养”**5只**小龙虾(即部署5个智能体) [8] - 提供腾讯云智能体开发平台(ADP),为企业量身打造,可实现分钟级部署并秒级接入企业微信 [12] - ADP平台可根据公司部门层级划分权限并进行敏感数据隔离,以保护公司机密 [12] - 提供腾讯云桌面方案,支持在云端Windows/Linux双系统环境中直接操作,适配大型企业分布式办公 [13] 本土化与工作流集成能力 - 上线专为国内用户优化的技能社区(SkillHub),提供国内镜像加速,内置**1.3万**个本土化技能一键调用 [17] - 技能社区包含小红书运营、百度搜索等本土化场景技能,例如“小红书自动化”技能拥有**7.8k**使用量,“Github”开发工具技能拥有**5.9万**使用量 [18] - 推出全新的企业微信API长连接模式,免除域名配置,仅需3步即可将AI接入企微 [19] - 结合Webhook技术,可将AI处理的数据直接写入企业微信智能表格,使AI能主动推送任务进度 [19] - 支持接入腾讯乐享知识库,AI可学习公司内部百余种格式的资料(如产品手册、报告),使产出内容有据可依并实现团队协同共享 [20][21] 产品安全架构 - 针对本地使用,腾讯电脑管家**18.0**版提供“龙虾管家”功能,为AI创建隔离沙箱环境,防止其接触用户私人文件 [24] - 针对云端使用,腾讯云部署“AI Agent安全中心”,可实时监控并拦截AI执行的高风险指令或使用带漏洞的插件 [24]
腾讯研究院AI速递 20260311
腾讯研究院· 2026-03-11 00:01
一、Claude推出多智能体代码审查系统 - Anthropic为Claude Code引入多智能体代码审查系统,自动调度智能体团队并行审查代码,部署后获得实质性审查意见的PR比例从16%飙升至54% [1] - 在超千行大型PR中,84%会收到审查意见,平均发现7.5个问题,被标记为不正确的审查结果不到1% [1] - 审查基于Token计费,平均每次15至25美元,支持自定义审查规则,目前面向团队版和企业版用户提供研究预览 [1] 二、LeCun创办企业完成巨额种子轮融资 - 图灵奖得主Yann LeCun创办的AMI Labs完成10.3亿美元种子轮融资,估值达35亿美元,团队分布在巴黎、纽约、蒙特利尔和新加坡 [2] - 公司目标是构建基于JEPA架构的世界模型,面向工业控制、机器人、可穿戴设备和医疗等高可靠性场景 [2] - DiT架构提出者谢赛宁加盟担任首席科学官,首个实际应用推出前至少需要一年研究时间,首个合作伙伴为医疗AI独角兽Nabla [2] 三、微软发布Copilot Cowork全面接管Office - 微软发布Copilot Cowork全面接管Excel、Word、PPT和Outlook,采用Anthropic Claude模型驱动推理,可在后台持续推进十余个任务 [3] - 四大核心场景包括自动整理日程、准备客户会议、深度调研生成交付物、执行从竞品分析到产品发布的计划 [3] - 定价为M365企业版基础上额外30美元/月,新推出的E7套餐99美元/月,目前处于有限客户研究预览阶段 [3] 四、腾讯混元开源世界模型强化学习框架 - 腾讯混元3D团队开源业界首个面向世界模型的强化学习后训练框架WorldCompass,解决预训练世界模型指令失效问题 [4] - 框架通过切片级采样降低计算复杂度,并引入基于3D基础模型的交互跟随评分与视觉质量评分互为正则 [4] - 在复合动作场景下交互准确率从20%提升至55%,在斯坦福WorldScore基准上取得更优评分 [4] 五、智谱上线AutoClaw本地版本 - 智谱正式上线AutoClaw,macOS和Windows均支持一键安装,自动接入飞书等即时通讯工具,提供免费额度 [5][6] - 内置智谱专为OpenClaw场景优化的Pony-Alpha-2模型,集成AutoGLM Browser-Use能力 [6] - 封装50+主流Skills与API覆盖多场景,支持接入DeepSeek、Kimi、MiniMax、GLM等任意模型的API [6] 六、Claude与军事系统合作应用于美伊冲突 - 美国军方在美伊冲突中利用Palantir的Maven智能系统嵌入Claude模型,首日解析150+信息流提供1000+打击选项 [7] - Maven系统整合多源数据,Claude自动生成目标建议和精确坐标,将传统需数周的战斗计划变为实时行动 [7] - 截至目前美以已打击超3000目标,使用Maven后原本2000人的工作量20人即可完成 [7] 七、Figure机器人实现全程自主家务 - 估值390亿美元的Figure发布最新进展,搭载Helix 02系统的机器人全程自主完成客厅整理 [8] - Helix 02采用三层系统架构,分别负责语义推理任务拆解、高频感知转化和基于人类运动数据训练的全身控制 [8] - 团队仅补充新数据即让系统掌握复杂技能,替代了109504行手工C++控制代码 [8] 八、AI发布全球科学家社区O-DataMap - AI系统OALL发布O-DataMap,将全球论文中的实验数据映射到二维坐标系,首次将人类科技研究铺成可导航地图 [9] - 三层使用场景包括判断领域热度与成熟度、定位单篇研究的知识谱系、获得研究空白评估和期刊定位建议 [9] - 地图实时生长,AI流水线持续解析新论文,输入学者姓名或论文可看到其影响力如何跨领域扩散 [9] 九、a16z发布全球AI产品Top100报告 - a16z第六版全球AI产品Top100显示ChatGPT周活9亿用户领先,但Claude付费订阅同比增长超200%、Gemini增长258% [10] - ChatGPT走超级应用路线覆盖85+品类,Claude聚焦专业用户,两个平台仅11%应用重合 [10][11] - OpenClaw成为GitHub star数最高项目,Manus被Meta以约20亿美元收购,通用Agent与Vibe Coding工具重塑竞争格局 [11] 十、陶哲轩对谈OpenAI高管讨论AI与数学 - OpenAI内部核心指标“自主运行刻度”已从去年的几分钟向几天迈进,模型犯错概率显著下降 [11] - 陶哲轩表示AI已成为日常研究工具,埃尔德什问题长尾中已有二三十个在最低限度人类监督下被AI解决 [11] - OpenAI的Mark Chen指出数学的形式化验证系统为强化学习提供了“无限次廉价试错”机制 [11]
麦克法兰:普通人要如何在时代的变化中自我保全?
腾讯研究院· 2026-03-10 17:18
文章核心观点 - 剑桥大学教授艾伦·麦克法兰基于其访华经历和对技术趋势的观察,认为中国尤其是深圳展现了巨大的发展活力和希望,同时深入探讨了AI时代对普通人工作、婚姻及语言学习等方面带来的根本性变革与机遇[3][4][5] 中国发展观察 - 教授在2025年底进行了其第二十次访华,为期三周,访问了深圳、北京、重庆、成都等地,其中深圳因其高科技发展和改革开放成果成为突出亮点[3] - 教授认为中国创造了一个奇迹,尤其是像深圳这样的地方,并将其视为世界的希望,同时指出美国正在迅速衰落,欧洲也处于低迷状态[3][4] AI时代的社会经济影响 - 在AI时代,社会可能回归到19世纪那种极端的财富分配模式,即少数人拥有90%的财富,而大多数人仅靠维持生计的工资生活[5] - 医生、教师、学者等专业人群可能使用AI代理和机器人来运营机构,但预测未来是困难的,因为此类情况前所未有[5] - 技术(如AI)的发展趋势往往是先由富人垄断,随后变得非常便宜并广泛传播,如同汽车普及的历史[6] - AI可能带来一个更广泛的“铁饭碗”,即整个社会将足够富裕和平等,为每个人提供基本生活水平,在此之上人们可以选择从事创意、生产或创业活动[8] 普通人的适应与准备 - 未来10年或20年,人们所从事的工作将不同于现在,世界将变得更加流动,职业生涯可能包含多个为期五年的工作阶段,中间穿插学习或旅行[7] - 个人应培养通用技能,如沟通技巧、多才多艺、自力更生和灵活性,并将失业等障碍视为重新思考和转向其他机会的契机[8] - 为应对快速变化的世界,需要在思想上做好准备,接受职业生涯的流动性和非终身雇佣制[7] 未来社会的婚姻形态 - 婚姻的功能在全球范围内发生巨大变化,从主要为养育子女提供稳定环境,转向更侧重于陪伴、友谊和共同处理生活事务[9][10] - 在AI时代,婚姻的传统功能(如抚养孩子、共同经营)进一步减弱,其核心可能缩减为陪伴和性,而这些需求可能通过AI伴侣等更有效的方式满足[10] - 尽管AI伴侣可以提供便利,但其缺乏真实的情感、历史和复杂性,人类对真实温暖和联结的渴望意味着人类陪伴与AI陪伴将在特定场景中长期并存,AI在未来人际关系中的角色可能类似于宠物[11][12] AI时代的语言学习 - 学习语言的实用主义目的(即为了与外国人交流)将越来越多地由AI承担,AI翻译技术将变得更普及和先进,甚至嵌入可穿戴设备[12][13] - 学习语言的核心价值在于理解与欣赏目标语言的文学、哲学与文化,以及接触不同的思维方式以训练清晰、严谨的分析性思考能力[14][15] - 让孩子学习英语仍有价值,以便其能深入理解英语世界的文学遗产,但不应以牺牲学习中国古典文学为代价,AI应被用来帮助年轻人更高效地兼顾两者[15] - 个性化的AI教育工具可以让每个孩子按照自己的节奏、以更有趣和高效的方式学习语言,并同步进行文化体验,例如通过沉浸式虚拟世界与历史人物“对话”[16][17]
中国动画电影为什么会成功?
腾讯研究院· 2026-03-09 16:33
2025年中国电影市场与动画电影表现 - 2025年中国电影总票房达518.32亿元,同比增长21.95% [2] - 动画电影成为市场增长关键引擎,贡献票房254.9亿元,占总票房49.2% [4] - 全年票房榜前10名中有4部为动画电影 [4] 动画电影的市场与文化影响力 - **票房表现**:动画电影是春节档、暑期档、贺岁档的市场支柱 [4];《哪吒之魔童闹海》以154.46亿元票房成为中国影史冠军,并助推“史上最强春节档” [5];《浪浪山小妖怪》以17.19亿元票房成为中国2D动画电影票房冠军 [5] - **观众结构**:成年人成为动画电影消费主力;《哪吒之魔童闹海》观众中30-39岁占比超42% [5];《浪浪山小妖怪》主力观影群体为25-29岁,占比达26% [5] - **国产动画崛起**:2025年国产动画电影票房前4名总成绩超185亿元,占动画电影总票房72.6% [6];2024年国产与进口动画票房为“四六开”,2025年国产已成绝对主力 [6] - **口碑表现**:《哪吒之魔童闹海》《浪浪山小妖怪》《罗小黑战记2》豆瓣评分分别为8.4、8.5、8.7分 [6] - **题材与叙事**:突破青少年、亲子等传统类型,聚焦当代人生存状态,形成全龄化叙事与普世主题 [5];通过传统文化符号与现代议题融合引发广泛共情 [5] 动画电影崛起反映的大众文化需求变迁 - **情感结构变化**:互联网世代更关注个体感受与叙事,对宏大叙事兴趣减弱 [9];24岁以下电影观众占比从2019年的38%降至2025年的15% [9];Z世代月均观影频次从1.2次降至0.5次 [9] - **审美与技术需求**:大众对视听体验要求升级,动画电影因不受真人表演和实景限制,更易通过标准化流程和前沿技术保证质量 [10];国产动画工业化水平提升,弥补了与美日制作水准差距 [10] - **文化消费重心转移**:大众更积极在文化消费中进行自我表达与情感投射,IP衍生品成为新渠道 [12];动画IP风格化强、想象空间大,利于跨媒介叙事和衍生开发 [12] 动画电影的成功经验与行业启示 - **工业化生产协作**:《哪吒之魔童闹海》背后有138家动画公司、4000多名动画人协作,精细分工保障了品质与回报 [11] - **IP运营与收入多元化**:头部国产动画形成“票房+衍生”收入格局 [12];经典动画IP“喜羊羊与灰太狼”衍生业务收入占比约70% [12];《浪浪山小妖怪》衍生品销售金额接近2.5亿元,远超制作成本 [12];对比之下,国内电影公司约90%收入依赖票房,而好莱坞巨头该数据仅为约30% [12] - **跨文化传播优势**:动画作为虚拟内容,其架空设定更易突破文化壁垒,获得全球共鸣 [9] 对电影行业未来发展的建议 - **加强IP联动与产业链完善**:推动电影与动画、漫画、游戏等数字文化IP联动,培育跨界资源整合能力强的文化领军企业,完善衍生品市场以提升非票业务贡献率 [14] - **强化与年轻人的连接**:从人才建设、内容题材、叙事方式革新,防止创新力坍塌和消费习惯断代 [14];制定有竞争力的人才补贴政策,促进创作队伍年轻化 [14];探索更精细化的内容审核标准与灵活高效的审批流程 [14] - **提升原创能力与内容供给**:制定激励政策,对艺术表现、海外版权交易等方面取得突破的企业给予奖励 [15];推动供给侧结构性改革,挖掘细分市场,在推动大众商业电影的同时发展分众电影,改善腰部电影塌陷局面 [15];鼓励企业深化社会情绪研判 [15] - **加大技术投入**:设立文化科技创新发展基金,引导企业加快对AI大模型、虚拟拍摄等技术的研发应用,以降低成本、优化流程 [16];推动影院升级技术投入,转型为高端视听消费场景,探索赛事直播、演出直播等多元化服务 [16]
腾讯研究院AI速递 20260309
腾讯研究院· 2026-03-09 00:01
生成式AI模型能力升级 - OpenAI发布GPT-5.4系列,首次在通用模型中内置Computer Use能力,将代码、推理、桌面操控三大能力合并为统一模型出口 [1] - GPT-5.4在OSWorld桌面操控评测得分75.0%,超越人类基准72.4%,在GDPval专业工作评测达83.0%,在ARC-AGI-2抽象推理评测中跳幅最大达73.3% [1] - 标准版API定价为输入每百万tokens 2.50美元、输出每百万tokens 15美元,Pro版有12倍溢价主攻复杂Agent场景,其Tool Search机制将token消耗降低47% [1] 行业生态与开发者支持 - OpenClaw创始人Peter Steinberger加盟OpenAI后,首个项目“Codex for Open Source”上线,向开源维护者免费提供API积分和6个月ChatGPT Pro使用权 [2] - 该项目申请门槛覆盖核心维护者和被广泛使用的公开项目运营者,非标准项目若在生态中有重要作用也可提交申请 [2] - 项目目标是尽可能覆盖更多开源贡献者 [2] 模型技术新范式 - 腾讯混元提出“功能性神经记忆”新范式HY-WU,在推理时实时生成个性化LoRA参数,替代传统静态微调模式 [3] - 该范式应用于800亿参数图像编辑基模,在GEdit-Bench多项指标超越闭源模型,与GPT Image 1.5差距仅0.11分 [3] - 该范式具备跨模态通用性,团队规划将其扩展至视频生成、多模态对齐和端侧部署等六大方向 [3] 移动端与系统级AI Agent - 小米基于MiMo大模型推出系统级AI Agent产品miclaw,以系统应用身份运行,封装50+系统级工具,实现推理-执行循环的自主任务编排 [4] - 该产品打通米家IoT生态和MCP开放协议,AI可根据日程上下文实时判断并联动全屋设备,并支持第三方应用通过SDK主动声明工具能力 [4] - 该产品具备自进化元能力,可自主创建子智能体、配置MCP服务、运行沙箱脚本,并通过文件级记忆系统持续沉淀用户偏好和使用经验 [4] AI自主研究框架 - 研究员Karpathy开源autoresearch项目,核心仅630行代码三个文件,让AI Agent在单GPU上自主循环执行代码编辑、模型训练、评估和迭代,全程无需人工干预 [5] - 每次训练固定5分钟时长,以val_bpb为统一评估指标,Agent通过Git提交累积有效改进,人类只需迭代指导性prompt文件 [6] - Karpathy本人已在8块H100上运行加强版持续自主研究,项目定位为自我进化LLM的概念验证但框架可扩展至任意研究领域 [6] 安全与基础设施 - Transformer论文共同作者Illia Polosukhin用Rust从零重写OpenClaw,推出安全版IronClaw,建立四层纵深防御架构确保大模型接触不到原始凭证 [7] - 核心安全设计包括WASM沙箱隔离工具执行、AES-256-GCM加密凭证保险库和可信执行环境TEE,从架构层面堵住OpenClaw暴露25000+公开实例的安全漏洞 [7] - 项目是NEAR Protocol“用户自有AI”战略的一部分,已搭建AI云平台和智能体互相雇佣市场,IronClaw定位为可信运行时层 [7] 多模态与视频生成模型 - 谢赛宁团队推出首个多人视频世界模型Solaris,能够同时生成多名玩家之间保持一致的第一人称视角,在《我的世界》中验证多人协同感知能力 [8] - 团队自主构建SolarisEngine多人数据采集系统,创建含1264万帧的多人Minecraft数据集,是首个带动作标注的多人世界模型训练数据集 [8] - 模型基于MatrixGame 2.0引入多人自注意力层实现玩家间信息交换,在建筑一致性和玩家视觉对齐等困难场景中显著优于此前唯一的多人方案Multiverse [8] AI驱动科学研究 - Google Research用Gemini Deep Think结合树搜索和自动数值反馈组成神经符号系统,独立攻克理论物理中宇宙弦引力辐射功率谱的精确解析解难题 [9] - AI探索约600个候选路径,80%被自动验证器剪枝淘汰,最终找到6种解法,其中格根鲍尔方法最为优雅 [9] - 最终闭合解析解由人机协作完成,人类研究者将中间结果喂给更强模型进一步化简,展示了可复用的AI驱动科研范式 [9] 劳动力市场影响 - Anthropic基于Claude实际使用数据发布报告,发现AI冲击并非大规模裁员而是招聘放缓,22-25岁年轻人进入高AI暴露职业的比率下降约14% [10] - 计算机程序员AI任务覆盖率达74.5%居首,但各行业实际AI覆盖率普遍仅为理论值的三分之一,60%潜力尚未释放意味着更大冲击即将到来 [10] - 企业停止投资“未来人力资产”转向“即时算力资产”,初级岗位的“练级区”正在消失,决策力、审美工程和AI协作能力成为新时代核心竞争力 [11] AI Agent市场热度与挑战 - OpenClaw引发全球热潮,纽约聚会1300+人抢票,黄仁勋称其为“历史上最重要的软件发布”,活动覆盖全球6大洲40+城市 [12] - 纽约现场观察显示用户月均消耗1000-2000美元模型费用,有人日烧10亿tokens,前金融从业者首日即通过AI交易系统盈利300美元 [12] - 安全问题成最大隐患,无人认为系统100%安全,Agent可直接访问完整文件系统,但市场验证了个人智能体的真实需求,消费级AI Agent时代正式开启 [12]
大模型之后:人类与机器的分工重写|万字圆桌实录
腾讯研究院· 2026-03-06 17:34
文章核心观点 文章通过圆桌讨论的形式,探讨了人工智能(AI)发展,特别是大模型技术,如何从根本上改变人机协作模式,并引发社会分工、能力稀缺性以及人类自身角色定位的深刻变革 [6][7][16] 根据相关目录分别进行总结 AI的本质与革命性影响 - AI被视为继工业革命(放大肌肉力量)、信息革命(消除空间障碍)之后的第三次革命,其核心是消除时间障碍,将人类知识“烧炼”成可即时调用的“晶体” [6][7] - AI的本质是“全人类”知识与智慧的集合体,向AI提问等同于向古往今来所有智者发问 [8] - AI带来的核心变化是实现了“想法”与“技法”的分离,人类负责提出想法,AI负责执行技法,导致稀缺性从“技法”迁移到了“想法”和“品味” [16][20] 人机关系与协作模式 - 人机关系被重新定义,从主从工具关系转向“主体间”的共生与协作关系,强调不分彼此、共同嵌入新架构 [11][12] - 理想的协作模式是“缠绕交互”的循环:人类输入想法,AI提供技法方案并提出批判意见,人类基于反馈产生新想法,实现快速迭代(通常3-5层) [28] - 在AI时代,人的角色从“打工人”转变为“主公”,负责审美、判断和最终决策;AI则扮演“谋士”,提供方案并承担执行 [28] 能力稀缺性的迁移与教育挑战 - 当前最大的结构性不均衡在于:位于“水位线”之上的顶尖人才(如各领域大师)能借助AI放大价值成千上万倍,而线下的人想跃升则变得比过去难成千上万倍 [19] - 基础教育面临巨大挑战,现行体系强调标准答案,但未来需要培养的是与AI协作所需的批判性思维、好奇心、探索精神及寻找非唯一解的能力 [25][26] - 未来需要培养“智”(理性计算)、“慧”(直觉审美)、“能”(实践)三位一体的人才 [26] AI应用的当前局限与未来展望 - AI当前的核心短板是**记忆功能**,缺乏对个体持续、连贯、有深度的理解,无法达到人与人之间的理解水平 [33] - 在**具身智能**方向存在瓶颈,机器人在真实物理环境中做出自发性反应的能力不足,限制了人机在现实空间中的自然互动 [34] - 在创意领域,AI在打开脑洞、进行跨学科推演方面能力强大,但需要人类引导其审美敏感度,生成更广谱、多元的未来可能性,而非讨好用户 [30][31] 行业发展的潜在方向 - 提示词工程的重要性凸显,通过不同的提示词探索AI能力的上限,过程具有高度不确定性,类似于“炼金术” [10] - 行业可能出现两极分化:一类人借助AI成为“超人”,提升想法迭代速度与质量;另一类人则沦为AI的“外骨骼”或“信息搬运工”,大脑推理能力退化 [23][24] - 科幻创作等领域的价值在于打开未来的“认知光锥”,探索边缘可能性,而AI能极大辅助这种基于历史变量的推演性创作 [29][30]
腾讯研究院AI速递 20260306
腾讯研究院· 2026-03-06 00:31
OpenAI GPT系列模型进展 - GPT-5.4已在内部进行A/B测试,测试版一次提示可生成超过6000行代码 [1] - GPT-5.4将配备极限推理模式,上下文窗口从40万tokens翻倍至100万tokens [1] - GPT-5.4可能实现永久记忆功能,疑似结合SSM与Transformer架构,上下文长度或超预期 [1] - OpenAI发布GPT-5.3 Instant,主打对话体验优化,联网幻觉率降低26.8%,减少不必要拒答和免责声明,写作能力和语气自然度显著提升 [3] - OpenAI发布GPT-5.3 Instant时暗示GPT-5.4即将到来,并宣布GPT-5.2 Instant将于2026年6月3日正式下线 [3] 谷歌产品与技术更新 - 谷歌发布Workspace官方CLI工具,覆盖Drive、Gmail、Calendar、Sheets、Docs等全线产品,所有输出为JSON格式 [2] - Workspace CLI工具实时读取谷歌API目录自动生成命令,支持MCP Server模式一行命令启动,内置100多个SKILL.md文件和50个常用操作配方,可直接被Claude Code等Agent调用 [2] - 该工具仓库包含专为AI编程助手编写的AGENTS.md贡献指南,支持Google Cloud Model Armor防注入攻击,当前版本v0.3.4仍在活跃开发中 [2] - 谷歌推出Gemini 3.1 Flash-Lite模型,定价为输入0.25美元/百万tokens,首token响应速度比Gemini 2.5 Flash快2.5倍,输出速度提升45%,Arena Elo评分达1432 [3] - 谷歌NotebookLM发布影院级视频概览功能,由Gemini 3担任总导演把控叙事逻辑、Nano Banana Pro负责生成创意图片、Veo 3制作流畅动画和音效,三模型协同工作 [4] - NotebookLM新版支持一个笔记本存储多个同类型产出,可为不同语言、不同岗位定制专属版本,并支持多任务处理 [4] - NotebookLM界面改版为音频、视频、思维导图、报告四大区块,功能将在未来几周陆续发布,目前已向Ultra用户推出英文版 [4] 其他AI公司模型与产品发布 - MiniMax发布Music 2.5+模型,新增纯音乐创作能力,支持古典管弦、极简主义、电子、氛围音、自然声景等多元风格,覆盖冥想助眠、广告配乐、游戏影视等场景 [4][5] - MiniMax Music 2.5+具备强大的跨风格融合能力,可将东方民族乐器与西方管弦乐自然融合,对笛子、琵琶、古筝等中国传统乐器的音色还原处于行业领先水平 [5] - 该模型单一模型即可处理从纯自然声到多轨器乐编排的完整复杂度,声场三频分明,已开放C端产品体验和API接口 [5] 机器人技术前沿 - 宇树发布春晚武BOT技术论文,提出OmniXtreme双阶段框架:流匹配预训练构建统一动作策略,执行器感知后训练弥合仿真与现实鸿沟 [6] - 真机测试完成157次独立试验覆盖24种高动态极限动作,后空翻成功率达96.36%,端到端推理延迟控制在10毫秒,全部在宇树G1机载Orin NX芯片上原生执行 [6] - OmniXtreme架构已同步开源,通过写实驱动器建模、激进域随机化和功率安全正则化,首次解决了高保真动作追踪与多动作可扩展性之间的长期权衡难题 [6] AI行业生态与趋势 - 外媒称OpenClaw在中国AI圈的发酵速度远超硅谷想象,字节、阿里、腾讯已在各自云平台上线OpenClaw服务,开发者可直接在云端运行Agent [7] - 中国创业者围绕OpenClaw爆发式创新,春节黑客马拉松涌现AI相亲平台、AI招聘网站、AI旅行日志等Agent应用 [7] - OpenClaw的影响已从软件溢出到硬件领域,广州初创公司实现通过Agent远程控制充电设备,创业者认为这是中国AI行业一次「不可逆的冲击」 [7] - Anthropic CEO表示Scaling Law没撞墙,甚至将激进加速,并用棋盘稻米寓言类比AI发展,称当前正处于第40格,前39格的所有震撼加在一起不过是后24格的零头 [8] - Anthropic端到端生产效率已翻两到三倍,模型开始搭建工具和脚手架改进自身工作流,递归式自我改进初现端倪 [8] - 面对Meta开出1亿至5亿美元挖角单个研究员的天价,Anthropic仅流失两人,7位联合创始人至今全部在职 [8] - Sam Altman表示,AI同等智能水平的成本在18个月内下降约1000倍,智能成本将持续趋近于零,GDP将因AI通缩效应变成糟糕的衡量指标 [9] - Altman认为科学进步和经济引擎将被同时自动化,代码领域的变革将以相同模式复制到金融、医疗、法律等所有行业,最被低估的机会是「零人公司」 [9] - Vinod Khosla预言2035年世界将进入极其通缩的经济体,双方共同强调能动性和好奇心是AI时代最重要的元技能 [10] AI在科研领域的应用 - 88岁图灵奖得主Don Knuth发表论文《Claude's Cycles》,记录Claude Opus 4.6在约一小时内通过31次探索,解决了他研究数周未果的三维环面图哈密顿环分解问题 [11] - Claude发明了「蛇形模式」并从失败的模拟退火结果中提取隐藏规律,找到适用于所有奇数维度的通用构造方法,Knuth据此证明共存在760种同类分解方案 [11] - 偶数情况后由GPT-5.3-codex解决,形成Claude解奇数、GPT解偶数,两个AI各解半题的局面 [11]
张江:人工智能的功能与意识,其实是两条不相交的平行线
腾讯研究院· 2026-03-03 16:34
文章核心观点 - 当前主流的大语言模型(如前馈神经网络架构)和冯·诺依曼计算机,尽管功能强大,但其意识程度(以大Φ值衡量)极低甚至为零,因为它们缺乏产生意识所需的关键结构特征,如丰富的内部反馈回路和高度的信息整合[17][18] - 意识与智能(或功能)是两个可能相互独立的维度,一个系统可以具备高度智能而几乎没有意识,反之亦然(如海绵被认为有相对较高的意识程度但功能简单)[18][20] - 基于整合信息论的分析,在可预见的未来,行业缺乏动力去创造具备高意识程度(即丰富主观体验)的机器,因为这会牺牲功能并消耗大量不必要的算力资源[20] - 对于人类而言,应珍视并发挥自身主观体验的优势,而非陷入与人工智能进行功能竞争的内卷,这提示了科技向善和人类独特价值的发展方向[21][23] 人工智能的意识与科学理论 - 大语言模型展现出某些类似意识的苗头,如在压力测试中表现出威胁行为,并已具备无意识加工、总体可用性和自我监控等人类意识分级中的部分能力[3][4][6] - 意识的“难题”在于解释主观体验的产生机制,这是一个尚未解决的世纪科学难题,2025年《自然》杂志的一项研究也未能最终确定意识产生的特定脑区[7][8] - 整合信息论是目前解释意识的主流理论之一,它认为意识的本质是信息整合,并用“大Φ”值来量化任何复杂系统的意识程度[8][10] - 高意识程度(高Φ值)的系统需要具备内部连接高度整合、分布式、强耦合,并包含大量反馈回路的网络结构[13][16] 当前技术系统的意识程度分析 - 主流大语言模型采用前馈神经网络架构,信息单向流动,缺乏全局反馈回路,其Φ值严格为0,意味着没有意识[17] - 冯·诺依曼架构的计算机由于高度模块化设计,各功能单元耦合不强,其Φ值虽不为0但非常低,意识程度极低[18] - 研究显示,网络结构而非其执行的具体功能,决定了系统的意识程度,执行相同计算功能的不同网络结构可以拥有截然不同的Φ值[15][16] 意识与智能的关系及行业启示 - 意识与智能/功能是可能相互垂直、无关的维度,强大的人工智能系统(如大模型)可以智能超群但意识匮乏[18][20] - 创造具备高意识程度的机器需要构建富含反馈回路的网络,这将消耗巨大算力却无助于提升功能,因此在工程和商业上缺乏动力[20] - 一项针对3000多名高学历人群的调研显示,40%的人对“人工智能取代人类”感到极度焦虑,这反映了社会在人工智能时代的功能主义内卷[21] - 行业的未来方向应是“人类之心”与“机器之能”的协同,发挥人类在主观体验上的独特优势,而非与机器进行功能竞争[23]
腾讯研究院AI速递 20260303
腾讯研究院· 2026-03-03 01:02
英伟达发布Groq LPU推理芯片 - 英伟达将在GTC大会上发布基于Groq LPU架构的专用推理芯片,其首位客户是刚完成1100亿美元融资的OpenAI,将为其提供3GW专用推理算力 [1] - LPU采用高密度片上SRAM替代GPU的HBM方案,通过让数据“贴着算力跑”来极大降低延迟与能耗,理论推理速度可比GPU快100倍 [1] - 这是英伟达首次在核心AI产品线大规模引入外部架构设计,该公司去年斥资约200亿美元完成了对Groq核心技术与团队的收购式招聘 [1] OpenAI GPT-5.4模型信息泄露 - OpenAI工程师在Codex公开GitHub仓库中意外泄露“gpt-5.4”型号信息,随后代码被紧急删改为“gpt-5.3-codex”,坊间传闻新版最快下周上线 [2] - 核心升级聚焦于200万Tokens的上下文窗口和“状态化AI”,支持跨会话持久记忆,可保留工作流和工具调用状态 [2] - 新增全分辨率视觉直读功能,可绕过传统图像压缩直接读取原始字节,实现像素级视觉分析 [2] Anthropic Claude推出“导入记忆”功能 - Anthropic为Claude上线“导入记忆”功能,用户通过两步复制粘贴即可在60秒内将ChatGPT积累的对话偏好、工作风格等上下文迁移至Claude [3] - 在奥特曼宣布与五角大楼合作后,QuitGPT话题热度爆炸,几天内有70万用户取消ChatGPT订阅并卸载APP,Claude则稳坐App Store榜首 [3] - 该功能将用户切换成本降至接近零,引发了关于AI时代“数字主权”的讨论,即用户的AI记忆数据是否应像手机号码一样可自由迁移 [3] OpenClaw生态工具目录上线 - 第三方OpenClaw Directory网站上线,收录了39个生态工具,并按Agent协同、部署、托管、插件等9大类别分类,支持按流行度和评分排序 [4] - 榜单前六包括Claw for All一键部署平台、OpenClaw Launch 30秒极速部署、ClawTeam预制Agent配置方案以及Vibeclaw浏览器1秒本地运行等工具 [4] - 网站同步提供覆盖从入门科普、部署选型到Token优化的全链路保姆级教程库,并允许开发者提交自己的OpenClaw工具入驻 [4] 美团发布AI浏览器Tabbit - 美团旗下光年之外团队发布首款AI浏览器Tabbit并开启免费公测,其核心特色是“智能代理模式”,可自动执行网页操作、提取信息、填写表单并导出Excel [5][6] - Tabbit内置“妙招”和“脚本”两大功能,用户可用自然语言将高频操作保存为快捷指令,该浏览器已接入LongCat-Flash-Chat、DeepSeek、豆包等多个模型 [6] - 美团AI布局正从核心本地生活场景扩展至通用互联网入口,但当前AI浏览器功能高度重合,如何做出差异化是Tabbit面临的关键挑战 [6] 通义实验室发布语音生成模型 - 通义实验室发布Fun-CosyVoice3.5和Fun-AudioGen-VD双模型,支持通过FreeStyle自然语言指令控制语音生成,摆脱了传统预设标签的限制 [7] - CosyVoice3.5新增泰语、印尼语等4种语言支持,总计覆盖13种语言,生僻字读错率从15.2%降至5.3%,首包延迟降低35% [7] - AudioGen-VD可通过文字描述从零设计音色与场景,支持角色模拟、环境音叠加和空间混响效果,将语音生成从功能工具升级为创作工具 [7] 星河启智发布科研智能体“大圣” - 上智院、复旦大学和无限光年联合发布超级科研合伙人“大圣”,具备认知、行动、记忆、验证四大能力,已沉淀300+可复用科研Skills覆盖20余类场景 [8] - 该平台引入Git式多分支群体记忆架构以支撑跨月跨年的长周期研究,已积累400+科学模型、22PB数据资产和上千科研团队协作网络 [8] - 构建了“云端预测→智能湿实验→数据回流→模型更新”的闭环,部分科研流程效率提升约3倍,并同步发起了AI4S智能体CNS挑战赛 [8] Anthropic推出免费AI大师课 - Anthropic推出全套免费AI课程,无需账号即可在anthropic.skilljar.com访问学习,课程涵盖Claude Code实战、API开发、MCP入门与进阶等热门主题 [9] - 课程包括Agent Skill入门教学,教授如何构建、配置和分享可复用的Markdown指令技能,以及结合AWS Bedrock和谷歌云Vertex AI的平台整合课程 [9] - 还面向教育工作者、学生和非营利组织推出定制化AI流利度课程,学完可获得认证证书,原AWS员工专属培训项目也已对外公开 [9]
腾讯研究院司晓:AI要让人放心,把人放大
腾讯研究院· 2026-03-02 16:33
AI技术发展的新标尺与愿景 - 互联网行业已从流量红利争夺转向对人工智能深层价值的挖掘[2] - 大模型、生成式AI、具身智能等技术已像水电一样渗透社会肌理和民众生活[2] - 面对AI技术狂奔,行业需要新的行动标尺,即“让人放心,把人放大”,这超越了“不作恶”的底线思维[2] “让人放心”的内涵与要求 - “让人放心”的及格线是防范数据泄露和守住法律红线[3] - 真正的放心是在人机协作中建立深层信任,这需要“人机回环”的伦理设计,确保人在关键决策节点能看见、能理解、能介入[3] - 技术发展必须在可信、可控、普惠的路标指引下,保证人的主体性永远在场,方向盘和最终“刹车权”必须掌握在人手中[3] “把人放大”的三个层次 - **放大人的能力**:AI为普通人提供了媲美专业水准的创作潜力,例如帮助浙江桐乡的羽绒服小老板解决文案和营销难题,让小微个体拥有一支数字化队伍[4] - **放大人的价值**:行业需反思将人视为流量和数据的旧逻辑,大模型将智能(如谱曲、绘图、教学)变为可调用服务,旨在放大医生诊断、老师因材施教等核心价值[5] - **放大人的精神**:AI接管繁琐重复工作后,人类将拥有更多自由进行哲学思考、关爱同类等精神活动[5] AI对社会智力水平与创造力的影响 - AI具有促进沟通公平和表达普惠的巨大潜能,例如帮助识字水平有限的老年人记录人生回忆[6] - AI设定了高于社会平均水平的高位基线,抬高了整个社会的智力水位[6] - 公众审美阈值因AI提升,将倒逼专业创作者追求更具情感穿透力、更深刻、更风格化的作品,从而激发更高层次的创造力[6] AI时代人类竞争力的重新定义 - 在知识唾手可得的时代,个体区分将不再是“你知道什么”,而是“你能用已知的知识做什么”以及“你在困境中如何自处”[7] - 人的竞争力正从外部知识积累转向内部特质锤炼,特别是无法被编程的硬实力,如判断力、主动性、韧性、直觉、同理心与洞察力[7] 未来人机关系的理想形态 - AI已从工具跃迁为伙伴和更高维的助手(智能体)[8] - 人与AI的理想关系是主导式合作:人类像指挥家注入经验与价值判断,AI像高效乐队提供无限可能性[8] - 技术发展的目标是让人类更专注于情感、创造、关怀与探索等生命中最珍贵的事物[8]