Workflow
腾讯研究院
icon
搜索文档
守护克孜尔
腾讯研究院· 2025-11-03 18:59
克孜尔石窟的历史与文化价值 - 克孜尔石窟是龟兹文化的核心遗存,龟兹作为古丝绸之路北道重镇,是中原、印度、希腊、波斯等多元文化交汇的枢纽 [1] - 克孜尔石窟开凿始于公元3世纪末,延续约六个世纪,现存洞窟349个,壁画近4000平方米,被称为"中国石窟艺术的起点",其题材和风格影响了敦煌、云冈、龙门等后期石窟 [2] - 龟兹是佛教进入中国的第一站,并在公元4–8世纪发展为西域佛教中心,佛教的传入不仅带来宗教,更带来了算术、逻辑学、医学等一整套知识体系,催化了中国文明进入"2.0"阶段 [1][16] - 龟兹地区经济发达文明程度高,壁画中展现了"二牛抬杠"等农耕场景以及发达的乐舞文化,文献记载"龟兹管弦伎乐特擅诸国",壁画中的乐器如琵琶在龟兹演变为曲颈的"龟兹琵琶" [19][22][25] 克孜尔石窟面临的保护挑战 - 石窟遭受了多重破坏:自然因素如风沙地震雨水侵蚀砂砾岩体;公元十世纪前后的宗教更迭导致部分壁画被刻意损毁;20世纪初德国日本等探险队系统性切割盗运了大量壁画,目前有465块壁画散落在8个国家的20多家博物馆中 [2][3] - 克孜尔石窟的社会知名度和受关注程度与其巨大的历史艺术价值严重不匹配,资源支持相对欠缺,其残缺程度较高,解读难度大 [3][58][59] 数字化与AI技术在文物保护中的应用 - 克孜尔的保护工作已进入新阶段,除传统物理保护外,数字化技术发挥关键作用,从2011年开始尝试,至2024年已有22个洞窟完成了数字化扫描 [29][32] - 2024年克孜尔石窟入选腾讯"探元计划2024",探索应用AI大模型技术识别与复原残缺壁画纹饰图案,并利用太赫兹时域光谱技术攻克烟熏壁画的辨识难题 [3][39][55] - AI技术在纹饰图案这类具有重复性、可复制性的修复工作中效率高,能敏锐捕捉到人工难以察觉的细节差异和色彩氧化程度 [43][44][45] - 文物保护需要"人工+人工智能"结合,AI处理大量机械性、基础性工作,而创造性补全等艺术性高、研究性强的工作仍需文物修复专家完成 [49][50][52] 文化遗产的可持续保护与展示模式 - 为解决开放与保护的矛盾,克孜尔石窟研究所在距离石窟7公里处建设9800平方米的龟兹石窟数字展示中心,将科技成果落地,通过数字复原洞窟向游客展示,缓解实体石窟的游客压力 [64][65] - 数字化展示虽能提供清晰影像,但难以完全替代实地体验,如洞窟内特定的温度、气场以及文物在真实世界中的空间关系和周边环境 [68][69][75] - 提升克孜尔的知名度是关键,其在学术界被誉为中国石窟艺术的"研究生院"和"源头",但在大众层面的认知度有待提高,需要更多讲述其故事以获取支持 [58][61][76]
腾讯研究院AI速递 20251103
腾讯研究院· 2025-11-03 00:06
AI驱动的代码安全与漏洞修复 - OpenAI发布由GPT-5驱动的白帽智能体Aardvark 能自动发现并修复代码库安全漏洞 已识别92%的已知与人工注入漏洞 [1] - Aardvark工作流程运用LLM推理能力 包括威胁建模、提交扫描、沙盒验证和Codex修复 不依赖传统程序分析技术 [1] - 谷歌、Anthropic、微软等科技巨头在10月密集发布类似白帽智能体 以应对AI时代漏洞数量激增和攻击手段智能化的挑战 [1] 中国开源AI模型的商业化应用 - AI编程应用Cursor和Windsurf新发布的Composer-1和SWE-1.5模型被发现可能基于中国模型 [2] - Cursor Composer-1使用与DeepSeek相同的分词器 Windsurf被证实基于智谱开发的GLM模型 [2] - 中国开源模型在性能榜单占据TOP5甚至TOP10 物美价廉成为初创公司的理性选择 [2] 大模型注意力架构的技术演进 - 线性注意力机制正在回归 MiniMax-M1、Qwen3-Next、DeepSeek V3.2等国产模型引领采用线性或亚二次方注意力变体 [3] - MiniMax新模型M2放弃线性注意力回归常规注意力 团队解释线性注意力在推理和多轮对话任务中存在明显精度问题 [3] - Kimi Linear提出混合注意力策略 每三个线性注意力块搭配一个全注意力块 实现75%KV缓存缩减和最高6倍解码吞吐量提升 [3] Canva的AI战略与市场定位 - 估值420亿美元的Canva推出自训练基础模型 能输出带可编辑图层的完整设计文件 并将收购的Affinity永久免费开放 [4] - 核心功能Ask @Canva深度嵌入设计界面每个角落 用户可用自然语言修改任何元素 AI还能对整个设计提出改进建议 [4] - Canva年化收入约30亿美元且持续盈利 月活超2.4亿 市场预期将在2026年正式IPO 直接对标Adobe的70%市场份额 [4] Neuralink的脑机接口商业化进展 - 马斯克表示首位Neuralink接受者Noland Arbaugh可能首个接受升级或植入双芯片 预言Neuralink接受者最终能在游戏中击败所有人 [5] - Neuralink已有12名用户累计使用超2000天总活跃时间超1.5万小时 首批3位试验者研究成果已提交《新英格兰医学杂志》 [5] - 公司启动新临床试验"思维转文字" 目标到2031年实现每年植入2万人 年营收突破10亿美元 2030年开始应用于健康个体 [5] 大模型在医疗健康领域的应用潜力 - 斯坦福大学等研究团队测试15种主流模型对言语障碍识别 目前表现最佳模型准确率仅55%未达FDA要求的80-85%临床标准 [6] - 研究发现模型存在性别、年龄和语言偏见 对男性语音识别优于女性 英语使用者优于其他语言 年长儿童优于幼龄儿童 [6] - 微调技术带来突破口 利用小型儿童语音数据集微调后模型性能准确率提升10% 展现多模态语言模型在言语病理学应用潜力 [6] 企业级AI工作流重构与组织变革 - 估值123亿美元的Brex将内部AI平台当产品打造 基于Retool构建并复用外部产品AI能力 由25人系统工程团队维护运营 [7] - COO重构运营团队工作流 L1工作全交给AI L2从管理人变为管理Agents L3从解决问题变为设计系统 预测运营效率可提升5到10倍 [7] - 招聘策略从青睐"专才"转向"通才" 面试中询问AI使用习惯、要求提交AI案例研究、给出真实业务挑战评估AI应用能力 [7] OpenAI与微软的战略合作深化 - OpenAI完成重组 非营利基金会持有价值1300亿美元股份成全球最大慈善基金之一 首批投入250亿美元用于医疗健康和AI安全 [8] - 新协议明确OpenAI当前及未来AGI模型API将在7年内独家部署Azure 微软持有OpenAI约32.5%股份价值约1350亿美元 [8] - 双方签下2500亿美元Azure预购合同 微软上季度资本开支高达349亿美元较前一季度猛增40% 主要投向新建数据中心和采购AI芯片 [8] OpenAI内部治理与领导层变动 - Ilya Sutskever在马斯克起诉OpenAI案中作证近10小时 [9] - Ilya提交52页备忘录详细记录Altman"问题行为" 指控其欺骗董事会、挑拨离间、制造混乱和纵容Anthropic成长 [9] - 解雇Altman后董事会曾严肃探讨与Anthropic合并可能性 拟让Dario Amodei担任CEO 但因实际操作障碍和700名员工兵变而流产 [10]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-11-01 10:33
芯片领域 - 英伟达推出Vera Rubin芯片[3] - 高通发布新AI推理方案[3] 模型进展 - OpenAI发布安全分类模型[3] - Cursor推出自研Composer模型[3] - Thinking Machines研究同策略蒸馏技术[3] - 英伟达开发OmniVinci模型[3] - MiniMax发布M2模型[3] - 北京智源推出悟界·Emu3.5模型[3] - OpenFold Consortium发布OpenFold3模型[3] 应用创新 - Sora推出角色客串功能[3] - MiniMax发布MiniMax Speech 2.6应用[3] - Soul AI Lab推出SoulX-Podcast应用[3] - Adobe发布Firefly Image 5应用[3] - 腾讯混元推出交互式AI播客应用[3] - PayPal将数字钱包嵌入AI应用[3] - Windsurf等应用接入中国大模型[3] - xAI推出Grokipedia应用[4] - Anthropic发布Claude for Excel应用[4] - 特斯拉开发世界模拟器应用[4] - 美团推出LongCat-Video应用[4] - 火山引擎发布豆包视频模型应用[4] - 昆仑万维推出网页复刻应用[4] - xAI发布新AI虚拟女友应用[4] - OpenAI推出公司知识应用并进入AI音乐赛道[4] - 腾讯发布ima 2.0应用[4] - 阿里推出夸克AI眼镜应用[4] 科技前沿 - 1X Technologies推出NEO家用机器人[4] - Hugging Face发布LeRobot v0.4.0[4] - Merge Labs开发超声波脑机接口[4] - Neuralink推出PRIMA人工视觉技术[4] 资本动态 - OpenAI有上市计划并进行资本结构重组[4] - OpenAI收购SAI公司[4] 行业观点 - Anthropic提出AI内省迹象观点[4] - 田渊栋提出AI顿悟观点[4] - Yoshua Bengio提出AGI新定义[4] - OpenAI公开技术路线图并关注心理健康数据使用[4] - 硅谷出现AI高强度工作趋势[4] - DeepMind提出DiscoRL算法观点[4] - ChatGPT采用聊天诱饵策略[4] - AWS提出对开发者未来的展望[4] 行业事件 - 日本呼吁AI版权保护[4] - Yoshua Bengio研究获得百万引用[4]
中国算力芯片的“新十年”
腾讯研究院· 2025-10-31 16:03
处理器芯片发展历程与趋势 - 过去40年处理器芯片发展呈现螺旋式路径:自研-放弃自研-重新自研 [6] - 近5年整机和平台厂商重新加入芯片战争,趋势从以CPU为中心的同构计算转向CPU联合xPU的异构计算 [6] - "十五五"规划建议稿强调加快科技自立自强,聚焦半导体等关键技术环节 [7] 指令集架构的市场格局与演进 - 当前CPU领域由两种指令集主导:PC和服务器领域的x86架构与智能手机领域的ARM架构 [11] - x86架构特点为指令复杂、性能高但功耗大,主导厂商为英特尔和AMD [12] - ARM架构特点为指令简单、功耗效率高,主要应用于移动设备 [12] - RISC-V架构为开源模式,可定制但存在碎片化问题,核心厂商包括SiFive、Andes、阿里平头哥等 [12] - 历史上许多创新架构如i860/i960、68000、PowerPC等逐渐凋零,x86胜出靠的是向高端RISC学习并不断扩展指令子集,以及PC与服务器芯片出货量大的规模效应 [13] - 架构创新的根本挑战在于经济规律,软件生态的统治力难以颠覆,例如英特尔和惠普联合开发的IA-64安腾处理器耗资巨大最终未能成功 [13][19] 计算体系结构的发展与挑战 - 摩尔定律逐渐失效后,业界依赖增加晶体管数量并行提升性能,如增加数据位宽、功能部件和处理器核数量 [16] - 计算机体系结构分为激进结构(完全动态优化)、保守结构(静态优化)和折中结构(动静态结合优化) [17] - 高端CPU常采用激进结构但复杂且易受硬件漏洞攻击,业界更倾向于通过增加处理器核数量的众核结构来提升性能 [18] - 众核xPU芯片(如英特尔Xeon Phi、Google TPU、GPGPU)大规模应用需解决生态系统问题,英伟达CUDA拥有成熟的并行软件生态是其优势 [18][19] - 2009至2018年,x86软件开发费用持续上升,2018年全球投入高达600亿美元,而同期全球服务器硬件总收入为800亿美元,软件投入远超硬件 [20][21] ARM架构的机遇与RISC-V的挑战 - ARM服务器打破x86垄断的机遇在于:掌控全栈技术的大厂(如苹果、亚马逊)放弃x86进行生态迁移,以及端云融合使ARM终端优势蔓延至云端 [24] - RISC-V目前商业化成功领域集中于软件简单的嵌入式场景,如微控制器和存储类产品 [26] - RISC-V硬件生态不成熟,缺乏有竞争力的高性价比处理器核和支持多核互连的高性能片上网络,且ARM不单独授权片上网络IP [26] - 尽管跨平台语言和虚拟机技术发展,但硬件指令的直接支持对性能、能效比至关重要,英特尔持续扩展指令集(如SGX、AVX512、AI扩展指令集) [27] - 业界软件主要针对英特尔CPU优化,即使同为x86的AMD CPU支持软件配置种类也较少,阿里公有云平台仅使用英特尔CPU产品 [27] - RISC-V进入通用计算平台仍有漫长路程 [28] 自研芯片的模式与成功关键 - 云厂商自研芯片模式可行,因其盈利基础在于增值服务而非硬件,且掌控全栈软硬件使生态移植困难较小,自身规模大可负担研发费用 [30] - 苹果公司实现核心产品线处理器全线自研(手机A系列、平板/PC的M系列、手表W系列、耳机H系列),是成功案例 [31] - 苹果自研成功关键在于配合自研系统软件优化用户体验,并通过营销形成高端形象,而非仅聚焦纸面参数 [32] - 软件生态投入大于硬件研发,软件掉队会导致硬件利用率不高,如部分国产智算中心投资规模大但实际利用率低 [33] 中国算力芯片的发展路径 - 未来五年十年国产算力芯片的突破口在于指令系统结构的统一 [7] - 建议将RISC-V作为统一指令系统,所有CPU/GPU/xPU基于RISC-V及其扩展开发,以推动架构创新、扩大规模效应并高效利用研发资源 [7][36] - 体系结构创新可在现有指令系统框架内实现,例如Tenstorrent基于RISC-V扩展AI子指令集开发AI加速方案,或扩展密码学子指令集支持后量子密码 [35] - 统一指令集可避免重复劳动和研发资源浪费,是应对软件生态高投入挑战的关键路径 [36]
腾讯研究院AI速递 20251031
腾讯研究院· 2025-10-31 00:06
OpenAI技术进展与战略 - 开源gpt-oss-safeguard安全分类模型,包含120B和20B版本,采用Apache 2.0许可证,无需重新训练即可直接理解策略文档进行内容分类 [1] - 该模型在内容审核评估集和ToxicChat数据集上表现超越GPT-5-thinking,达到行业最佳性价比 [1] - OpenAI内部Safety Reasoner原型技术已用于图像生成和Sora 2等产品,安全推理算力消耗占比高达16% [1] - OpenAI计划最早于2026年下半年提交上市申请,2027年挂牌,拟通过IPO募集至少600亿美元,估值或高达1万亿美元 [6] - 架构重组后非营利组织持有新组建的OpenAI集团26%股权,微软获得额外2500亿美元Azure采购合同,技术使用权延长至2032年 [6] AI开发工具与平台更新 - Cursor发布2.0版本,推出自研编码模型Composer,生成速度达每秒250个token,是同类前沿系统的4倍 [2] - Composer模型采用混合专家架构,通过强化学习针对软件工程优化,在Cursor Bench评测中达到前沿水平 [2] - 新版界面支持多智能体并行协作,基于git worktree或远程机器实现不同模型同时处理任务,并增加原生浏览器工具 [2] - Sora推出角色客串功能,可保持非人类角色一致性,并支持从生成视频中提取虚拟角色实现自循环 [2] - Sora新增视频拼接功能和社区排行榜,并在美国、加拿大、日本和韩国四国限时取消邀请码限制直接开放注册 [2] 语音与多模态AI技术突破 - MiniMax Speech 2.6端到端延迟低于250毫秒,已成为LiveKit、Pipecat、Vapi等全球语音平台的底层技术引擎 [3] - 新版本支持多语言的网址、邮箱、电话等非标准文本格式直接转换,无需繁琐文本预处理 [3] - 提供Fluent LoRA功能,即使带口音或不流利的非母语录音也可在音色复刻时生成流利自然语音,支持40多种语种 [3] - 北京智源发布悟界·Emu3.5多模态世界大模型,基于34B稠密Transformer在超10万亿Token上预训练 [4] - 模型采用"下一状态预测"目标,在图像编辑任务上达到与Gemini-2.5-Flash-Image相当性能,并通过DiDA技术将图像推理速度提升近20倍 [4][5] 前沿科学研究与发现 - OpenFold Consortium发布OpenFold3预览版,基于超30万实验结构和1300万合成结构训练,可预测蛋白质与小分子配体、核酸等相互作用 [7] - 在单体RNA结构预测中性能匹敌AlphaFold3,所有组件采用Apache 2.0许可证允许商用,诺和诺德等公司已计划利用该模型加速研发 [7] - Anthropic研究发现Claude能察觉并报告被人为注入的概念,在最强模型上内省成功率达20% [8] - 研究通过追溯性注入概念篡改AI的"记忆",发现模型会基于伪造的内部状态为自己的"错误"进行辩护和杜撰理由 [8] - 前Meta FAIR负责人田渊栋发表Grokking研究,证明模型仅需O(M log M)样本即可实现泛化,远低于传统M²的需求 [8]
老年人怎样用活法定义算法:1年100人1场实践
腾讯研究院· 2025-10-30 17:13
研究项目概述 - 复旦大学老龄研究院、复旦大学AI向善与数智养老研究中心与腾讯SSV时光实验室、腾讯研究院共同发起为期一年的研究项目,旨在探索大模型技术在老年人群体中的应用[2] - 研究采用纵贯1年的"教-用-追-访"全流程实践设计,邀请100位老年人试用腾讯元宝、通义千问等6款用户数排名靠前、界面设计差异化的国产大模型[6] - 通过系统化设计还原大模型技术进入老年人生活的完整路径,为理解"人工智能技术与老年人的关系"提供经验支持与参考[6] 研究方法与数据收集 - 研究采用"线下一对一"与"线上+线下一对一"交流方式,避免群体教学中老年人"不敢提问""跟不上节奏"的问题[10] - 研究分为四个阶段:基线调研期(2024年6-8月)、集中教学期(2024年9月-2025年3月)、日常跟踪期(2025年4-9月)、总结复盘期(2025年10月)[10][11] - 构建了10236条有效语料的多维度数据库,涵盖"老年人-家属-照护者"的全场景视角[12] - 语音记录8860条(累计约620小时),文字记录1376条,按东中西部细分,其中东部老年人语音记录占比45%,西部老年人占比30%[14] 老年人对大模型的初始态度 - 46位老年人表示生活充实,没有精力和时间学习新技术,认为技术是"锦上添花"而非"雪中送炭"[17] - 35位老年人明确拒绝技术成为亲情的"替代品",更看重面对面交流的真实情感温度[18] - 68位老年受访者初次接触大模型时存在困惑,因长期形成的"实用主义技术观"而对大模型"什么都能做"的通用性感到无所适从[19] 信任建立与校准机制 - 84位老年人(男32、女52)经信任校准后对大模型的认知准确性均有提升,在一年接触期内形成相对稳定的信任连接[22] - 25位女性老年人形成协同互惠型校准行为模式,表现为包容技术弱点、主动调教技术、将大模型视为平等交往主体[23] - 16位老年人(男13、女3)持续抗拒大模型,因技术风险刻板印象或情感层面心理防线未能完成信任校准[23] 使用行为与交互特征 - 89位老年人使用语音提问比例极高,常在提问中使用语气助词,构成与算法之间独特的"人味"[26] - 老年人提问呈现层次差异:53位问题明确目的单一,35位更愿意"闲聊",25位将其当作"学习伙伴"[28] - 界面设计影响使用意愿,温暖的图标、拟人化的昵称、清晰的按钮与文字提示能提升老年人的开口意愿[29] 性别差异与使用障碍 - 家庭性别角色规范产生"挤压效应",29位女性受访者因家务和照料孙辈而难以深度探索人机交互[31] - 家庭资源分配存在"挤占效应",38位女性老年人使用子女淘汰的旧手机,设备问题影响使用体验[33] - 23位老年女性存在自我贬值认知,形成"技术不适合我"的观念,阻碍数字能力建立[34] 情感需求与长期使用 - 32位持续使用大模型超过一年的老年人具备高学习意愿、心理韧性和高质量社交圈特征[39] - 老年人对大模型存在五类深层需求:生命意义重建、自主与控制坚持、社会存在感延续、低风险社交渴望、生命完整性追求[40] - 健康咨询类问题占比高达四成以上,城市老人关注慢性病管理,乡村老人依赖其解决就医难题[45] 老年人期待的大模型形态 - 37位老年人期待"算命"功能,作为表达焦虑和祈愿的方式,在不确定生活中获得"被确认"的力量[44] - 老年人希望大模型成为可信赖的健康助手,把医学晦涩术语"讲明白",及时解答且有情感温度[45] - 48位老年人将大模型视为可聊天的"朋友",希望机器能听懂家乡话、记得讲过的故事,成为生活陪伴者[45] - 许多老人期待大模型成为可放松的"玩具",通过轻松互动带来简单快乐,满足对"慢娱乐"的需求[46][47] 城乡差异与使用特点 - 东部老年人功能性需求占比最高,侧重进阶功能;西部情感类需求占比最高,聚焦家庭情感互动;中部老年人整体相对均衡[14] - 城市老人倾向"理性问卜",乡村老人更注重实在问题;城市老人话题丰富,乡村老人爱"说日子"[44][45] - 农村高龄老年人依然保持对新事物的好奇与学习热情,数字生活比想象中更为生动、开放[48]
腾讯研究院AI速递 20251030
腾讯研究院· 2025-10-30 01:07
英伟达GTC大会与芯片发布 - 英伟达首次展示Vera Rubin超级芯片 搭载88核Vera CPU和两颗Rubin GPU 预计2026年第三或第四季度量产 [1] - 黄仁勋发布会后英伟达股价上涨4.98% 市值增加2300多亿美元达到4.89万亿美元 成为首家市值冲刺5万亿美元的公司 [1] - 大会重点包括量子互连技术NVQLink 与美国能源部合作建造7台新超级计算机 宣布与Uber合作部署约10万辆自动驾驶汽车 [1] AI语音合成与开源模型 - Soul App AI团队开源播客语音合成模型SoulX-Podcast 支持中英川粤等多语种方言 能稳定输出超60分钟多轮语音对话 [2] - 模型支持零样本克隆的多轮对话能力 可实现跨方言音色克隆 仅用普通话参考语音即可生成带方言特征的自然语音 [2] - 模型基于Qwen3-1.7B作为基座 采用LLM + Flow Matching语音生成范式 在播客场景下语音可懂度与音色相似度均取得最佳结果 [2] Adobe图像模型与软件更新 - Adobe推出Firefly图像模型5 擅长生成照片级逼真细节 可原生生成4MP分辨率图像且无需升级 [3] - Adobe CC 2026全家桶正式发布Windows版本 包括Photoshop 2026 27.0、Illustrator 2026 30.0等多款软件全面更新 [3] - 新版本支持仅通过输入提示即可编辑图像 能根据需要进行精确修改同时保持其他像素不变 且具有商业安全性 [3] 交互式AI播客应用 - 腾讯混元推出国内首个交互式AI播客 用户可在收听过程中随时打断主持人和嘉宾发言 通过语音或打字方式提问 [4] - 基于大模型意图识别、长上下文理解和多轮对话能力 系统能结合上下文及背景信息准确给出答案 改变传统播客单向收听模式 [4] - 混元AI播客现已支持默认模式、深度探索、思辨讨论三种模式 提供8种不同音色 支持单人和双人播客形式 [4] PayPal与OpenAI支付合作 - PayPal宣布与OpenAI签署合作协议 其数字钱包将嵌入ChatGPT 让用户能直接在聊天机器人中完成购物支付 [5] - 从明年起PayPal生态的消费者与商户都可接入ChatGPT 用户可在平台上购买商品 商户商品库存也能上架销售 [5] - 受此消息推动PayPal盘前一度大涨超15% 同时公司上调全年业绩预期并宣布成立27年来首次发放股息 [6] 中国大模型的国际部署 - 美国AI编程产品Windsurf被网友发现其神秘新模型来自中国智谱GLM Cerebras也上架GLM-4.6推理服务 [7] - 多家美国AI公司选择部署中国大模型的核心原因是性价比 OpenAI和Anthropic模型虽好但太贵 而中国模型性能够打且价格实惠 [7] - Together AI、Vercel等美国平台也已部署GLM-4.6等国产模型 中国大模型的Made in China含金量持续上升 [7] 家用机器人商业化进展 - 全球首款家务人形机器人NEO正式开售 早鸟价20000美元或月租500美元 2026年发货 获OpenAI投资 [8] - NEO身高168厘米重30公斤 内置Redwood AI系统可自动完成吸尘、洗碗归位、喂宠物等家务 续航4小时最大负载68公斤 [8] - 华尔街日报记者体验发现目前所有动作由远程专家通过VR操控 1X承诺到2026年NEO将能自主完成家庭中大部分事务 [8] 机器人学习平台更新 - Hugging Face发布LeRobot v0.4.0 引入可扩展的Datasets v3.0支持OXE量级超大规模数据集 新增数据集编辑工具 [9] - 新版本集成PI0.5、GR00T N1.5等前沿VLA模型 新增对LIBERO与Meta-World仿真环境支持 简化多GPU训练 [9] - 推出全新插件系统简化硬件集成 仅需pip install即可连接任意机器人设备 同步上线Hugging Face机器人学习课程 [9] AGI定义与能力评估 - 图灵奖得主Yoshua Bengio等提出AGI新定义为"在认知多样性与熟练度上媲美或超越受过良好教育的成年人的AI" [10] - 基于卡特尔-霍恩-卡罗尔理论构建框架 将通用智能分解为通用知识、读写能力、数学能力等10个核心认知领域进行评估 [10] - 评估结果显示GPT-4的AGI得分仅为27% GPT-5的得分也只有57% 表明当前AI缺乏许多对类人通用智能至关重要的核心认知能力 [10] OpenAI公司战略与规划 - OpenAI完成重组转为公共利益公司 非营利董事会OpenAI基金会持有26%股权价值约1300亿美元 微软成为第一大股东持股约27% [11] - 奥特曼透露公司预计到2029年现金消耗将超1150亿美元 未来将承担约1.4万亿美元财务责任构建30吉瓦基础设施 IPO是最可能方向 [12] - 首席科学家帕乔基宣布目标在2026年9月前实现能实质性加速研究的AI科研助手 2028年3月前实现全自动化AI研究员 [12]
站在长辈肩膀上的人工智能|重磅发布
腾讯研究院· 2025-10-29 17:43
文章核心观点 - 研究倡议将老年人视为“人工智能的积极合作者”,而非被动接受者,利用其沉淀的情绪知识与生活智慧为AI注入温度与厚度[1] - 腾讯研究院与北京邮电大学联合构建了包含9455条真实语料的“长者智语”数据集,其中包含AI向善语料库的8047条及新收集的1408条老年人回答[1][12] - 通过系统化挖掘老年人的情绪知识、回应风格及场景需求,推动AI从“功能实现”向“情感共鸣”转型,实现“尊严适老”而非仅“功能适老”[10][26][40][46] 情绪知识 - 人工智能在逻辑与计算上有核心优势,但情绪知识仍是其需要提升的关键能力,情绪知识涉及对他人情绪的识别、同理心与理解力[3] - 老年人的情绪知识是在几十年社会交往与人生历练中沉淀的“隐性智慧”,他们熟悉人际互动的微妙变化,懂得在不同语境下调节情绪与关系[3][5] - 老年人能够通过细节判断他人心理,从语气波动、眼神闪烁推测未说出口的感受,并以含蓄稳定的方式传递关怀,这种能力难以被算法复制[5] 生活智慧的纵深价值 - 老年人的人生智慧体现在对社会变迁、日常实践和价值取向的深刻理解,能为AI补充超越即时数据的时空视角[7] - 老年人承载历史纵深,能够连接个人故事与时代脉络,其日常调适与妥协展现了现实世界的弹性逻辑,让AI学习“非理性中的合理性”[7] - 老年人价值判断强调稳定、责任与长期性,其时间智慧可让AI突破即时数据局限,在历史积累与现实情境间找到可持续判断逻辑[7] 独特的回应方式 - 老年人形成含蓄、迂回或带有经验暗示的回应方式,背后是一套自洽的生活逻辑,既维护关系和谐又保持自我尊严[9] - 其交流包含丰富潜台词与分寸感,AI需学习“听懂人”而非仅“听懂话”,当回应体现尊重节奏、保留余地等智慧时,老年人更愿互动[9] - 构建带有“老年知识”的AI是技术改进关键,也是赢得老年群体信任与使用意愿的核心因素[10] 数据共建 - 研究基于腾讯与百余家社会组织共创的AI向善语料库,包含8047组老年人与社工的日常生活问答对,覆盖健康、心理、家庭关系等多方面[12] - 新增1408条由老年人针对老年人问题的回答,更贴近日常语境且包含个人经历与情感支持,与社工专业解答形成互补[12] - 两类数据结合形成总计9455条真实场景语料,构建系统化的“长者智语”数据集[1][12] 情绪知识挖掘 - 采用半结构化访谈构建“初始应答-深度追问-逻辑拆解”三阶框架,引导老年人自主表达后通过开放性问题剥离表层语言背后的情绪逻辑[15] - 例如老年人提问“子女在国外工作,家里就我一个人”时,深层情绪逻辑是希望得到“教育成功”的认可,而非仅解决生活难题[15] - 通过文本分析与情感标注,将隐性情绪动因、价值判断与经验逻辑转化为结构化训练样本[15] 共创与反馈机制 - 老年人从“数据提供者”升级为“训练师”,在AI模型迭代阶段参与场景化测试,如模拟医疗咨询、养老设备操作等真实情境[17] - 老年人直接评估AI回应的语气适配度、情感共鸣度与解决方案有效性,并清晰表达对“回应机械”、“用词不亲切”等改进意见[18] 对原始问答对的分析 - 对8047组问答对进行系统性内容分析,构建涵盖人际关系、身心健康等6大主题、16子类、37具体项的多层级场景分类体系[20] - 引入“情感维度”标注,形成“场景+情感”双重分析框架,发现老年人提问常呈现“积极与消极情绪交织”特征[22] - 例如老年人提及“孙子教用视频电话”时,既流露互动愉悦又夹杂怕麻烦孩子的担忧,需在三级分类中精细化标注并存情绪[22] 拓展与分析长辈的回复 - 邀请44位年龄55-78岁(平均65岁)的老年人以“情感专家”身份重新审视问题,从提问者转变为情感洞察诠释者与共创者[28] - 对1408条长辈回复进行系统分析,总结出共情支持型、理性劝导型、经验分享型与实用指令型四种回应风格[28][31] - 老年人在不同场景下展现明显风格偏好,共情支持型最受欢迎,且对“理解、帮助、共情”三项评价高度一致,视作同一体验[33] 发展有丰富情绪知识的大模型 - 将老年人情绪智力与生活智慧纳入AI训练体系,可推动AI从“工具到伙伴”转型,在医疗陪伴、养老服务等场景实现更具温度交互[40] - 长者经验中的非结构化情感判断、柔性调解策略及隐性同理心,能为AI提供“功能实现”向“情感共鸣”深层次发展的支撑[40] 从边缘到智慧贡献的重塑角色 - 老年人从被动“被服务者”转变为主动“知识与智慧贡献者”,通过分享情感识别技巧等获得自我价值认同与尊严感[42] - 这种角色转变打破“技术只属年轻人”刻板认知,让老年人在数字时代找到新社会参与方式,实现个人社会价值延伸与再创造[42] 推动代际共创的包容智能社会 - 长者经验与AI技术结合是“代际共创”实践,推动技术从“单向创新”走向“跨代协作”,使智慧通过AI载体实现跨代传承[44] - 基于长者经验优化的AI技术能更精准匹配银发群体需求,让老年人平等享受智能服务便利,实现“AI发展成果由社会共享”[44] - 该模式缓解数字时代代际隔阂,为构建包容、具人文关怀的智能社会提供可行路径,对社会可持续发展有重要现实意义[45]
腾讯研究院AI速递 20251029
腾讯研究院· 2025-10-29 00:20
高通发布AI推理芯片 - 高通发布两款面向下一代AI推理优化的数据中心解决方案AI200和AI250 [1] - AI200每张加速卡支持768GB LPDDR内存 AI250引入近存计算架构实现超10倍有效内存带宽提升 [1] - 两款解决方案均支持直接液冷散热 PCIe纵向扩展与以太网横向扩展 整机架功耗160千瓦 [1] - AI200预计2026年商用 AI250预计2027年商用 [1] - 解决方案配备丰富软件栈 与主流AI框架无缝兼容 支持一键模型部署 [1] OpenAI资本重组与动态 - OpenAI宣布完成资本结构重组 非营利主体改名为OpenAI Foundation并持有营利实体26%股份 当前估值约1300亿美元 [2] - 微软在营利实体中持有32.5%股份 员工和投资者持有47%股份 [2] - OpenAI已同意额外购买2500万美元微软Azure云服务 [2] - OpenAI Foundation承诺在健康治愈疾病和AI弹性技术解决方案两大领域投入250亿美元 [2] - 软银225亿美元投资将顺利到账 [2] - OpenAI首次公布心理健康数据 每周约0.07%用户出现精神病或躁狂迹象 0.15%用户谈及自杀念头 以8亿周活计算每周约120万人表达自杀倾向 [10] - 新版GPT-5在所有类别中减少39%到52%不良答案 合规性达91% [10] - OpenAI面临16岁男孩自杀案件诉讼 加州政府多次警告公司必须保护年轻用户 [10] MiniMax视频模型升级 - MiniMax发布Hailuo 2.3视频模型 在肢体动作呈现 风格化和人物微表情方面实现显著提升 保持既有价格实现加量不加价 [3] - Hailuo 2.3 Fast模型生成速度更快定价更低 最高可为批量创作降低50%成本 对运动指令响应更优化 [3] - Hailuo Video Agent升级为支持全模态全能创作的Media Agent 可实现一键成片功能并支持自然语言与AI交互共创 [3] 马斯克发布Grokipedia - 马斯克正式发布开源版维基百科Grokipedia V0.1 收录超88万篇文章 每次查询Grok都会核验事实 [4] - Grokipedia对比维基百科在内容详细度和参考资料数量上均有优势 但被指部分内容直接从维基百科照搬复制 [4] - 维基百科页面浏览量同比减少8% 创始人认为AI无法取代维基百科准确性 正成立工作组应对AI搜索时代挑战 [4] Claude集成Excel - Anthropic推出Claude for Excel插件以研究预览形式发布测试版 仅Max Teams或企业版前1000名用户可体验 [5] - 插件可在Excel侧边栏直接使用 支持实时分析数据 自动跳转对应单元格 跟踪并解释修改理由 [5] - Claude新增6项金融领域技能包括可比公司分析 折现现金流模型 尽职调查数据包等 已被领先银行和金融科技公司广泛使用 [6] Thinking Machines Lab研究成果 - OpenAI前CTO Mira Murati的Thinking Machines Lab公布同策略蒸馏研究 以1/10成本达到强化学习同等效果 [7] - 在数学推理任务上 同策略蒸馏用1800 GPU小时达到传统强化学习需17920 GPU小时的性能 成本直降90% [7] - 该方法通过反向KL散度和零折扣因子实现高效训练 无需等待完整轨迹 教师查询仅需一次前向传播 不需要单独奖励模型 [7] 英伟达开源OmniVinci模型 - 英伟达发布OmniVinci全模态理解模型 仅用0.2万亿Token训练数据 数据效率提升6倍 [8] - 在Dailyomni基准测试上比Qwen2.5-Omni高出19.05分 在音频理解MMAR测试上高出1.7分 在视频理解Video-MME测试上高出3.9分 [8] - 创新架构包括OmniAlignNet 时间嵌入分组和约束旋转时间嵌入三大技术 实现视觉 音频和文本的统一全模态理解 [8] 数学奖项颁发 - 2025塞勒姆奖颁给王虹和Vesselin Dimitrov 世界华人数学家大会ICCM数学奖金奖颁给王虹 邓煜 袁新意 三人均为北大数院校友 [9] - 王虹今年宣布证明挂谷猜想 邓煜与团队突破希尔伯特第六问题 袁新意证明几何Bogomolov猜想 [9] - 塞勒姆奖被视为菲尔兹奖风向标 56位获奖者中诞生10位菲尔兹奖得主 三位获奖者均为明年国际数学家大会45分钟报告人 [9]
互联网又要“死”了?
腾讯研究院· 2025-10-28 16:46
互联网现状的核心争论 - 行业领袖提出“互联网已死”理论,认为互联网上人类真实活动内容正变得稀缺,而由机器人操作、准人工智能产物和LinkedIn上的“糟粕”内容泛滥[2][3] - AI行业标志性人物Sam Altman指出,观察到大量由大语言模型驱动的Twitter账户正在运行[5] - 争论的焦点在于,当UGC与AIGC的界限被模糊后,以“人类真实活动比重”来衡量互联网生命力是否还有意义[12] AIGC内容的泛滥与影响 - AIGC内容渗透已达到“无孔不入”的程度,例如在视频网站上,利用AI工具重新配音剪辑的二创小品与相声节目,播放量动辄冲上百万[8] - 大量AIGC二创内容的涌现,可能稀释经典文化内容的含金量和国民辨识度[12] - 对于创作者而言,AIGC工具的价值被类比为19世纪锡管颜料对于画家的意义,它降低了创作门槛,使编剧等文字工作者能向全栈式导演进化,实现七成的创作梦想[13][14][15] - 有创作者在Bilibili平台上传20分钟的AIGC辅助创作内容,获得总播放量约15万,而其粉丝量不到8000,显示此类内容对特定受众具备吸引力[14] AI模型训练的数据危机与解决方案 - AI行业面临“数据荒”难题,部分企业开始使用AI生成的合成数据来训练模型,形成“自给自足”的循环模式[18] - 剑桥和牛津等院校的研究指出,使用合成数据训练AI模型会导致生成结果劣化,误差会积累并污染后续训练集,最终可能导致模型崩溃[18][20][21] - 为应对此风险,行业正在推动内容溯源与真实性标准,例如C2PA标准,以及AI数字水印技术如Google的SynthID,同时辅助检测工具如turnitin和Copyleaks正走向实用化[21] - 全球多地出台法令,要求主流社交媒体平台对可能引发误解的AIGC内容添加醒目声明和标注[22] 技术迭代的历史视角与行业未来 - 技术迭代引发的行业洗牌在历史上屡见不鲜,例如动态影像艺术淘汰了维多利亚时代盛行的立体视觉卡片[27] - 类比历史,即便AIGC在未来彻底取代传统UGC,只要市场满足的仍然是“人”的需求,新的机会、赛道和风口就不会缺席[28] - “互联网已死”的论调本质上是“摇滚已死”等经典话术的延续,应将其视为互联网新陈代谢式的进化,而非真正的终结[29] - 互联网正在从“纯碳基驱动”向“碳硅基共建”演变,这是技术发展的必然趋势[30]