Workflow
腾讯研究院
icon
搜索文档
腾讯探元计划创新升级:重点破解“AI考古”与“活化利用”前沿难题
腾讯研究院· 2025-12-15 18:18
腾讯探元计划NextGen升级发布 - 腾讯于12月12日在北京举办探元创新大会,正式启动全新升级的“探元计划NextGen”[2][3] - 新计划将重点聚焦“AI考古”与“活化利用”两大赛道,旨在深度拓展AI等前沿技术应用,破解文化遗产保护与活化的前沿难题[2][3] - 该计划由腾讯SSV与腾讯研究院主办,联合北京大学文化产业研究院、山东大学文化遗产研究院等机构共同发起[4] AI考古赛道规划与目标 - “AI考古”赛道由山东大学文化遗产研究院联合发起,旨在将人工智能技术深度融入考古学研究与实践[3] - 该赛道计划评选2-3个标志性场景项目,每个提供百万元级资助;以及3-5个技术突破项目,每个提供30万元资助[3] - 赛道致力于解决传统考古耗时长、依赖专家经验、数据处理效率低等挑战,从文物智能复原、数据智能分析、古文字智能解读等层面推动行业进步[3] 活化利用赛道规划与目标 - “活化利用”赛道由北京大学文化产业研究院联合发起,目标是精准推动3个左右具有代表性的文化数智化场景落地,形成可复制、可推广的模式,并推动潜力项目走向国际[3] - 该赛道直面文化遗产资源数智活化痛点,发起三大议题以解决行业问题[5] - 议题一为“文化垂类多模态智能体”,解决通用大模型在文化遗产领域个性化和专业性不足的痛点[5] - 议题二为“沉浸式互动体验创新”,重点解决文化资源展示方式单一、故事讲述单调、互动体验不足的问题[5] - 议题三为“人机协同技艺传承与创新”,重点解决文化传承断层问题,通过对传承人技艺进行标准化、可量化分析和永久性数字化保存,实现活态传承[5] 探元AI技术平台与能力 - 腾讯SSV数字文化实验室在会上发布了面向文博场景的探元AI,致力于为行业痛点及公众体验提升提供系统化解决方案[2] - 探元AI基于混元和DeepSeek双引擎大模型,整合了腾讯多媒体实验室6DoF技术、混元图生文团队的AI多模态识别能力,并基于腾讯优图实验室、腾讯云智能等平台超过300项AI原子能力构建[7] - 平台构建了高质量的结构化数据和文物语料库,并面向行业开放知识库管理平台以及系列场景化的智能体开发支持[7] - 作为文博助手,探元AI将面向公众提供实景导览、文物讲解、拍照识文物、AIGC创作工具,以提升公众互动观展体验[7] 探元平台发展现状与愿景 - 目前已有全国超过600家博物馆入驻探元平台,并沉淀了包括甲骨文、北京中轴线、景德镇等在内的头部文化IP语料库[8] - 公司下一步将逐步开放探元AI工具平台,为更多文保机构提供技术支撑,助力构建全链条的数字化防护体系,并向中小博物馆推出低门槛的普惠解决方案[8] - 探元平台旨在以AI为内核,构建一个开源的社会文化服务平台,用AI驱动中华文化遗产的数智化转型,目标是“让真实的文明,被活在今天时代的人们,更真切的感知”[8] 2024年文化遗产数字化成果 - 2024年,探元计划在文化遗产数字化保护与活化方面取得系列突破性进展[11] - 运用AI大模型与太赫兹时域光谱技术,成功实现对克孜尔石窟烟熏壁画的智能识别与虚拟复原[11] - 攻克了龙门石窟微痕浅浮雕的高精度三维建模与纹饰解析瓶颈[11] - 微痕增强技术帮助研究人员更高效地释读安阳殷墟的甲骨文[11] - 在传承与传播方面,利用三维算法技术数字化再现了河南陈家沟陈氏太极拳的姿态动作[11] - 借助数字交互与动捕技术,使三星堆博物馆的数字IP“蜀堆堆”变得生动可爱,获得年轻游客欢迎[11] 行业背景与公司战略 - 2024年,中国博物馆的接待人次达到了14.9亿,但文博消费体验仍有很大提升空间,年轻用户渴望参与和共情,而非单向说教[7] - 腾讯公司副总裁表示,“科技向善”是公司长期坚守的使命,保护、传承传统文化,推动“科技+文化”融合发展是公司持续关注与投入的重要事业[12] - 腾讯探元计划持续搭建跨界对话平台,推进科技与文化融合,让技术方与场景方有效衔接,其成果已成功入选《世界互联网大会文化遗产数字化案例集(2025)》,获得国际认可[12]
腾讯研究院AI速递 20251215
腾讯研究院· 2025-12-15 00:01
OpenAI GPT-5.2发布与市场反馈 - OpenAI在十周年发布号称“最强专业知识工作模型”的GPT-5.2系列,但上线24小时后在X平台和Reddit上遭遇用户集体差评,被批评过于平淡、安全审查过度、情商堪忧 [1] - 第三方基准测试显示GPT-5.2表现不佳:在SimpleBench测试中得分低于一年前的Claude Sonnet 3.7,在LiveBench测试中得分低于Opus 4.5和Gemini 3.0,甚至在简单问题上回答错误 [1] - 用户最诟病的是其安全拒绝机制过于严格,导致模型的共情力和语境感知能力下降,在情感支持等场景中给出的建议机械且脱离现实 [1] 谷歌推出Gemini Deep Research Agent - 在GPT-5.2发布前一小时,谷歌推出全新版Gemini Deep Research Agent,该产品基于Gemini 3 Pro构建,并通过多步强化学习训练以提高准确性并减少幻觉 [2] - 新版Agent在多项基准测试中取得领先成绩:在Humanity's Last Exam测试集中达到46.4%,在DeepSearchQA上取得66.1%,在BrowseComp测试中获得59.2%的高分 [2] - 谷歌同步推出了开源的网络研究Agent基准DeepSearchQA和全新的交互式API,后者支持服务器端状态管理、远程MCP工具调用和后台执行长时间推理循环 [2] Runway发布通用世界模型GWM - Runway正式发布5大更新,包括升级的Gen-4.5旗舰视频模型和首个通用世界模型GWM-1,前者支持原生音频生成编辑和多镜头编辑功能 [3] - GWM-1是一个自回归模型,支持逐帧预测和实时干预,包含三种变体:可探索环境的GWM Worlds、对话角色的GWM Avatars和机器人操作的GWM Robotics [3] - 英伟达CEO黄仁勋发来祝贺视频,标志着行业从单纯的“视频生成”迈向真正的“世界模拟”,AI开始理解物理世界的底层逻辑 [3] 谷歌AI翻译与浏览器创新 - 谷歌翻译引入Gemini模型能力,推出支持任何品牌耳机的实时语音翻译Beta版,覆盖超过70种语言,并能保留说话者的语调、重音和节奏 [4] - 文本翻译引擎经过重构,能智能解析俚语和成语的上下文,而非生硬逐字翻译,支持英语与近20种语言(包括中文、日语、德语等)互译 [4] - Chrome团队在Google Labs推出实验性浏览器Disco,其核心概念是GenTabs生成式标签页,可将网页内容转化为包含地图、行程表的交互式微型应用 [4] 腾讯混元3D模型与拓竹科技合作 - 拓竹科技旗下3D模型平台MakerWorld全面升级,接入腾讯混元3D 3.0大模型,并上线全新手办生成器“印你”,用户只需上传一张图片即可生成可打印的3D模型 [5][6] - 混元3D 3.0首创3D-DiT分级雕刻技术,建模精度提升3倍,几何分辨率高达1536³,支持36亿体素超高清建模,使五官更立体、细节更锐利、纹理更逼真 [6] - MakerWorld平台已有20款各具特色的建模工具,吸引全球超过200万用户,此次接入顶尖生成式AI技术使设计周期大幅缩短,创作不再受限于建模技术 [6] 迪士尼与OpenAI达成战略合作 - 迪士尼向OpenAI进行10亿美元股权投资,并获得购买额外股权的认股权证,这是Sora平台首次迎来大型内容授权合作伙伴 [7] - 双方达成三年期许可协议,第一年具有排他性,Sora和ChatGPT Images将获得迪士尼旗下超过200个角色授权,包括米老鼠、漫威、皮克斯和星球大战角色,但不包含真人肖像或声音 [7] - 迪士尼将利用OpenAI的API构建新产品工具覆盖Disney+流媒体平台,为员工部署ChatGPT用于内部工作流程,粉丝精选创作视频将在Disney+播放 [7] AI在数学研究领域取得突破 - 数学家埃尔德什于1975年提出的Erdos1026问题困扰数学界50年,在AI辅助下,人类团队仅用48小时便攻克并给出正式证明,陶哲轩称AI带来了全新理解,绝非简单搜索 [8] - Harmonic的AI系统Aristotle在Lean证明辅助语言中自动证出c(k²)=1/k,AlphaEvolve系统则探索c(n)数值结果帮助提炼出干净公式 [8] - AI通过深度搜索找到了2024年Baek、Koizumi、Ueoro论文的完整解,这在传统模式下可能需要数周甚至数月,此次证明了AI在生成新数学洞见而非仅检索现有文献方面的能力 [8] 宇树科技推出人形机器人应用商店 - 宇树科技正式上线行业内首个致力于将人形机器人功能模块化、标准化的内容分发平台——人形机器人应用商店,旨在解决复杂动作开发难、用户上手门槛高的问题 [9] - 应用商店集成用户广场、动作库、数据集及开发者中心四大核心模块,用户无需底层代码编写能力即可像安装手机软件一样一键部署云端运动控制算法 [9] - 首批上线应用包括基于G1系列机器人的“李小龙”截拳道与“扭扭舞”预设,通过独家动力学算法结合高精度动作捕捉数据,将武术动作库无缝移植到机器人硬件 [9] DeepMind科学家对AGI发展的预测 - Google DeepMind首席AGI科学家Shane Legg预测,最小AGI有50%的可能性在2028年实现,完全AGI将在最小AGI出现后3-6年内实现,随后进入超级智能ASI阶段 [10] - 他认为AGI并非一个临界点,而是一个连续光谱,分为三阶段:最小AGI能完成普通人的典型认知任务,完全AGI能完成最杰出人类的认知任务,ASI全面超越人类所有认知领域 [11] - AGI将导致倒挂式结构性失业,高层认知工作首当其冲,基层体力工作暂时安全,社会需要重新设计分配机制并重构人类在失去工作身份后的幸福定义 [11] 生成式AI用户趋势与市场格局 - Similarweb发布的2025年度AI报告显示,全球生成式AI平台月访问量超过70亿次,同比暴涨76%,移动端App下载量达19亿次,一年内翻了3倍多 [12] - 18-34岁用户占比反而下降约15%,说明年纪更大的用户正在快速涌入,ChatGPT已跻身全球前五大网站,但95%的用户仍同时使用谷歌,形成互补双入口格局 [12] - AI Mode成为首个访问量突破1亿的生成式AI搜索功能,互联网正从“被搜索检索”变成“被AI谈论” [12]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-12-13 10:33
芯片与算力进展 - 英伟达H200芯片出口成为关注焦点[3] - 摩尔线程发布了新的GPU架构[3] - 英伟达发布了CUDA Toolkit 13.1[3] - Starcloud在太空AI算力领域有所布局[3] 大模型与架构创新 - 谷歌推出了Titans架构和深度思考模式[3] - 智谱发布了GLM-4.6V模型[3] - 美团发布了LongCat-Image模型[3] - 腾讯发布了混元2.0模型[3] - 英伟达发布了NVARC小模型[3] - OpenAI正在进行新模型测试[3] - Mistral AI发布了Devstral 2模型[3] - Meta发布了名为「牛油果」的模型[3] AI应用与产品 - Meta展示了AI可穿戴设备[3] - Anthropic推出了AI面试官应用[3] - 微软发布了VibeVoice应用[3] - 可灵平台推出了主体库功能[3] - 阿里发布了Qwen3-TTS和Qwen-Image-i2L应用[3][4] - 智谱发布了AutoGLM和GLM-ASR应用[3] - 通义实验室有所动作[3] - Nature Select提到了Echo-N1应用[3] - Nabla Bio在开发前沿AI药物[3] - Adobe集成了ChatGPT功能[4] - 智谱发布了GLM-TTS应用[4] - 商汤发布了Seko 2.0应用[4] - 元宝应用推出了总结群消息功能[4] 前沿科技与硬件 - 普渡科技发布了PUDU D5系列产品[4] - Google推出了Android XR[4] - 智元机器人实现了机器人量产[4] - 灵初智能发布了Psi-SynEngine[4] 行业事件与动态 - 苹果公司面临人才流失问题[4] - 微软发布了红色警告[4] - Linux基金会与吴恩达联合成立了AAIF组织[4] 行业观点与趋势 - Yann LeCun发表了关于离职的论文[4] - OpenRouter分析了AI应用现状[4] - a16z提出了搜索AI时代的观点并探讨了AI创业机会[4] - Geoffrey Hinton认为谷歌AI必将获胜[4] - Andrej Karpathy分享了AI提问策略[4] - OpenAI讨论了企业AI采用情况[4] - 摩根士丹利指出TPU产能正在爆发[4] - Anthropic组建了AI宪法团队[4] - MiniMax强调了全模态发展的重要性[4]
前沿研究丨数字福祉如何衡量?清华徐心团队以GDP-B方法测度数字经济隐形价值
腾讯研究院· 2025-12-12 16:00
研究背景与核心挑战 - 在数字经济时代,大量免费或零价格的数字产品和服务创造了巨大社会价值,但因其“零价格”特性,难以被传统的国民经济核算体系(如GDP)所捕捉和衡量 [2][5][6] - 清华大学徐心教授团队的研究旨在解决这一关键挑战,即如何科学地衡量这些无形的数字福祉,并重新定义数字经济时代的价值内涵 [2][4][5] 研究方法论创新:GDP-B框架 - 研究团队引入并完善了“GDP-B”(国内生产总值-效益)测量方法,以填补数字福祉测量的空白 [6][7] - 该方法通过巧妙结合大规模实证调研与激励相容实验设计,引导用户真实反映数字服务在其“心理账户”中的价值,从而在客观价格数据与主观调研数据之间找到平衡点,构建了数字福祉的科学测量体系 [7][9] 中国数字福祉的实证研究发现 - 研究团队开展了覆盖全国11个一二线城市、13000名受访者的大规模预调研 [10] - 发现中国消费者对数字服务的价值感知显著较高,例如支付、导航等常用APP的月均估值远超国际同类产品水平 [10] - 数字福祉并非固定不变,而是随使用场景、服务状态等因素动态变化 [11] - 研究关注数字福祉与经济发展水平的关系,初步发现中国一二线城市呈现与斯坦福团队(基于13国数据)不同的趋势:人均GDP更高的城市,消费者从数字APP中获得的价值感知更大 [12] - 关于“数字库兹涅茨曲线”的形态,存在两种可能性:若将中国数据与斯坦福数据合并,可能呈现倒U型曲线;而随着调研覆盖更多中国城市,也可能复现正U型规律,这需要更大规模的全国性研究来验证 [12] 研究规划与生态构建 - 研究团队计划每季度开展全国性调研,以建立中国数字福祉的动态数据库,深入探索数字福祉与经济发展水平的关系等底层规律 [13][14] - 研究已与腾讯可持续社会价值事业部等机构建立合作,计划构建中国数字福祉的长期观测体系,旨在为数字经济时代的政策制定提供科学依据 [15] - 未来规划包括:在确保数据安全的前提下逐步开放研究数据;基于大规模实证数据探索经济智能大模型的开发;深化数字福祉与经济社会发展关系的理论研究 [17] 研究的学术与社会意义 - 该研究展现了中国学者在国际前沿领域的创新实力,为理解数字经济的社会价值提供了新的理论框架和研究方法 [17] - 研究不仅旨在推动学术理论发展,更期望通过系统性的测量研究,帮助更准确地评估数字经济发展成效,为高质量发展提供重要参考 [15][17]
英伟达H200获准出口中国的三个关键问题
腾讯研究院· 2025-12-12 16:00
文章核心观点 - 美国前总统特朗普在社交媒体宣布,在保障国家安全前提下,将允许英伟达向中国大陆等地区出口H200 AI芯片,作为交换,英伟达需向美国政府支付25%的销售分成[4] - 此举意味着美国行政与立法部门之间就H200出口解禁已基本达成共识,主要原因是H200的性能已“相对落后”,不再代表最先进算力[5][9][11] - 解禁若落地,将有望解冻英伟达在中国大陆的市场,带来显著的营收增长,并对产业链需求释放产生积极影响[13][15][17] H200出口解禁的进程与背景 - 解禁流程的官方宣布通过特朗普社交媒体账号进行,这与之前H20获得出口许可的方式类似,表明美国行政与立法部门之间已基本达成共识[6][9] - 尽管已达成共识,但政策的具体流程和执行仍需时间处理,并非立即可以销售[9] - 达成共识的基础在于H200的性能已被视为“相对落后”,美国得以保持对华技术领先一代半的优势[10][11] H200产品性能与市场定位 - H200于2023年11月发布,2024年第二季度开始供货,采用台积电4N工艺,FP16算力高达989T,显存带宽4.8TB/s,2024年曾是绝对先进的产品[10] - 但随着2025年底基于Blackwell架构的B200等产品上线,H200在行业中退居其次,成为性能“相对落后”的产品[10] - 其算力被认为是特供中国市场的H20芯片的6-8倍,互联带宽也是H20的两倍(900GB/s)[10][17] - 对于中国大陆客户,由于现有AI模型大多适配Hopper架构(H200所属架构),从工程成本考虑,H200现阶段比尚未适配的Blackwell架构产品吸引力更大[14][15] 对英伟达的潜在影响 - 解禁将可能结束英伟达在中国大陆市场份额为0的局面,为其带来新的市场机会[13] - 中国大陆市场单季度对英伟达的营收贡献估算约为100亿美元,H200获准出口每年预计可为美国政府带来100亿美元的“好处费”[12] - 2024自然年度,英伟达在中国大陆市场的全部收入为171亿美元,若H200出口顺利,其数据中心产品收入有望创下新高[15] - H200作为成熟产品,无需像H20那样进行“阉割”改造,其平均毛利率有望接近甚至超过80%,利润空间更理想[15] - 消息宣布后,英伟达美股盘后交易快速拉升,涨超1%,市值增长超过450亿美元[16] - 此前多家中国大厂总计向英伟达下达的160亿美元H20订单未能交付,随着H200解禁,这些需求有望转换为新订单并在2026年释放[17] 对中国市场与国产芯片的影响 - 业内分析认为,国内云厂商压制了约两个季度的需求,资本开支将累加到明年,预计2026年需求很大[18] - H200对中国客户具有实际应用价值,目前国内云厂主要用于AI训练,而国产AI芯片目前大部分用于推理场景,两者应用场景并不完全重叠[18] - 多位国产算力芯片从业者表示,放开H200与国产芯片发展并不直接冲突[18] - 有观点认为,美国此举主要目的是帮助英伟达赚钱,与中国本土产品竞争只是次要考虑[19]
腾讯研究院AI速递 20251212
腾讯研究院· 2025-12-12 00:25
Meta的战略调整与重大投资 - Meta神秘AI项目“牛油果”(Avocado)发布计划从2025年底推迟至2026年第一季度,其训练使用了Google Gemma、OpenAI gpt-oss和Qwen模型,并可能采取闭源方式 [1] - 在Llama 4发布后效果未达预期,Meta重新思考开源战略,成立MSL超级智能实验室,并以143亿美元引入28岁的AI负责人Alexandr Wang [1] - MSL部门裁员600人,但不涉及核心的TBD Lab团队,同时公司宣布投资270亿美元建设Hyperion数据中心 [1] 大模型应用生态集成 - Adobe将其Photoshop、Express和Acrobat工具集成至ChatGPT,用户可通过文字描述直接使用图片美化、设计信函和编辑PDF等功能,目标面向ChatGPT超8亿的周活跃用户 [2] - 这些集成工具在ChatGPT中可免费使用,但不包含Generative Fill等高级功能,这是OpenAI将更多第三方应用引入ChatGPT的举措之一 [2] - 今年10月首批加入ChatGPT的第三方应用包括Spotify、Zillow和Figma等 [2] AI模型与技术的开源发布 - 智谱发布工业级语音合成系统GLM-TTS,仅用10万小时数据训练便实现“3秒”音色复刻,在字错误率和情感表达上达到开源SOTA水平 [3] - GLM-TTS采用两阶段生成范式,并基于GRPO算法融合了CER、相似度、情感、笑声四维度的正则化奖励机制 [3] - 模型已在Hugging Face和ModelScope开源,用户可通过Z.ai、智谱清言及BigModel平台体验和调用API [3] AI视频与内容创作工具进展 - 商汤Seko 2.0发布多剧集创作功能,支持最高100集连续创作,声称一个人30分钟即可完成一集短剧,实现从剧本到成片全流程自动化 [4] - 该工具核心优势在于保持资产库的主体和场景一致性,并能自动关联前后剧情,其数据采集成本仅为真机遥操方案的10% [4] - 工具集成了Vdiu、海螺、可灵等主流视频大模型,并推出限时活动,商汤自研生图模型限免一周,月高级会员提供65折优惠 [4] AI助手功能拓展 - 腾讯元宝AI助手推出QQ群智能未读消息总结功能,能将群聊记录提炼成结构清晰的总结报告 [5] - 功能具体包括热聊话题归类、精准信息追踪(筛选@提及消息)、群文件整合和原文直达索引 [6] - 元宝已支持添加为QQ好友进行一对一对话,其电脑版、浏览器插件及移动APP均已上线 [6] 太空计算与AI前沿 - 初创公司Starcloud发射的Starcloud-1卫星搭载H100芯片,其算力比以往太空GPU强100倍,并成功在轨运行谷歌Gemma,训练出首个太空大型语言模型 [6] - 该模型基于Karpathy的nanoGPT用莎士比亚语料训练,可用文艺复兴时期语言风格回答问题,并能进行实时情报分析 [6] - Starcloud计划打造5GW的轨道数据中心并配备4公里太阳能板,预计成本仅为地面数据中心的1/10,SpaceX和谷歌等巨头均已布局该领域 [6] 具身智能与数据采集技术 - 灵初智能发布全球首个具身原生人类数据采集方案Psi-SynEngine,包含便携式外骨骼触觉手套数采套装、大规模in the wild数采数据管线等 [7] - 该方案数据获取成本仅为真机遥操方案的10%,定位精度达亚毫米级,可完整采集手部手臂全部自由度和全手触觉信息 [7] - 公司同步发布Psi-SynNet-v0大规模真实世界多模态数据集,覆盖视觉、语言、触觉、动作,已构建上万小时规模并计划明年突破百万小时量级 [7] AI行业趋势与投资观点 - a16z预测到2026年,AI将彻底重塑各行业,Agent-native基础设施将成为必需品,系统核心瓶颈在于多Agent协调能力而非算力存储 [8] - 消费级AI产品重心正从“提高效率”转向“增进连接”,更“懂我内心”的产品比“帮我做事”的产品有更好的用户留存 [8] - AI绝大部分市场机会在传统垂直行业而非硅谷,视频将成为可“进入”的仿真环境,CRM将变成基础设施,Agent将成为交互核心 [8] 中国AI公司的发展与竞争力 - MiniMax创始人闫俊杰强调全模态发展是AGI的必由之路,公司在语言模型、视频、音频赛道均做到全球领先,音频全球第一、视频第二,未来将探索多模态融合 [9] - MiniMax-M2以61总分位居全球大语言模型第五、开源第一,其采用10B激活参数(总参数230B)的MoE架构,算力成本仅为Claude4.5的8%,上线一个多月tokens调用量突破1万亿次 [9] - AI时代核心竞争力是想象力而非技能,中国公司需要本土创新而非“拿来主义”,关键人才均为本土培养,真正的技术天才将在两三年内出现 [10]
对培育壮大中国具身智能产业的认识与建议
腾讯研究院· 2025-12-11 17:28
文章核心观点 - 具身智能是人工智能、机器人等多学科技术融合的前沿领域,本质是“脑”(AI软件)与“身”(物理硬件)的结合,实现感知、认识、执行一体化,是未来产业的重要组成部分,将对经济社会产生变革性影响 [3][5][6] - 全球及中国具身智能产业尚处起步期,但发展潜力巨大,预计2030年全球市场规模突破1500亿美元,2035年达4000亿美元;中国市场规模预计2030年达4000亿元,2035年突破1万亿元,产业综合竞争力处于全球第一梯队 [3][13][15] - 为加快培育壮大中国具身智能产业,建议聚焦关键技术攻关、有序拓展应用场景、制定安全标准与监管规则、研究制定伦理准则与应对就业影响 [19][20][21][22] 具身智能的本质与定义 - 具身智能是模拟“脑”的人工智能软件与模拟“身”的物理硬件有机结合,实现“感知—认识—执行”一体化的智能体,形态包括智能机器人、L4级以上自动驾驶汽车、自主无人航行器等 [5] - 与“离身智能”(如ChatGPT等大模型,仅有认知无物理执行能力)和“具身不智能”(如传统机械臂,无或仅有低阶智能)有本质区别,是二者的深度融合 [6][8] - 概念于1950年提出,但受技术限制进展缓慢,直到2022年前后AI大模型广泛应用,才使其实现“像人类一样思考与行动”成为可能 [8] 具身智能的未来影响 - **提升经济运行效率**:工业机器人可实现7×24小时柔性生产,提升效率与质量一致性;服务机器人可应用于文旅、教育、送餐等新兴消费场景;农业机器人(如水果采摘机器人)将改变传统手工劳作方式;激光除草机器人可减少80%除草剂使用量;无人驾驶汽车有望减少90%以上交通事故 [10] - **变革社会服务模式**:家庭养老机器人可辅助应对全球护士缺口(预计2030年达1300万人),提供基础服务与个性化陪护;智能机器人可进入火灾、核辐射等危险现场执行任务,降低人员风险 [11] 国内外产业发展进展与市场预测 - **全球发展态势**:产业处于起步期,真正意义上的具身智能尚未大规模量产;人形机器人预计2025年小规模试验导入,2030年规模化生产;L4级自动驾驶汽车有望2030年左右规模商业化;自主无人航行器等将在未来5年内放量增长 [13] - **全球市场规模**:预计2030年突破1500亿美元,2035年达4000亿美元;科研展览展示场景将率先推广,随后是交通物流、工业制造,家庭场景待技术成熟后规模化应用 [13] - **主要经济体布局**:美国重视国防与太空领域投入,欧洲侧重医疗与能源应用,日本聚焦社会基础设施与登月计划;英伟达、谷歌、特斯拉、OpenAI等大企业积极构建软硬件生态 [14] - **中国产业竞争力**:产业综合竞争力处于全球第一梯队,在大模型研发和产品制造方面基础较好;供应链优势显著:25家中国公司供应机器人手部零部件(美国7家),30家供应腿部线性执行器(美国6家);中国产智能机器人成本约为其他地区的一半;2023年中国工业机器人安装量占全球51%,是美国的7倍 [15] - **中国市场规模预测**:预计2030年达4000亿元(约占全球四成),2035年突破1万亿元;细分市场预测如下 [15][17]: - 智能机器人:2030年900亿元,2035年3000亿元 - 无人驾驶汽车:2030年2000亿元,2035年6000亿元 - 自主无人航行器:2030年600亿元,2035年1500亿元 - 其他仿生智能体:2030年500亿元,2035年1000亿元 加快培育中国具身智能产业的建议 - **集中力量研发关键共性技术**:支持具身大模型、算法、安全可控操作系统、仿真平台及标准化工具链研发;攻关高性能传感器、减速器、电池续航等关键零部件;布局人工肌肉、神经科学等交叉技术;构建高质量开放共享数据集与统一标准;鼓励开源发展 [19] - **支持创造应用场景以加速迭代降本**:在应急消防、旅游导览、治安巡检等公共场景率先扩大采购应用;在安防巡检、交通物流、家居服务等领域探索制定统一标准,形成规模效应以降低供应链成本 [20][21] - **制定强制性安全标准与监管规则**:对算力、电池、执行器冗余设计提出强制性要求;加强设备身份识别与全生命周期监管;加强系统漏洞检测与安全通信等联合攻关;考虑建立设备责任险与系统性风险储备金 [21] - **研究制定伦理准则与应对就业影响**:明确具身智能仅为工具,不赋予其社会属性与法律地位;确保人机交互中人类的知情权、同意权与退出权;分级限制未成年人使用,防范情感依赖;建立就业预警系统跟踪岗位替代率;院校增设相关课程加大教育培训力度 [22]
腾讯研究院AI速递 20251211
腾讯研究院· 2025-12-11 00:01
OpenAI与谷歌的图像模型竞争 - OpenAI两款名为Chestnut(栗子)和Hazelnut(榛子)的神秘图像模型据称为GPT Image 2,将在本周随GPT-5.2亮相 [1] - 开发者实测显示,OpenAI的图像生成质量尤其在人物面部生成效果上不如谷歌的Nano Banana Pro模型,推测其可能仍基于GPT-4o训练但相较上一代有所提升 [1] - 谷歌的Nano Banana Flash新模型也将在本周登场,同时Gemini 3 Flash即将发布,预示着OpenAI与谷歌在AI领域的正面竞争加剧 [1] Mistral AI发布代码模型与工具 - Mistral AI发布下一代代码模型系列Devstral 2(123B参数)和Devstral Small 2(24B参数),在SWE-bench Verified基准测试上分别达到72.2%和68.0%的准确率,成本效率据称比Claude Sonnet高出7倍 [2] - 公司同步发布了原生CLI工具Mistral Vibe,提供项目感知上下文、智能引用和多文件编排功能,并已作为Zed编辑器的扩展程序提供 [2] - 模型采用修改版MIT许可证,增加了收入限制条款,规定月收入超过2000万美元的公司无权免费使用,需联系Mistral AI购买商业授权 [2] 智谱AI开源语音模型并推出输入法 - 智谱正式发布并开源了GLM-ASR-2512云端模型(字符错误率CER仅0.0717)和GLM-ASR-Nano-2512端侧模型(1.5B参数,达到开源SOTA水平),实现了行业领先的语音识别表现 [3] - 公司推出了智谱AI输入法,支持语音转文字、翻译改写和千人千面人设切换功能,针对开发者提供Vibe Coding体验并与智谱Coding Plan账号打通 [3] - 产品优化了耳语捕捉能力以适应公共场景的微弱声音,支持一键导入专属词汇和项目代号,现已开放下载并免费提供2000积分,相当于28天使用时长 [3] 阿里通义实验室开源图像定制工具 - 阿里通义实验室推出开源工具Qwen-Image-i2L,仅需单张样本图片即可训练LoRA实现个性化风格迁移,模型体积仅几GB,可无缝集成到Stable Diffusion等模型中 [4] - 工具提供了四款模型变体,包括风格模式(2.4B参数)、粗粒度模式(7.9B参数)、精细模式(7.6B参数)和偏见模式(30M参数),分别针对不同应用场景进行优化 [4] - 该项目基于Apache2.0许可证开源,在GenEval和DPG等基准测试中表现领先,特别在中英双语文本渲染方面表现突出,但从单张2D图片提炼3D逻辑仍存在局限 [4] 情感大模型Echo-N1发布 - NatureSelect团队发布了首个情感大模型Echo-N1(32B参数),在多轮情感陪伴任务中的胜率达到46.7%,远超千亿参数商业模型Doubao 1.5的13.3%胜率 [5][6] - 模型创新性地提出了生成式奖励模型和共情的心理物理模型(EPM),将“共情”转化为可计算的物理做功,通过Humanlike Reward和Empathy Reward双重奖励机制进行训练 [6] - 团队构建了拟人化认知沙盒多智能体协作系统,在30个高难度心理场景测试中,基座模型Qwen3-32B的通过率为0%,而Echo-N1的综合评分达到了73.54分 [6] 行业巨头组建智能体标准联盟 - Linux基金会成立了Agentic AI Foundation(AAIF),由OpenAI、Anthropic、谷歌、微软、AWS等巨头共同发起,旨在建立开放中立的智能体互操作性标准 [7] - OpenAI贡献了AGENTS.md标准作为核心基础设施,该标准已被超过6万个开源项目采用,Anthropic则贡献了模型上下文协议(MCP),Block贡献了goose项目 [7] - AGENTS.md本质上是智能体的README文件,为AI编程智能体提供清晰可预测的指令位置,旨在确保不同AI智能体能够安全高效地跨平台协作 [7] AI在药物研发领域取得进展 - 科学家利用AI工具成功设计出具有抗体药物特性的分子,包括由BoltzGen模型设计的纳米抗体和商业公司制造的全长抗体,其效力与商业抗体药物相似 [8] - 加州公司Nabla Bio和Chai Discovery表示已制造出“药物样”抗体,能够识别包括GPCR分子在内的多种疾病靶点,并具备高产量和高特异性等关键特性 [8] - Generate Biomedicine公司已启动使用AI优化抗体治疗重度哮喘的大规模临床试验,但身体是否会将AI设计的抗体识别为外来分子并引发免疫反应仍是未解决的问题 [8] Anthropic的AI治理与风险预警 - Anthropic编写了一份长达1.4万字的“Claude 4.5 Opus Soul Document”作为AI宪法,试图教会AI成为拥有良好价值观的成年人,在“乐于助人”和“不作恶”之间寻求平衡 [9] - 公司的社会影响团队(Societal Impacts Team)仅由9人组成,包括心理学家、黑客和经济学家等,负责监测Claude的真实用途和修补系统漏洞 [9] - Anthropic联合创始人Jared Kaplan警告,人类在2027-2030年将面临是否允许AI自我进化的终极抉择,如果允许,可能导致AI失控并毁灭全人类 [9]
人应成为AI发展的尺度
腾讯研究院· 2025-12-10 16:33
文章核心观点 - 人工智能是时代发展的最新“筛选器”,而非简单的“替代者”,它将人类竞争力的衡量标准从“掌握知识”提升到“驾驭智能” [4][5][6] - 在人工智能时代,人类区别于机器的核心价值在于其本质特质,如判断力、韧性、直觉与觉知力,这些特质将变得愈发珍贵并成为新的竞争力核心 [4][7][8][9][10] - 人类应超越技术决定论的被动视角,通过主动选择和系统性的社会变革来强化不可替代的特质,从而驾驭技术,共同绘制未来图景 [12][13][14] AI作为时代筛选器 - 社会对“精英”或“有用之才”的定义始终与技术工具共同演进,从识字算数到掌握专业知识,人工智能是当前最新、最强大的标尺 [6][24] - 人工智能将价值衡量标准从“掌握知识”提升为“驾驭智能”,能够熟练运用AI工具协同共创的人将获得巨大赋能 [6][24] - 人的价值体现形式发生转移,当知识如电力般成为基础设施后,区分个体的关键不再是“你知道什么”,而是“你能用已知的知识做什么”、“如何面对未知”及“在困境中如何自处与突破” [6][17] 竞争力回归人的本质 - **判断力与主动性**:在信息过剩的时代,甄别真伪、权衡利弊并做出决策的人类判断力至关重要,这需要与基于判断主动探索和发起行动的主动性相结合 [8][17] - **生命的韧性**:人类在试错与挫折中学习和成长的韧性,是应对未来复杂多变挑战、保持内核稳定的战略必需,这与遇到未知错误可能停止运行的机器逻辑形成对比 [8][18] - **直觉与灵感**:无法被编程的直觉、悟性与灵感是人类创造力最原初的源泉,能推动根本性创新,例如鲁班发明锯子、王羲之创作兰亭序等历史典故 [9][18] - **自我觉知与洞察需求**:自我觉知是保持判断力、韧性和创造力的根基,有助于在变化中主动塑造生命;而洞察人心底层未被言说的真实需求的能力,则彰显了无法被算法完全解码的公共价值与领导力 [10][19] 超越技术决定论 - **个人层面**:需要主动脱离信息茧房、广泛阅读并思考“为什么”;走出舒适区接受挑战,将挫折视为反馈;为直觉留出空间进行“无用”探索;沉浸于真实人际互动与社会实践 [12][20] - **社会与教育层面**:教育范式需从知识灌输转向能力培养,重视项目式学习、艺术与体育;组织文化应奖励创新并容忍有价值的失败;社会需提供心理健康支持与职业再培训体系以保障转型 [13][21] - 人工智能的终极意义在于促使人类回归内在,专注于情感、创造、关怀与探索等生命中最珍贵的事物,人类应作为掌握新航技的航海者,与机器协同共同绘制未来 [13][14][21]
腾讯研究院AI速递 20251210
腾讯研究院· 2025-12-10 00:24
英伟达H200获准出口中国 - 特朗普官宣允许英伟达向中国出口H200芯片,但需向美国政府支付25%的销售分成,相比H20的15%提高了10个百分点,预计年均可为美国政府带来100亿美元收入 [1] - H200性能是H20的8-13倍,采用GH100核心并搭载141GB HBM3e显存,但已被视为相对落后产品,Blackwell架构的B200成为新一代顶流 [1] - 国内大厂累计160亿美元的H20未交付订单需求将转换为H200订单,主要用于训练场景,与国产AI芯片在推理场景的应用形成差异化竞争 [1] Google XR战略与产品发布 - Google正式发布Android XR系统和四种XR设备路线图,与中国AR眼镜厂商XREAL合作推出Project Aura有线XR眼镜,该眼镜搭载70°FOV和骁龙XR2 Plus Gen 2芯片 [2] - Android XR系统直接兼容Google Play Store大部分手机应用,并发布了与Warby Parker和Gentle Monster合作的AI眼镜和单目XR眼镜作为手机配件 [2] - Google手握Android XR和Gemini两大王牌回归XR领域,无线双目XR眼镜最早2027年推出,明年Android XR眼镜还将支持iOS系统 [2] 微软AI产品销售遇阻 - 微软多个AI产品部门下调销售目标,其中Azure AI平台Foundry的销售额增长目标从翻倍降至50%,部分团队仅有20%的销售人员完成原定目标 [3] - 用户对Windows内置AI和Copilot等产品体验不佳反响不强,微软的“先上车后补票”策略消耗了用户信任,同时公司深度依赖OpenAI和英伟达 [3] - 谷歌Gemini势头强劲正抢占市场份额,微软虽整体AI业务仍在增长,预计将从OpenAI云服务租赁中赚取150亿美元,但产品销售疲软已敲响警钟 [3] 智谱开源AutoGLM手机Agent - 智谱开源了AutoGLM手机Agent全套能力,该项目从2023年4月开始研发历时32个月,实现了全球首个具备Phone Use能力的AI Agent,覆盖50多个高频中文App [4] - 系统采用云手机架构以确保数据安全可审计,主动放弃操作微信等用户隐私敏感App,并建立了支持点击、滑动、输入等基础动作的Phone Use能力框架 [4] - 模型以MIT许可开源代码,核心模型以Apache-2.0许可开源,包括训练好的核心模型、工具链、Demo和针对Android的适配层,旨在推动Agent开源生态建设 [4] 摩尔线程即将发布新一代GPU - 摩尔线程将于12月19-20日在北京举办首届MUSA开发者大会,创始人兼CEO张建中将首次发布新一代GPU架构和完整产品路线图 [5][6] - 大会设立超过20个技术分论坛,覆盖智能计算、图形计算、科学计算、AI基础设施等领域,并设立摩尔学院以赋能开发者成长 [6] - 现场将打造超过1000平方米的沉浸式MUSA嘉年华,展示AI大模型、Agent、具身智能、科学计算等前沿技术及工业智造、数字文娱、智慧医疗等应用场景 [6] 智元机器人量产与商业化进展 - 智元机器人三大产线累计下线5000台机器人,包括远征A1/A2全尺寸人形机器人1742台、灵犀X1/X2半尺寸机器人1846台、精灵G1/G2轮式机器人1412台 [7] - 公司已获得富临精工数千万元工业订单、龙旗科技数亿元3C电子订单、均胜电子过亿元汽车电子订单,并中标中国移动7800万元采购200台远征A2的订单 [7] - 机器人产品已覆盖工业制造(如汽车零部件精密装配)、企业服务(如讲解接待)、文娱商演(如湖南卫视综艺、百事可乐代言)等多元场景 [7] OpenAI报告揭示企业AI采用加速 - OpenAI发布的企业AI现状报告基于8亿周活跃用户和9000名企业员工数据,显示ChatGPT企业版消息量自2024年11月以来增长8倍,员工平均每天节省40-60分钟 [8] - 结构化AI工作流在2024年增长19倍,推理Token使用量增长320倍,75%的员工能完成以前无法胜任的任务,非技术岗位的代码类应用增长36% [8] - 前5%的深度用户消息量是中位数用户的6倍,数据分析功能使用量是16倍,同时Midjourney使用TPU后成本降低65%,Anthropic获得百万TPU承诺,Meta正在谈判数十亿美元的TPU部署 [8] 摩根士丹利看涨谷歌TPU产能与市场 - 摩根士丹利预测谷歌TPU产能将迎来爆炸式增长,2027年产量达500万块,2028年达700万块,上调幅度分别为67%和120%,预计每卖出50万块TPU将在2027年为谷歌带来130亿美元收入 [9] - TPU在推理任务上的性价比是英伟达H100的4倍,能效高60-65%,Midjourney迁移后成本降低65%,Anthropic获得百万TPU承诺,Meta正在谈判数十亿美元订单 [9] - 预计到2030年,推理市场将占AI计算的75%,规模达2550亿美元,ASIC专用芯片在推理场景优势明显,英伟达面临利润率压缩威胁和华尔街60亿美元资金外流 [9]