Workflow
腾讯研究院
icon
搜索文档
前沿研究丨数字福祉如何衡量?清华徐心团队以GDP-B方法测度数字经济隐形价值
腾讯研究院· 2025-12-12 16:00
研究背景与核心挑战 - 在数字经济时代,大量免费或零价格的数字产品和服务创造了巨大社会价值,但因其“零价格”特性,难以被传统的国民经济核算体系(如GDP)所捕捉和衡量 [2][5][6] - 清华大学徐心教授团队的研究旨在解决这一关键挑战,即如何科学地衡量这些无形的数字福祉,并重新定义数字经济时代的价值内涵 [2][4][5] 研究方法论创新:GDP-B框架 - 研究团队引入并完善了“GDP-B”(国内生产总值-效益)测量方法,以填补数字福祉测量的空白 [6][7] - 该方法通过巧妙结合大规模实证调研与激励相容实验设计,引导用户真实反映数字服务在其“心理账户”中的价值,从而在客观价格数据与主观调研数据之间找到平衡点,构建了数字福祉的科学测量体系 [7][9] 中国数字福祉的实证研究发现 - 研究团队开展了覆盖全国11个一二线城市、13000名受访者的大规模预调研 [10] - 发现中国消费者对数字服务的价值感知显著较高,例如支付、导航等常用APP的月均估值远超国际同类产品水平 [10] - 数字福祉并非固定不变,而是随使用场景、服务状态等因素动态变化 [11] - 研究关注数字福祉与经济发展水平的关系,初步发现中国一二线城市呈现与斯坦福团队(基于13国数据)不同的趋势:人均GDP更高的城市,消费者从数字APP中获得的价值感知更大 [12] - 关于“数字库兹涅茨曲线”的形态,存在两种可能性:若将中国数据与斯坦福数据合并,可能呈现倒U型曲线;而随着调研覆盖更多中国城市,也可能复现正U型规律,这需要更大规模的全国性研究来验证 [12] 研究规划与生态构建 - 研究团队计划每季度开展全国性调研,以建立中国数字福祉的动态数据库,深入探索数字福祉与经济发展水平的关系等底层规律 [13][14] - 研究已与腾讯可持续社会价值事业部等机构建立合作,计划构建中国数字福祉的长期观测体系,旨在为数字经济时代的政策制定提供科学依据 [15] - 未来规划包括:在确保数据安全的前提下逐步开放研究数据;基于大规模实证数据探索经济智能大模型的开发;深化数字福祉与经济社会发展关系的理论研究 [17] 研究的学术与社会意义 - 该研究展现了中国学者在国际前沿领域的创新实力,为理解数字经济的社会价值提供了新的理论框架和研究方法 [17] - 研究不仅旨在推动学术理论发展,更期望通过系统性的测量研究,帮助更准确地评估数字经济发展成效,为高质量发展提供重要参考 [15][17]
英伟达H200获准出口中国的三个关键问题
腾讯研究院· 2025-12-12 16:00
文章核心观点 - 美国前总统特朗普在社交媒体宣布,在保障国家安全前提下,将允许英伟达向中国大陆等地区出口H200 AI芯片,作为交换,英伟达需向美国政府支付25%的销售分成[4] - 此举意味着美国行政与立法部门之间就H200出口解禁已基本达成共识,主要原因是H200的性能已“相对落后”,不再代表最先进算力[5][9][11] - 解禁若落地,将有望解冻英伟达在中国大陆的市场,带来显著的营收增长,并对产业链需求释放产生积极影响[13][15][17] H200出口解禁的进程与背景 - 解禁流程的官方宣布通过特朗普社交媒体账号进行,这与之前H20获得出口许可的方式类似,表明美国行政与立法部门之间已基本达成共识[6][9] - 尽管已达成共识,但政策的具体流程和执行仍需时间处理,并非立即可以销售[9] - 达成共识的基础在于H200的性能已被视为“相对落后”,美国得以保持对华技术领先一代半的优势[10][11] H200产品性能与市场定位 - H200于2023年11月发布,2024年第二季度开始供货,采用台积电4N工艺,FP16算力高达989T,显存带宽4.8TB/s,2024年曾是绝对先进的产品[10] - 但随着2025年底基于Blackwell架构的B200等产品上线,H200在行业中退居其次,成为性能“相对落后”的产品[10] - 其算力被认为是特供中国市场的H20芯片的6-8倍,互联带宽也是H20的两倍(900GB/s)[10][17] - 对于中国大陆客户,由于现有AI模型大多适配Hopper架构(H200所属架构),从工程成本考虑,H200现阶段比尚未适配的Blackwell架构产品吸引力更大[14][15] 对英伟达的潜在影响 - 解禁将可能结束英伟达在中国大陆市场份额为0的局面,为其带来新的市场机会[13] - 中国大陆市场单季度对英伟达的营收贡献估算约为100亿美元,H200获准出口每年预计可为美国政府带来100亿美元的“好处费”[12] - 2024自然年度,英伟达在中国大陆市场的全部收入为171亿美元,若H200出口顺利,其数据中心产品收入有望创下新高[15] - H200作为成熟产品,无需像H20那样进行“阉割”改造,其平均毛利率有望接近甚至超过80%,利润空间更理想[15] - 消息宣布后,英伟达美股盘后交易快速拉升,涨超1%,市值增长超过450亿美元[16] - 此前多家中国大厂总计向英伟达下达的160亿美元H20订单未能交付,随着H200解禁,这些需求有望转换为新订单并在2026年释放[17] 对中国市场与国产芯片的影响 - 业内分析认为,国内云厂商压制了约两个季度的需求,资本开支将累加到明年,预计2026年需求很大[18] - H200对中国客户具有实际应用价值,目前国内云厂主要用于AI训练,而国产AI芯片目前大部分用于推理场景,两者应用场景并不完全重叠[18] - 多位国产算力芯片从业者表示,放开H200与国产芯片发展并不直接冲突[18] - 有观点认为,美国此举主要目的是帮助英伟达赚钱,与中国本土产品竞争只是次要考虑[19]
腾讯研究院AI速递 20251212
腾讯研究院· 2025-12-12 00:25
Meta的战略调整与重大投资 - Meta神秘AI项目“牛油果”(Avocado)发布计划从2025年底推迟至2026年第一季度,其训练使用了Google Gemma、OpenAI gpt-oss和Qwen模型,并可能采取闭源方式 [1] - 在Llama 4发布后效果未达预期,Meta重新思考开源战略,成立MSL超级智能实验室,并以143亿美元引入28岁的AI负责人Alexandr Wang [1] - MSL部门裁员600人,但不涉及核心的TBD Lab团队,同时公司宣布投资270亿美元建设Hyperion数据中心 [1] 大模型应用生态集成 - Adobe将其Photoshop、Express和Acrobat工具集成至ChatGPT,用户可通过文字描述直接使用图片美化、设计信函和编辑PDF等功能,目标面向ChatGPT超8亿的周活跃用户 [2] - 这些集成工具在ChatGPT中可免费使用,但不包含Generative Fill等高级功能,这是OpenAI将更多第三方应用引入ChatGPT的举措之一 [2] - 今年10月首批加入ChatGPT的第三方应用包括Spotify、Zillow和Figma等 [2] AI模型与技术的开源发布 - 智谱发布工业级语音合成系统GLM-TTS,仅用10万小时数据训练便实现“3秒”音色复刻,在字错误率和情感表达上达到开源SOTA水平 [3] - GLM-TTS采用两阶段生成范式,并基于GRPO算法融合了CER、相似度、情感、笑声四维度的正则化奖励机制 [3] - 模型已在Hugging Face和ModelScope开源,用户可通过Z.ai、智谱清言及BigModel平台体验和调用API [3] AI视频与内容创作工具进展 - 商汤Seko 2.0发布多剧集创作功能,支持最高100集连续创作,声称一个人30分钟即可完成一集短剧,实现从剧本到成片全流程自动化 [4] - 该工具核心优势在于保持资产库的主体和场景一致性,并能自动关联前后剧情,其数据采集成本仅为真机遥操方案的10% [4] - 工具集成了Vdiu、海螺、可灵等主流视频大模型,并推出限时活动,商汤自研生图模型限免一周,月高级会员提供65折优惠 [4] AI助手功能拓展 - 腾讯元宝AI助手推出QQ群智能未读消息总结功能,能将群聊记录提炼成结构清晰的总结报告 [5] - 功能具体包括热聊话题归类、精准信息追踪(筛选@提及消息)、群文件整合和原文直达索引 [6] - 元宝已支持添加为QQ好友进行一对一对话,其电脑版、浏览器插件及移动APP均已上线 [6] 太空计算与AI前沿 - 初创公司Starcloud发射的Starcloud-1卫星搭载H100芯片,其算力比以往太空GPU强100倍,并成功在轨运行谷歌Gemma,训练出首个太空大型语言模型 [6] - 该模型基于Karpathy的nanoGPT用莎士比亚语料训练,可用文艺复兴时期语言风格回答问题,并能进行实时情报分析 [6] - Starcloud计划打造5GW的轨道数据中心并配备4公里太阳能板,预计成本仅为地面数据中心的1/10,SpaceX和谷歌等巨头均已布局该领域 [6] 具身智能与数据采集技术 - 灵初智能发布全球首个具身原生人类数据采集方案Psi-SynEngine,包含便携式外骨骼触觉手套数采套装、大规模in the wild数采数据管线等 [7] - 该方案数据获取成本仅为真机遥操方案的10%,定位精度达亚毫米级,可完整采集手部手臂全部自由度和全手触觉信息 [7] - 公司同步发布Psi-SynNet-v0大规模真实世界多模态数据集,覆盖视觉、语言、触觉、动作,已构建上万小时规模并计划明年突破百万小时量级 [7] AI行业趋势与投资观点 - a16z预测到2026年,AI将彻底重塑各行业,Agent-native基础设施将成为必需品,系统核心瓶颈在于多Agent协调能力而非算力存储 [8] - 消费级AI产品重心正从“提高效率”转向“增进连接”,更“懂我内心”的产品比“帮我做事”的产品有更好的用户留存 [8] - AI绝大部分市场机会在传统垂直行业而非硅谷,视频将成为可“进入”的仿真环境,CRM将变成基础设施,Agent将成为交互核心 [8] 中国AI公司的发展与竞争力 - MiniMax创始人闫俊杰强调全模态发展是AGI的必由之路,公司在语言模型、视频、音频赛道均做到全球领先,音频全球第一、视频第二,未来将探索多模态融合 [9] - MiniMax-M2以61总分位居全球大语言模型第五、开源第一,其采用10B激活参数(总参数230B)的MoE架构,算力成本仅为Claude4.5的8%,上线一个多月tokens调用量突破1万亿次 [9] - AI时代核心竞争力是想象力而非技能,中国公司需要本土创新而非“拿来主义”,关键人才均为本土培养,真正的技术天才将在两三年内出现 [10]
对培育壮大中国具身智能产业的认识与建议
腾讯研究院· 2025-12-11 17:28
文章核心观点 - 具身智能是人工智能、机器人等多学科技术融合的前沿领域,本质是“脑”(AI软件)与“身”(物理硬件)的结合,实现感知、认识、执行一体化,是未来产业的重要组成部分,将对经济社会产生变革性影响 [3][5][6] - 全球及中国具身智能产业尚处起步期,但发展潜力巨大,预计2030年全球市场规模突破1500亿美元,2035年达4000亿美元;中国市场规模预计2030年达4000亿元,2035年突破1万亿元,产业综合竞争力处于全球第一梯队 [3][13][15] - 为加快培育壮大中国具身智能产业,建议聚焦关键技术攻关、有序拓展应用场景、制定安全标准与监管规则、研究制定伦理准则与应对就业影响 [19][20][21][22] 具身智能的本质与定义 - 具身智能是模拟“脑”的人工智能软件与模拟“身”的物理硬件有机结合,实现“感知—认识—执行”一体化的智能体,形态包括智能机器人、L4级以上自动驾驶汽车、自主无人航行器等 [5] - 与“离身智能”(如ChatGPT等大模型,仅有认知无物理执行能力)和“具身不智能”(如传统机械臂,无或仅有低阶智能)有本质区别,是二者的深度融合 [6][8] - 概念于1950年提出,但受技术限制进展缓慢,直到2022年前后AI大模型广泛应用,才使其实现“像人类一样思考与行动”成为可能 [8] 具身智能的未来影响 - **提升经济运行效率**:工业机器人可实现7×24小时柔性生产,提升效率与质量一致性;服务机器人可应用于文旅、教育、送餐等新兴消费场景;农业机器人(如水果采摘机器人)将改变传统手工劳作方式;激光除草机器人可减少80%除草剂使用量;无人驾驶汽车有望减少90%以上交通事故 [10] - **变革社会服务模式**:家庭养老机器人可辅助应对全球护士缺口(预计2030年达1300万人),提供基础服务与个性化陪护;智能机器人可进入火灾、核辐射等危险现场执行任务,降低人员风险 [11] 国内外产业发展进展与市场预测 - **全球发展态势**:产业处于起步期,真正意义上的具身智能尚未大规模量产;人形机器人预计2025年小规模试验导入,2030年规模化生产;L4级自动驾驶汽车有望2030年左右规模商业化;自主无人航行器等将在未来5年内放量增长 [13] - **全球市场规模**:预计2030年突破1500亿美元,2035年达4000亿美元;科研展览展示场景将率先推广,随后是交通物流、工业制造,家庭场景待技术成熟后规模化应用 [13] - **主要经济体布局**:美国重视国防与太空领域投入,欧洲侧重医疗与能源应用,日本聚焦社会基础设施与登月计划;英伟达、谷歌、特斯拉、OpenAI等大企业积极构建软硬件生态 [14] - **中国产业竞争力**:产业综合竞争力处于全球第一梯队,在大模型研发和产品制造方面基础较好;供应链优势显著:25家中国公司供应机器人手部零部件(美国7家),30家供应腿部线性执行器(美国6家);中国产智能机器人成本约为其他地区的一半;2023年中国工业机器人安装量占全球51%,是美国的7倍 [15] - **中国市场规模预测**:预计2030年达4000亿元(约占全球四成),2035年突破1万亿元;细分市场预测如下 [15][17]: - 智能机器人:2030年900亿元,2035年3000亿元 - 无人驾驶汽车:2030年2000亿元,2035年6000亿元 - 自主无人航行器:2030年600亿元,2035年1500亿元 - 其他仿生智能体:2030年500亿元,2035年1000亿元 加快培育中国具身智能产业的建议 - **集中力量研发关键共性技术**:支持具身大模型、算法、安全可控操作系统、仿真平台及标准化工具链研发;攻关高性能传感器、减速器、电池续航等关键零部件;布局人工肌肉、神经科学等交叉技术;构建高质量开放共享数据集与统一标准;鼓励开源发展 [19] - **支持创造应用场景以加速迭代降本**:在应急消防、旅游导览、治安巡检等公共场景率先扩大采购应用;在安防巡检、交通物流、家居服务等领域探索制定统一标准,形成规模效应以降低供应链成本 [20][21] - **制定强制性安全标准与监管规则**:对算力、电池、执行器冗余设计提出强制性要求;加强设备身份识别与全生命周期监管;加强系统漏洞检测与安全通信等联合攻关;考虑建立设备责任险与系统性风险储备金 [21] - **研究制定伦理准则与应对就业影响**:明确具身智能仅为工具,不赋予其社会属性与法律地位;确保人机交互中人类的知情权、同意权与退出权;分级限制未成年人使用,防范情感依赖;建立就业预警系统跟踪岗位替代率;院校增设相关课程加大教育培训力度 [22]
腾讯研究院AI速递 20251211
腾讯研究院· 2025-12-11 00:01
OpenAI与谷歌的图像模型竞争 - OpenAI两款名为Chestnut(栗子)和Hazelnut(榛子)的神秘图像模型据称为GPT Image 2,将在本周随GPT-5.2亮相 [1] - 开发者实测显示,OpenAI的图像生成质量尤其在人物面部生成效果上不如谷歌的Nano Banana Pro模型,推测其可能仍基于GPT-4o训练但相较上一代有所提升 [1] - 谷歌的Nano Banana Flash新模型也将在本周登场,同时Gemini 3 Flash即将发布,预示着OpenAI与谷歌在AI领域的正面竞争加剧 [1] Mistral AI发布代码模型与工具 - Mistral AI发布下一代代码模型系列Devstral 2(123B参数)和Devstral Small 2(24B参数),在SWE-bench Verified基准测试上分别达到72.2%和68.0%的准确率,成本效率据称比Claude Sonnet高出7倍 [2] - 公司同步发布了原生CLI工具Mistral Vibe,提供项目感知上下文、智能引用和多文件编排功能,并已作为Zed编辑器的扩展程序提供 [2] - 模型采用修改版MIT许可证,增加了收入限制条款,规定月收入超过2000万美元的公司无权免费使用,需联系Mistral AI购买商业授权 [2] 智谱AI开源语音模型并推出输入法 - 智谱正式发布并开源了GLM-ASR-2512云端模型(字符错误率CER仅0.0717)和GLM-ASR-Nano-2512端侧模型(1.5B参数,达到开源SOTA水平),实现了行业领先的语音识别表现 [3] - 公司推出了智谱AI输入法,支持语音转文字、翻译改写和千人千面人设切换功能,针对开发者提供Vibe Coding体验并与智谱Coding Plan账号打通 [3] - 产品优化了耳语捕捉能力以适应公共场景的微弱声音,支持一键导入专属词汇和项目代号,现已开放下载并免费提供2000积分,相当于28天使用时长 [3] 阿里通义实验室开源图像定制工具 - 阿里通义实验室推出开源工具Qwen-Image-i2L,仅需单张样本图片即可训练LoRA实现个性化风格迁移,模型体积仅几GB,可无缝集成到Stable Diffusion等模型中 [4] - 工具提供了四款模型变体,包括风格模式(2.4B参数)、粗粒度模式(7.9B参数)、精细模式(7.6B参数)和偏见模式(30M参数),分别针对不同应用场景进行优化 [4] - 该项目基于Apache2.0许可证开源,在GenEval和DPG等基准测试中表现领先,特别在中英双语文本渲染方面表现突出,但从单张2D图片提炼3D逻辑仍存在局限 [4] 情感大模型Echo-N1发布 - NatureSelect团队发布了首个情感大模型Echo-N1(32B参数),在多轮情感陪伴任务中的胜率达到46.7%,远超千亿参数商业模型Doubao 1.5的13.3%胜率 [5][6] - 模型创新性地提出了生成式奖励模型和共情的心理物理模型(EPM),将“共情”转化为可计算的物理做功,通过Humanlike Reward和Empathy Reward双重奖励机制进行训练 [6] - 团队构建了拟人化认知沙盒多智能体协作系统,在30个高难度心理场景测试中,基座模型Qwen3-32B的通过率为0%,而Echo-N1的综合评分达到了73.54分 [6] 行业巨头组建智能体标准联盟 - Linux基金会成立了Agentic AI Foundation(AAIF),由OpenAI、Anthropic、谷歌、微软、AWS等巨头共同发起,旨在建立开放中立的智能体互操作性标准 [7] - OpenAI贡献了AGENTS.md标准作为核心基础设施,该标准已被超过6万个开源项目采用,Anthropic则贡献了模型上下文协议(MCP),Block贡献了goose项目 [7] - AGENTS.md本质上是智能体的README文件,为AI编程智能体提供清晰可预测的指令位置,旨在确保不同AI智能体能够安全高效地跨平台协作 [7] AI在药物研发领域取得进展 - 科学家利用AI工具成功设计出具有抗体药物特性的分子,包括由BoltzGen模型设计的纳米抗体和商业公司制造的全长抗体,其效力与商业抗体药物相似 [8] - 加州公司Nabla Bio和Chai Discovery表示已制造出“药物样”抗体,能够识别包括GPCR分子在内的多种疾病靶点,并具备高产量和高特异性等关键特性 [8] - Generate Biomedicine公司已启动使用AI优化抗体治疗重度哮喘的大规模临床试验,但身体是否会将AI设计的抗体识别为外来分子并引发免疫反应仍是未解决的问题 [8] Anthropic的AI治理与风险预警 - Anthropic编写了一份长达1.4万字的“Claude 4.5 Opus Soul Document”作为AI宪法,试图教会AI成为拥有良好价值观的成年人,在“乐于助人”和“不作恶”之间寻求平衡 [9] - 公司的社会影响团队(Societal Impacts Team)仅由9人组成,包括心理学家、黑客和经济学家等,负责监测Claude的真实用途和修补系统漏洞 [9] - Anthropic联合创始人Jared Kaplan警告,人类在2027-2030年将面临是否允许AI自我进化的终极抉择,如果允许,可能导致AI失控并毁灭全人类 [9]
人应成为AI发展的尺度
腾讯研究院· 2025-12-10 16:33
文章核心观点 - 人工智能是时代发展的最新“筛选器”,而非简单的“替代者”,它将人类竞争力的衡量标准从“掌握知识”提升到“驾驭智能” [4][5][6] - 在人工智能时代,人类区别于机器的核心价值在于其本质特质,如判断力、韧性、直觉与觉知力,这些特质将变得愈发珍贵并成为新的竞争力核心 [4][7][8][9][10] - 人类应超越技术决定论的被动视角,通过主动选择和系统性的社会变革来强化不可替代的特质,从而驾驭技术,共同绘制未来图景 [12][13][14] AI作为时代筛选器 - 社会对“精英”或“有用之才”的定义始终与技术工具共同演进,从识字算数到掌握专业知识,人工智能是当前最新、最强大的标尺 [6][24] - 人工智能将价值衡量标准从“掌握知识”提升为“驾驭智能”,能够熟练运用AI工具协同共创的人将获得巨大赋能 [6][24] - 人的价值体现形式发生转移,当知识如电力般成为基础设施后,区分个体的关键不再是“你知道什么”,而是“你能用已知的知识做什么”、“如何面对未知”及“在困境中如何自处与突破” [6][17] 竞争力回归人的本质 - **判断力与主动性**:在信息过剩的时代,甄别真伪、权衡利弊并做出决策的人类判断力至关重要,这需要与基于判断主动探索和发起行动的主动性相结合 [8][17] - **生命的韧性**:人类在试错与挫折中学习和成长的韧性,是应对未来复杂多变挑战、保持内核稳定的战略必需,这与遇到未知错误可能停止运行的机器逻辑形成对比 [8][18] - **直觉与灵感**:无法被编程的直觉、悟性与灵感是人类创造力最原初的源泉,能推动根本性创新,例如鲁班发明锯子、王羲之创作兰亭序等历史典故 [9][18] - **自我觉知与洞察需求**:自我觉知是保持判断力、韧性和创造力的根基,有助于在变化中主动塑造生命;而洞察人心底层未被言说的真实需求的能力,则彰显了无法被算法完全解码的公共价值与领导力 [10][19] 超越技术决定论 - **个人层面**:需要主动脱离信息茧房、广泛阅读并思考“为什么”;走出舒适区接受挑战,将挫折视为反馈;为直觉留出空间进行“无用”探索;沉浸于真实人际互动与社会实践 [12][20] - **社会与教育层面**:教育范式需从知识灌输转向能力培养,重视项目式学习、艺术与体育;组织文化应奖励创新并容忍有价值的失败;社会需提供心理健康支持与职业再培训体系以保障转型 [13][21] - 人工智能的终极意义在于促使人类回归内在,专注于情感、创造、关怀与探索等生命中最珍贵的事物,人类应作为掌握新航技的航海者,与机器协同共同绘制未来 [13][14][21]
腾讯研究院AI速递 20251210
腾讯研究院· 2025-12-10 00:24
英伟达H200获准出口中国 - 特朗普官宣允许英伟达向中国出口H200芯片,但需向美国政府支付25%的销售分成,相比H20的15%提高了10个百分点,预计年均可为美国政府带来100亿美元收入 [1] - H200性能是H20的8-13倍,采用GH100核心并搭载141GB HBM3e显存,但已被视为相对落后产品,Blackwell架构的B200成为新一代顶流 [1] - 国内大厂累计160亿美元的H20未交付订单需求将转换为H200订单,主要用于训练场景,与国产AI芯片在推理场景的应用形成差异化竞争 [1] Google XR战略与产品发布 - Google正式发布Android XR系统和四种XR设备路线图,与中国AR眼镜厂商XREAL合作推出Project Aura有线XR眼镜,该眼镜搭载70°FOV和骁龙XR2 Plus Gen 2芯片 [2] - Android XR系统直接兼容Google Play Store大部分手机应用,并发布了与Warby Parker和Gentle Monster合作的AI眼镜和单目XR眼镜作为手机配件 [2] - Google手握Android XR和Gemini两大王牌回归XR领域,无线双目XR眼镜最早2027年推出,明年Android XR眼镜还将支持iOS系统 [2] 微软AI产品销售遇阻 - 微软多个AI产品部门下调销售目标,其中Azure AI平台Foundry的销售额增长目标从翻倍降至50%,部分团队仅有20%的销售人员完成原定目标 [3] - 用户对Windows内置AI和Copilot等产品体验不佳反响不强,微软的“先上车后补票”策略消耗了用户信任,同时公司深度依赖OpenAI和英伟达 [3] - 谷歌Gemini势头强劲正抢占市场份额,微软虽整体AI业务仍在增长,预计将从OpenAI云服务租赁中赚取150亿美元,但产品销售疲软已敲响警钟 [3] 智谱开源AutoGLM手机Agent - 智谱开源了AutoGLM手机Agent全套能力,该项目从2023年4月开始研发历时32个月,实现了全球首个具备Phone Use能力的AI Agent,覆盖50多个高频中文App [4] - 系统采用云手机架构以确保数据安全可审计,主动放弃操作微信等用户隐私敏感App,并建立了支持点击、滑动、输入等基础动作的Phone Use能力框架 [4] - 模型以MIT许可开源代码,核心模型以Apache-2.0许可开源,包括训练好的核心模型、工具链、Demo和针对Android的适配层,旨在推动Agent开源生态建设 [4] 摩尔线程即将发布新一代GPU - 摩尔线程将于12月19-20日在北京举办首届MUSA开发者大会,创始人兼CEO张建中将首次发布新一代GPU架构和完整产品路线图 [5][6] - 大会设立超过20个技术分论坛,覆盖智能计算、图形计算、科学计算、AI基础设施等领域,并设立摩尔学院以赋能开发者成长 [6] - 现场将打造超过1000平方米的沉浸式MUSA嘉年华,展示AI大模型、Agent、具身智能、科学计算等前沿技术及工业智造、数字文娱、智慧医疗等应用场景 [6] 智元机器人量产与商业化进展 - 智元机器人三大产线累计下线5000台机器人,包括远征A1/A2全尺寸人形机器人1742台、灵犀X1/X2半尺寸机器人1846台、精灵G1/G2轮式机器人1412台 [7] - 公司已获得富临精工数千万元工业订单、龙旗科技数亿元3C电子订单、均胜电子过亿元汽车电子订单,并中标中国移动7800万元采购200台远征A2的订单 [7] - 机器人产品已覆盖工业制造(如汽车零部件精密装配)、企业服务(如讲解接待)、文娱商演(如湖南卫视综艺、百事可乐代言)等多元场景 [7] OpenAI报告揭示企业AI采用加速 - OpenAI发布的企业AI现状报告基于8亿周活跃用户和9000名企业员工数据,显示ChatGPT企业版消息量自2024年11月以来增长8倍,员工平均每天节省40-60分钟 [8] - 结构化AI工作流在2024年增长19倍,推理Token使用量增长320倍,75%的员工能完成以前无法胜任的任务,非技术岗位的代码类应用增长36% [8] - 前5%的深度用户消息量是中位数用户的6倍,数据分析功能使用量是16倍,同时Midjourney使用TPU后成本降低65%,Anthropic获得百万TPU承诺,Meta正在谈判数十亿美元的TPU部署 [8] 摩根士丹利看涨谷歌TPU产能与市场 - 摩根士丹利预测谷歌TPU产能将迎来爆炸式增长,2027年产量达500万块,2028年达700万块,上调幅度分别为67%和120%,预计每卖出50万块TPU将在2027年为谷歌带来130亿美元收入 [9] - TPU在推理任务上的性价比是英伟达H100的4倍,能效高60-65%,Midjourney迁移后成本降低65%,Anthropic获得百万TPU承诺,Meta正在谈判数十亿美元订单 [9] - 预计到2030年,推理市场将占AI计算的75%,规模达2550亿美元,ASIC专用芯片在推理场景优势明显,英伟达面临利润率压缩威胁和华尔街60亿美元资金外流 [9]
人工智能生成广告:机遇、挑战与对策
腾讯研究院· 2025-12-09 16:53
文章核心观点 生成式人工智能正在全球范围内深刻重塑广告产业的底层逻辑、生产模式和用户体验,推动行业从程序化广告向智能广告系统演进,实现从广告生产、投放到效果归因的全链路智能化变革,并在此过程中引发流量入口、素材生成、投放机制及行业角色等多方面的结构性变化 [3][4][6] 流量入口重构 - 人工智能助手(如Siri、小爱)正在被重塑为“超级入口”,通过“去皮化”操作(如不打开App直接完成点外卖)削弱了传统超级App对流量分发的控制权 [7] - 广告分发路径正从以App为中心转向以人工智能代理为中心,导致用户接触点更碎片、广告投放入口更加多元,平台广告生态结构或将重构 [7] 素材生成自动化 - 生成式智能技术已广泛应用于文案撰写、图像延展、短视频自动拼接等基础任务,大幅提升了广告素材的生产效率和质量 [8] - 生成式召回通过理解创意内涵,从海量素材中智能、精准地为用户生成或挑选最匹配的候选广告,推动广告范式从“千人千面”向基于实时场景的“一人千面”演进 [8] - 人工智能技术正在打破高质量内容生产的门槛,使中小品牌有机会加入原本成本高昂的营销战场 [8] 个性体验极致化 - 人工智能生成广告的目标是实现“一人千面”,即真正理解每个用户的语境、场景、偏好,并实时生成定制内容,例如谷歌Gemini模型可根据复杂查询生成带有推荐理由的产品列表 [9] - 广告版本可随用户语境变化实时生成,实现“交互即投放”,广告角色从“刺激点击”转变为“促成决策” [9] - 购物智能体的兴起进一步缩短转化链路,用户可直接在与机器人对话中完成比价、下单甚至支付 [9] 广告投放机制变革 - 生成式智能正逐步渗透广告投放的底层机制,对点击率、转化率、竞价模型等核心环节带来变革 [10] - 大模型具备更强的语义理解与内容生成能力,有望提升用户兴趣识别与投放的匹配精度,实现从流量逻辑向兴趣逻辑的转变 [10] - 以美国广告技术公司AppLovin在2023年推出的AXON2.0推荐引擎为例,其在原有机器学习架构上引入人工智能优化,推动了平台业务的显著增长 [10] 广告代理商角色转型 - 人工智能正在取代代理商大量重复性、执行性工作(如批量文案生成、素材改图),促使代理商将精力转向提示词工程、消费者洞察、创意策略调度等高附加值环节 [11] - 代理机构角色从内容生产者转变为“模型优化师”、“智能素材编排师”,专注于提示词优化、A/B测试策略、内容微调等创新服务 [11] - 专注于广告模型开发、投放链路优化、广告智能体开发等的垂直AI创业团队或将成为广告产业的新型服务商 [11] 人机协作模式升级 - 生成式人工智能正从“生成工具”升级为“实时协作者”,以“智能体”等新形态推动数字广告生产模式从程序化向人机实时协作转变 [12] - 例如腾讯“妙思”、“妙问”等智能体产品,可在脚本初稿、分镜设计等环节与创作人员同步迭代,并提供即时可视化素材 [12] - 智能体可实时分析社媒数据,使市场反馈自动回流到创作端,形成“数据洞察—创意生成—市场测试—迭代优化”的闭环,在保证量产效率的同时显著缩短高品质广告的试错周期 [12] 技术应用与行业案例 - 谷歌在2025年I/O大会上发布的“AI模式”将Gemini模型深度嵌入搜索、推荐与广告生成流程,展示了广告从“被动呈现”到“主动交互”的转变 [3] - 腾讯AI广告创意平台“妙思”借自主研发的混元大模型打通创意制作、投放流程与广告审核多个环节 [3] - 在跨境电商广告投放中,生成式智能技术被广泛应用于人群洞察、素材生成与多平台投放策略优化,显著提升了投放精准度与人力资源效能 [4] - 部分品牌通过虚拟数字人开展可控化内容投放,持续产出直播内容以降低人力成本,并规避广告代言人“人设塌房”风险 [4] - 企业借助腾讯“转化宝”等工具追踪用户路径、分析归因数据,打通广告引流与私域转化的全链路 [4] - 某电商平台在“618”大促期间,利用智能投放系统为单个用户生成47版差异化广告 [16] - 某金融科技公司使用AI系统在3小时内生成并销毁12万条广告,其中违法内容虽占比不足0.3%,但绝对数量达360条 [16]
腾讯研究院AI速递 20251209
腾讯研究院· 2025-12-09 00:01
微软开源轻量级实时TTS模型 - 微软开源0.5B参数的实时TTS模型VibeVoice-Realtime-0.5B,首包延迟仅300毫秒,支持流式朗读,发布12小时获得12.3K星标 [1] - 模型采用交错窗口架构支持长文本无卡顿朗读,最多支持4个角色自然对话,具备情绪识别与表达能力,长时上下文记忆可达90分钟 [1] - 模型同时支持中英文语音生成,在LibriSpeech和SEED TTS测试集上错字率约2%,说话人相似度达0.65以上 [1] 智谱开源多模态大模型GLM-4.6V - 智谱正式上线并开源GLM-4.6V系列多模态大模型,包括106B-A12B基础版和9B轻量版Flash,训练上下文窗口提升至128k tokens,价格相较GLM-4.5V降低50% [2] - 首次在模型架构中将Function Call能力原生融入视觉模型,实现“图像即参数,结果即上下文”的多模态工具调用 [2] - 在同参数规模下达到SOTA表现,9B版本整体超过Qwen3-VL-8B,106B参数版本比肩2倍参数量的Qwen3-VL-235B [2] 可灵O1推出主体库与对比模板功能 - 可灵O1推出“主体库”功能,支持上传多角度参考图构建专属角色、道具和场景,视频O1支持至多7个主体,图片O1支持至多10个主体组合 [3] - 新增AI补图功能,可根据一张主要参考图自动扩展更多视角并智能生成主体描述 [3] - “对比模板”功能一键整合多模态创作,实现Prompt、参考图、主体等所有输入与最终成品的同框对比 [3] 美团开源图像编辑模型LongCat-Image - 美团LongCat团队发布并开源6B参数LongCat-Image模型,在ImgEdit-Bench(4.50分)、GEdit-Bench中英文(7.60/7.64分)等图像编辑基准测试中达到开源SOTA水平 [4] - 采用文生图与图像编辑同源架构及渐进式学习策略,在中文文字生成方面ChineseWord评测以90.7分大幅领先,覆盖通用规范汉字表8105个汉字 [4] - 全面开源文生图多阶段模型和图像编辑模型,GenEval 0.87分、DPG-Bench 86.8分的表现使其在生图基础能力上具备强竞争力 [4] 腾讯发布混元2.0大模型并接入DeepSeek - 腾讯自研大模型混元2.0正式发布,采用MoE架构,具备406B总参数量(激活参数32B),支持256K超长上下文窗口 [5][6] - DeepSeek V3.2同步在腾讯生态内接入,重点提升推理表现与长文本生成质量,在公开推理类评测中能力达GPT-5水平,略低于Gemini-3 Pro [6] - 两大模型已在腾讯AI原生应用中上线,腾讯云同步开放API及平台服务,多款产品正在陆续接入 [6] 阿里发布多语言多方言TTS模型Qwen3-TTS - 阿里通义团队发布Qwen3-TTS新一代文本转语音模型,提供49种高保真角色化音色 [7] - 支持10种语言和9种中文方言,保留真实语调与地域口音 [7] - 在MiniMax TTS multilingual test set上平均WER表现优于竞品,韵律控制相比上一代有明显感知级提升 [7] 英伟达小模型在AGI测试中成本优势显著 - 英伟达4B小模型NVARC在ARC-AGI 2测试中以27.64%公开榜成绩力压GPT-5 Pro的18.3%登顶榜首,每任务成本仅20美分,约为GPT-5 Pro单任务成本的1/36 [8] - 采用零预训练深度学习方法,通过大规模合成高质量数据(320万+增强样本)和测试时微调技术,针对每个问题进行LoRA微调快速适应 [8] - 选用Qwen3-4B小参数模型通过对话式模板简化谜题理解,借助NeMo RL框架进行监督微调 [8] 普渡发布行业级自主导航四足机器人 - 普渡机器人正式发布行业级自主导航四足机器人PUDU D5系列,提供轮足/点足两个版本,搭载NVIDIA Orin与RK3588双芯片架构,总算力高达275TOPS [9] - 配备四目鱼眼相机与双192线激光雷达,实现厘米级精准定位和环境重建,可稳定承载30公斤负载,单次充电续航达14公里,整机防护IP67 [9] - 采用仿生轮足融合系统,最高速度可达5米/秒,具备30°斜坡攀爬与25厘米连续越阶能力,适用于多场景应用 [9] 关于大语言模型使用方法的观点 - 观点认为不应把大语言模型看作实体,而应视作模拟器,避免使用“你怎么看”这样的提问方式 [10] - 建议采用更有效的提问策略,让LLM引导或模拟多种视角,而非局限于单一AI人格 [11] - 强调模型的“你”是被刻意设计并硬加上去的,通过SFT和RLHF构建的复合人格本质上仍建立在Token模拟引擎之上 [11]
AI会消灭搜索吗?
腾讯研究院· 2025-12-08 17:37
文章核心观点 AI技术正在彻底重构搜索引擎的形态与价值,推动其从传统的关键词链接分发模式,进化为能够提供直接答案、理解多模态信息、执行具体任务并内嵌于各类场景的智能决策与服务撮合平台,这预示着一个万亿级信息服务市场的开启 [1][4][13][26][34] 战略转向:蓝色链接正在消融 - 传统搜索引擎以蓝色链接列表为核心的模式正面临挑战,用户对信息检索效率、可信度和体验的升级需求日益急迫 [3] - 谷歌搜索引擎全球市场份额10年来首次跌破90%,而ChatGPT周活跃用户数已突破7亿,覆盖全球约10%的成年人口,市场格局出现松动迹象 [4] - 全球最受欢迎的10款消费级AI应用中,有8款具备搜索功能,表明搜索正以新的形态成为AI应用的核心能力 [4] 产品形态:人机交互显现新形态 - **对话式交互成为新标准**:基于大语言模型的AI搜索引擎通过自然语言对话提供直接答案,改变了用户意图的挖掘方式,避免了在多个网页间跳转的繁琐 [8][9][11] - Perplexity凭借对话界面,至2025年中期月活用户突破3000万 [11] - 谷歌AI概览功能每月服务超15亿用户 [11] - **多模态理解拓宽应用边界**:AI搜索支持语音、图像、视频输入输出,极大扩展了应用场景 [12] - 谷歌Lens月度视觉查询量在2024年底已达200亿次 [12] - **价值跃升为任务执行与交易撮合**:AI搜索的目标是直接将用户思考转化为行动,通过调用服务API完成订票、购物等具体任务,构建从决策到执行的无缝闭环,开启万亿级服务撮合市场 [13] - **搜索内化为通用能力**:AI搜索正作为一种基础能力被广泛嵌入社交、电商、办公等多元场景,从独立应用转变为随需调用的服务 [14] - 微信搜一搜整合生态内图文、视频与服务 [15] - 超过三分之一的小红书用户将搜索作为开启应用的第一动作 [15] 市场格局:四条路线齐头并进 - **路线一:传统搜索引擎渐进式升级**:以谷歌、微软Bing、百度为代表,在原有架构上引入AI生成能力作为增强,核心优势在于海量数据、成熟广告体系和庞大用户基础,但答案准确率与商业模式适配仍在优化 [20] - **路线二:AI原生搜索引擎颠覆式重构**:以Perplexity、OpenAI为代表,从产品设计之初就以对话式AI为核心提供直接答案,特点为简洁界面和清晰来源标注,正积极探索付费订阅等可持续商业模式以应对高昂的推理成本 [21] - **路线三:超级应用生态整合**:以微信为代表,将AI搜索功能与自身庞大的内容与服务生态深度整合,目标是让用户在生态内完成从需求理解到服务交付的全流程 [22] - **路线四:垂直深耕服务驱动一体化执行**:聚焦电商、地图、旅游等特定场景,提供从信息检索到服务执行的一体化解决方案,核心优势在于垂直领域数据积累与线下服务整合能力 [23] - 未来不同路线之间可能出现更多交叉与融合 [24] 产业版图:解锁万亿市场 - **上游:可信信息源价值重构**:AI对高质量、结构化、可溯源数据的需求,显著提升了第一方数据和UGC(用户生成内容)的资产价值 [27] - 谷歌与Reddit达成数据授权协议,用于AI训练和搜索优化 [27] - 新闻媒体、学术期刊等权威信息源正探索向AI平台授权内容的新合作模式 [27] - **中游:营销范式向夺取AI心智转移**:传统搜索引擎优化(SEO)逻辑面临调整,答案引擎优化(AEO)成为新焦点,目标是从追求页面排名转向使内容被AI采纳为直接答案来源 [28] - **新交互入口涌现**:集成AI能力的浏览器允许在地址栏直接问答,形成去中心化搜索;AI原生硬件(如Meta Ray-Ban智能眼镜)通过视觉问答将搜索转变为情境感知的响应,拓展了物理边界 [29] - **市场潜力巨大**:传统搜索主要变现约20%-30%具有明确商业意图的查询,AI能将剩余70%-80%的非商业长尾查询转化为可推荐商品与服务的场景,打开巨大增量市场 [34] - 2024年全球搜索引擎市场价值为2047.6亿美元,预计到2031年将达到4214.2亿美元,预测期内复合年增长率为11.0% [34]