Workflow
腾讯研究院
icon
搜索文档
腾讯研究院AI速递 20251203
腾讯研究院· 2025-12-03 00:03
OpenAI战略调整与竞争压力 - 公司宣布进入“红色警报”状态,暂停广告、AI Agent和Pulse项目,集中资源修复和升级ChatGPT,并计划下周发布全新推理模型以对抗竞争对手Gemini 3 [1] - 战略优先级调整为产品体验优先于商业变现,重点改进个性化、响应速度、减少拒答和模型行为,目标是在LMArena等榜单上赢回用户 [1] - 公司面临巨大市场压力,需从100亿美元营收增长至200亿美元,并在2027年达到350亿美元,以支撑约1000亿美元的融资需求 [1] 视频生成模型技术突破 - Runway Gen-4.5在Artificial Analysis文本转视频基准测试中以1247 Elo评分取得SOTA,超越所有现有模型,其物理还原度与视觉精准度获“视频生成AGI时刻”评价 [2] - 模型擅长理解并执行复杂序列式指令,可在单个提示词中精准指定镜头运镜、场景构图、时间节点和氛围变化,物体移动具备真实重量感与动量特征 [2] - 官方正在逐步开放使用权限,未来几天内所有用户都能体验,将以当前订阅套餐相近的价格全面开放 [2] - 快手发布“全球首个统一多模态视频模型”可灵AI视频O1,将视频修改、镜头延展、多主体参考等功能整合到一个统一模型,支持3-10秒自由生成时长 [3] - O1模型具备多图参考生成、局部编辑、镜头延展和动作捕捉能力,多主体元素镜头切换能稳住一致性,局部编辑自然流畅 [3] - 快手宣布一周连续上新,Day 2也已发布图片O1模型,在高度一致性、细节处理、风格复刻和创意融合方面表现突出 [3] - 拍我AI V5.5成为国内首个能一键生成“分镜+音频”的AI视频大模型,实现了从素材生成到完整叙事的跨越,具备多角色音画同步和多镜头切换能力 [4] - 该模型展现出对视听语言的深度理解,能根据场景自主匹配音效、精准拿捏口型与情绪、智能编排景别镜头,已达到广告提案和影视预演的可用水准 [4] - AI视频正从“素材生成”迈入“内容生成”时代,普通人无需专业设备和剪辑技能,即可通过AI完成专业级视频创作 [4] 游戏NPC与自动驾驶AI进展 - 蔡浩宇美国AI公司Anuttacon推出聊天产品AnuNeko,不提供生产力功能,专注模拟真实人类对话反应,通过“不知道”和反问保持真人感 [5][6] - AnuNeko提供Orange Cat和Exotic Shorthair两种人格模型,拒绝执行功能性任务,刻意限制AI的“全知全能”以确立独立个体身份 [6] - Anuttacon拥有约50人团队,正在打造通用AI NPC生成平台,未来开发者只需输入设定即可生成具备真实交互的NPC角色 [6] - 英伟达推出Alpamayo-R1推理版视觉-语言-行动模型,基于Cosmos Reason,通过Chain of Causation因果链数据集让车辆能“推理出因果关系” [7] - AR1采用扩散式轨迹解码器和多阶段训练策略,规划精度提升12%,越界率降低35%,近碰率降低25%,推理-行动一致性提升37%,端到端延迟仅99ms [7] - 模型引入多维度奖励机制包括专家推理反馈、推理-行动一致性奖励和底层安全奖励,能解释每个驾驶决策的原因 [7] 大模型与机器人技术前沿 - 华为开源openPangu-R-7B-Diffusion扩散语言模型,基于openPangu-Embedded-7B用800B tokens续训练,成功将上下文长度扩展至32K [8] - 模型在MMLU-Pro超越16B参数的LLaDA 2.0-mini-preview 22%,数学推理MATH得分84.26,代码生成MBPP得分84.05,创7B参数量级新SOTA [8] - 采用前文因果注意力掩码设计,支持自回归+扩散双模式解码,并行解码速度最高可达自回归解码的2.5倍,训练推理全流程在昇腾NPU完成 [8] - 众擎机器人发布T800全尺寸高动态通用机器人,身高173cm体重75kg,全身43个自由度关节,最大关节力矩高达450 N·m,移动速度3m/s [9] - T800采用72V行星/直线混合驱动,能完美执行巴西战舞、回旋踢、五连踢、组合拳和飞踢等高难度动作,实现对170cm同等身高男性80%以上性能超越 [9] - 公司计划2026年实现数十台级别小批量交付验证场景,2027年争取T800销量达到1-2万台,12月24日将举办“机甲拳王”机器人自由格斗比赛 [9] 风险投资与创业观点 - 红杉美国首位华裔女性合伙人Jess Lee强调所有问题都是“人的问题”,提出EQ、PQ、IQ、JQ四维人才评估框架,重视组建互补型尖锐人才团队 [10] - 她认为早期与用户沟通核心是理解真实问题而非产品功能反馈,信念与愿景要走在用户认知之前,早期PM应主动承担更多非职责内工作 [11] - 最大的创业教训是选错市场和商业模式,不同业务有自身“物理定律”,订阅制现金流优势远超社交电商,商业模式是投资首要考虑因素之一 [11]
刷累了短视频,年轻人开始看视频播客了
腾讯研究院· 2025-12-02 16:33
视频播客行业兴起背景 - 视频播客在B站等平台快速流行,2025年第一季度观看时长达到259亿分钟,同比增长超过270%,用户规模超过4000万 [2] - 视频播客在国外先流行,2020年前后Spotify全面投入视频播客生态并签下Joe Rogan节目版权,带动行业关注度提升 [3] - 媒介形态呈现循环规律,视频播客是在播客基础上补回"看"的部分,满足用户对可视化体验的强烈需求 [4] 视频播客的用户需求特征 - 填补用户想放松但不想被短视频轰炸的内容消费需求,提供节奏舒缓的观看体验 [5] - 兼具播客深度和视频可视化优势,不需要持续高强度关注,比纯音频更有存在感 [5] - 用户将其作为陪伴式媒介,可看可不看,谈话连贯性强于短视频 [6] - 真实感成为受欢迎重要原因,保留完整时长不刻意剪辑,让观众感到像听朋友聊天 [6] 视频播客的创作者价值 - 画面呈现使信息更完整,观众能看到谈话现场、表情变化和真实互动 [8] - 对嘉宾而言,视频播客比纯音频更能满足曝光需求,强化专业形象和品牌理念传递 [9] - 视频形式便于二次传播,精彩桥段可以短视频切片形式在社交媒体广泛流传 [10] - 广告主更愿意投放"可见"的内容,视频能展示产品且更容易判断品牌定位匹配度 [10] 平台战略布局动因 - 平台面临用户增长见顶和流量成本攀升,视频播客能提升用户留存和观看深度 [12] - 长内容带来更稳定用户停留和更强内容黏性,直接产生更可预测的商业收益 [12] - 算法推荐逻辑看重停留时长和完播率,视频播客在数据积累上更具优势 [13] - AI技术降低制作门槛,自动完成多机位切换和字幕生成,使内容供给大规模化 [13] 内容形态演进趋势 - 与传统电视访谈相比,视频播客画面保持极简,确保音频用户也能完整接收信息 [15] - 主持人角色从提问控场转变为观点表达者,观点表达成为内容创作者核心能力 [15] - 互联网环境下观众接受表达者主观性,视频播客提供自由表达与深度对话结合的空间 [16] - 长内容在碎片化时代显得珍贵,提供连续信息结构和稳定可停留的内容空间 [16]
腾讯研究院AI速递 20251202
腾讯研究院· 2025-12-02 00:03
DeepSeek模型升级 - DeepSeek发布V3.2和V3.2-Speciale两个版本,V3.2推理能力达到GPT-5水平且输出长度大幅降低,适合日常使用和通用Agent任务[1] - V3.2-Speciale是长思考增强版,结合DeepSeek-Math-V2定理证明能力,成功斩获IMO 2025、CMO 2025、ICPC和IOI 2025金牌[1] - 首次实现思考融入工具调用,通过大规模Agent训练数据合成方法构造1800+环境、85000+复杂指令,大幅提升泛化能力[1] 生数科技Vidu产品更新 - 生数科技发布Vidu Q2生图全家桶,新增文生图、图像编辑功能,最快5秒直出,在Artificial Analysis全球图像编辑榜单跻身前四[2] - Q2参考生图可实现位置参考、动作复刻、指示遵循和分镜切换等功能,保持极高一致性,支持4K直出和任意比例生成[2] - 即日起至12月31日会员可免费解锁全部生图功能,标准版/专业版会员每月300张额度,旗舰版会员尊享无限生成特权[2] 字节跳动豆包助手布局 - 字节发布豆包手机助手预览版,这是面向手机厂商的系统级服务,可跨应用执行复杂操作如比价点外卖、自动回微信等[3] - 设备配备专属物理按键和语音唤起功能,具备屏幕感知能力,可自动读取当前聊天记录上下文生成回复并发送[3] - 字节正和多家手机厂商谈合作,与中兴合作的搭载豆包手机助手的手机已上架,售价3499元[3] OpenAI商业化进展 - 开发者在ChatGPT安卓应用测试版代码中发现多个广告相关引用,包括"ads feature"、"search ad"和"search ads carousel"等[4] - 奥特曼对广告态度一年内三次转变,从2024年5月称"最后手段"到10月"有点反感但并非完全不可取"[4] - 汇丰银行估算OpenAI运营成本中维持算力基础设施每年需数千亿美元,预计2029年前持续亏损,累计亏损可能超1000亿美元[4] AI数学研究突破 - HarmonicMath开发的AI数学家"亚里士多德"6小时内100%独立完成埃尔德什问题124简版,在Lean证明系统验证仅需1分钟[5] - 该AI结合强化学习、蒙特卡洛树搜索和Lean形式化语言,搜索上亿种证明策略输出100%可验证定理,ChatGPT和Gemini均未能解决[6] - 陶哲轩表示AI正在收割数学"低垂果实",自动化工具先清理最容易问题,让人类数学家把精力花在真正值得的地方[6] 麦肯锡AI影响报告 - 麦肯锡报告显示现有技术理论上已能自动化美国57%的工作时长,智能体可拿下44%工作时间,机器人分担13%[7] - 报告将工作岗位划分为七种原型,未来最抢手的100种技能中四分之一到三分之一将被自动化[7] - 到2030年如重新设计工作流程,美国每年将释放约2.9万亿美元经济价值[7] AI公司定价策略分析 - Stripe分析显示营收增速前10%的AI公司中约80%采用分层定价,使用基于用量定价的可能性是其他公司的近两倍[8] - 高增长公司64%至少提供10个SKU产品单元,积极拓展全球市场并支持本地货币结算以提升转化率[8] - 这些公司能快速响应市场需求变化,推出情境式折扣,根据不同市场用户偏好灵活调整变现模式和定价策略[8] ChatGPT三周年发展 - ChatGPT于2022年12月1日发布,三年来从蜜月期演进到多模态与应用爆发期,彻底改写人类生产关系[9] - 谷歌Gemini 3发布扭转OpenAI领先局面,Gemini移动应用月活用户从5月4亿激增到6.5亿,用户使用时长已超过ChatGPT[9] - OpenAI的合作伙伴为其背负近1000亿美元债务,包括软银、甲骨文、CoreWeave等,而OpenAI自身账上几乎没有欠款[9]
AI时代,到底会有什么新职业?
腾讯研究院· 2025-12-01 17:03
AI对就业影响的整体形势 - AI对人类职业与劳动力影响呈现增强、替代、补充、创造四个效应交织的复杂局面[3] - 新技术扩散的非均衡性导致掌握AI的群体效率明显提升,必然对不掌握AI的群体产生劳动力替代[3] - GenAI全面采用可使美国等发达市场劳动生产率提高约15%,但可能导致AI转型期间失业率比趋势水平上升0.5个百分点[3] - 全球有25%的就业岗位面临GenAI影响风险,高收入国家比例高达34%[3] - AI应用尚处早期,替代效应快于创造效应,这种时滞源于技术迭代、产业应用和人才培养的滞后[4] - 企业普遍采取停招、转岗、削减外包三步走策略缓解用工压力,而非直接大规模裁员[5] - 针对人力不足、高危、高强度工作,AI能发挥劳动力补充作用,有助于解决结构性用工难题[5] AI新职业类型 - 分析7家主流AI大模型厂商718个招聘岗位,AI新职业可分为使能者、协作者、治理者、推广者和支持者五大类[8] - AI使能者负责AI技术开发、运维与优化,是生态核心造血角色,招聘岗位数量最多占比近50%[10] - AI协作者作为人机协作桥梁,熟练掌握AI工具提升工作效率,目前招聘岗位占比13.4%[11] - AI治理者为AI制定规则并监督执行,确保符合人类价值观,美国AI公司招募此类岗位数量明显多于中国(72:2)[14] - AI推广者通过市场推广降低AI认知门槛,推动技术普及,岗位特性与互联网公司相比无显著变化[15] - AI支持者为AI产品服务提供人财物等资源保障,岗位类别无明显变化,局部体现与AI交叉结合[18] AI新职业特征 - 职业岗位呈现深度细分趋势,围绕技术应用创新方向进一步专业化,反映AI技术栈的复杂性与专业化需要[20] - AI通用性促使职业呈现跨界融合特征,包括研发与落地融合、多技术多业务融合、非技术与技术融合[22] - 面对AI替代和安全风险,设立以人为本、人机协作的岗位成为企业负责任的表现[22] - AI新职业目前不稳定,随技术迭代呈现较快兴起与收缩,如提示词工程师、数据标注员等岗位需求变化迅速[23] 未来职业增长方向 - AI原生岗位是新职业核心孵化池,2025年7月有超1000家企业发布AI相关岗位7.2万个,同比增幅超10倍[25] - 当前新增招聘以技术岗为主占比84.13%,尤其算法岗位占据大半,未来非技术岗增长潜力大[25] - 服务业是就业规模增长主要领域,中国服务业占GDP比重约56%,远低于美国80%、日本70%、欧盟70%[26] - AI+服务催生个性化、人机协同新职业形态,如AI分镜优化师、多模态提示词工程师、AI数字人训练师等[26] - AI与互联网平台结合推动工作向任务制转变,2023–2024年中国新型灵活就业招聘职位数占比从12.2%跃升至15.2%[27] 企业层面的响应调整 - 企业建立员工代表参与的管理机制评估AI系统,德国电信与工会签署《AI宣言》并制定五级风险评估体系[30] - 针对AI影响大的岗位积极开展再培训和内部转岗,宜家上线AI客服机器人后成功将约8500名员工转岗为室内设计顾问[30]
腾讯研究院AI速递 20251201
腾讯研究院· 2025-12-01 00:01
AI视频生成模型进展 - 名为Whisper Thunder(aka David)的神秘模型登上Artificial Analysis视频生成榜单榜首,超越Veo 3、Kling 2.5及Sora 2 Pro等所有公开AI视频模型 [1] - 该模型视频时长固定为8秒,运动幅度明显更强,但高动作场景存在抖动等瑕疵 [1] - 基于用户投票机制的排名方式存在局限性,开发者和上手时间目前全网无任何确切消息 [1] 腾讯3D生成技术突破 - 腾讯混元正式推出混元3D Studio 1.1,接入全新美术级3D生成大模型PolyGen 1.5,首次实现端到端四边面直接生成,适配游戏、动画、VR等专业制作流程 [2] - 基础模型升级至混元3D 3.0,支持36亿体素级别超高清建模,几何分辨率达1536³,建模精度相比上一代提升约3倍 [2] - PolyGen 1.5采用统一三四边面混合表征和强化学习策略,布线呈连续边缘环结构,破损率更低面片规整度更高,可直接用于UV展开和动画绑定 [2] AI音乐模型商业化进展 - 昆仑万维发布Mureka V7.6和Mureka O2模型,3月底以来新增注册用户近700万,全球超100个国家和地区用户访问 [3] - 新模型在音乐性、编曲能力、音质质感和Prompt贴合度等多维度显著提升,响应速度和推理效率大幅增强,更适合大规模商业化使用 [3] - 模型延续MusiCoT细粒度音乐建模体系,强化段落关系、乐器互动与情绪走向建模能力,空间声场与音质生成达到更接近专业制作标准 [3] AI对软件开发行业影响 - 斯坦福大学《现代软件开发者》课程鼓励学生完全使用AI工具,讲师表示"如果能上完整个课程而不用手敲一行代码,那才是真的牛" [4] - 斯坦福研究显示22岁至25岁初级开发者相对就业率在AI浪潮中下降13%,到2025年7月该年龄段就业人数预计比2022年底峰值下降近20% [4] - 微软CEO透露30%代码由AI编写,Meta预测2026年一半开发工作将由AI完成,谷歌超过25%新代码是AI写的 [4] AI技术发展路径思考 - Ilya Sutskever澄清扩展确实还能带来进步没有停滞,但即便继续扩大规模有些至关重要的东西依然缺失 [5][6] - 顶尖研究人员共识认为光靠现在技术范式足以给经济社会带来巨大冲击,但要搞定AGI/ASI还需要更多研究突破 [6] - Ilya谈到人类"情绪价值函数"之于预训练的重要性,情绪是决策系统一部分而非多余噪音,这可能是当前AI技术路线缺失的"重要东西" [6] 开源模型与市场格局 - Hugging Face联合创始人表示中国模型已成初创公司探索新场景首选,美国开源复兴是对中国发展的回应 [7] - 他认为LLM泛化能力比预期弱得多,现有技术会遇到天花板难破super intelligence,真正突破需要模型能"挑战旧有假设创造新问题" [7] - Hugging Face团队250人运营效率高,企业版Hub已有数千组织使用包括Salesforce等大型客户 [7] AI投资风险分析 - 吴恩达认为AI不同领域泡沫程度各异:AI应用层被严重低估投资不足,AI推理基础设施仍需大量投资,AI模型训练基础设施风险最高可能存在泡沫 [8] - 开源开放权重模型市场份额若持续增长,斥资数十亿训练模型的公司可能无法获得诱人财务回报,且技术护城河薄弱算法硬件进步使训练成本逐年下降 [8] - 最担心训练设施因过度投资而崩盘可能导致市场对整个AI领域情绪恶化引发非理性资金外流 [8] AI对劳动力市场影响 - MIT联合橡树岭国家实验室开发"冰山指数"模拟工具,创建包含1.51亿个智能体的美国劳动力市场数字孪生体,结论显示现有AI技术已有能力替代美国11.7%劳动力 [9] - 科技IT互联网领域岗位变动只占受AI影响总工资的2.2%,绝大多数冲击发生在金融、医疗、人力资源、物流和办公室行政等白领领域 [9] - 模拟精确到具体邮政编码发现AI影响力全覆盖无避风港,田纳西州已率先使用该指数制定官方《AI劳动力行动计划》 [9]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-11-29 10:33
算力发展 - 谷歌推出TPU v7芯片[3] - 华为发布Flex.ai容器技术[3] 模型进展 - DeepSeek发布DeepSeek-Math-V2数学模型[3] - 马斯克旗下xAI发布Grok 5战书[3] - Anthropic推出Claude Opus 4.5模型[3] - 腾讯发布HunyuanOCR和HunyuanVideo 1.5模型[3][4] - 谷歌研究嵌套学习技术[3] - OpenAI开发Shallotpeat模型[3] - 谷歌进行Nano Banana Pro实测[3] 应用创新 - Anthropic采用双Agent架构[3] - Suno与华纳音乐合作[3] - 阿里推出Z-Image应用[3] - OpenAI整合语音模式并推出App Directory和MCP Apps[3][4] - 黑森林实验室发布FLUX.2[3] - Character.AI推出Stories模式[3] - TRAE发布国内版SOLO应用[3] - 腾讯开发3D创作引擎[3] - Skywork推出专业数据模式[3] - OpenAI研究购物应用[3] - 小米开发MiMo-Embodied AI硬件[3] - OpenAI公布AI硬件时间表[3] - Barry Callebaut应用AI进行巧克力开发[3] - Nano上线Lovart应用[4] - Elser.AI开发AI短剧生成技术[4] - 谷歌推出Deep Think和NotebookLM PPT功能[4] - Meta发布WorldGen[4] - Karpathy提出LLM议会概念[4] - OpenAI发布科学研究案例集[4] 科技突破 - 谷歌推出Quick Share技术[4] - 香港科技大学研发篮球机器人[4] 行业观点 - 清华大学发布AI教育应用指导[4] - 美国研究AI加速科研应用[4] - Ilya Sutskever提出研究时代观点[4] - 英伟达讨论TPU与GPU技术对比[4] - 李飞飞强调人的主导权[4] - 谷歌开展AI反击战[4] - 马斯克探讨AI与货币关系[4] - 微软提出AI时代成功方式[4] 重大事件 - 美国启动创世纪计划[4] - X公司研究AI对岗位替代影响[4]
AI时代的迷失:可怕的不是跟不上变化,而是用旧思维赶路
腾讯研究院· 2025-11-28 16:45
AI时代思维方式的决定性作用 - 技术本身并非时代发展的最关键变量,真正决定时代走向的是背后的“思维方式”[8] - 现代中国的快速崛起印证了思维方式改变是推动经济发展的底层动力,而非某一项具体技术[9] - 对AI的恐慌、崇拜和误解本质原因是部分文化尚未完成“现代化思维”转换[9] 现代思维的核心要素 - 现代思维具备几大要素:证据优先、逻辑推理、可被推翻、理解不确定性、自我判断[15] - 现代思维是AI时代最重要的“底层操作系统”,因为人类仍需自己理解世界结构、判断信息真假、做出关键决策[15] - 逻辑是现代思维最核心、最不可替代的底层结构,是适应未来的基本生存能力[23][28] AI技术本质与能力边界 - 现代AI本质是强大计算机+高效算法+海量数据,没有任何部分超越图灵机模型[31][37] - AI受图灵机固有局限性制约,存在原则上无法突破的能力天花板[31] - AI可以高度拟合人类语言但不等于拥有理解,可以生成内容但不等于具备创造力[35] 人类与AI的差异化优势 - 人类真正优势在于理解得深而非算得快,包括语境理解、价值判断、抽象能力等[42] - 人类拥有机器无法模拟的类比能力,能在不同领域间抽取结构、识别深层模式[42] - 未来人类需专注于思考、判断、决策、抽象、推理、创造等AI无法替代的核心能力[42] AI时代的教育与职业选择 - 知识正从“资本”变成“原材料”,真正价值从“拿到信息”转移到“处理信息”[21] - 越冷门领域越难被AI取代,因为缺乏规模化市场不具备大规模替代的商业价值[55] - 未来最稀缺的是能提供独特价值的个体,而非标准人才[55] AI时代的认知挑战与应对 - 真正削弱深度思考能力的是电子设备的商业机制,而非AI本身[45] - AI会淘汰不愿意思考的人,但不会减少思考,反而能帮助回到深度思考[46] - 未来差距不是信息差而是思维差,关键在于能否驾驭工具和做出判断[50]
腾讯研究院AI速递 20251128
腾讯研究院· 2025-11-28 00:21
谷歌TPU自研芯片进展 - 谷歌TPU从2015年发展至2025年第七代TPU(代号Ironwood),成为可能撼动英伟达霸权的战略级武器[1] - TPU v7单芯片FP8算力达4.6 petaFLOPS,一个Pod集成9216颗芯片性能超42.5 exaFLOPS,采用2D/3D环面拓扑结合光路交换网络,年可用性达99.999%[1] - 谷歌垂直整合策略使其避免了昂贵的CUDA税,推理成本较GPU系统低30%-40%[1] - Meta考虑2027年在数据中心部署TPU并通过谷歌云租用算力[1] Anthropic长程Agent技术突破 - Anthropic发布针对长程Agent的双Agent架构解决方案,包括初始化Agent负责搭建环境和编码Agent负责增量进展,解决Agent跨会话工作的记忆难题[2] - 环境管理包含功能列表(200+功能点标记状态)、增量进展(Git提交和进度文件)和端到端测试(使用Puppeteer浏览器自动化)三大支柱[2] - 该方案基于Claude Agent SDK,通过让Agent像人类工程师一样在会话间保持一致进度,成功实现跨数小时甚至数天的复杂任务[2] DeepSeek数学模型创新 - DeepSeek发布基于DeepSeek-V3.2-Exp-Base的DeepSeek-Math-V2,实现IMO金牌级水平,性能优于Gemini DeepThink[3] - 创新引入自我验证数学推理框架,包含证明验证器(分0/0.5/1三档评分)、元验证(检查评语合理性)和诚实奖励机制(奖励诚实指错的模型)[3] - 在IMO-ProofBench基准的Basic子集上达到近99%高分,Putnam 2024中以扩展测试实现118/120接近满分,突破传统强化学习限制[3] AI音乐行业正版化进程 - AI音乐平台Suno与华纳音乐集团达成全球首个"正版授权AI音乐"合作框架,结束所有法律纠纷,标志AI音乐正版化里程碑[4] - Suno将在2026年推出基于高品质授权音乐训练的新模型,承诺超越现有v5模型,华纳旗下艺术家可自主选择是否授权并获得收入[4] - 免费用户未来无法下载创作音频仅能播放分享,付费用户下载功能保留但有月度额度限制[4] - Suno同时收购华纳旗下演唱会服务Songkick布局线下生态[4] 马斯克Grok 5游戏AI挑战 - 马斯克宣布Grok 5将在2026年挑战《英雄联盟》最强战队T1(由传奇选手Faker领衔),为AI戴上"纯视觉感知"和"人类级反应延迟"双重镣铐[5][6] - Grok 5或将拥有6万亿参数,作为多模态LLM通过"阅读"游戏说明和"观看"比赛视频构建世界模型,依靠逻辑推理而非暴力手速取胜[6] - 马斯克将把Grok 5的视觉-动作模型直接应用于特斯拉Optimus人形机器人,游戏团战作为现实世界的练兵场验证具身智能能力[6] 阿里开源图像生成模型 - 阿里开源6B参数图像生成模型Z-Image,包含Z-Image-Turbo(8步达到主流竞品性能)、Z-Image-Base(非蒸馏基础模型)和Z-Image-Edit(图像编辑专用版本)三个版本[7] - Z-Image-Turbo在企业级H800 GPU上实现亚秒级推理速度,可轻松运行于16G显存消费级设备,在照片级写实生成和中英双语文字渲染方面表现突出[7] - 采用可扩展单流DiT(S3-DiT)架构,将文本、视觉语义token与图像VAE token在序列维度拼接为统一输入流,最大化参数利用效率[7] 无问芯穹融资与AI基建进展 - 清华AI Infra企业无问芯穹完成近5亿元A+轮融资,由珠海科技集团、孚腾资本领投,成立2年半累计获得近15亿元融资[8] - 无穹AI云首次实现六种不同品牌芯片间交叉混合训练,算力利用率最高达97.6%,已在全国完成超25000P算力纳管,覆盖26城市53个数据中心[8] - 推出端侧全模态理解模型无穹天权(3B成本、7B内存需求达21B级智能水平)和终端推理加速引擎无穹开阳(3倍时延降低、40%能耗节省),打造Agentic Infra[8] 清华大学AI教育指导原则 - 清华大学正式发布《人工智能教育应用指导原则》,提出"主体责任""合规诚信""数据安全""审慎思辨""公平包容"五大核心原则[9] - 指导原则明确禁止将AI生成内容直接作为学业成果提交,严禁用AI代替学术训练、代写论文等行为,要求教师对AI生成教学内容负责[9] - 清华已有超390门课程融入AI教学实践,自主研发"三层解耦架构"和全功能智能体学伴"清小搭",历时两年调研全球25所高校70份指南完成制定[9] 美国创世纪AI科研计划 - 美国启动"创世纪计划"(US Genesis Mission)作为AI曼哈顿计划,目标是训练科学基础模型、打造科研智能体,让AI深度嵌入科研全流程[10] - 能源部科学事务副部长Darío Gil在《科学》杂志发表社论,强调AI价值在于生成可验证结果而非仅写摘要,需动员国家实验室、企业和顶尖大学[11] - 《自然》同期发表社论提出"神经符号AI"路径,将大模型统计学习与符号推理、规划模块组合,可能是迈向接近人类水平智能的关键[11]
8656家小微市场主体调研:经营状况与预期回落,线上化率有所下滑
腾讯研究院· 2025-11-27 17:13
经营状况 - 经营状况有所下滑,亏损面环比扩大0.2个百分点至5.9%,停滞面环比收窄0.3个百分点至11.1% [3][6] - 盈利水平指数为71.4,环比下降0.3,营收增速指数为52.0,环比下降0.5,创历史新低 [3][6] 市场预期与投资 - 市场预期指数为65.6,环比下降0.9,连续五个季度下滑 [3][9] - 投资倾向指数为65.5,环比下降0.2,连续四个季度下滑 [3][9] 成本与需求挑战 - 人力成本压力加剧,用工成本上升覆盖面为39.4%,环比提升0.4个百分点 [3][12] - 消费疲弱问题突出,用户消费意愿低覆盖面为31.3%,同质化竞争覆盖面为32.9%,同比分别上升1.7和1.8个百分点 [3][12] - 原材料涨价和门店租金高覆盖面环比分别变化+0.2和-1.3个百分点,压力有所缓解 [12] 政策支持 - 普惠型政策覆盖面改善,优惠利率或贴息覆盖面为29.5%,环比上升2.1个百分点,成为覆盖面最高的支持政策 [15] - 营商环境体感温度指数环比回升0.6度至-6.0,但仍处于偏冷区间 [3][17] 融资环境 - 总融资需求为70.9%,环比上升2.9个百分点,实际融资缺口升至37.0%,环比上升0.9个百分点 [20] - 银行信贷供给覆盖面扩大,仅从银行渠道融资的主体占比为48.2%,环比上升3.2个百分点 [22] - 借贷综合利率指数为5.57%,环比上升30个基点,银行与非银渠道利差扩大至252个基点 [3][25] 数字化转型 - 线上化率为48.7%,环比下降1.0个百分点,连续七个季度下滑 [3][28] - 融合型线上销售占比为27.6%,环比上升2.2个百分点,线上销售收入能力连续三个季度优化 [28] - 直播渗透率为30.5%,环比降低1.1个百分点,连续两个季度下滑 [32] - 跨平台经营占比提升至72.2%,线上销售趋于分散,高度集中销售占比环比下降3.1个百分点 [30]
腾讯研究院AI速递 20251127
腾讯研究院· 2025-11-27 00:11
ChatGPT语音与文本交互升级 - OpenAI将语音模式全面整合至主聊天界面,实现语音应答、视觉呈现与文字转录服务的同步获取,用户无需切换模式[1] - 新版本在用户查询时能提供自然流畅的语音回应,同时实时生成地图、图表、图片等视觉内容,并自动完成语音转文字转录[1] - 公司在设置菜单中保留模式切换开关,偏好沉浸式音频体验的用户可一键恢复旧版独立语音模式[1] ChatGPT应用生态扩展 - OpenAI在ChatGPT网页端内测全新App Directory,首次系统化展示开发者构建的第三方应用,支持用户浏览、搜索和一键添加使用[2] - 新版目录以卡片形式呈现覆盖购物、生产力、教育、旅行等多场景的AI应用,用户可在ChatGPT内直接调用实现即点即用[2] - 基于ChatGPT 4亿周活用户和每分钟60亿tokens处理量,应用目录推动平台从AI对话工具向完整AI应用商店演进[2] FLUX图像生成模型进展 - 德国黑森林实验室发布FLUX2图像生成模型家族,可同时参考多达10张图片保持字符、产品和风格一致性,支持最高4百万分辨率图像编辑[3] - FLUX2系列发布3款模型,开源的FLUX2 [dev]为32B参数量模型,此前Flux1 [dev]在Hugging Face受欢迎度仅次于DeepSeek-R1[3] - 模型基于潜在流匹配架构,结合Mistral-3 24B视觉语言模型与整流流式Transformer,在超写实图像生成表现突出但暂不支持中文渲染[3] CharacterAI未成年人服务调整 - CharacterAI推出全新故事功能,未满18岁用户将无法使用聊天机器人服务,转而提供更为结构化的引导式互动方式[4] - 公司CEO坦言对于18岁以下用户开放式聊天可能并非合适产品,决策基于对AI聊天机器人可能带来心理健康风险的担忧[4] - 加利福尼亚州成为美国首个对AI伴侣进行监管的州,联邦层面有议员提出全国性法案旨在全面禁止未成年人使用AI伴侣[4] TRAE国内版开发工具升级 - TRAE国内版正式上线SOLO模式,带来SOLO Coder、Plan模式、多任务并行、代码变更工具DiffView、上下文压缩等核心能力[5][6] - SOLO模式定位为响应感知的编程智能体,支持检索10万个代码文件的超大上下文,通过全新三栏布局实现多任务并行开发[6] - 核心设计理念是All in One统一开发过程中所有元素,让开发者专注于指导和监督AI工作,而非实时配对AI编程助手[6] 腾讯混元3D引擎国际化推进 - 腾讯混元3D创作引擎正式推出国际站,模型API在腾讯云国际站同步上线面向国际用户开放,社区下载量超300万是全球最受欢迎的3D开源模型[7] - 最新Hunyuan3D 30版本首创3D-DiT分级雕刻模型,建模精度较前代提升3倍,支持1536³几何分辨率与36亿体素超高清建模,效果保持业界SOTA[7] - 目前已有超过150家企业通过腾讯云接入,涵盖游戏制作、电商宣传、影视特效、3D打印等领域,传统3D制作周期从数天缩短至分钟级[7] Skywork专业数据服务拓展 - 天工Skywork全新上线专业数据模式,已连接430家权威机构数据源,覆盖政府开放数据、国际组织、学术科研、金融市场、气象环境等关键领域[8] - 接入世界银行、IMF、WHO、FDA、Google Scholar、NASA等核心数据源,通过跨源统一回答与聚合实现一次检索整合权威数据[8] - 支持指定特定专业数据库回答确保无幻觉内容生成,所有答案自动附上数据来源信息确保回答可追溯、更透明,提升决策和报告可靠性[8] AI技术发展路径展望 - Ilya Sutskever提出Scaling时代已终结,我们正走向研究时代,认为当前技术路线无法实现AGI[9] - 他指出模型泛化能力是核心瓶颈远逊人类,即便用所有编程竞赛题目训练模型仍无法形成真正解题直觉,评估分数光鲜但实际性能滞后[9] - 预测5-20年内将出现能像人类一样学习并超越人类的AI系统,强调需要为模型内置类似人类的判断直觉和稳定价值感受器[9] AI芯片市场竞争态势 - 谷歌开始向Meta等大型机构推介在其数据中心部署TPU方案,Meta计划2027年斥资数十亿美元使用TPU,谷歌云预测此业务可拿下英伟达10%年营收[10] - 英伟达强调自己是唯一能够兼容所有AI模型、覆盖所有计算场景的硬件平台,并积极通过投资拉拢Anthropic、OpenAI等大客户[11] - 黄仁勋在内部会议坦言英伟达撑着整个地球,业绩好被说助长泡沫、业绩差会被当作泡沫破裂证据,市场预期难以满足[11]