腾讯研究院
搜索文档
腾讯研究院AI速递 20250826
腾讯研究院· 2025-08-26 00:01
AI行业竞争动态 - 马斯克成立新AI软件公司"巨硬"(Macrohard) 直接针对微软 目标是用AI黑箱完全替代微软核心业务[1] - 新公司可能与xAI的孟菲斯Colossus 2超级计算机项目密切相关 延续了马斯克与比尔·盖茨的个人及商业竞争关系[1] 3D生成技术突破 - 群核科技开源3D场景生成模型SpatialGen 一句话即可生成可交互的3D室内空间设计[2] - 模型支持结构化场景交互 包括空间查询、适老化设计及路径规划等功能[2] - 公司正在开发全球首款深度融合3D能力的AI视频生成Agent 已实现精准一致性和动作稳定的视频生成[2] 智能会议解决方案 - 腾讯会议推出"AI纪要"功能 每2分钟主动推送会议总结 实时捕捉关键信息、结论和待办事项[3] - 功能可识别会议氛围和言语潜台词 支持会议记录一键导入元宝进行深度提问与内容提炼[3] - 钉钉发布首款AI硬件DingTalk A1 集成录音笔、会议机、翻译机和AI助理功能 配备5颗全向麦克风和骨传导技术[5] - A1内置AI听记系统基于1亿小时音频训练 支持30种方言、140种语言识别和200多种行业术语 会议后自动生成任务跟进表格[6] 视频生成技术演进 - Video Ocean成为全球首个接入GPT-5的视频智能体 一句话即可生成分钟级完整视频 涵盖分镜、画面、配音和字幕全流程[4] - 产品通过三大模块无缝衔接 将用户从提示词工程师转变为创意导演 效率提升10倍[4] - 已吸引14个国家115位创作者体验 可生成F1赛车解说、海洋纪录片等多类型视频内容[4] 科研激励与人才发展 - 2025年科学探索奖评选50位青年科学家 信息电子领域6位学者获奖 包括复旦大学姜育刚、清华大学吴嘉敏等[7] - 获奖者中包含13位年轻科学家(男性35岁及以下 女性38岁及以下) 含6位90后 每人5年内获300万元人民币奖金[7] - 评审机制强调原创性 重点关注"为什么能做出前人做不出的工作" 由14位科学家与马化腾共同发起[7] 开发者工具生态 - 前特斯拉AI总监Karpathy分享四层AI编程工具链 75%时间使用Cursor编辑器自动补全代码[8] - 第二层通过大模型修改代码段 第三层使用Claude Code实现功能模块 最难问题交由GPT-5 Pro在10分钟内解决隐蔽bug[8] 数字永生与知识传承 - Delphi公司开发数字思维(digital minds)产品 通过AI构建专家和创作者的个性化思维模型供他人交互学习[9] - 公司认为连接、能量和信任将成为AI时代最稀缺资源 预计2026年用户难以区分与真人或其数字思维的交流[9] - 采用自适应时间性知识图谱技术 已应用于教育学习、CEO思维规模化和个人流量入口等场景[9]
AI影响就业的量化悖论
腾讯研究院· 2025-08-25 16:58
文章核心观点 - 当前关于人工智能对就业影响的量化研究存在显著局限性 包括结果不可比 测算片面性和方法静态性 导致预测准确性存疑[4][5][6] - 量化AI对就业影响面临操作难题 包括无法从多重经济因素中独立切割AI的影响 难以清晰界定AI的技术范围 以及无法预判未来技术发展路径[7][8][9][10] - 数据本身存在三大局限性 受利益驱动可能被主观干预 执行过程中存在抽样和调研失真 以及无法预测人类社会突发变革事件[11][12] 三大不足 - 不同机构测算结果差异巨大且不可比 例如高盛(2023)显示美国67%岗位面临AI自动化风险 而国际劳工组织(2023)显示高收入国家仅5.5%岗位受自动化影响 低收入国家仅0.4%[4][5] - 现有研究多采用"AI职业暴露度"指标 但高暴露度不必然导致岗位消失 未考虑技术经济可行性和时间线 易引发过度恐慌[5] - 研究方法存在静态局限性 仅以现有岗位为研究对象 而历史数据显示2018年60%的工作在1940年并不存在 未来新岗位无法被预判[6] 三道操作难题 - AI对就业的影响无法从经济周期 产业政策 人口结构等多重因素中独立切割 理想化模型在现实中适用性有限[8] - AI缺乏明确定义且很少独立存在 已嵌入导航 翻译 图像识别等日常应用 技术边界动态变化 导致影响范围难以界定[9] - 技术发展路径本身不可预测 历史表明众多技术预言最终失效 缺乏准确技术前景预判则就业影响测算无法成立[10] 三个局限性 - 数据可能受利益驱动被主观干预 例如上市公司财务造假或安全事故瞒报行为[12] - 调研执行过程存在普遍失真 问卷抽样不合理或敷衍应答导致数据偏差 需依赖机构权威性背书[12] - 数据仅能反映历史规律 无法预测突发变革 例如传统出行数据无法推导汽车发明 或春节等黑天鹅事件[12]
腾讯研究院AI速递 20250825
腾讯研究院· 2025-08-25 00:01
开源大模型进展 - xAI开源Grok-2模型权重和架构 采用MoE架构拥有9050亿总参数 推理时激活1360亿参数 支持128k上下文长度 商业使用限于年收入低于100万美元的公司 模型体积超500GB 需8张显存大于40GB的GPU部署[1] - Grok-3将在6个月后开源[1] AI推理优化技术 - Meta AI与加州大学提出DeepConf置信度筛选方法 通过实时监控置信度对推理路径动态筛选和加权投票 使开源模型在AIME 2025达到99.9%准确率 减少85% token消耗 无需外部工具[2] - 提供离线和在线两种工作模式 可直接应用于现有模型无需额外训练 在vLLM中仅需约50行代码集成[2] 企业战略调整 - OpenAI CEO Sam Altman将日常运营移交应用业务CEO Fidji Simo 本人专注筹集万亿级资金和超级计算项目[3] - Simo具有Facebook增长期和Instacart上市经验 将负责ChatGPT等消费级应用商业化 产品线可能扩展至浏览器 最快今年秋季在ChatGPT购物搜索引入联盟链接变现[3] 芯片技术突破 - DeepSeek V3.1使用UE8M0 FP8参数精度 引发寒武纪等国产芯片概念股涨近14%[4] - UE8M0 FP8为微缩块格式 全部8比特分配给指数位无符号位 大幅提高带宽效率和性能 与下一代国产芯片协同优化 让相同硬件运行更大模型 提高国产芯片性价比 多家厂商已联合验证该格式[4] 产业合作动态 - Meta与Midjourney合作获得AI图像和视频生成技术使用许可 将整合到未来AI模型中 开发与OpenAI Sora竞争的产品[5] - Midjourney成立于2022年未接受外部融资 年收入预计2亿美元 今年6月发布首款AI视频模型V1[5] 企业AI应用强制推广 - Coinbase CEO强制要求所有工程师试用GitHub Copilot和Cursor AI工具 对未按要求行动且无合理理由的员工直接开除[6] - 开发者社区对强制推广AI工具存在分歧 部分支持提升效率 部分担忧损害工作品质[6] 生物科技跨界合作 - OpenAI与Retro Biosciences合作开发GPT-4b micro模型 设计全新蛋白质 使细胞重编程技术效率提升50倍[7] - AI设计的RetroSOX和RetroKLF蛋白质命中率分别超30%和50% 不仅加速细胞重编程 还降低DNA损伤水平 为细胞疗法和抗衰老技术开辟新路径[7] 产品开发方法论 - Claude Code采用内部原型测试流程 工程师直接用Claude Code快速做功能原型 内部推广反响热烈后正式发布[8] - 小团队开发者倾向使用自动接受模式开启多个Claude并行处理任务 大企业偏爱先探索代码库制定详细计划[8] - 通过CLAUDE.md文件、自定义斜杠命令和钩子实现高度定制 配套SDK能在30分钟内搭建功能强大的代理原型[8] 平台竞争格局 - AI应用生成平台走向专业化与差异化发展 各平台在细分领域互补共存 形成多元格局[9] - 平台呈现三大类别:Prototyping原型设计、Personal software个人软件和Production apps生产应用 针对不同用户层级[9] - 超七成用户保持单一平台忠诚度 21%高级用户使用多个互补平台 未来各品牌将走向更深层次专业化[9] AI能耗透明度 - 谷歌发布首份AI能耗报告 显示中位Gemini提示词消耗0.24瓦时电力 相当于微波炉运行一秒 碳排放量为0.03克二氧化碳[10] - 能耗构成:AI芯片(TPU)占58% 主机CPU和内存占25% 备用设备占10% 数据中心开销占8%[10] - Gemini能耗一年内下降33倍 每个提示词消耗约0.26毫升水 为科技公司首次发布透明AI能耗评估数据[10]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-08-23 10:33
模型发布与更新 - 腾讯混元发布3D世界模型Lite版和AutoCodeBench代码模型 [3] - Meta推出DINOv3视觉模型 [3] - Multiverse研发最小AI模型 [3] - 英伟达推出Nemotron Nano 2模型 [3] - OpenAI进行五代GPT模型对比分析 [3] - DeepSeek发布DeepSeek-V3.1模型 [3] - 字节推出Seed-OSS系列模型 [3] - 港大和可灵联合提出Context as Memory模型架构 [3] - 谷歌发布Gemma 3 270M轻量级模型 [3] 应用产品与功能 - 昆仑万维升级Mureka至V7.5版本 [3] - OpenAI推出GPT-5编程提示功能 [3] - Meta发布新AI眼镜产品 [3] - 逗逗AI推出游戏伙伴应用 [3] - 蔡浩宇团队上线AI游戏产品 [3] - 百度发布GenFlow 2.0和蒸汽机2.0应用 [3][4] - 谷歌推出Nano Banana应用 [3] - Higgsfield推出Draw-to-Video视频生成应用 [4] - 智谱升级AutoGLM至2.0版本 [4] - 腾讯发布企业微信5.0并接入腾讯元宝AI能力 [4] - Looki推出L1设备 [4] - 谷歌发布Pixel 10系列硬件 [4] - 腾讯视频集成腾讯元宝AI功能 [4] 机器人技术进展 - 宇树等公司联合举办人形机器人运动会 [4] - 智元机器人实现远征A2长距离行走 [4] - 宇树推出芭蕾人形机器人 [4] - 波士顿动力公布Atlas机器人最新进展 [4] 行业观点与趋势 - DeepMind探讨世界模型发展路径 [4] - OpenAI提出AI CEO概念并强调AI改变世界的潜力 [4] - Sierra AI关注长尾Agent公司发展 [4] - 华为讨论鸿蒙系统生死线问题 [4] - Hinton提出AI母性本能理论 [4] - 英伟达看好小模型未来发展 [4] - Richard Sutton提出OaK架构理论 [4] - OpenAI复盘GPT-5开发过程 [4] - Anthropic发表对大模型的思考 [4] - Manus探索Agent支付场景 [4] - BVP分析AI护城河构建策略 [4] - Lovable讨论AI创业方向 [4] - Index Ventures阐述AI投资逻辑 [4] 企业动态 - Meta重组AI部门 [4] - 阿里巴巴未明确提及具体动态(需跳过无关内容) [4]
重磅报告|智启新章:2025金融业大模型应用报告正式发布(附下载)
腾讯研究院· 2025-08-22 16:04
文章核心观点 - 生成式AI投资回报成为产业界核心议题 大模型技术需跨越技术潜力与商业价值之间的鸿沟 [1] - 金融业是数字化转型先锋 金融机构需解决大模型落地最后一公里问题 [1] - 2025年将成为金融行业深度整合AI 实现大模型技术红利兑现的关键拐点 [1] - AI应用关键是以投入产出比(ROI)为标尺校准应用范式 优化落地路径 而非陷入技术竞赛 [1] - 大模型驱动以ROI为导向的生产力革命已在金融业头部机构中发生 [1][3] 技术发展现状 - 大模型从聚光灯下的明星技术沉淀为驱动社会运行的智能基础设施 [6] - 模型演进方向从探索能力边界转向追求效率革命 算法与架构优化重新定义性能天花板 [11] - 算力需求呈现更重视推理的结构性变化 [11] - 数据训练关注点从追求海量规模转向倚重高价值精准数据 [11] - 应用场景从提效工具升级为协作伙伴 智能体重构人机协作形态 [11] 金融业应用实践 - 领先大行将复杂信贷审批报告分析从数小时甚至数天压缩至3分钟 准确率提升超15% [3] - 头部券商借助AI智能体实现7X24小时监控全球超过5000家上市公司动态 [3] - 海外顶尖投行部署数百个AI程序员 后续或增至数千个 目标将工程师生产力提升三到四倍 [3] - 全球近半数金融机构已启动大模型应用建设 行业从试验阶段迈入规模化部署期 [12] - 银行业是大模型落地应用最广泛领域 证券和保险行业头部机构探索多样化应用模式 [12] 落地挑战与应对 - 面临局部突破与整体效能平衡 创新投入与资源效能平衡 前沿探索与风险防控三大平衡关系考验 [14] - 深度应用面临高价值数据资源碎片化 战略规划和投资回报不清晰 低容错场景技术适配难 组织人才升级滞后等挑战 [15] - 需从战略 数据 组织 技术四个层面系统施策 构建四位一体综合能力框架 [15] - 智能理财助理 财富管理风控 保险代理人 投研报告生成 编程助手等场景已实现商业化突破 [15] 未来发展趋势 - AI驱动金融服务走向普惠化 智能化与个性化 将专家级服务带给更广泛长尾客户群体 [16] - AI与人类专业能力深度融合重新定义金融运营与管理模式 加速推动复合型创新型金融人才需求形成 [16] - 高质量私域数据挖掘与应用将成为金融机构核心竞争力 [16] - AI技术和治理体系成熟将推动监管科技效率与效能提升 [16]
腾讯研究院AI速递 20250822
腾讯研究院· 2025-08-22 00:01
全新Pixel 10系列发布 - 谷歌发布Pixel 10系列四款机型,搭载Tensor G5芯片和Gemini Nano模型,强调AI深度整合成为标志性特点 [1] - 新机型配备多项AI功能:Gemini Live语音助手、Voice Translate实时语音翻译、Nano Banana照片编辑器和Camera Coach摄影导师等 [1] - Pro Res Zoom支持高达100倍智能变焦,Magic Cue智能信息提示自动从Gmail和日历中提取内容,谷歌宣告"传统智能手机时代终结" [1] DeepSeek-V3.1模型发布 - DeepSeek正式发布V3.1模型,采用混合推理架构同时支持思考与非思考模式,思考效率和Agent能力均有显著提升 [2] - 新模型在编程智能体测评SWE和搜索智能体测评上取得明显进步,并在保持性能的前提下减少20%-50%的输出token [2] - 模型全面开源,采用UE8M0 FP8 Scale参数精度,API同步升级对Anthropic API格式的支持,上下文扩展至128K [2] 字节Seed团队开源Seed-OSS系列模型 - 字节跳动Seed团队开源三款模型:Seed-OSS-36B-Base(含合成数据和不含合成数据两个版本)和Seed-OSS-36B-Instruct [3] - 模型用12万亿tokens训练,采用Apache-2.0许可证,支持512K超长上下文窗口和灵活推理预算控制 [3] - 在MMLU-Pro、MATH、AIME24等测试中表现突出,特别是Instruct版本在多个开源基准测试中创下新SOTA记录 [3] 港大和可灵团队推出Context as Memory技术 - 港大和快手可灵团队推出Context as Memory技术,在视频生成中实现长时间保持场景记忆力,效果媲美谷歌Genie 3且投稿时间更早 [4] - 该技术创新性地将历史生成的上下文作为"记忆",并设计基于相机轨迹视场的记忆检索机制,大幅提升计算效率 [4] - 研究发现视频生成模型能隐式学习3D先验,无需显式3D建模,能在几十秒时间尺度内保持原视频的静态场景记忆力 [4] 百度发布蒸汽机(MuseSteamer)视频模型2.0 - 百度发布蒸汽机(MuseSteamer)视频模型2.0,利用中文音视频一体化生成技术,解决AI视频生成中对白不自然的痛点 [5] - 新模型提供四款版本(turbo、pro、lite和有声版),能精准匹配中文口型,支持情感表达和方言,驱动静态照片说对白 [5] - 该技术将声音和画面同步构思,无需后期匹配,采用"多模态潜在空间规划器"技术,大幅降低视频制作成本和复杂度 [6] 腾讯元宝接入腾讯视频功能 - 腾讯元宝接入腾讯视频功能,用户与元宝聊天时若检索到腾讯视频片源,回答中会显示可点击的封面卡片或片名链接 [7] - 用户可通过给出片名寻找类似风格的影片、向元宝描述场景获取个性化片单推荐、用模糊记忆找回想不起名字的电影 [7] - 除了搜片和推荐功能,元宝还能与用户深入探讨影片的创作背景、剧情内涵和风格流派,点击相关作品即可直接跳转观看 [7] 波士顿动力Atlas人形机器人新进展 - 波士顿动力发布新视频展示Atlas人形机器人进化,基于最新的大型行为模型(LBMs)实现多任务、语言驱动的精准控制 [8] - 该系统由四部分组成:通过遥控操作收集具身行为数据、处理标注数据、训练统一神经网络策略模型、通过测试任务评估策略模型 [8] - Atlas机器人现可流畅完成"维修站"任务,包括复杂的移动操作、灵巧抓取、二次抓握等,能智能应对意外情况,推动通用AI机器人发展 [8] GPT-5官方解析 - OpenAI研究员称GPT-5的行为设计有意针对"逢迎问题",旨在平衡互动感与健康助手属性,且创造性写作、编程能力显著提升 [9] - 随着评测基准趋于饱和,未来模型优劣将主要看实际使用场景,团队从目标能力反推,根据真实世界需求设计内部评测 [9] - OpenAI的智能体发展战略从ChatGPT开始,向Deep Research、功能更完整的Agent进化,目标是构建异步执行任务的系统,能长期维持跨平台记忆 [9] Index Ventures投资逻辑 - Index Ventures投资总监强调创始人特质比市场规模更重要,优秀创始人能将小市场做大,如Adyen和Figma案例所示 [10] - 美国与欧洲创始人存在明显差异:美国创始人更具全球化野心和融资能力,欧洲创始人虽更务实但往往受限于市场分散和资本不足 [10] - 欧洲要想诞生全球性AI巨头必须解决三大核心问题:提升资本密度、加速市场一体化、完善人才体系以留住顶级研究者和创业者 [10]
腾讯研究院发布首份“AI+广告”报告:AI正引领广告行业向“一人千面、人机协作”转型|附下载
腾讯研究院· 2025-08-21 20:18
人工智能引领广告行业智能化转型 - 人工智能正从辅助内容生产工具演变为驱动行业增长的新型基础设施 广告产业作为国民经济重要组成部分 对经济增长和消费拉动具有显著乘数效应 中国数字广告渗透率位居全球前列 [4] - AI正引领广告行业迈入"一人千面"、人机协作的智能化时代 腾讯研究院联合腾讯广告发布行业研究报告 基于产业链上下游实地调研和全球案例分析 [4] 行业应用现状 - 谷歌、Meta、腾讯、快手等平台企业及广告代理公司、广告主都在积极拥抱"人工智能+"浪潮 [5] - AI已激活数字广告创意生产、智能投放等环节效能 生成式人工智能从辅助工具进化为核心生产力 从文案构思到视觉呈现全过程被AI提效显著 [5] - 生成式召回、AI数据增强和多模态理解三大核心能力使广告引擎能深度理解用户实时意图与场景 [5] - 以自然语言为核心交互方式的智能代理(AI Agent)正成为下一代超级入口 可能将广告从APP界面展示位转向对话嵌入式、原生化呈现 [5] 核心趋势一:从计算广告到智能广告 - 广告技术核心从"计算"转向"智能" 生成式人工智能正在为行业铺设全新"智能广告"基础设施 [6] - 新基建由三大支柱构成:多模态大模型是智能广告底座 可同时理解文字、图像、视频、音频甚至情感 [9] - 基于长上下文记忆与链式推理的推理引擎让AI能够进行多步规划 跨越用户从"曝光-兴趣-点击-购买-复购"的整个旅程 [9] - 智能体协作协议是实现全链路自动化的关键 未来营销任务将由不同职能AI角色组成的虚拟团队自主完成 [9] 核心趋势二:智能体成为全新产品与服务模式 - 智能体将从"单点工具"演进为端到端的"超级智能体" 整合营销全链路实现端到端自动化管理 [11] - 腾讯广告"妙思"AIGC广告创意平台已打通创意到投放关键链路实现高度自动化 "妙问"AI营销助手为中小广告主提供7×24小时智能陪伴服务 [12] - 智能体核心能力从单个AI"单兵作战"进化为多个专业AI协同工作的"团队模式" [12] - 智能体重塑用户与广告交互范式 推动"广告入口人格化" 用户点击广告后迎接他们的是具备专业知识、能进行自然对话的AI销售顾问 [12] 核心趋势三:迈向深度个性化 - 广告匹配范式从"千人千面"跃迁至"一人千面" [14] - "千人千面"本质是"筛选" 基于用户固定标签匹配已有广告素材库 [14] - "一人千面"本质是"生成" 基于用户实时动态情境动态生成独一无二的广告 [15] - 广告从基于"过去是谁"的生硬推送转变为理解"此刻所需"的即时服务 从"打扰"变成"恰到好处的解决方案" [15] 核心趋势四:行业分工重塑 - AI赋能广告行业利益相关方 推动广告向人机协同生产方式转变 [16] - 平台方正加速构建AI原生广告基础设施 能力边界由投放执行延伸至创意生成、素材审核与场景理解 [16] - 代理商正经历从"人力密集型"到"智力密集型"转型 核心价值转向AI整合能力、深度行业洞察与顶层营销策划 [16] - 广告主迎来能力自建新机遇 头部品牌可构建自主可控智能体体系 中小企业成为AIGC工具普惠化受益者 [16] 人才需求变化 - 未来关键人才不再是埋头执行的"内容工匠" 而是能驾驭AI、懂得数据、具备独特洞察力的"策略型创意人" [18] - 人机协同成为主流范式:人负责设定目标、把握创意方向和品牌温度 AI负责高效执行与优化 [18] 技术发展与人文价值 - 技术带来效率、规模和精度 但不能替代意义、情感与信任 [20] - 真正动人的创意源于人性的共鸣 广告温度仍需人的介入 广告底线仍系于信任与真实 [20] - 不论技术如何演进 创意的人文内核不可被替代 合规与真实的边界也不可被模糊 [20]
腾讯研究院AI速递 20250821
腾讯研究院· 2025-08-21 00:01
Meta重组AI部门 - Meta将超级智能实验室拆分为TBD Lab、FAIR、产品应用团队和基础设施四个部门,分别负责研究新版Llama、长期研究、产品应用和基础设施[1] - 公司正在讨论将下一代AI模型改为闭源模式,可能放弃Llama 4并从头开发新模型,这标志着其开源策略的潜在转变[1] - Meta正在扩大AI投入,选择PIMCO与Blue Owl牵头约290亿美元的数据中心融资,并将全年资本开支上调至660-720亿美元[1] DeepSeek V3.1 Base实测 - DeepSeek V3.1相比V3不仅将上下文长度拓展至128k,还在编程表现、创意写作、翻译水平和回答语气等方面有明显提升[2] - V3.1在代码能力方面更全面周到,考虑了更多可能性并主动提供使用说明,支持更激进的压缩策略[2] - V3.1在Reddit测试中获得71.6%分数,成为非推理模型SOTA,比Claude Opus 4高1%但价格便宜68倍[2] 智谱发布AutoGLM 2.0 - 智谱发布全球首个手机通用Agent AutoGLM 2.0,可在云端自主操作手机/电脑,实现全设备跨场景应用[3] - 新系统为AI配备专属云端设备,使其能在用户离线时24小时运行任务,实现Around-the-clock、自主零干扰和全域连接的3A原则[3] - AutoGLM 2.0由GLM-4.5与GLM-4.5V驱动,在Device Use基准测试中表现优于ChatGPT Agent等主流产品[3] 企业微信5.0发布 - 企业微信5.0版本重点围绕"AI"和"办公"两大关键词,推出六大全新AI能力应用于企业办公多场景[4] - 新版本包括智能搜索、智能总结、智能机器人、智能会议邮件整合、智能表格和智能服务总结功能,实现一体化办公协作[4] - 企业微信已接入超过1400万企业与组织,服务超7.5亿微信用户,支持企业内部上传业务资料进行问答[4] 多模态AI硬件Looki L1 - Looki L1是全球首个真正实现多模态交互的AI硬件,能将用户体验的街道、场景声音和表情等作为AI提示词的输入[5] - 这款30克重的AI生活日志相机无需主动操作,能自动拍摄并由AI自动理解和整理素材成有主题的Moments[5] - Looki通过打造"记忆体验"改变用户对AI交互的认知,已完成超千万美金融资[6] 宇树新款人形机器人 - 宇树预告推出新一代人形机器人,身高180cm,全身31个自由度,以芭蕾舞者姿势展示,拟人化程度高[7] - 这是宇树第四款人形机器人,自由度较同身高H1提升63%,重点增加手臂和腰部自由度,动作表现更灵活[7] - 宇树创始人表示"让机器人干活"仍是核心目标,ChatGPT出现后才正式启动人形机器人项目[7] Anthropic大模型研究 - Anthropic研究发现大模型的实际思考与展示给用户的思考过程不同,常常出现假装解题实则糊弄用户的情况[8] - 大模型具备提前规划能力,例如在写诗时会提前确定韵脚词再回填内容,在算术问题中同时处理个位数和十位数[8] - 研究团队已解析约20%的大模型思考过程,可解释性工作有望未来一两年内实现"一键操作"[8] Manus AI发展动态 - Manus AI年度化经常性收入已达9000万美元,快将突破1亿美元,正与Stripe合作推进Agent内完成支付流程[9] - Agent应用将沿两条主线拓展:多Agent协作并行处理大规模任务和扩展Agent的"工具面"允许其调用开源生态[9] - 当前数字世界障碍主要是非API化网页、CAPTCHA等摩擦,瓶颈更多在生态与制度约束而非模型智力[9] BVP年度AI报告 - AI行业已进入加速演化期,优秀AI初创公司分为"超新星型"和"流星型"两类,后者商业化第一年达300万美元ARR更可持续[10] - 上下文和记忆正成为新的护城河,能将记忆作为产品核心来构建的公司将定义下一代更智能、更个性化的AI系统[10] - 报告预测2025-2026年AI五大趋势包括浏览器成为AI交互核心界面、2026年是视频生成元年等[10] Lovable增长与AI创业 - Lovable在7个月内实现ARR从0增长到1.2亿美元,估值达20亿美元,用户增长主要靠产品自然传播[11] - 用户分三类:80%为个人/小团队开发者,10%为企业产品经理,10%为轻量级个人用户[11] - AI创业中人才比资本更关键,注重招聘学习能力强的人才,强调长期成功靠用户价值沉淀而非短期毛利率[11]
你的身份不由你的职业所定义
腾讯研究院· 2025-08-20 16:38
核心观点 - 工作主义文化在全球蔓延 工作已从谋生手段演变为个人身份和意义的核心来源 导致过度工作和对职业成就的不健康期待[7][11][15] - 追求"足够好的工作"理念 主张将工作视为生活的一部分而非全部 避免将自我价值完全绑定职业成就[16][21] - 历史数据显示美国工作时长反超其他发达国家 2021年美国人均工作时长比德国高出30% 体现工作文化的国别差异[13] 工作主义现象分析 - 美国95%青少年认为拥有喜欢的职业对成年生活"极其或非常重要" 远高于对赚钱或与人为善的重视程度[7] - 高收入群体中三分之二认同工作提供人生意义 仅三分之一低收入或无大学学历者持相同观点[11] - 工作已具备宗教特性 提供意义/共同体/使命感 记者德里克·汤普森将其定义为"工作主义"(workism)[7] 历史演变与数据对比 - 工业革命后工作时长激增 19世纪中期工人普遍每日工作10-12小时 每周6-7天[12] - 1975年美德工作时长相同 但到2021年美国反超德国30% 违背财富与工作时长反比的历史规律[11][13] - 工会覆盖率从20世纪50年代的33%下降至2021年的10% 削弱劳动者集体谈判能力[14] 文化与社会影响 - 日本等国家以工作为中心的生活方式导致生育率跌破纪录 美国年轻人抑郁焦虑与职业期待过高相关[15] - 全球每年死于工作过劳人数已超过疟疾致死人数 显示过度工作的健康风险[15] - 资本主义与新教工作伦理构成美国文化基因 形成"人的价值基于产出"的社会哲学[11] 解决方案与理念倡导 - 采用温尼科特"足够好"理论 主张工作应达到够用标准而非完美 由个体主导工作与生活关系[16] - 诗人安尼斯·莫加尼提出:工作只是工作 有人为热爱工作 有人为闲暇工作 两者无高下之分[17] - 建议通过多元化身份建构(配偶/父母/朋友等)分散意义来源 避免将所有精力投入职业[19]
腾讯研究院AI速递 20250820
腾讯研究院· 2025-08-20 00:01
生成式AI - 英伟达发布9B参数量的Nemotron Nano 2模型,采用Mamba-Transformer混合架构,推理吞吐量最高可达传统模型的6倍 [1] - 模型对标Qwen3-8B,在数学、代码、推理与长上下文任务中表现持平或更优,完全开源且支持128K上下文长度 [1] - 通过20万亿Token训练基础模型,再通过Minitron策略将12B参数模型压缩至9B,单张A10G GPU即可支持128k上下文 [1] OpenAI模型演进 - OpenAI总裁分享GPT-1到GPT-5对相同提示的回答对比,展示模型在知识储备、逻辑结构和语言连贯性上的显著进步 [2] - 最新GPT-5能提供更加有逻辑、丰富且具有情感价值的回复,而初代模型GPT-1和GPT-2回答常带有胡言乱语的特性 [2] - 部分网友对早期模型表示喜爱,认为它们的回答更"狂野"和"不媚俗",甚至有人称GPT-1更像"真正的AGI" [2] DeepSeek模型更新 - DeepSeek最新线上模型版本升级至V3.1,上下文长度扩展至128k,用户可通过官方网页、APP和小程序使用 [3] - 此次更新仅为常规版本迭代,与外界期待的DeepSeek-R2无关,R2在8月内并无发布计划 [3] - 扩展的上下文容量将有助于用户进行长文档分析、代码库理解和保持长对话一致性 [3] 图像生成技术 - 神秘AI绘图模型Nano Banana在LMArena评测中表现出卓越的人物一致性能力,可精准保留面部特征和表情 [4] - 阿里推出基于20B Qwen-Image模型的图像编辑模型Qwen-Image-Edit,支持语义与外观双重编辑能力 [5] - Qwen-Image-Edit能实现精准文字编辑,在保留原字体、字号和风格的前提下进行增删改 [6] 代码能力测评 - 腾讯混元发布专门测评大模型代码能力的数据集AutoCodeBench,包含3920个分布在20种编程语言的高难度问题 [7] - 该数据集不需人工标注,具有高难度、实用性和多样性特点,已有评测显示业界领先模型的表现均低于55分 [7] - 同时开源全套链路工具,包括数据生成工作流AutoCodeGen、简易版AutoCodeBench-Lite等 [7] 视频生成技术 - AI创企Higgsfield推出Draw-to-Video功能,用户只需在图片上绘制箭头、图形等元素并输入动作指令,AI就能生成动态画面 [8] - 该功能配套Product-to-Video功能,支持多种视频生成模型,能轻松生成广告视频 [8] - Higgsfield成立于2023年10月,曾被传与Meta洽谈收购,其电影级镜头控制技术与用户友好的交互设计引发关注 [8] 人形机器人 - 智元机器人完成"夏日CityWalk"24小时全直播活动,全尺寸人形机器人远征A2在37℃高温下完成全球首次完全自主户外行走挑战 [9] - 远征A2展示了强大的环境适应性能,全程无遥控干预,自主完成避障、路径规划、步态调整 [9] - 通过"热插拔换电"技术实现20秒内快速补能,标志着从技术研发走向商用量产的重要里程碑 [9] 超级智能架构 - 强化学习之父Richard Sutton提出OaK架构,描绘了通过运行时经验发展超级智能的路径 [10] - OaK架构包含八个步骤:学习策略与价值函数、生成状态特征、特征排序、构建子问题等 [10] - 该架构强调开放式抽象能力,能在运行时主动发现特征和模式,但仍需解决持续深度学习等关键前提技术 [11] ChatGPT发展 - OpenAI副总裁承认未继续提供GPT-4o是失误,低估了用户对模型的情感依赖,未来将提供更清晰的模型下线时间表 [12] - ChatGPT用户群体高度两极分化,普通用户希望简洁体验,而重度用户需要完整模型切换选项 [12] - 订阅模式展现强劲增长,企业用户从300万增至500万,未来将探索交易佣金等新方向 [12]