腾讯研究院

搜索文档
人如何感知虚无?
腾讯研究院· 2025-06-13 13:46
科研就是不断探索问题的边界 人们过去花了数个世纪来接纳数字"零"的存在。而今,"零"正在帮助神经科学家们理解人脑如何感知虚无。与感知和意识相关的 神经科学研究,大多聚焦于我们如何意识到事物的"存在"。然而,对"不存在"的体验也构成了我们意识体验的重要组成部分—— 我们经常能觉察到那些肉眼无法看见的事物,而揭示这背后的神经基础对充分理解意识问题同样重要。 当我观鸟时,总是遇到这样一个尴尬场景——同行的观鸟人指着树冠,让我快看叶子后面藏着的那只 鸟。而每当我举起望远镜来回搜寻时,永远只能沮丧地看见鸟的"空影"。 这类对"不存在之物"的生动体验,对于我们的内心世界而言非常常见,但大脑如何上演这出"皇帝新 衣"式的独角戏仍是个谜—— 当没有任何东西可供感知时,大脑如何产生感知体验? 作为一个对意识问题感兴趣的神经科学家,研究"虚无"的神经基础无疑是个极其诱人而又富有挑战的课 题。幸运的是, 比起其他虚无,有一种更具体的虚无形式——0,至少0是有形的。 为此,人们不惜花 上大量精力,尝试抓住"零"这个线索——研究人脑如何感知数字"零",或许就能够最终解开大脑迷雾重 重的"虚无主义"。 "零"在人类社会的发展中扮演了一个 ...
腾讯研究院AI速递 20250613
腾讯研究院· 2025-06-12 22:18
Meta开源V-JEPA 2世界模型 - Meta开源V-JEPA 2世界模型,能理解物理世界,用100万小时视频数据训练,可实现零样本规划和机器人控制 [1] - 模型仅需62小时训练即可生成规划控制模型,在行为分类和预测方面成功率65%-80% [1] - Meta发布三个物理理解基准测试,揭示AI与人类在物理推理能力上仍存在差距 [1] Meta组建AGI团队 - Meta CEO扎克伯格组建"超级智能"小组,挖角谷歌DeepMind首席研究员Jack Rae等AI顶尖人才 [2] - Jack Rae是"压缩即智能"思想代表人物,曾负责Gemini的"思考"功能 [2] - Meta为吸引AI人才提供7-9位数薪酬方案,计划建立约50人规模的团队 [2] Manus推出免费AI聊天模式 - Manus更新界面并推出免费Chat模式,替换原有标准和高投入模式为Agent和Chat两种模式 [3] - 新增创建功能,提供Slides、图片、视频、网页四种选项,生成内容更加专业美观 [3] - Chat模式响应快速且可显示参考出处,在任务规划、幻觉控制和内容丰富度方面较竞品出色 [3] 夸克发布高考志愿大模型 - 夸克推出首个高考志愿大模型,整合官方数据为1335万考生提供免费个性化规划 [4][5] - 模型能处理多维度志愿咨询,分析学校、专业及录取概率,提供梯度建议 [5] - 生成完整志愿报告,含"冲稳保"多策略推荐及历年录取数据 [5] 厦门大学上线校园AI万事通 - 厦门大学通过企业微信"智能机器人"功能解决校园高频咨询问题,搭载DeepSeek与混元大模型 [6] - 系统仅需上传学校现有知识文件即可部署,能处理简单咨询和复杂问题如科研软件安装 [6] - 系统集成于企业微信,学生无需下载新软件,学校半天内即可完成部署 [6] 迪士尼与NBC环球起诉Midjourney - 迪士尼与NBC环球起诉Midjourney侵犯版权,指控其生成复制《星球大战》《冰雪奇缘》等经典角色图像 [7] - Midjourney2024年创收3亿美元,其创始人承认无法追踪图片来源且忽视版权方停止侵权请求 [7] - 两公司要求经济赔偿并申请法院禁令,强调"盗版就是盗版" [7] 银河通用与清华发布OpenWBT - 银河通用与清华大学发布首款开源人形机器人全身遥操系统OpenWBT,支持多机型、跨虚实操作 [8] - 系统仅需VR头显和笔记本即可远程控制机器人执行全身动作,兼容多种机型 [8] - 基于"Real-world-Ready Skill Space"技术,将控制拆分为行走、姿态调整和手部触达三种原子技能 [8] 黄仁勋发布量子计算专用CUDA - 黄仁勋发布量子计算专用CUDA-Q,预言量子计算几年内可应用,在GB200上可提升量子计算开发速度1300倍 [9] - 英伟达预计量子比特将呈摩尔定律增长,未来超算将配备量子处理单元与GPU协同 [9] - 黄仁勋展示"物理AI"战略核心,称此领域拥有50万亿美元市场机会 [9] a16z报告:从SEO到GEO - 搜索正从传统浏览器转向语言模型平台,800亿美元SEO市场被"生成式引擎优化(GEO)"新范式取代 [10] - 竞争焦点从点击率转向"模型引用率",品牌需"编码至AI层","无提示认知度"成为关键指标 [10] - GEO胜出者将构建行动基础设施,品牌最终命题是"模型会记住你吗" [10] AI软件定价趋势 - 传统席位和固定价格模式正被混合定价取代(41%企业采用),结合订阅与使用量计费 [11] - AI定价策略多样化,包括现收现付、套餐制、平台费加使用量等七种模式 [11] - 结果导向定价成为趋势但需满足一致性、归因性、可衡量性和可预测性四要素 [11]
当谣言搭上“AI”的东风
腾讯研究院· 2025-06-12 16:22
AI标识制度的治理价值与挑战 核心观点 - AI标识制度作为应对AI生成虚假信息"更多更真"挑战的前端治理工具,具有提升识别效率与用户警觉的技术潜力,但存在易规避、伪造及误判等局限性,需与现有内容治理体系协同[1][3][10] 分章节总结 一、AI新技术与治理老难题 - **更易**:AI大幅降低虚假内容生成门槛,非专业用户可通过粘贴关键词生成高真实感文章牟利[3] - **更多**:技术实现虚假信息批量化生产,如"医疗泰斗客死他乡"谣言通过500账号矩阵日均产出1万条[3] - **更真**:多模态细节增强迷惑性,如"西安市鄠邑区地下出热水"谣言因包含视觉要素难以辨别[3] 二、AI标识的治理价值与自身局限 (一)理论优势 - **隐式标识**:通过元数据嵌入实现早期识别,提升对"低门槛""大批量"内容的治理效率[6] - **显式标识**:研究显示标注"AI生成"可使4976名受试者对内容的信任度下降,分享意愿降低[6] - **适用范围限定**:聚焦易引发混淆误认的高风险领域,避免过度标识导致信息过载[7] (二)实践局限 - **技术短板**:开源模型(如Stable Diffusion)水印可被移除,攻击者可伪造或规避标识[8][9] - **误判风险**:传统文本检测方法误判《滕王阁序》为"AI率100%",技术改进无法完全消除误差[9] - **成本挑战**:嵌套水印验证所需计算资源可能超过生成成本,检测过程效率低下[9] 三、AI标识的优化应用路径 - **体系协同**:将标识作为现有治理体系的补充工具,重点防范谣言、虚假宣传等高风险场景[11][12] - **责任划分**:生成平台需承担主要标识责任,传播平台检测难度较高需包容性治理[14] - **风险分级**:对低风险领域(如B端数据合成)采取豁免政策,与欧盟《人工智能法案》理念一致[13] 行业影响与数据参考 - **舆情案例**:2024年国内50个AI风险案例中,超1/5(20%)涉及AI造谣[1] - **技术应用**:广告素材生产、教育培训方案等领域正从"千人千面"向"一人千面"升级[7] - **法律基础**:《民法典》《广告法》等为AI内容违法行为提供执法依据[12]
腾讯研究院实习生(方向:AI for Good)招聘
腾讯研究院· 2025-06-12 16:22
岗位: 腾讯研究院 AI for Good方向实习生 岗位描述 1、 研究方向:AI for Good 2、日常工作包括:数据分析及可视化、报告撰写、创意策划等 任职要求 3、实习期内必须持有学生证(注意:大四保研后将有2个月没有学生证,不符合规定) 待遇 1、工资150元/天(税后) 2、社科或商科,或有设计背景的交叉学科 3、有扎实的实证研究功底 4、熟练使用各类AI工具,同时拥有良好的创造力 5、能熟练使用量化研究工具,有量化研究作品者优先,数据可视化能力强者优先 其他要求 1、2024年6月6日前入职 2、一周可实习4天(不含周末),延续至少4个月 1、工作态度务实、勤恳、守时、负责 2、工作地点为北京朝阳亚洲金融大厦 应聘方式 1、发送简历、既往研究作品至 simonelu@tencent.com 点个 "在看" 分享洞见 2、请尽量多地发送各种能展现个人能力的作品 3、邮件标题请写作: 姓名+学校+专业+到岗时间 ...
腾讯研究院AI速递 20250612
腾讯研究院· 2025-06-11 22:31
OpenAI发布推理新模型o3-pro - OpenAI发布推理新模型o3-pro,以推理能力最强、速度最慢为卖点,输入价格20美元/百万tokens,输出80美元/百万tokens [1] - 在科学分析、写作、编程和数据分析领域,o3-pro比o3领先约14%,但在ARC-AGI-2测试中几乎无提升,成本却大幅增加 [1] - 用户测试显示o3-pro擅长复杂推理任务且环境感知能力强,但推理速度极慢,不适合简单问题,主要面向专业用户 [1] Mistral AI发布强推理模型Magistral - Mistral AI发布强推理模型Magistral,包括企业版Medium和开源版Small(24B参数),在AIME2024等多项测试中表现优异 [2] - Magistral通过自主研发的可扩展强化学习流水线实现多语言保真推理,适用于英法西德意阿俄中等语言 [2] - 利用Flash Answers技术,Magistral Medium实现比竞品快10倍的token吞吐量,定价策略更具竞争力(输入2美元/百万token,输出5美元/百万token) [2] Figma推出官方MCP服务 - Figma推出官方MCP服务,直接将设计文件中的变量、组件、布局等信息导入IDE,实现真正的所见即所得,比第三方MCP还原度更高 [3] - 部署简单,只需更新Figma客户端,启用Dev Mode MCP Server,并在支持MCP的编辑器中配置本地服务URL [3] - 使用时只需在Figma中复制设计链接到对话框,一轮交互即可生成高保真页面,无需复杂配置或API申请 [3] Krea AI推出首款原生模型Krea 1 - Krea AI推出首款原生模型Krea 1,专注解决AI图像"同质化"和"塑料感"问题,提供高美学控制力与专业级画质输出 [4] - 该模型支持风格参考和自定义训练,原生支持1.5K分辨率且可扩展至4K,提供实时编辑功能,适用于电商、插画、影视分镜等多种场景 [5] - Krea 1目前提供免费测试版,无需注册或付费即可使用,旨在加速数字艺术创作流程,降低制作成本,有望成为AI图像生成领域的重要参与者 [5] 字节推出豆包大模型1.6系列 - 字节推出豆包大模型1.6系列,包括Seed-1.6综合模型、1.6-thinking强化思考版和1.6-flash极速版,支持256k上下文和多模态推理 [6] - 豆包1.6具备增强推理能力,支持"边想边搜"和DeepResearch功能,多模态理解出色,可进行GUI操作,综合成本降低63% [6] - 同步发布的Seedance 1.0 pro视频生成模型支持多镜头切换和高品质1080P输出 [6] Tolan AI陪伴应用 - Tolan作为外星AI陪伴应用获500万下载量及400万美元ARR,独特之处在于选择"外星人"形象而非模拟人类,强调"非浪漫型、非工具性"陪伴 [7] - 产品设计融合陪伴与游戏化元素,用户可定制外星人伴侣外观,并通过互动发展独特星球环境,形成情感连接,团队特意避免让AI回应过于像人类 [7] - 与国内猫箱等AI陪伴应用相比,Tolan专注普遍"孤独感"而非"恋爱幻想",通过限制聊天时间等机制追求健康使用节奏,因此在用户留存方面表现更好 [7] 理想汽车设立机器人部门 - 理想汽车新设立"空间机器人"和"穿戴机器人"两个二级部门,均隶属于产品部,分别由早期员工帅一帆和张文博负责 [8] - 空间机器人部门与理想"智能空间"战略相关,旨在将车内乘员舱打造为"第三空间",提升车内智能化体验,这已成为公司三大战略之一 [8] - 穿戴机器人部门可能专注于智能眼镜等穿戴设备开发,目标是将"理想同学"AI体验扩展至车机、手机、电脑及眼镜等多终端,实现全场景一致性体验 [8] Figure机器人公司战略 - Figure CEO认为人形机器人是"赢者通吃"行业,目标不是销售硬件而是提供完整"劳动力"系统,强调完全自主运行 [9] - 公司已建立年产1.2万台产线,产品成本较初代降93%,未来四年计划交付10万台,同时面向商业和家庭市场 [9] - Figure采用"共享神经网络"让所有机器人共享学习成果,资金充足,相信最终胜出者将是"最聪明、最便宜"的参与者 [9] Altman未来技术预测 - Altman博文称人类已进入AI加速发展阶段,预测2025年AI胜任认知工作,2027年机器人执行物理任务,2030年人类生产力大幅提升 [10] - 他认为奇点将逐步渗透,AI加速自身研发是最大突破,能提升科学家2-3倍生产力,智能成本终将接近电力成本 [10] - 超级智能发展路径应先解决对齐问题,再使其廉价易得且不过度集中,"廉价到无需计量的智能"将在2030年触手可及 [10] OpenAI Codex团队观点 - OpenAI Codex团队引领软件开发范式从同步"结对编程"转向异步"任务委派",构建能在独立环境中完成整个开发任务的AI代理 [11] - 新版Codex经强化学习微调,注重专业软件工程品质,团队预测开发者角色将从编码者转为审查者和规划者 [11] - 团队认为2025年将是"智能体元年",未来交互界面将融合同步与异步体验,可能演变为类"TikTok"信息流,供开发者快速审批AI工作成果 [11]
3个趋势,看AI到底是怎么重构广告行业的?
腾讯研究院· 2025-06-11 15:44
谷歌AI战略转向 - 谷歌CEO Sundar Pichai宣布公司正处于AI平台转型新阶段 通过Gemini 2 5和Flash模型发布 展示贯穿搜索 广告 内容生成的AI Mode 实现商业模式根本性重构 [1] - 谷歌将广告与内容深度融合 实现高度个性化和自动化广告投放 重构广告分发机制和商业路径 [1] 广告系统重构 - 谷歌广告演进从2000年AdWords到2021年Performance Max 实现"AI自动生成内容+全渠道自动投放"模式 2025年I/O大会进一步纵深推进 重新定义广告本身 [4] - 广告创意"流水线"全面AI化 Veo 3将静态产品图自动转化为视频短片 极大降低高质量视频创作门槛 [5] - AI从效率工具变成创意本体和投放决策者 智能代理渗透用户全流程 广告即内容 自然融入AI生成搜索结果 [6] - 创意生产范式从资源密集型向高度自动化AI驱动转变 品牌主可降本增效 重构工作流程 重塑创意生产体系 [7] 个性化范式转变 - 广告从"千人千面"迈入"一人千面" 通过Gemini能力集成到搜索界面 改变用户交互方式 实现更精准产品推荐 [9][10] - 智能代理结账允许用户追踪价格并自动购买 谷歌从搜索引擎转变为主动购物代理 广告主竞争重点转向优化代理推荐表现 [10] - AI模式推动广告行业实现真正"一人千面" 广告互动对用户都是独一无二的 实时生成的"交互内容" [11] 广告与搜索体验融合 - 谷歌AI总览月活跃用户达15亿 AI搜索类型使用量提升10%以上 广告直接融入AI生成答案 成为"有用信息"部分 [14] - AI缩短用户决策路径 颠覆互联网广告底层逻辑 广告曝光总量可能下降但单次转化率有望显著提升 流量分发机制与定价模型面临结构性变革 [15] 广告行业未来展望 - 品牌主需转型策略 从争夺搜索结果页位置转向争夺"被AI引用"机会 优化在购物图谱中的数据表现 [18] - 打造品牌专属智能体 与广告平台深度交互 实现素材审核 投放决策自动化 确保品牌调性与市场投放统一性 [19] - 提供面向智能体的服务接口或数据产品 提升品牌在AI生成内容和智能推荐中的主动性与可见性 [19] - 注重"品效合一"长期主义 通过AI赋能精准投放与内容创新 实现品牌建设与销售转化协同增长 [19]
腾讯研究院AI速递 20250611
腾讯研究院· 2025-06-10 22:58
苹果系统与开发者工具更新 - 苹果发布六大系统统一设计,采用全新"Liquid Glass"流体玻璃元素,视觉效果大幅提升 [1] - 开放端侧大语言模型访问权限给所有App,系统级AI功能包括视觉搜索、实时翻译 [1] - iPadOS窗口系统迎来重大更新,macOS联动iPhone功能增强,但新Siri再次推迟发布 [1] - Xcode 26将集成ChatGPT,支持AI辅助代码编写、文档生成和错误修复 [1] - 开发者可通过API密钥引入其他供应商AI模型,构建多元智能编程生态 [1] - 发布Foundation Models框架,开发者仅需三行代码即可调用本地AI模型 [1] 美团NoCode无代码开发平台 - 美团发布AI Coding Agent工具NoCode,用户无需编程即可创建网页与应用 [2] - 工具集产品、设计、工程功能于一体,支持网站设计、游戏开发、商品管理等场景 [2] - 具备理解隐含需求能力,支持多人协作,已全量上线并提供免费使用 [2] 腾讯元宝电脑版功能升级 - 腾讯元宝电脑版划词功能升级,新增连续划词和自动翻译功能 [3] - 新增窗口置顶功能,划词结果窗口可固定悬浮,提升阅读效率 [3] - 升级功能特别适用于浏览外文网站、阅读英文文档和专业论文场景 [3] 秘塔AI知识转化工具 - 秘塔AI推出"今天学点啥"产品,可将PDF文献自动转化为易懂课程讲解 [5] - 支持多种讲课风格,提供语音讲解和原文对照模式,一键导出可编辑PPT和逐字稿 [5] - 适用于自学、职场阅读、学术文献解读和教学课件制作等场景 [5] Meta能源合作与AI发展 - Meta与Constellation Energy签署20年核能购买协议,规模达1121兆瓦 [6] - 协议超过微软与Constellation的835兆瓦合作,支持数据中心能源需求和AI发展计划 [6] - 合作将保留1100多个工作岗位,提升发电量30兆瓦,预计2027年启动供电 [6] 中科院芯片自动化设计技术 - 中国科学院推出"启蒙"系统,实现处理器芯片软硬件全自动设计 [7] - 系统自动设计的RISC-V CPU"启蒙2号"性能达到ARM Cortex A53水平 [7] - 采用三层架构和"三步走"技术路线,有望改变芯片设计范式,提升效率 [7] AI语音与交互趋势 - ElevenLabs认为AI语音中适度加入"不完美"特征如停顿、呼吸音更能促进用户互动 [9] - 未来语音Agent将具备上下文感知能力,实现从被动客服到主动体验引导的转变 [9] - 未来信任机制将验证内容是否人类发声,未经验证内容默认视为AI生成 [9] 强化学习与AI发展观点 - 强化学习之父Richard Sutton认为AI正从"人类数据时代"转向"经验时代" [10] - 主张去中心化合作模式,反对基于恐惧的中心化控制 [10] - 将宇宙演化划分为四个时代,认为人类正处于从复制者向设计者过渡期 [10] 大语言模型局限性讨论 - 大语言模型可能只是"柏拉图洞穴"中的观察者,通过文本间接"扫描"人类思维 [11] - 质疑为何语言模型能从预测token中学到知识,而视频模型从预测帧中学到较少 [11] - 当前AI系统可能只是模仿人类思维的"投影"而非真正理解世界 [11]
腾讯研究院AI速递 20250610
腾讯研究院· 2025-06-09 22:06
ChatGPT 4o更新 - ChatGPT 4o在回答复杂问题前会先停顿几秒"思考",页面显示"Thought for a few seconds",然后再决定搜索或直接回答 [1] - 这种"先理解后搜索"的能力提高了回答准确性,但用户需要等待更长时间,移动端触发率更高 [1] - OpenAI已将这种思考能力扩展到GPT-4.1和GPT-4.5等非推理模型中 [1] 谷歌Veo 3更新 - 谷歌Veo 3模型新增"360°"关键词功能,能生成3D环绕效果视频,但在物理真实性上仍有缺陷 [2] - 推出Veo 3-Fast版本,支持文生视频和自动生成配音,速度更快且价格降低80% [2] - Fast版本生成8秒720P视频仅需20 credits(比标准版便宜5倍),但面部细节和光照效果略有下降 [2] 智谱AI发布CoCo - 智谱AI推出CoCo企业自主Agent,具备"记忆能力"的AI助手,能记住员工互动、根据部门职能提供差异化服务 [3] - CoCo可集成企业知识库、数据库和系统工具,通过MCP平台实现与企业原有工作流的整合 [3] - 提供完整私有化部署方案确保数据安全,支持MCP小应用一键自动化工作流,已开放申请通道 [3] MiniCPM 4.0发布 - MiniCPM 4.0模型只关注重要内容,像人类阅读一样选择性处理信息,让手机等设备上的AI速度猛增220倍 [4] - 创新的"草稿+验证"机制让模型生成更快,同时用极致压缩技术将模型体积缩小90%但保持高性能 [5] - 自研专用软件系统和"小模型先试错"策略,让小模型用较小训练量就能超越同类产品,支持超长文本处理 [5] 小红书开源文本大模型 - 小红书hi lab开源dots.llm1大模型,采用MoE架构,总参数142B但仅激活14B,经11.2T高质量数据训练后性能可媲美Qwen2.5-72B [6] - 团队首次开源完整训练过程中每1T token的检查点,包括Pretrain与Instruct阶段共14个checkpoint [6] - 通过优化数据处理流程、AlltoAll通信重叠和Grouped GEMM实现,大幅提升训练效率,使用更少算力达到同等性能水平 [6] 即梦图片3.0 - 即梦智能参考3.0可用于海报重绘设计,上传图片后保持较好一致性,适合制作各类海报 [7] - 设计海报提示词结构公式:产品描述+布局+色调+背景+风格定位+情感氛围+标题设置+字体特色 [7] - 系统功能包括商业促销海报制作、活动展览海报设计及效果转换,可通过局部重绘精准修改文字内容 [7] DreamTech发布Direct 3D-S2 - Direct3D-S2 3D大模型刷新HuggingFace 3D建模趋势榜,被全球开发者广泛关注 [8] - 模型仅用8块GPU训练,效果超越闭源商用模型,训练效率提升近20倍,token吞吐量提高64倍 [8] - 核心创新为空间稀疏注意力机制(SSA),支持超大规模体素生成,已全面开源且采用MIT协议允许商业使用 [8] Meta投资Scale AI - Meta正与Scale AI洽谈超过100亿美元投资,将成为Meta最大外部AI投资和私企最大融资之一 [9][10] - Scale AI成立于2016年,由华裔Alex Wang和Lucy Guo创立,2024年5月获10亿美元F轮融资,估值138亿美元 [10] - 公司主要提供数据标注服务,包括图像视频标注、3D点云标注和NLP处理,客户包括OpenAI、微软、谷歌等科技巨头 [10] 荣耀进军机器人 - 荣耀进军机器人领域,首秀机器人奔跑速度达4m/s打破行业记录,展示其AI技术实力 [11] - 荣耀已发布阿尔法战略(HONOR ALPHA PLAN),将从智能手机制造商向AI终端生态公司转型,五年投资100亿美元 [11] - 荣耀组织架构已调整,成立AI&软件业务部、新产业孵化部,推进AI能力与产品线深度融合,通过HONOR AI Connect平台开放生态能力 [11] Ilya Sutskever演讲 - Ilya Sutskever在多伦多大学毕业典礼演讲中表示,AI最终将能完成人类所有工作,不是部分而是全部 [12] - 他解释称,人类大脑是生物计算机,数字计算机(AI)最终也能做到同样的事情,这将带来人类有史以来最大的挑战 [12] - Ilya呼吁人们密切关注AI发展,培养对AI能力的直觉,为即将到来的深刻变革做好准备 [12]
人工智能的新浪潮和商业化
腾讯研究院· 2025-06-09 15:49
人工智能是国家战略 - 我国自2014年起将人工智能提升至国家战略高度,2017年首次写入《政府工作报告》并发布《新一代人工智能发展规划》,目标2030年达到世界领先水平 [2] - 2023-2025年中央密集部署人工智能发展,政治局会议4次提及"人工智能+"行动、安全监管及创新生态建设,中央经济工作会议连续6年强调技术研发 [3] - 地方政府加速跟进,河南、福建等10余省份党委理论学习中心组2025年集中组织人工智能专题学习 [2] Google开启的两次AI浪潮 - 2016年AlphaGo(Google DeepMind开发)和2022年ChatGPT(基于Google Transformer架构)标志两次技术突破,推动全球AI产业迭代 [4] - 我国对应涌现"AI四小龙"(旷视、依图、商汤、云从)和"大模型六小虎"(智谱、MiniMax等),截至2025年505个生成式AI通过网信备案 [4] - DeepSeek等模型性能逼近全球顶尖水平,实现从数量到质量的跨越 [4] 大模型投入与盈利现状 - 大模型遵循"尺度定律",性能随规模指数增长:谷歌Gemini Ultra训练成本1.91亿美元,Grok 3消耗20万块GPU [6][7] - 行业加速投资:星际之门/英伟达计划4年各投5000亿美元,亚马逊/微软/谷歌/Meta 2025年合计投入3150-3400亿美元 [7][8] - 盈利拐点未至:全球仅22个AI应用ARR超1亿美元,OpenAI累计收入55亿美元仅为融资额(579亿美元)的9.5%,预计2029年收入达1250亿美元方能盈利 [8][9][10] AI出海商业化突破 - 我国AI企业海外收入显著:昆仑万维(91%)、万兴科技(90.5%)、睿琪软件(95%)主要收入来自欧美/东南亚市场 [12][14] - MiniMax旗下Talkie、作业帮Question AI等产品受海外用户青睐,MiniMax 2024年海外收入或超7000万美元 [12][14] - 自动驾驶企业同步出海:萝卜快跑已落地迪拜/阿布扎比,形成"国内国际双线并行"的独特路径 [12][15]
腾讯研究院AI速递 20250609
腾讯研究院· 2025-06-08 21:26
一、OpenAI升级高级语音功能 - ChatGPT高级语音功能升级,声音更自然,能表达情感和语调变化,使交流更具人性化 [1] - 新增实时翻译功能,支持跨语言对话,可在国际环境中充当同声传译,无缝衔接对话 [1] - 该功能已向所有付费用户开放,用户只需点击输入框中的语音图标即可使用 [1] 二、ElevenLabs发布Eleven v3 - ElevenLabs发布新版TTS模型Eleven v3,支持70多种语言,声称是"迄今为止最具表现力的文本转语音模型" [2] - 引入音频标签系统,可精确控制情感表达,包括情感标签、音效标签和特殊标签,标点符号也影响情绪传递 [2] - 支持多人对话功能,可为不同角色分配不同语音,英语效果优于中文,目前处于内测阶段 [2] 三、Fish Audio推出OpenAudio S1 - Fish Audio推出OpenAudio S1声音克隆模型,支持通过指令精确控制语音情感、语气和节奏,表现力媲美专业配音 [3] - 采用双自回归架构和RLHF技术,支持13种语言,包括中英日等,在TTS-Arena排名第一 [3] - 定价每百万字节15美元(约0.8美元/小时),适用于内容创作和配音领域,未来计划推出版权音色注册与分成机制 [3] 四、爱诗科技推出PixVerse国内版 - 爱诗科技推出PixVerse国内版"拍我AI",海外已积累6000万用户,月活1600万,在美国曾超越TikTok位列总榜第四 [4] - 产品提供丰富功能,包括百种模板、首尾帧、多主体、运镜、视频重绘等,生成速度快(不超过1分钟),底模已升级至PixVerse V4.5 [4] - "拍我AI"兼顾"好玩"与"好用"特性,既能让普通用户通过简单模板快速体验创作乐趣,也满足专业创作者对功能完整性和效率的需求 [5] 五、智源研究院发布悟界系列大模型 - 智源研究院发布全新悟界系列大模型,旨在促进AI从数字世界迈向物理世界,包含四款大模型覆盖微观生命到具身智能领域 [6] - 悟界系列包括原生多模态世界模型Emu3、脑科学多模态基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0和具身大脑RoboBrain 2.0、全原子微观生命模型OpenComplex2 [6] - 智源已开源约200个模型和160个数据集,全球总下载量超6.4亿次,构建了覆盖模型、算法、数据、评测、系统的大模型开源技术体系 [6] 六、AI在数学领域的突破 - 30位顶尖数学家在UC伯克利对OpenAI的o4-mini进行秘密测试,发现AI能解决约20%的教授级数学难题,表现超越多数参赛团队 [7] - 数学家Ken Ono承认AI展现出接近数学天才的水平,能在几分钟内解决人类专家需要数周甚至数月才能完成的复杂问题 [7] - 陶哲轩已在社交平台分享AI在数学研究中的惊人进展,如与AlphaEvolve合作突破18年未解的和差集指数问题,预示AI将成为数学研究中值得信赖的合作者 [7] 七、Figure AI人形机器人进展 - Figure AI人形机器人Helix在物流仓库工作三个月后实现重大突破,能处理硬质纸箱、塑料袋和扁平信封等多种包裹类型 [8] - 机器人性能显著提升:包裹处理速度从5.0秒/件提高到4.05秒/件,条形码扫描成功率从70%升至95%,并展现出自适应行为如拍平褶皱包裹 [8] - 突破归功于三大技术增强(视觉记忆、状态历史、力反馈)和训练数据规模扩展(从10小时增至60小时),机器人还能通过"视觉条件化"实现与人类协作递物 [8] 八、苹果对推理模型的质疑 - 苹果研究质疑推理模型真实能力,认为DeepSeek、Claude等只创造思考印象而非具备稳定思维过程 [10] - 通过汉诺塔等谜题测试发现,推理模型面对高复杂度问题会出现"断崖崩溃"和"思考退化",甚至无法执行给定算法 [10] - 研究显示三种性能区间:简单问题标准模型更优,中等复杂度推理模型占优,高复杂度两类模型均失效 [10] 九、OpenAI对AI依赖性的看法 - OpenAI负责人Jang首次回应人机情感问题,承认用户正对ChatGPT产生依赖,认为随着AI系统融入更多生活场景,这种情感纽带将加深 [11] - 文章将AI意识分为"本体论意识"和"感知意识"两个维度,预测即使用户知道AI无意识,感知意识仍将随模型智能化增强 [11] - OpenAI寻求产品设计平衡点:让ChatGPT保持温暖体贴但不追求情感连接,将扩展评估、加深研究并公开分享发现 [11] 十、谷歌CEO谈AI发展 - 谷歌CEO Pichai表示随着AI模式功能成熟将迁移到主搜索页面,AI概览已提升用户满意度并推动产品增长 [12] - 谷歌内部AI工具生成约30%代码,提升工程效率10%,Pichai认为AI将让程序员专注更具创造性的工作 [12] - Pichai认为我们处于非均衡人工智能阶段,2030年前难达成AGI,他相信AI具递归自我改进能力,将成为比电更重要的科技发明 [12]