量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-08-28 10:18

白交发自凹非寺量子位 | 公众号 QbitAI 又一个AI学术大佬，有工业界身份了。清华姚班校友、普林斯顿教授陈丹琦，跟Thinking Machines划上了关联。没错，就是那个OpenAI前CTO Mira Murati创办，没模型但集齐超多大佬、没产品但刷新种子轮融资历史纪录的公司。之所以有这样的消息爆出，因为已经有了不少蛛丝马迹。一则Thinking Machines团队HuggingFace主页上，出现了陈丹琦的名字。点开正是陈丹琦的主页。目前陈丹琦还在普林斯顿大学担任副教授，以及NLP小组的联合负责人。在她个人主页和社交网络上并没有更新这一动向。二则，有网友发现陈丹琦的GitHub主页联系邮箱是以Thinking Machines后缀收尾。 | | | 而进一步发现，在她账号关注的最新名单中，一眼望去几乎全是Thinking Machines在职科学家。不过这一消息也并未得到证实。但如果一旦确认，Thinking Machines就将再添大佬一枚，而Thinking Machines也将是陈丹琦来到工业界的第一站。陈丹琦被曝加入Thinking Machines 其谷歌 ...

Artificial Intelligence

Neural Reading Comprehension and Beyond

Artificial Intelligence

Neural Reading Comprehension and Beyond

北大南开数学家解决著名“十杯马天尼”问题：更统一、更优雅的证明

量子位· 2025-08-27 16:02

金磊闻乐发自凹非寺量子位 | 公众号 QbitAI 困扰数学和量子力学交叉领域长达半个世纪的难题，因为北大、南开数学家的参与，终于是有了较为完美的答案。这个难题有个非常有趣的名字，叫做 "十杯马天尼" （The Ten Martini Problem）。之所以叫这个名字，是因为数学家马克·卡茨（Mark Kac）在1981年表示，谁能解决这个问题，就请对方喝十杯马天尼。若是简单来描述，十杯马天尼问题是关于量子系统能谱结构的一个猜想，它断言"几乎Mathieu算子"（Almost Mathieu operators）在所有无理数频率下的能谱是Cantor集。其中，"几乎Mathieu算子"是位势为余弦函数的特殊薛定谔算子；Cantor集，则是一种分形结构（看起来像"尘埃"，没有区间，只有无限分散的点）。虽然在2004年至2005年期间，数学家Avila和Jitomirskaya最终给出了完整证明，即"几乎Mathieu算子"的能谱就是Cantor集（Avila后来也因此获得了菲尔兹奖）。但随着两位中国数学家（北京大学葛灵睿、南开大学尤建功）加入Jitomirskaya的研究 ...

小扎高薪挖来的人又跳回OpenAI了！首席科学家赵晟佳也要回去

量子位· 2025-08-27 16:02

人才流失情况 - 至少8名关键岗位员工在超级智能实验室成立不到两个月内离职涵盖研究、工程和产品管理等领域[5][16] - 两名新员工在Meta工作不足一个月即重返OpenAI 包括研究员Avi Verma[2][8] - 首席科学家赵晟佳曾签署OpenAI聘用协议试图回流[3] - 工作近十年的生成式AI产品总监Chaya Nayak转投OpenAI担任特别行动人[4][13] - PyTorch核心开发者Bert Maher加入竞争对手Anthropic[11] 组织管理问题 - 近几个月内进行第4次AI团队重组分为TBD实验室、产品与应用研究、基础设施和FAIR四个部门[23] - 管理关系频繁更替导致项目目标不断切换员工普遍超负荷[24] - 天价新人签约奖金最高达1亿美元引发内部公平性质疑[18][19] - 资源分配博弈加剧资深员工感到被边缘化[22] - 内部流传"不予再聘"名单传闻打击员工心理安全感[17] 战略投入与市场压力 - 公司宣布投入720亿美元AI资本开支打造"个人级超级智能"[20][25] - 华尔街质疑高额投入回报前景要求未来几个季度展示实质性产品突破[25][26] - 超级智能实验室以人才密度和算力密度为卖点直接对标OpenAI和Google DeepMind[20] - 业内人士认为公司处于关键转折点需在一两个季度内稳定组织并明确技术路线[27]

Meta Platforms(US:META)

Claude for Chrome来了！可作为浏览器扩展程序直接使用

量子位· 2025-08-27 13:49

产品发布与功能 - Anthropic发布浏览器扩展程序Claude for Chrome 可直接集成于Chrome浏览器并执行任务如设置日历、回复邮件及找房等[1][3][4] - 用户可通过侧边窗口与代理对话聊天框保留浏览器所有活动上下文并可授权代理执行操作如点击按钮和填写表格[10][12] - 目前仅向1000名Max套餐用户开放测试该套餐月费为100或200美元其他用户需订阅进入候补名单[12] 安全策略与限制 - 因安全挑战需强有力保障措施公司通过小规模试点收集数据和安全反馈以优化分类器和模型[13][14] - 默认禁止访问金融服务、成人内容和盗版网站用户可设置限制代理访问特定网站[24][25] - 执行高风险操作如发布信息、购物或分享个人数据前需征得用户许可以防止提示注入攻击等漏洞[20][21][26] 行业竞争格局 - AI浏览器成为巨头竞争新战场 Perplexity推出自有浏览器Comet 谷歌和微软分别计划在Chrome和Edge中嵌入Gemini和Copilot[29][31][32] - OpenAI据称即将发布AI驱动浏览器功能与Comet类似[34] - 谷歌Chrome在2025年占据全球浏览器市场68.35%份额远超Safari的16.25%[39] 技术演进与战略方向 - 公司曾于2024年10月推出可控制PC的代理但因速度和稳定性问题搁置[27][28] - 行业存在两种主流路径：开发扩展程序整合至现有浏览器或重新打造浏览器嵌入AI[35][36] - 人工智能与网页互动可创造非凡价值作为用户与信息桥梁使连接更紧密[30][31]

AI浏览器

Artificial Intelligence

Claude for Chrome

Comet

AI浏览器

Artificial Intelligence

Claude for Chrome

Comet

新iPhone的AI怎么样，得看苹果最近的收购了

量子位· 2025-08-27 13:49

苹果潜在AI收购战略 - 公司内部正严肃讨论收购法国AI初创公司Mistral和美国AI搜索工具Perplexity [1] - 收购总金额可能达上百亿美元级别 [1] - 此举旨在弥补生成式AI领域滞后局面并加速技术整合 [4][11] Mistral公司背景与价值 - 法国AI公司Mistral成立两年估值达100亿美元 [3][6] - 被誉为"欧洲版OpenAI" 以开源大模型Mistral-7B闻名 [7] - 技术亮点在于轻量化模型能力特别适配手机等终端设备 [9] - 去年B轮融资获英伟达投资当时估值已超60亿美元 [6] - 轻量化特性与苹果"设备优先"产品生态高度契合 [9] Perplexity公司特点与优势 - Perplexity以对话式搜索功能著称被视为"谷歌杀手" [3][10] - 获英伟达和亚马逊投资支持 [10] - 创始人曾为OpenAI核心成员苹果年初已讨论过收购事宜 [10] - 产品特性与Siri形成互补：Siri擅长指令执行 Perplexity专精深度信息检索 [10] - 近期提出以345亿美元收购谷歌Chrome浏览器 [3] 苹果AI发展现状 - 生成式AI领域明显滞后于竞争对手 [4][11] - iOS 18仅试探性加入生成式AI功能且受到用户批评 [15] - Siri更新停滞在语音助手阶段缺乏突破性创新 [14] - 手持1330亿美元现金储备但AI布局缓慢 [4] 行业竞争格局 - 三星Galaxy手机已内置生成式AI 实现实时修图写邮件等功能 [13] - 谷歌Pixel手机搭载Gemini Ultra AI功能覆盖摄影搜索等多方面 [13] - 收购可避免从零研发的试错成本快速弥补技术缺口 [16][17] 交易不确定性 - Perplexity公开表示"不知情被收购"并声称自身正在收购小公司 [19][20] - 苹果与Mistral双方均保持沉默符合巨头收购前常规操作 [21] - 历史上有错过收购特斯拉和Netflix的先例可能雷声大雨点小 [22]

空间智能卡脖子难题被杭州攻克！难倒GPT-5后，六小龙企业出手了

量子位· 2025-08-27 13:49

核心观点 - 群核科技发布空间大模型专注于室内场景并解决空间一致性痛点与主流视频生成和3D场景生成路径形成差异化 [2][7][50] - 空间大模型通过真实感全息漫游可交互性和复杂空间处理能力推动AI从二维向三维空间智能演进 [11][13][50] - 行业处于早期发展阶段类似GPT-2阶段面临数据稀缺场景复杂和交互泛化三大挑战群核通过三位一体技术战略构建闭环生态 [32][35][42] 技术路径对比 - 视频生成派以Genie 3为代表生成动态交互内容但本质为二维序列仿真难以保证三维空间一致性 [5] - 3D场景生成派以World Labs和混元为代表支持360度漫游但受限于高质量3D数据易出现场景崩坏和穿帮 [5] - 群核原生空间智能路线深耕三维室内场景构建具精确几何物理属性和语义关系的数字孪生空间 [50] 模型能力特点 - SpatialGen基于扩散模型架构通过文字描述参考图像和3D布局生成多视角图像采用3D高斯重建技术还原场景 [15] - SpatialLM1.5定义空间语言概念用坐标轴描述物体位置形状姿态和物理属性支持精准空间生成与编辑 [19][21] - 模型具备复杂任务处理能力如基于自然语言指令生成三维空间并摆放家具或通过AI Agent框架完成路径规划 [30][31] 行业挑战 - 室内空间数据稀缺且获取成本高受隐私合规和环境多样性约束规模化数据积累困难 [36][37] - 室内场景结构复杂物体分布与功能逻辑异构性强需深层认知理解如承重特性和几何稳定性 [39] - 交互任务需动态环境感知物理常识推理与多步任务分解现有模型缺乏动作后果预测和意图理解能力 [40][41] 群核技术战略 - 三位一体闭环包含空间编辑工具空间合成数据和空间大模型工具沉淀数据数据加速模型迭代模型提升工具体验 [42][45] - 拥有全球最大室内空间数据集InteriorNet 包含4.41亿个3D模型和超5亿个结构化3D空间场景 [45] - 基于技术飞轮开发可控视频生成工具融合SpatialGen 自研渲染引擎KooEngine与DIT架构计划年内发布产品 [47][48][49] 开源与生态建设 - 开源SpatialLM1.5和SpatialGen子模型降低技术门槛并吸引开发者共同应对行业挑战 [14][52] - 通过开源推动构建以空间语言为核心的标准和生态加速数据沉淀与技术迭代 [52] - SpatialLM 1.0曾登Hugging Face趋势榜前三已有初创企业基于其代码训练自有模型 [52]

谷歌认领最强AI版Photoshop！现在人人可用，效果确实强悍

量子位· 2025-08-27 13:49

模型身份与发布信息 - 谷歌官方确认此前爆火的神秘图像编辑模型nano-banana实为Gemini 2 5 Flash Image [1] - 模型目前可在Gemini和Google AI Studio上免费使用，同时API以每张图像0 039美元（折合人民币0 28元）的价格开放 [8] - 谷歌解释选择通过LMArena平台匿名发布是为全球规模发布做准备 [48] 核心功能与技术能力 - 具备出色的图像编辑能力，可合并最多三张图片创造新事物，生成超现实艺术或无缝融合物体、颜色和纹理 [11][12][13] - 能够用几张照片生成连贯的电影画面剧情故事 [14] - 支持2D到3D转换，用户提供2D图片可自动生成和谐统一的3D视角 [22] - 展现出高超的图像推理能力，包括解勾股定理、计算角度、识别复杂结构等 [6][25] 实际应用案例与用户反馈 - 网友实测显示模型可精准改变面部表情、天气，甚至为秃头男人生成不同发型 [17][19] - 能够以指定角色（如猫）为主角生成旅游照或自拍照，并理解光影细节生成自然阴影 [27][29][31][35][36][37] - 可抓取角色特征进行创意生成，如将林黛玉和孙悟空变成漫威英雄并肩战斗 [33][39] - 网友评价其性能出色，甚至认为对PhotoShop构成威胁 [21][42] 市场定位与行业影响 - 该模型被认定为SOTA级别的图像编辑模型，其表现与Gemini近期发布的多模态版本相似 [43][45] - 谷歌采用匿名发布、无品牌标识的测试策略与DeepMind早期评估大语言模型的方式一致 [46] - 用户对完整版本期待强烈，专业订阅用户询问是否能在Gemini应用中立即使用 [51][52]

图像编辑模型

人工智能

Gemini 2.5 Flash Image（nano - banana）

图像编辑模型

人工智能

Gemini 2.5 Flash Image（nano - banana）

破解人机协作密码：工作技能拆成两层，AI执行人类决策成功率狂飙 | ICML 2025

量子位· 2025-08-27 13:49

研究框架与核心观点 - 提出将工作技能拆分为决策判断与执行实施两个层次的数学框架用于分析人类与AI的协作模式 [2][8] - 人类和AI在不同技能层面各具优势优势互补时整体成功率远高于单独工作 [2][14] - 该框架揭示了人类价值优势所在及AI重塑人类工作的具体路径已被ICML 2025接收 [4][5][8] 技能解构理论 - 工作被解构为技能单元每项技能包含决策判断（确立目标界定问题权衡取舍）和执行实施（实施计划运用工具达成结果）两个核心构件 [8][10][19] - 以软件工程师为例 AI工具接管大部分执行环节（如GitHub Copilot和GPT自动化代码编写）但人类价值不降反升角色转向监督与方案制定 [9][11] - 决策与执行的分离成为劳动力市场新分水岭在医生诊断（AI标记异常医生敲定方案）和分析师（AI草拟报告人类确定叙事框架）等高技能工作中普遍存在 [13] 数学模型与应用 - 通过量化决策难度与执行难度建立人类与AI的"能力图谱" 可测算任意劳动力-岗位组合的成功概率（job success probability） [16] - 研究发现成功概率存在相变现象：决策层技能微小进步可能触发成功概率非线性跃升从几近必然失败转向几近必然成功 [18] - 使用O*NET数据库提取岗位结构通过Big-bench Lite基准测试获取劳动者能力数据并借助大语言模型验证理论预测 [23][24] 协同效应与生产力影响 - 强于决策的人类与擅于执行的AI配对时协同效能超越个体能力为设计高效人机团队提供数学基础 [21] - 生成式AI通过补足低技能劳动者的执行短板显著提升其成功概率缩小与高技能劳动者的能力差值（生产力压缩效应） [21] - 技能互补的劳动者组合或人类与AI协作能显著提升岗位成功率 [26] 实践指导意义 - 技能升级路径需聚焦决策层能力（定义问题权衡目标调整策略）而非易被淘汰的执行层工具使用 [27][28][29] - 招聘策略应转向识别互补优势（如高决策力但执行欠佳人才）辅以AI工具稳定产出而非依赖全能型人才 [30][31] - 需构建识别决策层卓越能力（判断力验证力战略推演）的体系为人类判断而设计工作流程 [32][33]

数字技术工人已到岗！时序大模型+Agent已掌握了工厂生产管控技术，比人类更懂工况

量子位· 2025-08-27 12:15

文章核心观点 - 基于时序大模型和Agent技术的"数字技术工人"已实际应用于化工、环保、新能源等工业场景，能够快速承担生产操作、安全控制等关键任务，解决行业专家稀缺问题 [1][2][3] - 河谷工业智能体平台通过自研时序大模型与创新工艺维度训练方式，实现Agent快速部署（最快1周上岗）和跨行业泛化应用 [18][33][36] - 数字技术工人已在实际案例中替代人类班组（如合成氨控制班组），提升生产效率、稳定性和安全性 [12][13][16] 技术实现方案 - 感知能力：实时获取传感器数据、业务指标及温度/压力/流速等核心生产数据 [5] - 认知决策：通过大语言模型消化工艺文档与专家经验，时序大模型输出控制决策与趋势预测 [5][25][26] - 执行能力：直接操作工业软件系统及硬件设备 [6] - 核心模型：自研工业时序大模型Geegobyte-g1采用改良only-decoder架构，处理强时序关联的噪声数据 [19][20][41] 应用场景与案例 - 合成氨生产：数字工人替代三班倒控制班组，自主管理动态工况并保障生产安全 [12][13] - 垃圾焚烧发电：承担炉排及进风控制任务，人类转为安全监管角色 [14] - 通用岗位覆盖：包括设备操作员、工艺班长、能源管理员、安全员、计划员等11类角色 [11] 行业需求与商业化 - 人才短缺：化工等行业面临优质人才稀缺、培养周期长、人才争夺战激烈 [43][45] - 商业模式：提供一次性采购或按需付费（时薪/月薪+年终奖）两种合作方式 [51] - 部署效率：0样本客户2个月内完成部署，有样本客户仅需1周上线 [36] - 企业接受度：传统保守企业主动寻求合作，反映行业需求迫切 [48][49] 平台优势与创新 - 训练创新：以工艺类型（非行业）划分训练目标，突破跨行业泛化瓶颈 [28][33] - 数据需求：仅需半个月数据即可生成初始版本投入影子陪跑 [36] - 底层技术：Transformer-based时序预测研究结合工业互联网研发经验 [41] - 团队背景：创始人王筱圃为中科大计算机博士，团队具备算法研发与工业落地双重经验 [41]

工业智能化转型

数字技术工人

Artificial Intelligence

河谷工业智能体平台

Geegobyte - g1工业时序大模型

工业智能化转型

数字技术工人

Artificial Intelligence

河谷工业智能体平台

Geegobyte - g1工业时序大模型

阿里开源14B电影级视频模型！实测来了：免费可玩，单次生成时长可达分钟级

量子位· 2025-08-27 10:24

产品发布与特性 - 阿里发布音频驱动视频生成模型Wan2.2-S2V 仅需一张图片和一段音频即可生成电影级数字人视频 [1] - 模型支持单次分钟级生成具备影院级音频生成视频能力和基于指令的高级动作与环境控制 [5] - 模型通过混合并行训练和全参数化训练构建超60万个音视频片段数据集 [19] 技术实现 - 融合文本引导全局运动控制和音频驱动细粒度局部运动实现复杂场景音频驱动视频生成 [19] - 采用AdaIN+CrossAttention控制机制解决音画同步问题 [20] - 利用层次化帧压缩技术将历史参考帧拓展到73帧实现稳定长视频生成 [21] - 通过多分辨率训练支持竖屏短视频和横屏影视剧等不同分辨率场景生成需求 [22] 用户体验与效果 - 模型生成视频面部表情自然口型一致且肢体动作丝滑 [1] - 用户可通过通义万相官网免费体验每日登录赠送50积分 [11] - 实测显示模型对口型能力出色唇形与台词基本匹配 [13] - 用户生成内容涵盖动漫人物朗诵人物贴画唱歌及大段rap演绎等多种场景 [15][16][17] 生态影响与市场表现 - 通义万相视频生成模型家族在开源社区和第三方平台下载量已超2000万 [23] - 模型发布即开源可通过GitHub Modelscope和HuggingFace等平台获取 [24]