量子位

搜索文档
Windsurf打工人被谷歌做局24小时后获收购!华人AI编程明星出手,接收250名员工
量子位· 2025-07-15 08:34
AI编程赛道收购事件 - 谷歌以24亿美元挖走Windsurf创始团队及核心研发人员,并入Google DeepMind团队 [1][2] - 谷歌采用"人才收购"模式,仅获得部分技术非独家授权,未取得公司控制权 [3][11][12] - Windsurf剩余资产和团队在72小时内被AI编程智能体Devin开发商Cognition收购 [1][13] 交易细节 - Cognition收购内容包括Windsurf全部知识产权、产品线、品牌及剩余250多名员工 [15] - Windsurf年经常性收入(ARR)达8200万美元,企业客户ARR环比翻番,拥有350多家企业客户 [15] - Cognition与Anthropic达成协议,恢复Windsurf对Claude AI模型的完全访问权限 [17] 员工待遇对比 - 谷歌收购导致Windsurf剩余员工股权期权面临归零风险 [3] - Cognition承诺100%员工可获得经济收益,免除股权归属悬崖期,加速全部股权归属 [16] 行业竞争格局 - AI编程赛道竞争激烈:Cursor年化收入5亿美元估值100亿美元,GitHub Copilot年收入超3亿美元 [20] - 巨头战略意图:OpenAI欲抗衡微软GitHub,谷歌强化Gemini生态,Anthropic推出Claude Code [20] - 创业公司面临"站队或被收购"困境,微软和谷歌此前均有类似拆解创业公司案例 [21] Cognition发展现状 - Cognition成立于2023年,其AI软件工程师Devin为全球首个同类产品 [25] - 公司3月曾洽谈40亿美元估值融资,近期拿下高盛作为重要客户 [28] - 计划整合Windsurf的IDE与Devin技术,打造更强大AI编程工具 [19][24] 交易时间线 - OpenAI曾计划30亿美元收购Windsurf,被Anthropic切断Claude API支持阻挠 [7][8] - Cognition从首次接触(周五下午)到签署协议(周一早上)仅用不到72小时 [14]
刘璐也被Meta挖走了!华南理工校友,创造了4o吉卜力爆款
量子位· 2025-07-15 08:34
核心观点 - Meta近期从OpenAI挖角多名核心研发人员,包括GPT-4o图像生成功能的主要开发者刘璐和Allan Jabri,加速其AI人才布局 [1][5][6][30] - 刘璐作为GPT-4o"吉卜力风"的创造者,技术背景深厚,曾在谷歌参与Gemini研发并拥有多项学术突破 [2][8][16][21][23] - Meta的挖角策略聚焦OpenAI华人技术骨干,其"超级智能实验室"已吸纳至少10名华人专家,其中8人来自OpenAI [34][35][36] 人才流动 - 刘璐从OpenAI转投Meta仅入职一年,此前在谷歌DeepMind参与Gemini图像感知模块开发,并主导了GPT-4o的吉卜力风格图像生成功能 [2][21][23] - 同期被挖的Allan Jabri为GPT-4o核心架构师,曾在Meta旗下FAIR工作两年,此次属于回归老东家 [30][31][32] - Meta近期还挖走OpenAI苏黎世办公室ViT核心作者团队,持续扩大AI人才储备 [36] 技术成就 - 刘璐开发的GPT-4o吉卜力功能上线10天即吸引1.3亿用户,生成超7亿张图像,成为现象级产品 [26] - 其学术贡献包括:参与谷歌Gemini模型(论文引用5030次)、开发NAS算法评估基准NATS-Bench(引用1093次) [16] - 研究领域涵盖元学习、少样本学习及图神经网络,在NeurIPS/AAAI/IEEE TKDE等顶刊发表多篇论文 [13][17] 教育背景 - 刘璐本科以3.84 GPA毕业于华南理工大学电子科学与技术专业,曾获全国信息学奥赛省级一等奖 [8][9] - 在悉尼科技大学获机器学习博士学位,导师为AAII研究所龙国栋教授,研究隐私保护AI及设备端智能 [10][12][18] 行业影响 - Meta通过开源策略吸引OpenAI技术骨干,可能加速实现GPT级别模型的开源化 [7] - OpenAI仍保留部分顶尖华人研究员,如ICLR 2025获奖者漆翔宇、DALL-E 3贡献者Li Jing等 [41] - 人才争夺反映AI行业竞争白热化,Meta近半年已从谷歌/苹果/OpenAI等多方吸纳专家 [35][36][41]
B站下场自研AI配音!纯正美音版甄嬛传流出,再不用看小红书学英语了(Doge)
量子位· 2025-07-14 17:08
AI配音技术发展 - B站发布的IndexTTS2模型实现音色、情感与唇形同步的AI配音,支持时长精确控制和自动生成两种模式[3][11][12] - 模型在LibriSpeech-test-clean等测试集中多数达到SOTA水平,情感测试WER仅1.883%[22][24] - 时长控制误差小于0.02%,支持独立调节音频与情绪表达[19][25] 技术实现架构 - 首创自回归零样本TTS模型,结合精确时长控制与自然生成[33] - 三大核心模块:文本到语义(T2S)、语义到语音(S2M)、BigVGANv2声码器[36][38] - 创新采用情感适配器与梯度反转层分离情感与说话者属性[41][42] 性能验证 - 消融实验显示GPT潜在表征提升发音清晰度,S2M模块显著改善合成质量[26][28] - 在AIShell-1测试中SS指标仅落后真实语音0.004,WER误差0.038%[23] - 情感测试SMOST达4.24±0.19,显著优于MaskGCT等对比模型[25] 应用场景拓展 - 模型适用于视频配音等需音视频同步的领域[32] - 可能整合进B站"代号H"AI创作工具,支持视频播客战略[47][49] - 社区反馈显示潜在娱乐应用价值,如搞笑视频制作[9]
腾讯混元A13B用130亿参数达到千亿级效果,Flash Attention作者点赞
量子位· 2025-07-14 17:08
Hunyuan-A13B团队 投稿 量子位 | 公众号 QbitAI 腾讯混元,在开源社区打出名气了。 最新的 Hunyuan-A13B 模型仅凭借130亿激活参数,能和千亿级大模型掰手腕,引发全球开发者热议。 Flash Attention作者、普林斯顿大学计算机系教授 Tri Dao 都来赞叹它的性能和效率优势。 ArtificialAnlysis 团队还提供了具体性能数据,指出混元A13在其评测基准中领先于Qwen3 8B和14B,但落后于更大模型。能在单H200 GPU上以FP8精度运行。 模型API已经在腾讯云上线,输入价格每百万Tokens仅需0.5元,输出价格为每百万Tokens 2元。 精准卡位"甜蜜点",一张中端GPU就能跑 当前大模型圈有个让人纠结的现象:想要效果好就得用满血版大模型,但一看推理费用直接劝退一大批业务。 腾讯混元这次推出的Hunyuan-A13B,瞄准的就是这个痛点。 这款模型采用了细粒度MoE(混合专家)架构,总参数规模达到800亿,但每次推理只需激活130亿参数。这种设计让它在保持强大智能的同 时,推理吞吐量比同类前沿模型提升超过100%。 再加上原生支持的256K超长 ...
Kimi K2里找到了DeepSeek V3架构
量子位· 2025-07-14 15:01
Kimi K2模型表现 - Kimi K2模型在多个benchmark上取得SOTA成绩,被评价为自Claude 3.5 Sonnet以来首个能用于生产力级别任务的模型[1] - 模型总参数1T,激活参数32B,在代码、Agent、数学推理任务表现突出[35] - 实测显示K2生成的前端代码量是初始模型的2.6倍(10.7KB vs 4KB),游戏功能更丰富[49][51] - 工具调用能力强大,可生成包含实时购票链接的完整旅游攻略[66][67][68] - 创意写作测试中能生成富有哲理的"宇宙告别信"[74] 开源策略分析 - 选择开源路线主要基于三点:获取市场关注度、借助社区力量完善生态、倒逼模型技术进步[12][14][18] - 开源版本包括基础预训练模型Kimi-K2-Base和指令微调版Kimi-K2-Instruct[15][16] - 采用修改版MIT协议,仅对月活超1亿或月收入超2000万美元的产品要求标注来源[36] - 开源24小时内社区即出现MLX实现和4bit量化等衍生成果[14] 公司战略调整 - 年初停止所有营销投放,转向依靠模型硬实力获取市场认可[20][22] - 集中资源研发基础算法,放弃K1系列更新全力投入K2开发[23] - 坚持基础模型研发路线,未跟随行业转向Agent产品热潮[24][25] - 实施产品范式转型,从chat-first转向artifact-first交互模式[31] 行业竞争动态 - OpenAI开源模型因"安全考量"无限期推迟,引发是否受K2影响的猜测[2][3][76] - 传闻OpenAI模型参数远小于K2(<<1T)但性能强大,因技术问题需重新训练[79][81] - 模型架构被指借鉴DeepSeek V3,公司回应为合理技术参考[5][85]
不用抗生素也能抗菌!AI设计新型蛋白质抵御细菌耐药性|Nature子刊
量子位· 2025-07-14 15:01
核心观点 - AI设计的蛋白质能有效抑制大肠杆菌等抗生素耐药细菌的生长 [1][3] - 该研究开创了"非抗生素"抗菌新范式 通过阻断细菌获取必需营养素来抑制其生长 [27][28] - AI蛋白质设计平台大幅缩短研发周期 传统方法需数月甚至数年的工作可在极短时间内完成 [19] 研究背景 - 大肠杆菌等致病菌通过ChuA蛋白从宿主血红蛋白中"偷"血红素获取生长所需的铁 [2][9] - 宿主会启动"营养免疫"机制隔离游离铁 成为细菌生长的限制性因素 [10] - 细菌演化出多种策略获取铁 包括利用ChuA外膜转运蛋白从血红蛋白中"偷"血红素 [11][12] 研究方法 - 研究团队通过冷冻电镜 X射线晶体学等技术解析ChuA"偷"血红素的机制 [15] - 发现ChuA通过胞外环7和8与血红蛋白二聚体相互作用 主要通过组氨酸残基结合血红素 [15] - 利用RFdiffusion和ProteinMPNN等AI算法从头设计能特异性结合ChuA的蛋白质 [18] 研究成果 - AI设计的蛋白质与ChuA结合结构和计算预测高度吻合 晶体结构与AI模型的均方根偏差仅为0.6Å [20] - 筛选96个AI设计的蛋白质即发现多个低纳摩尔浓度抑制剂 G7的IC50值低至42.5nM [21] - 设计的蛋白质像"分子锁" 精确阻断血红蛋白与ChuA结合 阻止血红素提取 [22] 技术优势 - AI蛋白质设计平台采用端到端方式创建多种蛋白质 是澳大利亚首个模拟诺奖得主David Baker工作的平台 [7] - 平台使用全球科学家可免费使用的AI驱动蛋白质设计工具 推动领域发展 [8] - "设计-筛选"高效模式颠覆传统蛋白质药物研发试错模式 为抗菌药物快速迭代提供可能 [24] 行业影响 - AI在蛋白质合成方向取得核心进展 从结构预测进入"AI造蛋白"时代 [31][32] - 构建"设计-建造-测试-学习"闭环系统 大幅提升蛋白质合成效率与规模 [35] - AI驱动的精准蛋白质设计可能重塑抗菌药物研发模式 推动"按需定制"治疗方案发展 [37]
AI有味觉了:分辨可乐和咖啡,只需“尝一尝”丨Nature
量子位· 2025-07-14 13:23
人工味觉系统技术突破 - 科学家研发出基于石墨烯的AI味觉传感器GO-ISMD,能准确感知酸、甜、苦、咸四种基本味道,识别准确率达90% [1][4][23] - 该系统还能区分复杂饮品如咖啡和可乐,分类准确率高达92.3% [1][25] - 研究成果已发表于《美国国家科学院院刊》并获《Nature》官网报道 [2] 石墨烯材料应用 - 石墨烯的二维六边形晶格结构具有优异电导性和分子敏感性,是理想的人工味觉系统材料基础 [8][9] - 氧化石墨烯作为衍生物保留了石墨烯特性,其电导率变化可通过机器学习解读,建立味觉"记忆" [11][12][13] - 研究采用层状氧化石墨烯膜构建纳米流体装置,兼具味觉传感和忆阻器功能 [16] 技术实现路径 - 通过真空过滤制备GO膜并转移至硅基底,使用盐溶液监测电学特性 [16][18] - 将四分类问题拆解为独立二分类任务,训练集含160样本,测试集含40样本 [21][22] - 系统通过模拟人类味觉神经信号处理机制实现味觉识别 [14][15] 应用前景 - 该技术被评价为"非常非常重要的一步",有望帮助神经疾病患者恢复味觉功能 [4][26] - 研究最初受意大利学者关于"重获味觉体验"的神经伦理学设想启发 [6][7]
这是我花9毛钱拍的《Meta老板砸钱把我从苹果挖走》
量子位· 2025-07-14 13:23
技术突破 - 国产AI视频生成技术实现重大升级,通过4张参考图+9毛钱成本即可生成定制化视频,颠覆传统图生视频仅支持首尾帧+Prompt的局限[1][4][6] - 新功能实现"素材即剧组"模式,用户可自由决定视频中所有人物、道具、背景元素,支持7个主体同时生成且保持100%一致性[4][27][33] - 技术直接跳过传统分镜制作环节,流程简化为"素材准备→视频生成→剪辑",进入零分镜时代[12][13][20] 产品优势 - 生成质量达1080P,支持跨作品角色联动(如《老友记》与《生活大爆炸》角色同框)及真人/动漫素材混合创作[28][30][36] - 专业模式自动优化Prompt理解,支持素材一键存入主体库供重复调用,修改成本极低[19][22][24] - 成本仅为传统版权素材1/30,5秒视频最低0.9元,1000元预算可生成48分钟内容[36][37] 行业影响 - 首次实现多主体超高一致性生成,解决行业长期存在的角色畸变问题,技术指标领先同业[26][27][33] - 将影视制作流程从7个环节压缩至3个,大幅降低广告/内容创作门槛[8][10][13] - 开启"快好省"的AI视频生产力时代,成本降幅达30倍,推动商业化应用普及[36][37]
具身智能大脑+首个SaaS开源框架,智源研究院刷新10项测评基准,加速群体智能新范式
量子位· 2025-07-14 13:23
核心观点 - 智源研究院推出全球首个具身智能SaaS开源框架RoboOS 2 0和通用具身大脑RoboBrain 2 0 实现感知、推理与规划一体化 [1][3] - 32B版本在多项权威基准测试中刷新纪录 空间推理能力超越Gemini、GPT-4o等主流模型 [2][21][23] - 开源框架RoboOS 2 0采用MCP协议与无服务器架构 端到端性能提升30% 响应时延低于3ms [3][27][29] 技术架构 RoboBrain 2 0 - 突破三大瓶颈:空间理解精度不足、时间依赖建模薄弱、长链推理能力欠缺 支持高精度物体定位、多步任务规划和因果逻辑提取 [5][10] - 采用模块化编码器-解码器架构 处理多模态输入(图像、视频、语言指令) 实现感知-推理-规划统一 [7][8] - 三阶段训练流程:基础时空学习(4 8M样本)、具身时空增强(224K样本)、具身情境推理链训练(195K样本) [13][14][16][18] RoboOS 2 0 - 首创SaaS模式 支持无服务器部署 代码量仅为传统方式的1/10 [27][28] - 三大组件:云端大脑模型、分布式小脑模块群、实时共享内存机制 新增场景图共享和任务监控模块 [28][29] - 多机协作四阶段:任务分解、动态分配、并行执行、状态更新 通信效率提升27倍 [30][29] 性能表现 - 空间推理:BLINK(83 95)、CV-Bench(85 75)等9项测试SOTA 超越基线模型5-15个百分点 [21] - 时间推理:多机器人规划(80 33)、Ego-Plan2(57 23)领先Qwen2 5-VL和Claude [23][24] - 提供7B轻量化版本 适配边缘设备 在低资源环境下性能仍超主流开闭源模型 [24] 应用生态 - 支持商超/厨房/居家多场景部署 实现多智能体协作任务执行 [25] - 配套推出RoboSkill技能商店和开箱即用镜像 支持三行指令极速部署 [32] - 模型权重、训练代码、评测基准全面开源 覆盖7B/32B版本及多芯片镜像 [33][34]
12人团队打造AI陪伴神器,半年内斩获3000万美元投资
量子位· 2025-07-14 13:23
公司概况 - 公司名为Portola,旗下产品Tolan是一款AI陪伴类APP,今年2月正式上线,团队仅12人[1][25] - 创始人Quinten Farmer曾创立金融科技公司Even并于2022年被沃尔玛以3亿美元收购[21][23] - 公司最初瞄准儿童教育市场但未成功,后转向年轻人情绪陪伴领域[26][27][28] 产品核心功能 - 提供非拟人化的外星虚拟形象作为AI伙伴,通过对话匹配用户性格并长期陪伴[3][5][6] - 具备图像识别功能,可结合视觉信息优化交互体验[9] - AI角色会基于用户互动持续学习成长,话题覆盖日常生活到学习规划[8][10] - 72.5%的用户反馈产品改善了人际关系管理[13] 运营数据 - 上线半年下载量超300万次,付费用户10万,月收入超100万美元[2][15] - 测试阶段即吸引50万用户,主要群体为年轻女性[33] - 订阅模式提供周付4.99美元、月付10美元、年付70美元三档选项[14] - 预计2024年订阅收入达1200万美元[20] 融资进展 - 累计融资3000万美元(约2.15亿人民币),含1000万美元种子轮和2000万美元A轮[1][16][19] - A轮由Khosla Ventures领投,参投方包括NFDG及多位科技公司高管[16][18] - 种子轮获Stripe前高管Lachy Groom及Replit CEO等投资[17][18] 市场定位 - 瞄准年轻人因信息过载产生的心理压力,提供"被理解"的情绪价值[29][30][31] - 产品设计刻意避免拟人化,鼓励用户回归现实社交[12] - 计划推出免费版本以扩大用户基础[34]