Workflow
量子位
icon
搜索文档
姚班传奇陈立杰入职OpenAI!16岁保送清华,30岁拿下UC伯克利助理教授
量子位· 2026-01-15 09:23
核心人事动态 - OpenAI已确认聘请清华大学姚班校友、加州大学伯克利分校EECS助理教授陈立杰加盟,负责数学推理方向 [1][2] - 陈立杰近期研究方向聚焦于扩散语言模型,紧跟生成模型的重要演进路线 [7] - OpenAI在去年9月发表的出圈论文《Why Language Models Hallucinate》中,引用了陈立杰参与的另一篇关于大模型幻觉的研究 [4] 个人背景与学术成就 - 陈立杰出生于1995年,16岁时获得全国信息学奥赛金牌并被保送清华大学,是清华大学“姚班”知名校友 [10] - 其竞赛生涯成绩斐然,曾多次在全国信息学联赛、冬令营及中国队选拔赛中获全场第一名 [12] - 本科期间即在AAAI、AAMAS、COLT、CCC等重要计算机会议上发表多篇论文,并开始系统性研究计算复杂性理论 [15] - 大三下学期赴MIT交流,师从著名学者Scott Aaronson研究量子复杂性,并解决了量子信息领域一个自2002年提出的开放性问题 [16][19] - 2017年,作为中国首位本科生在计算机科学基础年度研讨会发表论文,解决了计算复杂性领域的重要问题 [20] - 同年从清华姚班毕业,赴MIT攻读博士学位,师从Ryan Williams,研究方向集中于计算复杂性理论与细粒度复杂度理论 [21][22] - 博士期间多次在FOCS、STOC等顶级理论计算机会议发表论文,并获得2019年STOC和FOCS最佳学生论文奖等重要学术荣誉 [23][24] - 2022年从MIT获得博士学位,随后加入UC Berkeley Miller研究所担任米勒博士后研究员,该职位每年仅授予少数杰出青年学者 [23] - 2024年,其一篇关于《复杂性下界的逆向数学》的论文为困扰学界近50年的一类计算复杂性难题带来新思路 [23] - 2025年,正式加入加州大学伯克利分校EECS系担任助理教授,并成为伯克利理论计算机科学团队成员,主讲研究生课程《Computational Complexity Theory》 [10][26] 研究方向与兴趣 - 主要研究方向包括P与NP、电路复杂性、细粒度复杂性、去随机化、算法下界等理论计算机科学核心问题 [27] - 在去随机化与复杂性下界之间的联系、复杂性难度放大等方向做出了系统性贡献 [28] - 研究兴趣广泛,致力于将理论计算机科学的思想应用于量子物理和AI安全等其他科学领域 [9][29] - 其个人研究主页显示,他关注如何应用理论计算机科学的思想为AI系统建立安全保证 [9]
Meta元宇宙部门狂裁千人:一醒来就收到邮件,刚入职也未能幸免
量子位· 2026-01-14 19:19
元宇宙业务战略收缩与裁员 - 公司正在调整其元宇宙业务,对Reality Labs部门进行大规模裁员,涉及超过1000个工作岗位,约占该部门员工的10% [2][5] - 公司已确认削减对元宇宙的资源投入,此次裁员是具体实践,节省的资源将被重新分配到AI硬件和可穿戴设备等新兴领域 [3] - 公司正式关闭了三家重要的VR游戏工作室:Twisted Pixel、Sanzaru Games和Armature Studio,并暂停了VR健身应用Supernatural的新内容开发 [11][12] 业务模式与组织架构调整 - VR内容策略发生根本变化,投资重心将从重度自研全面转向生态合作,未来将依赖第三方开发者和合作伙伴来支撑平台内容,以降低成本和分散风险 [12] - VR硬件部门得以保留,但运营逻辑彻底改变,将改组为通过更精简、扁平的组织架构运行,不再追求激进的扩张性投入 [13][14] - 曾被视作元宇宙专属领地的Horizon软件团队和开发资源,将几乎完全转移至移动端,不再固守VR头显 [17] 战略调整的财务与市场动因 - 自2021年全力押注元宇宙以来,Reality Labs部门已累计亏损超过700亿美元,始终未能建立覆盖巨额研发成本的营收模型,财务压力是此次调整的首要根源 [18][19] - 行业预想的“技术军备竞赛”并未成型,主要竞争对手如微软和迪士尼已收缩或退出相关业务,导致公司陷入“独木难支”的境地,独自承担市场教育成本与技术探索风险 [22][23][24] - 生成式AI浪潮的爆发,促使公司将资源从回报遥遥无期的元宇宙,转向具备即时商业价值和技术爆发力的AI及移动端业务 [26] 资源重新分配与AI战略转向 - 裁员节省的资金将明确用于高增长领域,鉴于Ray-Ban Meta智能眼镜市场表现超出预期,公司计划激进扩大产能,目标是在2026年底前将年产能提升至2000万台以上 [15] - 公司战略核心从元宇宙优先转向全面押注AI,明确将AGI(通用人工智能)作为未来核心目标,并新成立了“Meta计算”部门以统筹基础设施建设 [29] - 生成式AI技术正被深度整合进核心应用,以提升广告系统效率,为算力设施和硬件长期投入提供现金流支持 [30] 硬件与交互逻辑的重新定义 - 硬件的定位发生根本变化,智能眼镜被重新定义为AI助手的“感官”,旨在利用现有轻量化设备快速占领用户面部关键位置 [32] - 交互方式正在更新,逐步放弃以手柄操作和虚拟空间漫游为主的逻辑,转而确立以“视觉识别加语音指令”为核心的新标准,目标是打造可全天候佩戴、通过自然语言调用的随身智能助理 [33][34] - 公司当前的重心是确保智能技术渗透进各个业务环节,让AI成为推动未来发展的核心动力 [36][37]
让AI当「动作导演」:腾讯混元动作大模型开源,听懂模糊指令,生成高质量3D角色动画
量子位· 2026-01-14 19:19
行业背景与痛点 - 3D角色动画创作领域长期面临高质量动作资产匮乏的制约,游戏、动漫、影视与数字人等产业面临高昂的成本困局,专业动捕采集起步价为数万元,动画师手工精修骨骼动画以“天”为单位 [1] - 生成式AI领域的文生动作(Text-to-Motion)因高质量数据稀缺与计算范式局限,长期处于“小模型”阶段,难以根据复杂的自然语言指令生成正确动作 [1] - 部分研究尝试通过大语言模型扩展词表进行动作生成,模型规模得以扩大,但由于采用离散的动作Tokenizer,生成的动作质量往往不理想 [1] 核心解决方案与发布 - 腾讯混元团队借鉴其在视频生成大模型上的成功经验,提出了一套全新的文生动作解决方案,旨在突破当前瓶颈 [2] - 该方案通过构建严格的数据处理与标注管线,覆盖大规模预训练、高质量精调、强化学习对齐的全阶段训练流程,并将Diffusion Transformer模型扩展至10亿级别参数量 [2] - 成功研发了混元Motion 1.0这一业界领先的动作生成基础模型,并于2025年12月30日对外开源 [2] - 核心思路是将动作生成任务从“手工作坊”式训练升级为“现代化工业”级别的大模型构建范式,在规模上实现里程碑式突破,并通过全链路算法创新确立新的技术范式 [2] 核心技术:数据引擎 - 构建了标准化的数据处理管线,沉淀出总计超过3000小时的动作数据,以支持10亿参数模型的性能 [4] - 整合了单目视频动捕、光学动捕及艺术家手K动画资产等多源数据,以平衡模型的泛化能力与生成质量 [6] - 通过自动化工具进行数据清洗与标准化,将所有异构数据统一重定向至一套标准骨骼,剔除异常片段,最终统一为30fps对齐的切片数据 [6] - 采用“渲染→VLM初标→人工校验→LLM结构化扩写”的标注闭环流程,利用视频多模态模型捕获语义,结合人工修正,最后通过LLM进行描述多样性扩充 [6] - 数据覆盖基础移动、日常生活、社交休闲、健身户外、体育竞技、游戏角色动作6大领域,超过200个细分动作类别 [6] 核心技术:生成管线 - 设计专门的LLM Prompt Engineering模块,用于用户Prompt改写及动作时长估计,充当“动作导演”角色 [7] - 构建了包含{用户指令,优化指令,动作时长}的三元组数据集,利用Gemini-2.5-Pro模拟海量真实、模糊的用户Prompt,并与高质量描述及真实时长进行精准对齐 [7] - 采用两阶段微调:SFT阶段基于Qwen3-30B-A3B进行微调,使模型具备将多语言模糊指令转化为“结构化英文描述+精确时长”的能力;GRPO强化学习阶段引入Qwen3-235B作为奖励模型,从“语义一致性”与“时序合理性”维度进行打分优化 [7] - Prompt Engineering模块最终将用户的中文或模糊指令转化为“英文动作描述+精确时长”,显著提升生成的可控性 [8] 核心技术:模型设计 - 核心生成架构采用Diffusion Transformer结合Flow Matching [10] - 模型结构采用“双流→单流”的混合架构,在双流阶段动作Latent和文本Token独立处理并通过self-attention交互,在单流阶段两者拼接为统一序列进行深度多模态融合 [12] - 针对长序列生成中的逻辑崩坏与动力学断裂,通过“语义防污染”与“局部约束”双管齐下,确保动作演进既符合指令逻辑又满足物理连续性 [12] 核心技术:全流程训练 - 将LLM领域的RLHF范式完整迁移到动作生成中,完整跑通“Pre-train->SFT->RLHF”三阶段训练 [13] - 大规模预训练阶段:在3000小时全量数据上进行,让模型学会各种动作的基本范式 [15] - 精细化微调阶段:筛选400小时的精标高质量数据进行微调,显著减少动作抖动和滑步,提升画质 [15] - 强化学习阶段:采用“DPO + Flow-GRPO”策略,并引入非对称掩码机制与窗口注意力机制 [15] - DPO阶段基于超过9千对偏好数据,通过最大化优胜样本似然差,解决“动作像不像”的审美对齐问题,大幅提升生成Pass Rate [16] - GRPO阶段引入包含语义一致性与物理约束的奖励函数,强化动作的物理真实感 [16] 模型性能表现 - 得益于参数规模及数据质量提升,HY-Motion 1.0在SSAE(语义结构自动评测)指标上达到78.6%,指令遵循能力远超SOTA模型 [17] - 在人工5档打分中,HY-Motion 1.0在多个类别及平均分上均领先于MoMask、GoToZero、DART、LoM等对比模型,平均分达到3.43 [18] - 模型在复杂时序逻辑(如“行走中突然停下惊恐环顾”、“跑酷跳跃后翻滚”)、动作覆盖度(如“跳舞扭胯”、“张弓搭箭”)及细粒度控制(如“顺时针绕圈行走”、“举右手挥手同时左手插口袋”)等维度上均有实测表现展示 [19][21][22][23][24][25] 社区反响与应用 - 自开源发布以来,HY-Motion 1.0在各平台热度持续上升 [26] - 游戏开发者、AI设计师、动画师、影视/广告创意导演等相关从业者纷纷投入使用并分享实测效果 [27] - 游戏开发者将其集成至ComfyUI等主流AI工作流中,实现3D动作资产的“即插即用”;社区涌现一系列自动化重定向脚本与工具,支持将生成动作一键映射至用户自定义角色 [27][29][31] - 有开发者尝试将模型输出作为视频生成模型的控制信号,使生成的动作更可控和可编辑 [31][33] 行业影响与展望 - HY-Motion 1.0的研发模式依托腾讯在游戏、数字内容等领域深厚的业务场景,真实且高标准的落地需求驱动模型在视觉美感与工业精度上不断对齐 [33] - 对社区及个人创作者而言,该模型使其在缺乏高昂动捕设备的情况下,依然能产出高质量动作资产,为产业上下游提供了更具性价比的AI解决方案 [33] - 当前的3D动作生成模型仍面临滑步处理、极端物理交互等行业性难题 [34] - 腾讯选择将核心能力开源,旨在通过技术普惠激发社区共建力量,在真实产业应用中迭代,共同推动3D角色动画制作从“手工精修”向“智能生成”的范式转型 [34]
「AI 100」榜单启动招募,AI产品“年会”不能停丨量子位智库
量子位· 2026-01-14 16:10
2025年中国AI产品市场发展态势 - 2025年国内AI产品领域涌现多个关键趋势,包括深度思考、Agentic AI、多智能体协作、多模态生成和端侧AI [4] - 多个颠覆性产品引领各技术方向:DeepSeek凭借强推理和透明化思考引领智能助手迭代;Manus实现从“思考→规划→执行→交付”的全链路自主任务处理,成为“真正意义上的通用AI Agent”;Lovart等产品通过多智能体协作实现高效任务处理;即梦AI等在多模态生成上取得进步;豆包AI手机将系统级AI智能体深度集成于操作系统,重构人机交互范式 [4] 量子位智库「AI 100」榜单概况 - 榜单旨在对过去一年中国AI产品发展进行全景式检阅,并深度洞察未来AI产业格局,目标是找到代表中国AI实力的巅峰力量 [4] - 榜单共分为三大板块:代表最强综合实力的「旗舰AI 100」、最具未来潜力的「创新AI 100」和十大热门赛道的代表产品 [6] - 「旗舰AI 100」聚焦2025全年表现,评选综合能力最强的100款AI产品,这些产品在技术上实现突破并在实际应用场景中展现巨大价值 [7] - 「创新AI 100」旨在挖掘在2025年崭露头角、具备2026年爆发潜力的创新产品,这些产品代表了AI技术的前沿方向 [8] - 十大细分赛道TOP3评选针对热度最高的10个领域,依次为:AI浏览器、AI Agent、AI智能助手、AI工作台、AI创作、AI教育、AI医疗、AI娱乐、Vibe Coding和AI消费级硬件 [9] 榜单评估体系与内容 - 「AI 100」是量子位智库推出的AI产品风向标系列内容,旨在全维度提供AI技术驱动下产品长期创新和变革的第三方参考,主要由「旗舰 AI 100」和「创新AI 100」构成,按季度发布 [12] - 榜单采用定量与定性相结合的双重评估体系以确保客观性和准确性 [13] - 定量评估以真实用户数据为基础,涵盖用户规模、用户增长、用户活跃、用户粘性四大核心维度,包含下载总量、新增下载、活跃用户数、留存率等超过20个具体指标;硬件产品则考察出货量 [13] - 定性评估聚焦长期发展潜力,通过专家评估和用户调研,综合考量产品的底层技术、市场空间、功能设计、变现潜力、团队背景、增长速度等多重因素;硬件产品考察具体功能设计和实际使用体验 [13] - 除榜单外,周边内容还包括数据解读文章、分赛道产品解析、1v1 AI产品深度访谈等 [14] 相关信息与参与方式 - 量子位智库已对外公开自研梳理的国内AI产品知识库,提供对国内AI应用生态全景式、结构化、实时更新的梳理 [15] - 榜单申报时间为即日起至2026年1月15日,榜单将于2026年1月中下旬发布 [10]
量子位编辑作者招聘
量子位· 2026-01-14 16:10
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并可实习转正[4][6] - 所有岗位工作地点均位于北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,涵盖芯片、AI Infra、云计算领域及核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会报告进行大众化解读[6] - 参与核心采访,对话产业专家并撰写AI云落地案例[7] - 任职要求包括对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需访谈对话投资人、创业者及产业分析人士[11] - 任职要求包括对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 需撰写AI应用产品深度评测,并跟踪多终端新品发布[11] - 需对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求包括对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态和体验方法论,并有强逻辑与结构化表达能力[11] 岗位通用职责与任职要求 - 主编岗位需具备选题和带队能力及经验[6] - 主笔岗位需具备原创深度稿件能力[6] - 编辑岗位需热爱表达,喜欢挖掘信息,能够用通俗语言解读AI进展[6] 加入公司的潜在收获 - 可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 可将各种AI新工具应用于工作,提升效率和创造力[6] - 可通过撰写原创内容建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 可加入扁平、简单、开放、多劳多得的活力团队[6] - 可获得行业TOP薪资待遇及包含五险一金、餐补、绩效等在内的丰厚福利[6]
谷歌也要「AI抖音」了!新Veo 3.1原生支持竖屏,4K分辨率高画质
量子位· 2026-01-14 16:10
谷歌Veo 3.1模型升级核心要点 - 谷歌Veo 3.1模型进行了重要更新,核心升级方向为**竖屏**和**4K**画质,标志着公司正式进军AI短视频领域 [1][2][11] - 此次更新虽被官方视为小幅升级,但具备重大意义,旨在满足移动端短视频需求并提升用户体验 [9][10][12] 技术功能与性能提升 - **首次原生支持9:16竖屏视频**,专为移动端短视频平台优化,无需裁剪 [15] - 在原有720p基础上,**新增4K分辨率**,此前最高为1080p [15] - **创意能力提升**:即使提供简单提示词和参考图片,模型也能生成各种小剧场 [13][14] - **一致性大幅改进**:包括角色一致性(如人物在不同场景中保持相同外观)和背景与物体一致性(保持场景物体在多个镜头中的完整性) [16][26] - **元素融合能力大幅改善**:可将多张图片中的角色、物体、纹理和风格化背景自然融合成连贯视频 [20][21] 应用场景与用户反馈 - 功能已面向所有谷歌用户推出,**普通消费者**可通过YouTube Shorts、YouTube Create及Gemini应用体验 [23][24] - **企业或专业用户**可通过Flow、Gemini API、Vertex AI和Google Vids等平台使用 [25] - 用户实际生成案例显示效果良好,包括角色一致性故事、虚拟偶像组合及AI动漫制作 [26][29][30] 行业趋势与竞争格局 - AI视频正在进入**竖屏时代**,谷歌并非首家,OpenAI和迪士尼等公司已先行布局 [33][34] - OpenAI曾推出独立Sora应用(被视为“AI版抖音”),但其用户留存率数据显示从首日10%降至第7日2%、第30日1%,分析认为OpenAI在运营方面面临挑战 [35][36][37] - 谷歌拥有**全栈运营能力**和**平台闭环优势**,包括YouTube这一成熟的视频内容运营系统,Veo竖屏视频可直接适配YouTube Shorts,有利于形成“创作—分发—反馈—优化”的正向循环 [37][38] - 迪士尼计划在Disney+引入竖屏内容信息流,并与OpenAI合作引入视频生成能力,进一步印证竖屏模式的重要性 [40][41][42] - 国内AI玩家如可灵AI、Vidu AI等也已进行类似短视频生成的尝试 [44][46]
不得了,这个新技术把视频压缩到了0.02%!
量子位· 2026-01-14 16:10
文章核心观点 - 中国电信人工智能研究院(TeleAI)研发的生成式视频压缩技术实现了革命性的视频数据压缩,将1GB的原生视频压缩至仅需传输200KB数据,压缩率达到0.02%,在极低带宽下仍能保持高清、连贯的视频质量,标志着视频通信从“像素搬运”迈向“语义生成”的新范式 [1][5][51][52] 技术原理与创新 - **核心逻辑转变**:与传统视频编码(如HEVC/H.265)传输像素信息不同,GVC技术传输的是“如何画出画面”的指令,即“用计算换带宽”,将传输压力转移至接收端的推理计算 [14][18][19] - **传输内容**:传输的数据是极小的“压缩Token”,包含**语义信息**(场景、物体结构)和**运动信息**(物体动态),大小可压缩至0.005-0.008 bpp,相比传统高清视频的0.1 bpp以上,数据量降低两个数量级 [22][23][24][25] - **接收端重建**:接收端利用**扩散模型**,结合接收到的Token指令和预训练的世界知识,“脑补”并生成视频 [26] 性能表现与优势 - **画质优势**:在极低码率(约0.005 bpp)下,GVC的LPIPS画质评价指标显著优于传统HEVC,后者画面已严重失真;传统方法需消耗**6倍以上带宽**才能达到与GVC同等的视觉画质 [34][35] - **语义准确性**:在DAVIS2017视频分割任务测试中,在bpp=0.01的极限压缩下,GVC重建视频的J&F指标达**75.22%**,远高于HEVC的**57.68%**,证明其生成视频的关键物体位置和轮廓精准,不影响后续AI分析 [36][37] - **计算可行性**:经过优化,GVC模型在消费级GPU(如RTX 4090)上生成29帧画面仅需**0.95秒到1.35秒**,虽非毫秒级,但在准实时场景下已完全可用 [40][41] 应用场景与意义 - **极端环境通信**:技术旨在解决远洋货轮、应急灾区等带宽极端受限环境的视频传输问题,例如通过窄带卫星网络观看高清直播 [2][3][7] - **广泛行业应用**:潜在应用场景包括**远洋海事通信**(娱乐、远程医疗指导)、**应急救援**(无人机回传现场画面)、**深空探测**与**自动驾驶汽车**路测数据传输,能极大降低存储与传输成本 [53] - **理论体系支撑**:GVC技术基于中国电信提出的“智传网(AI Flow)”理论体系,该体系包含信容律、同源律、集成律三大定律,标志着通信本质从数据传输转向智能分发与协同 [44][48][49]
刚刚,智谱和华为搞波大的:中国首个国产芯片训练出的SOTA多模态模型!
量子位· 2026-01-14 14:32
文章核心观点 - 智谱AI与华为合作,成功推出并开源了新一代图像生成模型GLM-Image,该模型是中国首个全程在国产芯片(华为昇腾A2)上完成训练的SOTA多模态模型,在复杂视觉文字生成和长文本渲染方面表现卓越,且API调用成本极低[1][7][36][44] 模型性能与技术亮点 - GLM-Image在CVTG-2K(复杂视觉文字生成)和LongText-Bench(长文本渲染)双榜单中均位列第一,尤其在文字准确率(Word Accuracy)上达到0.9116,归一化编辑距离(NED)达到0.9557,显著优于其他开源及闭源模型[5][6] - 模型采用创新的“自回归(9B参数)+ 扩散解码器(7B DiT参数)”混合架构,结合了自回归模型在理解语言与规划布局上的优势,以及扩散模型在细节渲染上的长处,从而能精准处理包含复杂文字和布局的图像生成任务[38][39][40][49] - 模型原生支持从1024x1024到2048x2048的任意比例和分辨率图像生成,无需裁剪或重绘,可直接生成适配各种社交媒体平台和商业用途的图片[21][53][54][56] 国产化训练与算力突破 - GLM-Image的整个训练流程,包括海量数据预处理、大规模预训练以及RLHF(人类反馈强化学习)后训练,全程基于华为昇腾A2芯片算力集群完成,证明了国产算力底座具备支撑前沿、复杂模型训练的能力[36][44][47][48] - 为实现高效训练,智谱与华为深度合作,对Mindspeed-LLM框架进行了深度优化,包括针对RL训练流程的专项优化、算子级深度重构以及利用昇思MindSpore框架实现计算与通信的完美并行,解决了国产芯片在复杂后训练中的适配问题,提升了大规模集群训练的稳定性和效率[45][47][50][51] 应用场景与成本优势 - GLM-Image尤其擅长中文文字渲染,能精准生成包含复杂汉字的海报、插画、AI手抄报等,解决了AI生图领域长期存在的“不识字”痛点[1][8][9][10] - 模型在多种实际应用场景中表现出色,包括生成符合“小红书”风格的社交媒体封面、具有艺术感的商业广告大片、逼真的人物摄影以及影视剧照风格的图像[12][13][17][22][27][28][32] - 该模型的API调用价格极具竞争力,生成一张图片的成本仅为0.1元人民币,为中小企业和开发者提供了极高性价比的AI生图接入方案[7][21][60] 行业意义与开源价值 - GLM-Image的成功开发与开源,打破了高性能图像生成模型对国外芯片和技术的依赖,为国内AI开发者提供了强大的信心和可行的技术路径[36][57][58][60] - 作为开源模型,GLM-Image不仅公开了模型权重,也分享了其创新的混合架构思路,对推动下一代图像生成技术的研究具有重要价值[58][60] - 该组合标志着“国产芯+国产模型”在AI关键领域取得了实质性突破,展示了从硬件到软件的全栈自主创新能力[1][7][48]
Claude版Manus只用10天搓出,代码全AI写的!网友:小扎140亿并购像冤大头
量子位· 2026-01-14 12:42
产品发布与定位 - Anthropic公司发布了一款面向工作场景的通用智能体产品,名为Claude Cowork [1] - 该产品基于Anthropic最强的自研模型打造,定位是让非编程背景的用户也能利用AI智能体的强大能力 [2][6] - 其交互模式更像是“给一位靠谱的同事留言交办任务”,而非传统的对话 [7] 开发过程与效率 - Claude Cowork的开发用时仅为1周半(约10天)[3] - 开发过程中,全部代码均由Claude Code编写完成 [3][6] - 开发团队组建了一个内部小团队,设定了一个紧迫的截止日期,并最终提前发布了产品 [20][29] - 人类在开发过程中的角色主要是规划、设计、让AI反复尝试,以及协调众多Claude实例的工作和做决策,而非精心编写每一行代码 [5][28] 技术演进与产品起源 - Claude Cowork的起源是Claude Code,其第一个内部测试版本在2024年末推出,当时底层模型是Sonnet 3.5,编程能力尚不成熟 [11][12] - 最初,主要开发者仅将其视为原型,主要用作笔记工具 [13] - 该工具最初为工程师设计,但迅速被数据科学家、设计师、财务人员、销售人员、用户研究员等非目标用户群体广泛采用,用于SQL查询、绘制图表、制作原型、财务预测、数据分析等多样化任务 [14][15][16][17] - 基于Claude Code被广泛用于非编程任务的观察,团队决定开发让用户更容易上手的Claude Cowork [18] 开发模式与协作 - 在开发Claude Cowork时,所有开发人员都管理3-8个Claude实例,用于实现功能、修复错误或研究解决方案 [21] - 对于较小的改动或仅涉及Web代码的改动,直接让Claude去实现;当有人在Slack中报告bug时,通常直接@Claude并让其修复 [25][26] - 所有代码在合并前都会由一位人类以及另一位Claude实例进行审核 [27] 市场对比与产品阶段 - 有观点将现阶段的Claude Cowork对比Manus,认为Manus适用于更多步骤的工作流程(如研究20家公司并整理文档、制作幻灯片),而Claude Cowork目前还比较早期,被形容为“拼多多版”Manus [30][31] - 文章提及Meta公司(扎克伯格)以20亿美元收购Manus的事件,并暗示Anthropic可能因此意识到了通用智能体的巨大商业价值,从而快速推出了类似产品 [8][9] 潜在问题与警示 - 尽管AI编写了全部代码,但代码仍然需要人工进行审查 [33] - 赋予AI操作桌面或文件系统的权限需要非常谨慎,存在类似“删库”的风险 [34] - Claude团队在权限控制方面做了一些提醒措施,例如给文件系统权限的命令参数被标注为“危险地跳过许可” [36]
不用额外缓存!英伟达开源大模型记忆压缩方案,128K上下文提速2.7倍
量子位· 2026-01-14 12:42
文章核心观点 - 英伟达联合多家研究机构推出名为TTT-E2E的新方法,旨在通过“测试时训练”和“上下文压缩”技术,动态地将长文本关键信息压缩到模型权重中,从而显著提升大模型处理长文本的效率与性能,同时保持模型轻量化和易于部署 [1][2][6][7][12] 技术原理与创新 - 核心思路是将长文本建模从架构设计问题转化为“持续学习”任务,模型在测试阶段基于当前上下文进行下一个词预测,并通过梯度下降实时更新自身参数,将文本信息动态压缩到权重中,无需额外存储 [12][13] - 该方法基于带滑动窗口注意力的标准Transformer架构,并未依赖复杂特殊设计,因此易于部署 [11] - 在训练阶段采用元学习方法为模型初始化,通过内循环模拟测试时训练、外循环优化初始参数,实现训练与测试的端到端对齐优化 [14] 性能表现与优势 - 在128K超长文本上,处理速度比全注意力模型快2.7倍,处理2M上下文时提速达35倍,且性能不打折 [3] - 在3B参数模型的测试中,TTT-E2E在128K上下文长度下的测试损失与全注意力Transformer持平甚至更优,而Mamba 2、Gated DeltaNet等同类模型在长文本场景下性能出现明显下滑 [19] - 推理延迟不随上下文长度增加而变化,在H100显卡上处理128K文本时,速度比全注意力模型快2.7倍,无论处理8K还是128K文本,用户都能获得一致的快速响应体验 [19][23] - 在解码长序列任务中,经Qwen-8B模型评估,TTT-E2E生成的文本质量稳定,损失值持续低于传统模型 [21] 关键技术优化 - 采用“迷你批处理+滑动窗口”组合策略,将测试时训练数据分多个迷你批,配合8K大小的滑动窗口注意力,解决单token梯度更新易爆炸问题,提升计算并行度 [17] - 实施精准更新策略,只更新模型的MLP层(冻结嵌入层、归一化层和注意力层),并且只更新最后1/4的网络块,以减少计算成本并避免参数更新混乱 [17] - 采用双MLP设计,在需更新的网络块中加入一个静态MLP层存储预训练知识,另一个动态MLP层负责吸收新上下文,防止模型学新忘旧 [17] 技术局限 - 在“大海捞针”这类需要精准回忆细节的任务中,表现远不如全注意力模型,因为其核心是压缩记忆,会过滤掉看似无关的细节 [25][26] - 训练阶段的元学习需要计算梯度的梯度,目前实现比标准预训练要慢 [27] 项目背景与现状 - 项目总负责人是斯坦福博士后研究员Yu Sun,其自2019年以来就在开发“测试时训练”概念框架,TTT-E2E项目的早期构想由他提出 [29][30] - 目前,TTT-E2E的代码和相关论文已完全开源 [28]