Workflow
量子位
icon
搜索文档
「AI 100」榜单启动招募,AI产品“年会”不能停丨量子位智库
量子位· 2026-01-15 16:53
2025年中国AI产品市场概览 - 2025年国内AI产品领域涌现多个关键趋势,包括深度思考、Agentic AI、多智能体协作、多模态生成和端侧AI [4] - 多个颠覆性产品代表了这些趋势:DeepSeek凭借强推理和透明化思考引领智能助手迭代;Manus实现了从“思考→规划→执行→交付”的全链路自主任务处理,被视为真正意义上的通用AI Agent;Lovart等产品通过多智能体协作简化工作流程;即梦AI等在多模态生成上取得进步,与国外Sora2和Nano Banana呼应;豆包AI手机将系统级AI智能体深度集成于操作系统,重构人机交互范式 [4] 量子位智库「AI 100」榜单介绍 - 榜单旨在对过去一年中国AI产品发展进行全景式检阅,并深度洞察未来AI产业格局,目标是找到代表中国AI实力的巅峰力量 [4] - 榜单共分为三大板块:代表最强综合实力的「旗舰AI 100」、最具未来潜力的「创新AI 100」以及十大热门赛道的代表产品 [6] - 「旗舰AI 100」聚焦2025全年表现,评选综合能力最强的100款AI产品,这些产品需在技术上实现突破并在实际应用场景中展现巨大价值 [7] - 「创新AI 100」旨在挖掘在2025年崭露头角、具备2026年爆发潜力的创新产品,它们代表了AI技术的前沿方向 [8] - 十大细分赛道TOP3评选将聚焦行业核心赛道,包括:AI浏览器、AI Agent、AI智能助手、AI工作台、AI创作、AI教育、AI医疗、AI娱乐、Vibe Coding和AI消费级硬件 [9] 榜单评估体系与内容 - 「AI 100」是量子位智库推出的AI产品风向标系列,旨在全维度提供AI技术驱动下产品长期创新和变革的第三方参考,主要由「旗舰 AI 100」和「创新AI 100」构成,按季度发布 [12] - 榜单采用定量与定性相结合的双重评估体系以确保客观性和准确性 [13] - 定量评估以真实用户数据为基础,涵盖用户规模、用户增长、用户活跃、用户粘性四大核心维度,包含下载总量、新增下载、活跃用户数、留存率等超过20个具体指标;对于硬件产品则考察出货量 [13] - 定性评估聚焦长期发展潜力,通过专家评估和用户调研,综合考量产品的底层技术、市场空间、功能设计、变现潜力、团队背景、增长速度等多重因素;对于硬件产品则考察具体功能设计和实际使用体验 [13] - 除榜单外,周边内容还包括数据解读文章、分赛道产品解析、1v1 AI产品深度访谈等 [14] 相关资源与参与方式 - 量子位智库已对外公开自研梳理的国内AI产品知识库,提供对国内AI应用生态全景式、结构化、实时更新的梳理 [15] - 榜单申报时间为即日起至2026年1月15日,榜单将于2026年1月中下旬发布 [10]
AI开始“动手”了,全世界第一个带头的是阿里千问
量子位· 2026-01-15 12:26
文章核心观点 - 阿里千问App通过集成Qwen大模型与阿里生态,上线了400多项新功能,成为全球首个大规模开放“搜索-决策-支付-履约”全链路AI功能的科技公司,标志着AI从信息处理走向真实世界任务执行,人机交互进入新阶段 [5][7][9][60][64] 产品功能与体验 - **批量闪购**:用户可通过语音或文字指令(如“帮我下单30杯茉莉奶白”)直接调用淘宝闪购,AI在约1分钟内完成理解需求、确认地址、挑选商品、生成方案并直达下单页面,提供差异化选购方案并自动领取优惠券 [17][19][20] - **旅游出行规划**:用户可指令AI制定详细旅游攻略(如“五天四晚的三亚旅游攻略”),AI整合飞猪、高德等生态,提供图文并茂的攻略、可交互路线图,并直接完成订机票、酒店、打车等操作,无需切换App [21][23][26][29] - **智能购物推荐**:在淘宝购物场景中,AI能根据用户需求(如“推荐一款2000-3000元、家有宠物的扫地机器人”)进行需求拆解,结合海量商品供给与真实评价,提供多取向推荐方案(如“均衡之选”“性价比之王”) [33][34][36][38] - **办公与开发辅助**:在“任务助理”板块提供表格处理、PPT生成、应用开发等功能,例如可生成结构完整、设计美观的行业报告PPT(如“2025年具身智能行业报告”) [39][40][42] - **生活服务集成**:可调用支付宝查询政务、挑选餐厅并订座,解决日常琐碎需求 [43] 技术架构与生态优势 - **模型能力**:依托Qwen模型家族,其中Qwen3-Max综合性能全球前三,在Agent和Coding方向能力突出,衍生模型数量超过18万个,为任务执行提供坚实基础 [48] - **Agent体系**:基于MCP和A2A协议构建“通用Agent体系”,由主Agent理解需求与规划,多个具备反思能力的子Agent在各自领域独立决策执行,提升跨领域复杂任务效率与准确率 [49][50] - **生态整合**:阿里拥有国内最全面的生态体系,包括淘宝、闪购、支付宝、飞猪、高德等,覆盖购物、外卖、支付、地图、票务等高频场景,为AI提供了真实、可验证的行为数据与执行环境 [12][45][52][53] - **全链路闭环**:实现了从搜索、决策到支付、履约的全链路AI功能,用户无需在多个App间跳转,通过一句话指令即可完成点外卖、订机票等真实世界任务 [7][8][61] 行业意义与定位 - **全球领先**:相较于谷歌宣布的与沃尔玛等零售商的AI购物合作计划(尚未上线),阿里千问已率先实现大规模开放,成为全球首个具备此能力的科技公司 [6][7] - **交互范式跃迁**:代表从鼠标点击、触控操作到AI直接执行任务的第三次人机交互重要跃迁,AI开始接管零散重复的生活琐事与流程型工作 [60][62] - **从演示到落地**:将2007年乔布斯演示的“未来场景”(如定位并订购咖啡)变为现实,用户可通过一句话指令完成包含个性化需求的大规模真实订单(如500杯奶茶) [55][57][58] - **平台重塑**:当执行成为模型的内建能力,AI产品不再是简单的交互界面,而成为平台操作系统的一部分,将重塑交互方式、服务入口与平台形态 [62][63]
一年拿下三轮融资!影目INMO正在鼻梁上“复刻”一个AI手机
量子位· 2026-01-15 10:30
公司融资表现 - 公司在2025年7月至2026年初的一年内,以“按月计算”的节奏密集完成了三轮融资,总金额近5亿元[1][2][10] - 2025年7月完成1.5亿元B2轮融资,投资方包括普华资本、梁溪产发集团、神骐资本[8] - 2025年8月完成B3轮融资,投资方为洛阳文旅集团旗下的源铄基金[8] - 近期完成C1轮融资,投资方包括成都科创投、南山战新投、普丰资本[12] - 资本看好其轻量化一体式AR眼镜作为下一代AI的C端载体和入口,并认为其部分场景下有机会替代手机[12] 产品与技术核心 - 公司坚持“轻量化的一体式AI+AR眼镜”产品路径,致力于将AI能力原生集成到眼镜终端,使其成为独立的可穿戴移动终端[14][15] - 自研IMOS空间操作系统,结合阵列光波导等技术,解决了行业难题[15] - 最新产品INMO GO3是行业首个实现双向对话、实时翻译的智能眼镜,聚焦翻译、提词、会议助理等高频刚需场景[3][17] - 在显示技术上领先国际同行,INMO AIR系列实现双目全彩显示与轻量化量产,相比Meta最新的Ray-Ban Display在技术层面领先约两年[42] - 公司已成为智能眼镜赛道“轻量化一体式AI+AR智能眼镜”的品类开创者和连续5年的引路人,估值达20亿元[19] AI能力与模型合作 - 公司产品定位为“下一代AI手机”眼镜,核心围绕交互方式、模型底座及辅助AI能力展开[24] - 交互层面,自研IMOS 3.0空间操作系统,集成了AI语义交互、空间计算、多屏协同能力[25] - 模型底座与智谱GLM大模型深度合作,利用其出色的榜单表现和自主操作手机的能力[28][29] - 基于GLM大模型,INMO GO3推出“对话精灵”应用,能理解场景上下文并预判用户需求,实现从被动回应到主动服务的交互进化[31][32] - INMO AIR3围绕智谱AutoGLM优化端侧推理效率,实现语音控制滑动、返回、音乐调节等系统操作[33] - 集成多项高频生活场景AI能力,如通过语音指令定向发飞书消息、用美团点外卖、在淘宝购物[37] - INMO GO3首创领夹音箱INMO Speaker和AI拟声技术,可实时翻译并复制说话者的语气、语调、情绪[38] - INMO GO3的AI提词功能支持戒指手动翻页和AI语音跟随模式,能根据语速自动调整[39][40] 市场表现与生态建设 - 产品市场反响热烈:INMO GO3首发仅3天,全渠道预订量突破20000台,预定金额突破5000万元[3][51];INMO AIR3在去年618开售即售罄,并取得百万美金的海外众筹成绩[51] - 公司在一体式智能眼镜领域,连续5年位列创业公司全国销量第一[52] - 获得贾樟柯、吴晓波等公众人物背书,并荣登京东智能眼镜金榜榜首[4] - 在2026年CES大会上,INMO GO3完成海外首秀并斩获多项权威大奖,品牌荣获“Best of Application Innovation CES 2026”奖项[55] - 生态合作广泛,与中国移动、蚂蚁集团、腾讯应用宝、高德等建立合作关系[45] - 与腾讯应用宝合作,开放SDK共建开发者生态,并计划投入2000万基金孵化眼镜端AI应用,成为首个接入应用宝的智能眼镜品牌[46] - 渠道拓展至线下,计划联手LOHO、依视路陆逊梯卡、亚洲眼镜三大品牌,拓展线下门店体验服务[49][50] 全球化战略与行业地位 - 公司全球化布局同步展开,计划陆续推出INMO GO3全球版、INMO X全球版、INMO AIR3升级款全球版产品,覆盖不同价格段与使用场景[57] - 海外渠道采取线上+线下组合,线上深耕亚马逊和官方独立站,线下重点拓展北美、日本、欧洲等市场[57] - 公司通过原创技术定义品类形态,用市场数据验证产品价值,在技术与商业市场层面实现多重领先,巩固了其“品类开创者”的地位[59] - 行业数据显示,2025年第三季度全球智能眼镜出货量达429.6万台,但资本趋于谨慎,投资标准提高[7] - 公司在行业重心转向可用性与长期佩戴的背景下,其一体式、轻量化的产品路径价值显现,站在了更确定的位置上[60][61]
清华新研究,Nature+Science双杀!
量子位· 2026-01-15 09:23
研究背景与核心发现 - 清华大学李勇团队的研究通过分析全球2.5亿篇科学文献,揭示了AI for Science领域的一个核心矛盾:AI在助力科学家个体加速的同时,导致了科学界集体注意力的窄化和趋同优化,即“群体登山”现象[3] - 研究核心观点是,虽然AI帮助科学家发表了更多论文、更早成为项目负责人,但却使研究者集体涌入少量适合AI研究的“热门山峰”,从而削弱了科学探索的广度[4] - 这一矛盾被证实并非偶然,而是由当前科学智能AI模型缺乏通用性所导致的系统性影响[5] 研究动机与方法论 - 研究团队旨在探究一个明显矛盾:在AI持续赋能科研的背景下,为何各学科的整体科学进展未见明显加速[7] - 团队发表了题为《Artificial Intelligence Tools Expand Scientists' Impact but Contract Science's Focus》的论文,旨在评估AI工具对科学家和科学整体的影响[9][10] - 研究首项关键工作是识别“AI赋能的研究”,为此采用了“高质量专家标注 + 大规模语言模型推理”相结合的技术路径,使用BERT模型进行识别,其F1-score达到0.875[10][12][13] - 团队构建了一个基准数据集,涵盖1980-2025年间的4130万篇论文和2857万研究者,横跨机器学习、深度学习和生成式AI三个时代[14] 分析方法与指标 - 研究采用基于隐藏变量的科学学分析方法,深入到论文的“思想”和“内容”本身,以更精细地度量“知识广度”[17] - 方法将每篇论文的标题和摘要通过深度嵌入表征模型转换为一个768维的数学向量,作为论文在高维空间中的“坐标”[17][18] - 主要通过“直径”和“熵值”两个指标来测量知识广度:“直径”衡量探索的最远边界,“熵值”衡量坐标点在空间中分布的均匀度[19][21][23] - 使用这些指标分别测量使用AI与不使用AI的科学家群体的论文,以判断AI对科学认知边界的影响[24][25] 研究发现:个体加速与集体窄化 - 在微观个体层面,使用AI的科学家比不使用的科学家多发表3.02倍论文,获得4.84倍引用量,并且提早1.37年成为研究项目负责人(以末位作者为标志)[26][27] - 在集体层面,与AI结合的科研项目的知识广度下降了4.63%,不同领域科学家间的跨界互动减少了22%[29] - AI论文的引用呈现“星型结构”,几乎都集中在引用同一篇或少数几篇经典的、开创性的AI工作,表明研究趋向集中和单一化,缺乏创新活力[29] 矛盾根源与解决方案 - 研究指出,矛盾根源在于当前AI for Science模型缺乏通用性,产生了强大的“科学智能引力”效应,引导研究者集体涌向少量适合AI快速出成果的“热门山峰”[31] - 这种“群体登山”模式固化了科学探索路径,系统性地削弱了向“未知山峰”探索的广度,形成了“广度让位于速度”的现象[32][33] - 为突破局限,研究团队推出了全流程、跨学科的科研智能体系统——OmniScientist,旨在通过挖掘大模型智能体的通用推理能力,实现系统性科研支持,让AI从“辅助工具”进化为具备主动提出假说、自主设计实验等能力的“AI科学家”[36]
姚班传奇陈立杰入职OpenAI!16岁保送清华,30岁拿下UC伯克利助理教授
量子位· 2026-01-15 09:23
核心人事动态 - OpenAI已确认聘请清华大学姚班校友、加州大学伯克利分校EECS助理教授陈立杰加盟,负责数学推理方向 [1][2] - 陈立杰近期研究方向聚焦于扩散语言模型,紧跟生成模型的重要演进路线 [7] - OpenAI在去年9月发表的出圈论文《Why Language Models Hallucinate》中,引用了陈立杰参与的另一篇关于大模型幻觉的研究 [4] 个人背景与学术成就 - 陈立杰出生于1995年,16岁时获得全国信息学奥赛金牌并被保送清华大学,是清华大学“姚班”知名校友 [10] - 其竞赛生涯成绩斐然,曾多次在全国信息学联赛、冬令营及中国队选拔赛中获全场第一名 [12] - 本科期间即在AAAI、AAMAS、COLT、CCC等重要计算机会议上发表多篇论文,并开始系统性研究计算复杂性理论 [15] - 大三下学期赴MIT交流,师从著名学者Scott Aaronson研究量子复杂性,并解决了量子信息领域一个自2002年提出的开放性问题 [16][19] - 2017年,作为中国首位本科生在计算机科学基础年度研讨会发表论文,解决了计算复杂性领域的重要问题 [20] - 同年从清华姚班毕业,赴MIT攻读博士学位,师从Ryan Williams,研究方向集中于计算复杂性理论与细粒度复杂度理论 [21][22] - 博士期间多次在FOCS、STOC等顶级理论计算机会议发表论文,并获得2019年STOC和FOCS最佳学生论文奖等重要学术荣誉 [23][24] - 2022年从MIT获得博士学位,随后加入UC Berkeley Miller研究所担任米勒博士后研究员,该职位每年仅授予少数杰出青年学者 [23] - 2024年,其一篇关于《复杂性下界的逆向数学》的论文为困扰学界近50年的一类计算复杂性难题带来新思路 [23] - 2025年,正式加入加州大学伯克利分校EECS系担任助理教授,并成为伯克利理论计算机科学团队成员,主讲研究生课程《Computational Complexity Theory》 [10][26] 研究方向与兴趣 - 主要研究方向包括P与NP、电路复杂性、细粒度复杂性、去随机化、算法下界等理论计算机科学核心问题 [27] - 在去随机化与复杂性下界之间的联系、复杂性难度放大等方向做出了系统性贡献 [28] - 研究兴趣广泛,致力于将理论计算机科学的思想应用于量子物理和AI安全等其他科学领域 [9][29] - 其个人研究主页显示,他关注如何应用理论计算机科学的思想为AI系统建立安全保证 [9]
Meta元宇宙部门狂裁千人:一醒来就收到邮件,刚入职也未能幸免
量子位· 2026-01-14 19:19
元宇宙业务战略收缩与裁员 - 公司正在调整其元宇宙业务,对Reality Labs部门进行大规模裁员,涉及超过1000个工作岗位,约占该部门员工的10% [2][5] - 公司已确认削减对元宇宙的资源投入,此次裁员是具体实践,节省的资源将被重新分配到AI硬件和可穿戴设备等新兴领域 [3] - 公司正式关闭了三家重要的VR游戏工作室:Twisted Pixel、Sanzaru Games和Armature Studio,并暂停了VR健身应用Supernatural的新内容开发 [11][12] 业务模式与组织架构调整 - VR内容策略发生根本变化,投资重心将从重度自研全面转向生态合作,未来将依赖第三方开发者和合作伙伴来支撑平台内容,以降低成本和分散风险 [12] - VR硬件部门得以保留,但运营逻辑彻底改变,将改组为通过更精简、扁平的组织架构运行,不再追求激进的扩张性投入 [13][14] - 曾被视作元宇宙专属领地的Horizon软件团队和开发资源,将几乎完全转移至移动端,不再固守VR头显 [17] 战略调整的财务与市场动因 - 自2021年全力押注元宇宙以来,Reality Labs部门已累计亏损超过700亿美元,始终未能建立覆盖巨额研发成本的营收模型,财务压力是此次调整的首要根源 [18][19] - 行业预想的“技术军备竞赛”并未成型,主要竞争对手如微软和迪士尼已收缩或退出相关业务,导致公司陷入“独木难支”的境地,独自承担市场教育成本与技术探索风险 [22][23][24] - 生成式AI浪潮的爆发,促使公司将资源从回报遥遥无期的元宇宙,转向具备即时商业价值和技术爆发力的AI及移动端业务 [26] 资源重新分配与AI战略转向 - 裁员节省的资金将明确用于高增长领域,鉴于Ray-Ban Meta智能眼镜市场表现超出预期,公司计划激进扩大产能,目标是在2026年底前将年产能提升至2000万台以上 [15] - 公司战略核心从元宇宙优先转向全面押注AI,明确将AGI(通用人工智能)作为未来核心目标,并新成立了“Meta计算”部门以统筹基础设施建设 [29] - 生成式AI技术正被深度整合进核心应用,以提升广告系统效率,为算力设施和硬件长期投入提供现金流支持 [30] 硬件与交互逻辑的重新定义 - 硬件的定位发生根本变化,智能眼镜被重新定义为AI助手的“感官”,旨在利用现有轻量化设备快速占领用户面部关键位置 [32] - 交互方式正在更新,逐步放弃以手柄操作和虚拟空间漫游为主的逻辑,转而确立以“视觉识别加语音指令”为核心的新标准,目标是打造可全天候佩戴、通过自然语言调用的随身智能助理 [33][34] - 公司当前的重心是确保智能技术渗透进各个业务环节,让AI成为推动未来发展的核心动力 [36][37]
让AI当「动作导演」:腾讯混元动作大模型开源,听懂模糊指令,生成高质量3D角色动画
量子位· 2026-01-14 19:19
行业背景与痛点 - 3D角色动画创作领域长期面临高质量动作资产匮乏的制约,游戏、动漫、影视与数字人等产业面临高昂的成本困局,专业动捕采集起步价为数万元,动画师手工精修骨骼动画以“天”为单位 [1] - 生成式AI领域的文生动作(Text-to-Motion)因高质量数据稀缺与计算范式局限,长期处于“小模型”阶段,难以根据复杂的自然语言指令生成正确动作 [1] - 部分研究尝试通过大语言模型扩展词表进行动作生成,模型规模得以扩大,但由于采用离散的动作Tokenizer,生成的动作质量往往不理想 [1] 核心解决方案与发布 - 腾讯混元团队借鉴其在视频生成大模型上的成功经验,提出了一套全新的文生动作解决方案,旨在突破当前瓶颈 [2] - 该方案通过构建严格的数据处理与标注管线,覆盖大规模预训练、高质量精调、强化学习对齐的全阶段训练流程,并将Diffusion Transformer模型扩展至10亿级别参数量 [2] - 成功研发了混元Motion 1.0这一业界领先的动作生成基础模型,并于2025年12月30日对外开源 [2] - 核心思路是将动作生成任务从“手工作坊”式训练升级为“现代化工业”级别的大模型构建范式,在规模上实现里程碑式突破,并通过全链路算法创新确立新的技术范式 [2] 核心技术:数据引擎 - 构建了标准化的数据处理管线,沉淀出总计超过3000小时的动作数据,以支持10亿参数模型的性能 [4] - 整合了单目视频动捕、光学动捕及艺术家手K动画资产等多源数据,以平衡模型的泛化能力与生成质量 [6] - 通过自动化工具进行数据清洗与标准化,将所有异构数据统一重定向至一套标准骨骼,剔除异常片段,最终统一为30fps对齐的切片数据 [6] - 采用“渲染→VLM初标→人工校验→LLM结构化扩写”的标注闭环流程,利用视频多模态模型捕获语义,结合人工修正,最后通过LLM进行描述多样性扩充 [6] - 数据覆盖基础移动、日常生活、社交休闲、健身户外、体育竞技、游戏角色动作6大领域,超过200个细分动作类别 [6] 核心技术:生成管线 - 设计专门的LLM Prompt Engineering模块,用于用户Prompt改写及动作时长估计,充当“动作导演”角色 [7] - 构建了包含{用户指令,优化指令,动作时长}的三元组数据集,利用Gemini-2.5-Pro模拟海量真实、模糊的用户Prompt,并与高质量描述及真实时长进行精准对齐 [7] - 采用两阶段微调:SFT阶段基于Qwen3-30B-A3B进行微调,使模型具备将多语言模糊指令转化为“结构化英文描述+精确时长”的能力;GRPO强化学习阶段引入Qwen3-235B作为奖励模型,从“语义一致性”与“时序合理性”维度进行打分优化 [7] - Prompt Engineering模块最终将用户的中文或模糊指令转化为“英文动作描述+精确时长”,显著提升生成的可控性 [8] 核心技术:模型设计 - 核心生成架构采用Diffusion Transformer结合Flow Matching [10] - 模型结构采用“双流→单流”的混合架构,在双流阶段动作Latent和文本Token独立处理并通过self-attention交互,在单流阶段两者拼接为统一序列进行深度多模态融合 [12] - 针对长序列生成中的逻辑崩坏与动力学断裂,通过“语义防污染”与“局部约束”双管齐下,确保动作演进既符合指令逻辑又满足物理连续性 [12] 核心技术:全流程训练 - 将LLM领域的RLHF范式完整迁移到动作生成中,完整跑通“Pre-train->SFT->RLHF”三阶段训练 [13] - 大规模预训练阶段:在3000小时全量数据上进行,让模型学会各种动作的基本范式 [15] - 精细化微调阶段:筛选400小时的精标高质量数据进行微调,显著减少动作抖动和滑步,提升画质 [15] - 强化学习阶段:采用“DPO + Flow-GRPO”策略,并引入非对称掩码机制与窗口注意力机制 [15] - DPO阶段基于超过9千对偏好数据,通过最大化优胜样本似然差,解决“动作像不像”的审美对齐问题,大幅提升生成Pass Rate [16] - GRPO阶段引入包含语义一致性与物理约束的奖励函数,强化动作的物理真实感 [16] 模型性能表现 - 得益于参数规模及数据质量提升,HY-Motion 1.0在SSAE(语义结构自动评测)指标上达到78.6%,指令遵循能力远超SOTA模型 [17] - 在人工5档打分中,HY-Motion 1.0在多个类别及平均分上均领先于MoMask、GoToZero、DART、LoM等对比模型,平均分达到3.43 [18] - 模型在复杂时序逻辑(如“行走中突然停下惊恐环顾”、“跑酷跳跃后翻滚”)、动作覆盖度(如“跳舞扭胯”、“张弓搭箭”)及细粒度控制(如“顺时针绕圈行走”、“举右手挥手同时左手插口袋”)等维度上均有实测表现展示 [19][21][22][23][24][25] 社区反响与应用 - 自开源发布以来,HY-Motion 1.0在各平台热度持续上升 [26] - 游戏开发者、AI设计师、动画师、影视/广告创意导演等相关从业者纷纷投入使用并分享实测效果 [27] - 游戏开发者将其集成至ComfyUI等主流AI工作流中,实现3D动作资产的“即插即用”;社区涌现一系列自动化重定向脚本与工具,支持将生成动作一键映射至用户自定义角色 [27][29][31] - 有开发者尝试将模型输出作为视频生成模型的控制信号,使生成的动作更可控和可编辑 [31][33] 行业影响与展望 - HY-Motion 1.0的研发模式依托腾讯在游戏、数字内容等领域深厚的业务场景,真实且高标准的落地需求驱动模型在视觉美感与工业精度上不断对齐 [33] - 对社区及个人创作者而言,该模型使其在缺乏高昂动捕设备的情况下,依然能产出高质量动作资产,为产业上下游提供了更具性价比的AI解决方案 [33] - 当前的3D动作生成模型仍面临滑步处理、极端物理交互等行业性难题 [34] - 腾讯选择将核心能力开源,旨在通过技术普惠激发社区共建力量,在真实产业应用中迭代,共同推动3D角色动画制作从“手工精修”向“智能生成”的范式转型 [34]
「AI 100」榜单启动招募,AI产品“年会”不能停丨量子位智库
量子位· 2026-01-14 16:10
2025年中国AI产品市场发展态势 - 2025年国内AI产品领域涌现多个关键趋势,包括深度思考、Agentic AI、多智能体协作、多模态生成和端侧AI [4] - 多个颠覆性产品引领各技术方向:DeepSeek凭借强推理和透明化思考引领智能助手迭代;Manus实现从“思考→规划→执行→交付”的全链路自主任务处理,成为“真正意义上的通用AI Agent”;Lovart等产品通过多智能体协作实现高效任务处理;即梦AI等在多模态生成上取得进步;豆包AI手机将系统级AI智能体深度集成于操作系统,重构人机交互范式 [4] 量子位智库「AI 100」榜单概况 - 榜单旨在对过去一年中国AI产品发展进行全景式检阅,并深度洞察未来AI产业格局,目标是找到代表中国AI实力的巅峰力量 [4] - 榜单共分为三大板块:代表最强综合实力的「旗舰AI 100」、最具未来潜力的「创新AI 100」和十大热门赛道的代表产品 [6] - 「旗舰AI 100」聚焦2025全年表现,评选综合能力最强的100款AI产品,这些产品在技术上实现突破并在实际应用场景中展现巨大价值 [7] - 「创新AI 100」旨在挖掘在2025年崭露头角、具备2026年爆发潜力的创新产品,这些产品代表了AI技术的前沿方向 [8] - 十大细分赛道TOP3评选针对热度最高的10个领域,依次为:AI浏览器、AI Agent、AI智能助手、AI工作台、AI创作、AI教育、AI医疗、AI娱乐、Vibe Coding和AI消费级硬件 [9] 榜单评估体系与内容 - 「AI 100」是量子位智库推出的AI产品风向标系列内容,旨在全维度提供AI技术驱动下产品长期创新和变革的第三方参考,主要由「旗舰 AI 100」和「创新AI 100」构成,按季度发布 [12] - 榜单采用定量与定性相结合的双重评估体系以确保客观性和准确性 [13] - 定量评估以真实用户数据为基础,涵盖用户规模、用户增长、用户活跃、用户粘性四大核心维度,包含下载总量、新增下载、活跃用户数、留存率等超过20个具体指标;硬件产品则考察出货量 [13] - 定性评估聚焦长期发展潜力,通过专家评估和用户调研,综合考量产品的底层技术、市场空间、功能设计、变现潜力、团队背景、增长速度等多重因素;硬件产品考察具体功能设计和实际使用体验 [13] - 除榜单外,周边内容还包括数据解读文章、分赛道产品解析、1v1 AI产品深度访谈等 [14] 相关信息与参与方式 - 量子位智库已对外公开自研梳理的国内AI产品知识库,提供对国内AI应用生态全景式、结构化、实时更新的梳理 [15] - 榜单申报时间为即日起至2026年1月15日,榜单将于2026年1月中下旬发布 [10]
量子位编辑作者招聘
量子位· 2026-01-14 16:10
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并可实习转正[4][6] - 所有岗位工作地点均位于北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,涵盖芯片、AI Infra、云计算领域及核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会报告进行大众化解读[6] - 参与核心采访,对话产业专家并撰写AI云落地案例[7] - 任职要求包括对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需访谈对话投资人、创业者及产业分析人士[11] - 任职要求包括对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 需撰写AI应用产品深度评测,并跟踪多终端新品发布[11] - 需对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求包括对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态和体验方法论,并有强逻辑与结构化表达能力[11] 岗位通用职责与任职要求 - 主编岗位需具备选题和带队能力及经验[6] - 主笔岗位需具备原创深度稿件能力[6] - 编辑岗位需热爱表达,喜欢挖掘信息,能够用通俗语言解读AI进展[6] 加入公司的潜在收获 - 可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 可将各种AI新工具应用于工作,提升效率和创造力[6] - 可通过撰写原创内容建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 可加入扁平、简单、开放、多劳多得的活力团队[6] - 可获得行业TOP薪资待遇及包含五险一金、餐补、绩效等在内的丰厚福利[6]
不得了,这个新技术把视频压缩到了0.02%!
量子位· 2026-01-14 16:10
文章核心观点 - 中国电信人工智能研究院(TeleAI)研发的生成式视频压缩技术实现了革命性的视频数据压缩,将1GB的原生视频压缩至仅需传输200KB数据,压缩率达到0.02%,在极低带宽下仍能保持高清、连贯的视频质量,标志着视频通信从“像素搬运”迈向“语义生成”的新范式 [1][5][51][52] 技术原理与创新 - **核心逻辑转变**:与传统视频编码(如HEVC/H.265)传输像素信息不同,GVC技术传输的是“如何画出画面”的指令,即“用计算换带宽”,将传输压力转移至接收端的推理计算 [14][18][19] - **传输内容**:传输的数据是极小的“压缩Token”,包含**语义信息**(场景、物体结构)和**运动信息**(物体动态),大小可压缩至0.005-0.008 bpp,相比传统高清视频的0.1 bpp以上,数据量降低两个数量级 [22][23][24][25] - **接收端重建**:接收端利用**扩散模型**,结合接收到的Token指令和预训练的世界知识,“脑补”并生成视频 [26] 性能表现与优势 - **画质优势**:在极低码率(约0.005 bpp)下,GVC的LPIPS画质评价指标显著优于传统HEVC,后者画面已严重失真;传统方法需消耗**6倍以上带宽**才能达到与GVC同等的视觉画质 [34][35] - **语义准确性**:在DAVIS2017视频分割任务测试中,在bpp=0.01的极限压缩下,GVC重建视频的J&F指标达**75.22%**,远高于HEVC的**57.68%**,证明其生成视频的关键物体位置和轮廓精准,不影响后续AI分析 [36][37] - **计算可行性**:经过优化,GVC模型在消费级GPU(如RTX 4090)上生成29帧画面仅需**0.95秒到1.35秒**,虽非毫秒级,但在准实时场景下已完全可用 [40][41] 应用场景与意义 - **极端环境通信**:技术旨在解决远洋货轮、应急灾区等带宽极端受限环境的视频传输问题,例如通过窄带卫星网络观看高清直播 [2][3][7] - **广泛行业应用**:潜在应用场景包括**远洋海事通信**(娱乐、远程医疗指导)、**应急救援**(无人机回传现场画面)、**深空探测**与**自动驾驶汽车**路测数据传输,能极大降低存储与传输成本 [53] - **理论体系支撑**:GVC技术基于中国电信提出的“智传网(AI Flow)”理论体系,该体系包含信容律、同源律、集成律三大定律,标志着通信本质从数据传输转向智能分发与协同 [44][48][49]