Workflow
量子位
icon
搜索文档
量子位编辑作者招聘
量子位· 2025-12-11 14:54
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号平台拥有超过240万订阅用户,全网用户超过700万,日均阅读量超过200万[12] - 公司在第三方数据平台(如新榜、清博)被评为AI及前沿科技行业的TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并可接受实习转正[4][6] - 所有岗位工作地点均在北京中关村[2] 岗位职责详情 - **AI产业方向**:关注基建层创新,包括芯片、AI Infra、云计算领域的新进展与核心玩家动态[5][6];负责前沿论文、开源社区及技术大会(如Hot Chips, NeurIPS, MLSys)报告的大众化解读[6];参与核心采访,对话产业专家、技术大牛,撰写AI云落地案例[7] - **AI财经商业方向**:聚焦AI领域的创投、创业公司、上市公司、商业模式及产业链资本动向[6][11];产出创投融资、招股书财报解析、公司战略分析等稿件[11];访谈对话投资人、创业者及产业分析人士[11] - **AI产品方向**:关注AI在软件应用和硬件终端的落地进展[6];撰写AI应用产品深度评测,跟踪多终端新品发布(如手机、PC、XR、车机)[11];对话访谈AI应用创业者、产品专家及终端技术专家[11] 任职要求 - **AI产业方向**:要求对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11];熟悉AI行业供应链与生态(如训练-推理、算力-成本、云-芯片关系)[11];具备将复杂技术内容结构化表达的能力,有技术背景或理工科/CS/EE方向优先[11] - **AI财经商业方向**:要求对数据敏感,对财报、股权结构、战略规划感兴趣[11];逻辑结构强,对商业叙事敏感[11];热爱对话采访,具备社交型人格[11] - **AI产品方向**:要求对智能硬件和AI终端趋势敏锐,是重度AI产品体验人士[11];熟悉各大终端厂商业态及体验方法论[11];具备强逻辑、体验表达和结构化能力[11] 员工福利与发展机会 - 员工可以站在AI浪潮之巅,第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工能够玩转AI新工具,将各种AI新技术、新工具应用于工作以提升效率和创造力[6] - 员工有机会打造个人影响力,通过撰写独家原创内容建立个人知名度,成为AI领域的意见领袖[6] - 员工可以拓展行业人脉,与AI领域大咖零距离接触,参与重要科技活动和发布会[6] - 应届新人将获得由主编级编辑提供的一对一专业指导[6] - 公司提供行业TOP薪资待遇,福利包括五险一金、餐补、项目绩效、商务绩效、加班补助等[6] - 公司团队氛围扁平、简单、开放,强调多劳多得和能者上位[6]
英伟达GPU被SpaceX送上太空!在天上训练卡帕西的NanoGPT
量子位· 2025-12-11 14:54
核心观点 - 人类首次在太空轨道上成功训练并运行了AI大模型 这标志着太空计算与AI融合的重大技术突破 其核心驱动力在于突破地球能源与基础设施的瓶颈 为AI算力发展开辟新路径 [2][7][13] 太空AI首秀事件 - 事件由初创公司Starcloud主导 通过SpaceX火箭将搭载英伟达H100芯片的Starcloud-1卫星发射升空 [6] - 在轨卫星上成功运行了谷歌的开源大模型Gemma 并获得了其回应 [4][9] - 首次在太空中直接训练了大语言模型 即前OpenAI联合创始人Andrej Karpathy打造的NanoGPT 训练数据使用了莎士比亚全集 [4][9] 太空计算的发展目标与规划 - Starcloud公司的长期目标是建造基于太阳能面板的轨道数据中心 规划算力达5GW 并预期其造价与运营成本将显著低于地球数据中心 [10] - 公司计划在2026年10月的下一次发射中携带更多英伟达H100芯片 并将Blackwell平台送入太空 [11] - 公司CEO指出 转向太空发展的核心原因是地面面临的能源限制 太空在土地、制冷方面约束更少 且有持续充足的太阳能供给 [12][13] 行业参与与竞争格局 - 谷歌CEO表示计划将TPU发射至太空 最早的两颗卫星预计2027年初启程 [15] - 中国科研机构与企业在该领域早有布局 自2019年起便开始探索太空智能计算 [16][17] - 2024年 中科天算团队完成大模型在轨部署 国星宇航联合之江实验室成功发射全球首个太空计算星座“三体计算星座”首批12颗卫星 并于9月实现常态化商业运行 [18] - 2024年11月 中科天算发布“天算计划” 提出在近地轨道建设算力达10 EOPS的万卡超级智能体集群 [19]
纯文本驱动视频编辑,清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象
量子位· 2025-12-11 14:54
LoVoRA团队 投稿 量子位 | 公众号 QbitAI 近年来,基于扩散的视频生成模型的最新进展极大地提高了视频编辑的真实感和可控性。然而,文字驱动的视频对象移除添加依然面临巨大挑 战: 不仅需要精准定位目标对象,还要同时保持背景连续性、时序一致性以及语义匹配。 现有大多数方法在推理时必须依赖用户提供的掩码或参考帧来确定编辑区域,这不仅增加了使用门槛,也限制了模型在真实场景中的实用性和 泛化能力。 为了解决上述难题,清华&华为&中科大团队提出 LoVoRA (Learnable Object-aware Localization for Video Object Removal and Addition)——一个真正意义上文本驱动、无需掩码和参考帧的视频对象移除与添加框架。 LoVoRA 能够仅凭文本提示精准定位编辑区域,并进行时序一致、背景自然的视频编辑,无需任何人工掩码或外部控制信号。大量实验和用 户评测表明,LoVoRA 在编辑质量、背景一致性、时序稳定性等指标上均优于现有基线方法。 数据集构建 现有的基于指令的视频编辑数据集,例如InsViE, Ditto, Senoritia, ICVE-SFT等 ...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这
量子位· 2025-12-11 14:54
大会概况与行业共识 - 量子位主办的MEET2026智能未来大会吸引了近30位产业代表、近1500名线下观众及超过350万线上观众,反映了行业对AI未来的高度关注 [8] - 2025年AI领域呈现发展、分裂与重构的态势,迫使所有参与者明确未来方向 [4] - 行业共识认为,AI正处在下一段增长曲线的起点,从云到端、从模型到智能体(Agent)、从软到硬均存在重要机会 [5] 人工智能发展趋势与范式演进 - AI正从鉴别式走向生成式与推理式,并在高效率、低成本和开源生态中加速落地 [10] - 新一轮人工智能是信息智能、物理智能和生物智能的融合,本质上是原子、分子和比特的融合 [10] - AI行业演进被划分为四个阶段:感知AI、生成式AI、智能体AI(可自主行动)和物理AI(能理解并响应真实物理世界) [19] - 2025年被认为是“Agent元年”,智能体技术开始在各行各业验证价值 [81] - 人工智能的演进过程与生物进化相似,呈现“长期停滞+突然跃迁”的特点,开源对加速进化至关重要 [49] 大模型与AGI路径 - 未来5到10年,基础大模型将在全球范围内收敛到不超过10个,类似于操作系统 [10] - 大模型推动AI从弱人工智能迈向通用人工智能(AGI),并推动机器人进入通用具身智能时代 [16] - 通往AGI的必经之路是“智能体互联网”时代,智能体将取代大部分SaaS和App,成为默认交互形态 [10] - Scaling Law能走多远存在不确定性,但国内仍需有顶级团队探索其极限,一旦出现新的涌现现象可能打破发展饱和 [79] - 扩散语言模型架构(如LLaDA)提供了自回归模型之外的另一种路径,在相同计算量和性能目标下可能所需参数更小,并具备直接修改token等优势 [25] 智能体(Agent)的发展与应用 - 智能体的本质是可验证过程的自动化,擅长数学、代码和结构化决策,现已发展到拐点 [55] - 一个成功的智能体构建需要三个核心模块:提供决策的底层模型“大脑”、中间代码、以及作为“手和脚”的工具(tools) [22] - 认知偏差、落地断层、体验割裂是当前用户使用AI产品的三大痛点 [13] - 百度推出的超级智能体框架调度中枢GenFlow月活用户达千万级,自称是全球最大的通用智能体 [13] - 智能体将重写公司组织,重复操作的岗位将消失,取而代之的是过程架构师 [55] - 企业级智能体落地的关键在于三个平台:作为认知中枢的大模型平台、提供感知的AI能力平台、沉淀企业记忆的AI数据平台 [28] - 企业服务落地最容易的三个方向是:工程流程自动化、行业研究报告、智能化办公助手 [37] - 衡量“好用”智能体的核心标准包括:能交付相对完整的结果、具备可进化性、采用AI原生方式开发、以及具备可控性和可解释性 [92] - 当前多数智能体存在负毛利问题,完成任务的成本高于用户支付意愿,这是创业者和基础设施提供商的巨大挑战 [92] 多模态与具身智能 - 2025年往后,第三代Scaling范式的关键在多模态 [16] - 智源研究院的悟界·Emu3.5通过统一的自回归架构,将Next-Token Prediction升级为在多模态数据上的Next-State Prediction,标志着AI从语言学习迈入多模态世界学习 [16] - 具身智能应被视为独立或平行于虚拟世界语言模型、专门面向物理世界的基础模型 [67] - 当前具身大模型面临不好用、不通用、不易用的挑战,尚未达到“ChatGPT时刻” [16] - 视频是能够大规模获得的、模拟真实世界的高效载体,包含时间、空间、物理、因果关系等多种要素 [16] - 在物理场景应用中,需要解决“大脑”(大语言模型)与“小脑”(端侧快速执行模型)的双脑架构集成问题 [92] 从云端到边缘的AI部署 - 终端侧运行大模型的最大好处之一是个性化 [19] - 端侧模型能力快速提升:两年前只能运行1-2K上下文,去年达4K,今年已支持8K-16K,特殊场景下甚至可实现最长128K的端侧部署 [19] - 终端侧正从单一文字模态向支持文本、图片、视频、音频、语音等多模态甚至全模态方向演进 [19] - 端侧运行大语言模型面临内存、带宽和功耗控制等挑战,需通过量化与压缩、并行解码技术、先进NPU与异构计算架构来解决 [19] - 端侧模型的关键在于自主学习和记忆,而Transformer架构模型无法在端侧实现这一点,突破Transformer和反向传播算法是AI发展到下一台阶必须跨越的两座大山 [61] 算力、芯片与基础设施 - 商汤的算力总规模达32000P,其智算中心通过算电协同等技术,已实现年化降低7%电费,年度碳减排超3000吨,综合算效提升15% [46] - 国产芯片替代是渐进过程,大规模训练场景的替代是难点 [64] - 当前重要发展方向是混合专家模型(MoE),它能扩大参数规模而不增加激活参数,但会给系统带来通信占比提升等新挑战 [64] - 单颗芯片性能已成为AI算法发展瓶颈,需要如TC link这样的高速互联技术实现128卡间扩展,为AI算法增长提供硬件基础 [58] - Agent Infra(智能体基础设施)本质上是AI时代的操作系统,管理模型能力、工具调用与任务执行等“智能资源” [52] 行业落地与商业化 - 2025年行业更关心如何做行业落地、场景赋能和商业化变现 [37] - 大模型在千行百业中落地才能产生最大价值,其在很多场景的价值尚未真正发挥 [43] - 三类企业需要行业或私有模型:传统大型企业、有海量数据的中小型企业、颠覆行业的新兴公司 [43] - 用大模型做To B业务,最关键的是后训练或Agent化,仅调用API无法形成差异化 [43] - AI在工业制造落地是一个组合拳,需大模型融合视觉和时序模型来处理生产数据,作为大脑进行分析决策和工艺调优 [37] - 昆仑万维的Skywork Super Agents产品中,PPT模式可在五分钟内生成30页PPT,该模式被40%的日活跃用户使用 [55] - 百度文库的AI学习平台OREATE AI新版本上线一个月月活突破140万,曾登顶ProductHunt全球日榜第一 [13] - 光轮智能通过全栈自研的“测量-建模-求解”三位一体仿真解决方案,缩小仿真与现实的差距(sim2real gap),以加速世界模型与物理AI落地 [70] 自动驾驶与机器人 - L2+/L2++与纯无人的L4难度差距巨大,真正的L4公司需要至少有二、三十辆车的纯无人车队运营半年以上 [40] - 预测称,如果特斯拉不装激光雷达,三年之内其在旧金山无法达到Waymo的自动驾驶水平 [40] - 随着大模型发展,若算力等条件满足,预测8年后可能出现开车能力超越99.99%人类司机的自动驾驶“AlphaGo时刻” [40] - 未来几年内,人形机器人进入通用开放环境自主进行复杂工作几乎不可能,应立足于在特定真实场景实现“星火燎原”式的落地 [79] - 灵巧手是具身智能的核心零部件,中国在机器人与灵巧手领域优势明显,甚至是遥遥领先 [76] 数据、仿真与开源生态 - 智源研究院过去两年多开源了2200多个模型,下载量突破6.9亿次;开源近百个数据集,下载量超120万次 [16] - 扩散架构模型LLaDA相比自回归模型更为data-hungry,对数据需求更大、吸收数据更快 [25] - 模型定制化面临挑战,Amazon SageMaker AI提供的Nova Forge能力允许在基础模型训练阶段就引入自有数据进行定制,效果优于训练后再微调 [22] - 国内发展人工智能产业离不开开源生态,行业需要企业共同组建开源平台 [58] 经济影响与组织变革 - 据估算,AI在今后的十年里每年可提升全球经济增长0.5到0.7个百分点 [34] - AI改变了稀缺的概念,并可能引发人机竞争及算法间的竞争 [34] - 未来不应寻找不会被AI替代的“安全”行业,而应思考如何与AI共生 [34] - 年轻人是AI生产力释放的主力军,经验丰富的从业者需为企业创造释放AI潜力的生产关系 [73] - 给AI创业者的建议包括:在增量中找市场、在专业里找空间、在业务中找场景、在结果中找收益 [73]
仿真数据也能Scaling!虚实结合训练,端到端性能全面提升|中科院x港大x小米汽车
量子位· 2025-12-11 09:33
文章核心观点 - 由香港大学OpenDriveLab、中科院自动化所、小米汽车联合团队提出的SimScale方案,通过真实世界仿真生成关键场景与协同训练策略,为解决自动驾驶数据瓶颈提供了新路径[1][2] - 该方案的核心在于揭示了自动驾驶仿真数据的规模效应,证明无需增加真实数据,仅通过扩大仿真数量即可持续提升各类端到端驾驶模型的性能上限[3][39][40] 自动驾驶数据瓶颈与SimScale的提出 - 当前自动驾驶面临数据瓶颈,现实世界难以提供足够的关键与长尾场景,采集的数据多为价值有限的常态片段,导致数据越多、性能提升越难[5] - 行业瓶颈不在于数据规模,而在于缺乏能系统生成关键场景并支撑大规模训练的新方法[6] - SimScale应运而生,旨在通过“无限扩张世界”的仿真生成框架和虚实协同训练策略,突破上述瓶颈[7] SimScale系统架构与核心功能 - SimScale是一个可扩展的仿真生成框架,通过高保真神经渲染自动制造多样化的反应式交通场景与伪专家示范[8] - 它也是一套让仿真与真实数据“相互增益”的训练策略,能全面提升端到端模型的鲁棒性与泛化性[9] - 该系统首次系统揭示了自动驾驶仿真数据的规模效益,并提供了实践手册[10] 可扩展仿真生成框架的技术细节 - 框架采用“干扰-规划”策略实现规模化数据生成,需要同时包含合成图像和专家示范轨迹以有效训练模型[12] - 高保真神经渲染引擎基于3D高斯泼溅重建真实场景资产,能渲染多视角RGB视频,并分别建模背景与动态车辆以保留真实细节[14][15] - 通过轨迹扰动与状态探索,在真实轨迹上施加合理扰动,生成现实中难以遇见的关键场景(如偏离车道、逼近障碍物),系统性扩展策略的可见状态空间[17] - 设计了两类互补的伪专家策略为模型提供监督:基于恢复的策略(偏保守,提供安全底线示范)和基于规划的策略(更灵活,探索性强)[20][21] - 引入了反馈式多样场景模拟,使周围交通参与者具备反应能力,从而生成更接近真实驾驶的可扩展场景分布[23][24] 虚实互补的协同训练策略 - SimScale提供了一套仿真-真实数据协同训练策略,使模型既能保留真实驾驶分布,又能避免仿真瑕疵导致的性能下降[25] - 该策略可适用于各类端到端规划模型,包括回归型、扩散型及轨迹评分型规划器[26] - 对于依赖专家示范的规划器,仿真伪专家轨迹可提供可靠监督;对于奖励驱动的规划器,仿真数据可直接用于优化策略,实现利用效率最大化[26] - 实际应用中,仿真专门生成四类易触发模型失效的关键场景:偏离车道、近距离失碰、车道脱出与加塞切入,以帮助模型学习纠偏与避险能力[26] 模型性能提升的实验验证 - 在评估模型在未见极端场景下应对能力的navhard基准测试中,所有类型端到端规划器的性能均有大幅增强,最多可提升6.8 EPDMS,其中基础性能较弱的规划器性能提升超过20%[29][30] - 在评估模型在多样化挑战性场景下可靠性的navtest基准测试中,所有类型规划器的性能也有明显增强,最多可提升2.9 EPDMS[30][31] - 通过对轨迹评分规划器进行多专家集成,SimScale在NAVSIMv2官方排行榜上取得了第一名的成绩[31][33] 仿真数据的规模效应核心发现 - SimScale首次系统揭示了仿真数据对端到端规划模型性能的规模效应,通过建模总数据量与模型表现的关系,展示了在真实数据固定时,增加仿真数据能持续提升模型表现[34] - 核心发现一:探索型伪专家(规划型)比恢复型伪专家更为高效,因其能探索更广状态空间,生成更多可行解,从而充分发挥仿真数据价值[36] - 核心发现二:多模态建模(如扩散型模型)能更好地捕捉行为多样性,随仿真数据增加表现持续提升,激发了数据扩展能力[36] - 核心发现三:对于评分型规划器,仅使用奖励信号即可在仿真中取得优异表现,无需伪专家轨迹,说明奖励引导能充分发挥仿真数据价值[36] - 进一步实验表明,无论真实数据规模大小,仿真数据带来的性能提升始终显著且稳定,没有出现“收益饱和”现象,表明SimScale能在不同数据规模下持续放大系统性能[38][39]
Meta公开抄阿里Qwen作业,还闭源了...
量子位· 2025-12-11 09:33
文章核心观点 - Meta公司计划于明年春季发布一款代号为“Avocado(牛油果)”的闭源AI模型,标志着其从长期坚持的开源战略向闭源模式进行重大转变 [1][2][3][10][11] - 这款闭源模型在训练过程中使用了包括阿里巴巴Qwen在内的第三方开源模型进行优化,此消息刺激阿里巴巴美股盘前一度上涨4%,收盘涨幅2.53% [4][5][6] - Meta的战略转向源于其开源路线的挫折(如Llama 4的失败)以及内部权力结构的重组,以新任首席AI官亚历山大王为代表的闭源拥护者掌握了AI话语权 [11][22][31] Meta的战略转向与“牛油果”模型 - Meta预计在明年春季发布代号为“牛油果”的新AI模型,该模型将是闭源的 [2][10] - 此举意味着Meta进行了一百八十度的战略转向,放弃了其长期以“开源”为核心叙事、并自比“AI时代的安卓系统”的发展路线 [11][12][14] - 新模型在训练过程中使用了多款第三方模型进行优化,其中包括阿里巴巴的Qwen、谷歌的Gemma以及OpenAI的gpt-oss [13][16] - 计划走向闭源的Meta,通过使用开源模型来训练自己的闭源模型,这一做法被解读为印证了当前开源阵营的崛起 [13] 市场反应与行业影响 - 彭博社关于Meta使用阿里巴巴AI训练闭源模型的消息引发市场强烈反应,阿里巴巴美股盘前一度上涨4%,收盘涨幅2.53% [6] - 市场观点认为,此事件凸显了阿里巴巴等公司在开源AI领域的领先地位和影响力 [9][15] Meta内部重组与权力更迭 - 2025年4月,Llama 4的发布未能达到预期,且陷入榜单排名“作弊嫌疑”的争议,成为一次重大挫折 [22] - Llama 4失败后,Meta公司高层开始下达“少谈开源,少提Llama”的指令,并逐步边缘化相关团队成员 [22][28] - 公司进行了大规模重组和裁员,FAIR实验室整组被裁,包括研究科学家总监田渊栋在内的开源路线支持者离职 [28] - AI领域的知名人物LeCun于11月离职,原因之一是Meta不再为其提供足够资源,离职前内部甚至要求员工“雪藏”他及其开源理念 [29][30] - 随着田渊栋、LeCun等人的离开,新任首席AI官亚历山大王彻底掌控了Meta的AI话语权,他是闭源模型的坚定拥护者 [21][31] - 亚历山大王通过一笔高达143亿美元的交易从Scale AI加入Meta [23] - 扎克伯格如今将自己定位为“王的导师”,并将公司最重要、最烧钱的产品项目之一亲自交到亚历山大王手上 [32] “梦之队”的组建与TBD实验室 - Llama 4失败后,扎克伯格亲自挂帅开启“梦之队”招聘计划,为顶尖AI人才提供高额薪酬,年薪一度飙到数亿美元 [23] - 扎克伯格求贤若渴,甚至亲自带着自己煮的南瓜汤上门游说OpenAI的核心研究员 [25] - 这批招募来的明星研究员组成了Meta的“超级智能实验室”旗下的TBD Lab,该实验室是此次战略转折的重要操盘手 [20][26] - 扎克伯格对TBD Lab极为看重,投入大量时间,并将该团队成员安排在自己办公桌附近以便随时了解进展 [27][33]
乐奇Rokid这一年,一路狂飙不回头
量子位· 2025-12-10 20:02
行业趋势与市场表现 - 2025年中国智能眼镜出货量预计同比暴涨107%,达到275万台[1] - 智能眼镜正从极客玩具变成真正的抢手生意,行业进入“百镜混战”[1] - 行业重心从追求花哨能力转向聚焦“好眼镜、好耳机、好相机、好助手”等具体现实的概念[5] - 乐奇Rokid的路径和节奏被越来越多厂商不自觉地对齐,改变了赛道的节奏和坐标系[3] 乐奇Rokid的2025年关键事件与市场热度 - 2025年1月,公司在CES上凭借Rokid Glasses实现现象级刷屏[6] - 2025年2月,创始人一句“发言稿就在我的眼镜里”让公司火爆出圈[1] - 2025年7月,在WAIC 2025展馆火爆,现场试戴游客密度堪比热门展品首发日[7] - 公司产品频繁出现在央视访谈、公益活动、广交会、大阪世博会等各类公开场景[7] 产品理念与核心功能演进 - 公司核心是思考如何把一副眼镜变成“好”的智能眼镜[10] - 通过迭代将拍照、翻译、提词、导航、支付等功能浓缩进轻巧的眼镜中[10] - 产品进化基于用户真实场景中的小需求,例如提词、AI指令、拍摄、翻译、导航等能力的持续更新[16] - 公司证明了智能眼镜往“好戴、能用”的路径是可行的,启发了行业[11] 硬件创新与设计 - 在行业中首创AI眼镜磁吸式充电+充电胶囊设计,提升了充电续航体验,并改写了交互习惯[12] - 采用磁吸夹片方式解决近视用户配镜问题,支持用户在线下配镜店定制镜片,并可重复配镜[25] - 通过软件“反推法”优化漏光问题,将漏光角度调整到上方,以解决用户平视和俯视时的漏光困扰,且不牺牲亮度[21] 软件功能与用户体验优化 - 提词功能升级为可随时切换的双模式:常规匀速滚动与轻碰镜腿暂停的自由模式[17] - 升级双指AI快捷指令,用户可预设命令,通过双指按压镜腿直接触发AI任务,无需反复语音唤起[22] - 优化支付体验,将触发方式改为双指轻碰镜腿后说“支付”二字,使流程更隐蔽,避免社交尴尬[23] - 为视障群体推出“慧眼”能力,提升语音提示语速和环境识别细度,辅助出行[27] - 上线粤语唤醒功能,服务全球近1亿粤语使用者的需求[29] 销售业绩与市场影响力 - Rokid Glasses首发5天全渠道售出4万台[1][14] - 双十一期间,产品拿下同比800%的增长,冲到智能眼镜品类销量TOP1[14] - 在Kickstarter上以401万美元的众筹成绩,创下中国AR眼镜的海外众筹历史纪录[1][14] - 在中国台湾省众筹平台打破纪录,成为近三年来的众筹第一[14] 生态合作与行业影响 - 与支付宝、高德地图、QQ音乐等厂商合作,将手机端能力迁移至眼镜[14] - 与BOLON、宝丽眼镜等品牌联合推出多款新品,拓展行业应用场景[14] - 公司产品定义了行业关键指标,如轻量化、稳定呈现、语音调度和影像能力,让行业看到智能眼镜可以稳定和好用的程度[43] - 公司的成功路径让行业不再在概念里兜圈子,推动了智能眼镜从“尝鲜设备”走向“可信设备”[44] 高端应用场景与品牌认可 - 产品被海尔集团CEO周云杰在“2025企业家博鳌论坛”上用于智能提词[37] - 在央视新闻《一年之计看两会》节目现场,由总台主持人王言佩戴完成开场白[39] - 在中国驻新加坡使馆的国庆招待会上,曹忠明大使全程佩戴Rokid Glasses完成主题演讲[41] - 越来越多需要稳定信息呈现的行业用户将产品纳入正式工作流,产品经历了高强度场景的“极限检验”[37] 用户场景与真实反馈 - 用户使用眼镜记录滑翔伞、攀登雪山等极限运动场景,产品防抖技术保障了画面稳定清晰[30][32] - 公司团队习惯观察用户使用场景,从真实需求中打磨产品功能[34] - 科技在智能眼镜上变得贴身、好用、有存在感,用户体验从接住真实需求中生长出来[35]
这是2025年度AI十大趋势,4个维度10大结论,“开源AI进入中国时间”
量子位· 2025-12-10 18:54
报告核心观点 - AI正从“工具时代”迈向“伙伴时代”,其发展将深刻重塑经济结构、社会形态和人类生活方式 [3] - 技术从模型竞赛走向场景融合,大模型不仅是前沿试验,也是触手可及的生产力 [34] - 中国在AI领域正从“参与者”转向“领导者”,展现出从“跟跑”到“并跑”乃至“领跑”的体系化能力 [31][35] 趋势一:算力基建化 - 算力已成为影响国家和企业战略的关键资源,算力经济是智能产业第一大引擎 [3][6] - 全球AI算力需求推动超大规模数据中心建设进入算力工厂时代 [6] - “东数西算”、“太空超级计算机”等国家工程正系统构建高效、绿色的全国一体化算力网络 [6] 趋势二:芯片AI化 - AI原生需求重塑芯片创新,GPU主导地位受到挑战,NPU在端侧普及,ASIC/FPGA迎来增长 [3][9] - 中国正加速构建自主可控的算力生态,国产“芯片+SDK+框架”方案已在千亿级模型训练中得到验证 [11] - DeepSeek等模型针对昇腾芯片深度优化,标志着全栈国产化能力迈入新阶段 [11] 趋势三:预训练与大模型架构 - 预训练决定大模型格局梯队,架构创新决定预训练水平 [3] - 混合专家模型成为主流选择,其“大参数、小激活”设计可在不显著增加成本的情况下扩充容量 [13] - 为突破Transformer的O(n²)复杂度瓶颈,线性注意力和稀疏注意力等新架构快速发展,以更高效处理长文本、视频理解等任务 [13] 趋势四:大模型推理 - 2025年大模型落地进入“推理时间”,推理需求倒逼模型创新 [3][15] - 模型在多模态深度推理、自适应推理、边缘推理加速等方面持续突破 [15] - 任务复杂度推动推理框架持续进化 [15] 趋势五:具身智能 - 信息AI处于应用期,物理AI处于研发期,具身智能成为合流风口 [3][18] - 世界模型与视觉-语言-动作框架成为技术焦点,具身智能正从小规模商业订单走向更广泛的应用探索 [18] - 自变量机器人自主研发的“Great Wall”模型系列实现从感知到高精度操作的端到端控制,展现强大泛化能力,代表中国在该领域的实质性突破 [21] 趋势六:AI重塑流量入口 - AI正在重塑流量入口,从PC互联网、移动互联网迈向Agentic互联网 [3] - Agent从“人找服务”转向“服务找人”,成为下一代交互范式,具备感知、规划、决策、执行的闭环能力 [22] - 构建智能助手的关键在于对用户个性化知识的理解与调用,例如腾讯ima知识库可将用户碎片化资料构建成专属知识库,使AI成为懂用户的“第二大脑” [23] 趋势七:多模态AI应用 - 多模态成为AI应用落地关键,视频、3D、代码依次展现生产力 [3] - 新一代AI系统能同时处理和理解文本、图像、声音、视频等多种信息类型,实现跨模态关联理解和生成 [24] - 其关键价值在于释放高价值劳动力,报告预测未来2-3年内AI将成为相关产业的标准工具 [24] 趋势八:AI硬件普及 - AI硬件百端齐放,PC、手机、汽车、眼镜、玩具等终端设备焕脑正当时 [3] - 轻量化模型和边缘计算技术成熟,推动AI能力向各类终端普及,解决数据隐私、网络延迟和成本效率三大核心问题 [25] - 端侧AI使设备能够在不依赖云端的情况下实时响应用户请求,提供个性化智能服务 [25] 趋势九:AI for Science - AI4S突破加速通用人工智能实现,AI在数理化等领域的复杂问题解决能力已触及博士水平 [3][28] - AI正从科研工具升级为科研主体,开启自主科学发现新范式,在材料、化学、生物、医疗等领域能自主设计实验、预测蛋白质结构等 [28] - 腾讯与广州呼吸健康研究院联合开发的DeepGEM病理大模型,可通过常规病理切片图像在1分钟内高精度预测肺癌基因突变,大幅降低检测成本 [30] 趋势十:开源AI与中国路线 - 开源AI进入中国时间,通用人工智能拥有中国路线 [3] - 中国AI企业从应用导向转向深度研发,国家层面将通用人工智能置于战略核心,推动技术自主与生态可控 [31] - DeepSeek、Qwen等开源模型在全球社区影响力迅速提升,下载量位居前列,中国正通过开源生态、自主芯片、国家算力网络与产学研协同走出一条独特路径 [31][32][33]
Linux之父:Vibe编程是入门编程的绝佳方式
量子位· 2025-12-10 18:54
AI辅助编程与程序员角色 - AI辅助的Vibe编程是入门编程的绝佳方式 [3] - AI生成代码若投入实际使用,其长期管理和修复将非常困难 [4] - 程序员不会被取代,因为需要懂代码维护的人 [5] 硬件选择与行业观点 - 装机时直接pass掉了英伟达显卡 [6] - 坚持电脑必须安装ECC内存,认为普通内存一定会出问题 [16][19] - 批评制造商宣传的芯片内置ECC是“离谱”说法,因其不提供端到端保护 [21] 程序员生产力与公司管理 - 日常最重要的工作是读邮件和拍板代码合并,而非写代码 [22][23] - 严厉批评将代码行数作为衡量程序员生产力或裁员依据的做法 [24][26] Linux与微软的关系演变 - Linux诞生于1991年,凭借开源优势迅速吸引开发者,在服务器市场因配置要求低、扩展性好等优势对Windows NT构成威胁 [32][33] - 微软在2001年将Linux形容为“癌症”,并试图从多方面抹黑Linux,双方关系紧张 [34] - 2004年后微软态度转变,2009年向Linux贡献超两万行代码,2014年后积极拥抱开源,加入Linux基金会并为Azure云提供Linux支持 [34] - 目前双方已和解,因最赚钱的云服务都运行Linux [36][38]
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026
量子位· 2025-12-10 12:26
研究突破与核心框架 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构,提出了名为UNeMo的视觉-语言导航新框架,该论文已入选AAAI2026 [1][5] - 该框架旨在解决现有基于大语言模型的导航方法面临的两大瓶颈:推理模态单一(仅依赖语言,缺乏视觉预判)以及优化目标冲突(推理与导航策略分开训练,适配性差)[9] - 其核心突破在于构建了“多模态世界模型”与“分层预测反馈导航器”的双向协同架构,将视觉状态推理与导航决策深度绑定,形成“预判+决策”闭环 [10][11][19] 技术架构与工作原理 - 多模态世界模型基于条件变分自编码器构建,能接收当前视觉特征、语言指令与候选动作,通过跨注意力机制融合信息,预测未来视觉状态,无需额外标注数据即可通过导航结果反馈持续优化 [12][13][14] - 分层预测反馈导航器采用两阶段机制:首先生成粗粒度候选动作锁定方向,再融合预测的未来视觉状态优化出细粒度动作以修正偏差,提升复杂场景下的导航稳健性 [17] - 该架构实现了推理与决策的动态闭环赋能,MWM的视觉预判提升决策精准度,导航执行结果实时反馈优化MWM预测准确性,两者双向促进持续迭代 [20][21] 性能与效率表现 - 在核心数据集R2R的测试中,UNeMo采用FlanT5-1.5B模型,参数规模仅为对比方法NavGPT2所用FlanT5-5B模型的30% [24] - 资源消耗大幅优化:训练时GPU显存占用从27GB降至12GB,减少56%;推理速度从每步1.1秒提升至0.7秒,效率提升40% [24] - 在模型未见过的测试环境中,导航成功率(SR)达到72.5%,较NavGPT2的71%提升1.5个百分点;路径效率(SPL)从60%提升至61.3% [26][27] 复杂场景与长路径导航优势 - UNeMo在长轨迹导航中表现突出,在未见过的环境中导航成功率可达72.5% [4] - 具体在长路径(长度≥7)导航中,成功率大幅提升5.6%(从64.2%至69.8%),提升幅度是短路径(长度<7)的4.7倍,有效缓解了长距离导航的累积误差 [29][30] 架构通用性与可拓展性 - 团队将UNeMo迁移至不同类型的导航基线(如DUET)与目标导向导航数据集REVERIE进行验证 [31] - 实验结果显示,其在未见场景的导航成功率与远程目标定位成功率指标上均有提升,表明该协同训练架构能灵活适配不同类型的导航系统,具备强可拓展性 [32][33] 总结与意义 - UNeMo通过其协同架构,解决了传统VLN方法推理与决策脱节、资源消耗高的问题 [34] - 该框架具备轻量化配置、高性能、长路径导航稳健以及跨场景适配性强的优势,为视觉-语言导航提供了高效可行方案,有助于服务机器人等实际场景的落地 [34]