Workflow
量子位
icon
搜索文档
宇树王兴兴,A股上市辅导公告了
量子位· 2025-07-19 13:15
公司概况 - 宇树科技正式启动A股IPO进程,已在浙江证监局办理辅导备案,计划最快2025年10月提交上市申请文件[3][4][12] - 公司成立于2016年8月,注册资本3.64亿元,横跨计算机通信设备制造(C39)和通用设备制造(C34)双领域[12] - 创始人王兴兴直接持股23.82%,通过有限合伙平台合计控制34.76%股权,为公司控股股东[5][7] - 最新估值超120亿元,已完成10轮融资,投资方包括腾讯、阿里、美团、红杉中国等头部机构[7][42] 财务与经营表现 - 年度营收已突破10亿元人民币,且自2020年起持续保持盈利状态[8] - 2023年全球四足机器人市场份额占比近70%,产品技术领先性显著[27] - 2024年推出轻量级人形机器人G1,基础版售价低至9.9万元,具备消费级通用机器人水平[36] 产品与技术优势 - 核心产品包括四足机器人(Laikago、Go1)和人形机器人(H1、G1),其中H1售价仅9万美元(约65万人民币),成本显著低于波士顿动力同类产品[28][30] - H1为国内首款可跑动的全尺寸通用人形机器人,具备后空翻、避障等高难度功能[31] - 自主研发所有核心零部件(电机、控制系统等),构建完整交付制造体系[43] 市场与品牌影响力 - 2024年春晚表演使宇树科技家喻户晓,H1和G1线上首发即售罄[37][40] - Go1四足机器人登上美国超级碗赛前表演舞台,全球知名度提升[36] - 蔚来汽车在合肥工厂部署10台H1用于工业场景,验证商业化潜力[36] 资本运作与上市规划 - 2025年6月完成C轮融资,腾讯、阿里、吉利等领投,老股东跟投比例超90%[19] - 股份制改造已完成,同步调整章程和投资人结构,为上市铺路[16][17] - 计划先登陆科创板,后续择机进入港股以最大化流动性[13] 行业竞争格局 - 与智元机器人争夺"具身智能第一股"称号,后者已通过收购上纬新材曲线上市[11][42] - 2025年具身智能领域融资激增,上半年投融资事件达141起(2024年全年仅77起)[49][50] - 行业融资集中在早期阶段(B轮后不足10%),宇树科技是为数不多进入IPO阶段的头部企业[51] 创始人背景 - 王兴兴为浙江理工大学本科、上海大学硕士,研究生期间自主研发XDog机器狗获天使投资[22][59][60] - 创业前曾短期任职大疆,因XDog技术突破选择离职创业[23][74] - 以低成本电机方案实现媲美波士顿动力液压系统的动态性能,引领行业技术路线[66][67]
大神Karpathy都投的AI实时视频生成模型:直播都能立即转,无限时长几乎零延迟
量子位· 2025-07-19 13:15
核心技术突破 - 推出全球首个零延迟无限实时视频生成模型MirageLSD,采用自定义实时流扩散模型Live-Stream Diffusion(LSD),攻克传统自回归视频模型中误差累积的核心难题[4][9][11] - 通过因果自回归结构和Diffusion Forcing技术实现逐帧生成时保持时间连贯性,支持无限时长视频生成[14][15] - 历史增强策略主动添加模拟伪影训练模型预判纠正能力,推理阶段明确告知历史帧可能不准确以持续纠错[16][17] - 改进Transformer架构搭配视觉编码器和位置编码优化,处理速度比前代模型快16倍,达每秒24帧[6][18] - 应用KV缓存技术和蒸馏策略减少延迟,动态输入系统支持超低延迟响应玩家指令[20][21][22] 产品性能优势 - 实现40毫秒以下延迟,支持直播/游戏/视频通话等多形式输入,无时长限制实时生成[5][6] - 前代产品Oasis已实现每秒20帧零延迟生成,MirageLSD性能提升至24帧/秒[26][28] - 集成帧级提示词处理机制,可即时解析键盘指令和自然语言,实现"抖衣换装"等实时交互效果[21][23] 公司发展动态 - Decart为2023年成立的加州AI初创公司,获AI专家Karpathy天使投资[7][25] - 2024年推出首款实时生成式AI开放世界模型Oasis,MirageLSD为最新迭代产品[26][28] - 计划定期升级模型功能,包括面部一致性/语音控制等模块[28] 应用场景展示 - 支持用扫帚/盒子等日常物品替代专业设备进行沉浸式直播[1] - 实时修改游戏画面风格满足个性化需求[2] - 全双工通信通道实现输入输出并行处理,消除数据传输延迟[22]
DeepSeek终于丢了开源第一王座,但继任者依然来自中国
量子位· 2025-07-18 16:36
模型排名与性能 - Kimi K2在全球开源模型中排名第一,总榜第五,紧追Grok 4等顶尖闭源模型 [1] - Kimi K2得分为1420,与Grok 4(1437)和GPT 4.5(1437)差距较小 [2][23] - 唯二进入总榜TOP 10的开源模型均来自中国(Kimi K2和DeepSeek R1) [2][28] 技术能力表现 - 连续多轮对话能力并列第一,与Grok 4和o3持平 [3] - 编程能力排名第二,与GPT 4.5和Grok 4相当 [3] - 应对复杂提示词能力排名第二,与o3和4o同梯队 [3] 社区热度与影响力 - GitHub标星达5.6K,Hugging Face下载量近10万 [5] - Perplexity CEO公开站台,计划基于K2进行后训练 [5] - 用户访问量过大导致API响应变慢 [6] 架构设计与优化 - 继承DeepSeek V3架构,但进行了参数调整 [9][12] - 增加专家数量,MoE总参数增加但激活参数量不变 [13] - 注意力头数减半以平衡成本,效果影响微小 [13] - 仅保留第一层Dense,其余使用MoE,推理效率无影响 [13] - 专家无分组设计,通过自由路由提升灵活性 [13] - 总参数增至1.5倍,但推理耗时更小且成本可控 [15] 行业趋势与观点 - 开源模型性能已接近闭源,TOP 10分数均超1400 [21][23] - 开源与闭源差距缩小,Kimi K2接近Grok 4和GPT 4.5 [22] - 行业人士认为开源击败闭源将更普遍 [25][27] - 开源模型在AI能力全球扩散中扮演关键角色 [27]
8个月晋升独角兽,欧洲版Cursor估值18亿美元
量子位· 2025-07-18 16:36
公司概况 - 成立仅8个月估值飙升至18亿美元成为最新独角兽 [1] - 总部位于瑞典专注于用自然语言重塑编程方式的AI公司 [3] - 完成瑞典史上最大规模A轮融资筹集2亿美元 [4] - 团队最初仅45名员工规模与天使投资人数量相当 [15] 用户与市场表现 - 拥有超230万免费活跃用户及18万付费订阅者 [2] - 付费用户首月留存率超过ChatGPT [2] - 平台上已创建1000万个项目主要来自非编程用户群体 [10] - 7个月内实现7500万美元年度经常性收入(ARR) [13] - 达到1700万美元ARR时仅花费200万美元营销成本 [14] - 产品发布后ARR每周增长100万美元3个月从0增至1700万美元 [18] 产品与技术 - 定位为"欧洲版Cursor"瞄准非编程用户市场 [9] - 通过大模型将文字说明快速转化为网站和应用程序 [12] - 用户案例包括生成完整产品网站、新游戏及30天创建初创公司 [5][7] 融资与行业影响 - 融资方包括Klarna首席执行官、Slack联合创始人等业界大佬 [19][21] - 被描述为欧洲历史上增速最快的初创企业 [18] - 创始人调侃在欧洲创业如同"困难模式"游戏 [20]
7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍
量子位· 2025-07-18 14:16
核心观点 - 腾讯混元数字人团队提出RLVER框架,通过用户模拟器同时扮演"交互环境"和"奖励来源"双重角色,解决多轮对话中RL训练的三大困境(环境、奖励、训练)[2][5] - RLVER训练后的Qwen2.5-7B模型在Sentient-Benchmark得分从13.3跃升至79.2,与GPT-4o、Gemini 2.5 Pro等商用顶级模型相当[2][16] - 模型在数学、代码等通用能力上未出现衰退,且行为风格从"解题型"转向"情绪型"[17][19] 技术框架设计 - **环境构建**:用户模拟器包含多样用户画像(性格/背景/需求),动态更新情绪状态,提供无限探索的真实对话环境[7][8][9] - **奖励机制**:基于SAGE框架显式建模用户情绪变化,累积"心情总分"作为奖励信号驱动PPO/GRPO算法[11][12][13] - **优化策略**:采用全局情绪轨迹优化(非单轮反馈),引导模型维持长期情绪走高[14] 性能表现 - **基准测试**: - Sentient-Benchmark:PPO+思考结构模型达79.2分(原始13.3分),成功率42%[16] - Chit Chat:PPO模型成功率52%,低于Sentient表现[16] - **横向对比**: - Gemini 2.5 Pro得分82.4(成功率55%) - GPT-4o得分79.9(成功率51%)[16] 训练洞察 - **模型路径差异**: - "思考式模型"侧重深度理解与共情[21] - "反应式模型"发展出行动导向补偿策略[22] - **算法选择**: - PPO在特定维度(如共情深度)突破上限[27] - GRPO带来更稳定均衡的能力增长[27] - **环境设计**: - Vanilla模拟器(包容反馈)优于Challenging模拟器(容错率低),前者训练模型Sentient得分79.2 vs后者66.4[29][30][32] - 显式思考结构提升模型抗打击能力(Challenging环境下得分66.4 vs非思考结构19.8)[33][36] 开源与资源 - 模型已开源,包含论文地址、项目代码及Hugging Face仓库链接[34]
大模型IMO25数学竞赛成绩公布了
量子位· 2025-07-18 14:16
大模型数学能力评估结果 - Gemini 2.5 Pro以超30%的总成绩断崖式领先 超出第二名89% [1] - o3和o4-mini分别位列第二、三名 Grok 4得分仅11.9且成本比Gemini高22% [2] - 测试采用统一提示词模板与Open Proof Corpus评估标准 最大Token限制64000 [5][6] 评估方法与流程 - 每个模型生成32个初始回答 筛选自评最优的四个答案取平均分作为最终成绩 [7][8] - 四名IMO级别人类评委匿名双评 每题满分7分 评分界面统一 [10][11] - 模型普遍在7分制下得3-4分 与人类表现差异显著 [12] 题目类型与模型表现 - 六道题目涵盖解析几何、平面几何、数论、博弈论和组合数学 [16][18][22][24][25] - 平面几何题(第2题)全员低分 Grok 4仅得4%(0.28分) [26][27] - 组合数学题(第6题)全员零分 几何与图形相关题目表现最差 [26][28] - 第四题模型方法接近人类但存在逻辑失误 第五题能识别策略但无法证明 [29] 模型能力演进观察 - 相比早期评估 模型过度优化答案格式的行为显著减少 [13] - Gemini在USAMO中编造定理的问题在IMO测试中大幅改善 [14] - Grok 4多数未选中答案仅陈述结果而无解释 表现低于预期 [14]
Meta全新AI组织架构曝光,这范儿有点字节
量子位· 2025-07-18 14:16
Meta的AI组织架构调整 - Meta内部整合出3400多人的新AI组织,由首席人工智能官Alexandr Wang领导,副手为前GitHub CEO Nat Friedman分管AI产品和应用[2][17][20] - 新架构分为4个团队:AGI基础研究团队(含高薪挖来的顶尖人才)、AI产品团队(主打Meta AI助手)、基础AI实验室(由Yann LeCun带队)、Llama 5研发小团队[5][12][19][23] - 原Llama团队面临重组,可能采用双轨制:闭源最先进模型(Llama 5)与开源次先进模型(Llama 4 1)[7][25] 人才招募策略 - 通过上亿美元薪酬包从OpenAI、苹果、谷歌等公司挖角30余名顶尖AI人才,组成"超级智能实验室"[10][12][14] - 实验室成员包括Scale AI创始人Alexandr Wang、前GitHub CEO Nat Friedman、DeepMind Gemini核心开发者Jack Rae等[12][16] - 出现"人挖人"现象,如苹果前AI负责人庞若鸣的同事Tom Gunter和Mark Lee相继加入Meta[29][30][32][33] 与字节跳动AI架构的对比 - Meta新架构被指模仿字节跳动的AI组织模式,尤其是AGI团队Seed的结构[37][38] - 字节Seed由吴永辉领导,采用扁平化管理,其多模态方向已由周畅接手,技术落地成果显著(如豆包大模型)[36][38][39][42][44] - 两家公司均采用三层架构:AGI前沿研究+基础技术分支+产品工程团队[46][47][48] 行业竞争动态 - Meta的激进挖角策略引发OpenAI人才流失,ChatGPT发布会中出现的华人研究者被调侃为Meta潜在招募目标[51][54] - OpenAI CEO奥特曼曾警告Meta的高薪挖角可能破坏公司文化,内部已出现老员工对新晋高薪人才的抵触[27] - 行业共识显示,头部公司需同时布局AGI研究、基础技术分支和产品化能力以保持竞争力[45][48]
突破户外RGB-only SLAM尺度漂移难题,精确定位+高保真重建 | ICCV'25开源
量子位· 2025-07-18 14:16
核心技术突破 - S3PO-GS框架首次实现RGB单目SLAM的全局尺度一致性,解决户外场景尺度漂移问题[4] - 自洽跟踪模块通过3DGS渲染生成尺度自洽的3D点云图,建立2D-3D对应关系消除位姿漂移误差[5] - 动态建图机制采用局部patch尺度对齐算法,校准预训练点云图与3DGS场景的尺度参数[5] - 联合优化架构通过点云替换策略和几何监督损失函数同步提升定位精度与重建质量[5] 性能表现 - 在DL3DV场景中跟踪误差降低77.3%,Waymo数据集PSNR指标达26.73刷新SOTA纪录[5] - 位姿估计迭代次数减少至传统方法的10%,在Waymo等复杂数据集实现精确相机追踪[21] - KITTI测试集PSNR提升至20.03,DL3DV测试集PSNR达29.97且LPIPS降至0.108[15] 技术实现路径 - 地图初始化阶段通过1000步迭代优化MASt3R预训练点云图构建初始3D高斯场景[6] - 跟踪阶段栅格化渲染相邻关键帧3D高斯点图,基于特征匹配估计尺度自洽相机位姿[8] - 动态建图阶段执行局部patch尺度对齐算法,筛选几何一致性点云计算最优缩放因子[9] - 联合优化阶段形成定位与重建闭环,相机位姿优化与高斯地图动态校准相互强化[10] 行业应用价值 - 技术适用于自动驾驶、机器人导航及AR/VR领域,提升SLAM系统在无界户外环境的鲁棒性[2] - 动态双向校准机制解决3DGS渲染点图几何缺失与预训练点图尺度失配的矛盾问题[11][12] - 渲染结果能精准捕捉车辆纹理、街道细节和建筑结构,深度图在复杂区域精度显著提升[16]
一年破千万美金,一款海外AI创意引擎爆发了
量子位· 2025-07-18 14:16
公司概况 - Creati是一家专注于AI创意引擎的公司,成立仅1年已累计千万用户规模,实现千万美金年收入[5] - 公司通过网红创意交易市场和AI模板化技术,革新广告创意生产流程[6][8] - 已吸引Shein、Cider、Fundango等大品牌客户[10] 商业模式创新 - 聚焦广告创意"道"层面而非视频生成"术"层面,构建差异化竞争壁垒[8] - 首创"病毒创意Canva"平台,连接网红创意与商家需求形成闭环[8][9] - 商家可10分钟生成100个网红创意视频,效率提升显著[12] - 网红通过模板分成获得持续收入,平台获客成本降低[17] 技术优势 - 自有AI模型能100%保留产品细节实现个性化重塑[9] - 内部模型解决电商商品展示一致性问题[20] - 创意大模型实现千人千面内容生成,商家切换会导致点击率下降20%[21][22] - 正在开发能自主生成创意的Agent系统,构建广告世界模型模拟营销效果[24][25] 市场定位 - 专注电商垂类,解决商家对Prompt输入和内容优化的痛点[18][19] - 与通用视频生成器形成差异化,类比Shopify与Wordpress的区别[20] - 通过Street Vogue案例验证商业价值,6个月帮助客户收入增长12倍[28] 增长策略 - 网红既是内容生产者又是增长引擎,形成内容驱动增长飞轮[14][17] - 聚焦创意入口定位,未来计划扩展至脑机接口等更广领域[29] - 通过数据闭环构建壁垒,累计千万用户形成网络效应[5][22] 行业影响 - 颠覆传统网红营销撮合模式,简化沟通流程提升产出效率[13] - 开创RaaS(Result as a Service)新模式,从SaaS升级为结果交付[25] - 解决90%视频生成内容未被利用的行业痛点[26]
真热AI!米哈游5亿成立新公司
量子位· 2025-07-18 08:30
米哈游AI战略布局 - 公司全资成立上海米哈游无定谷科技有限公司,注册资本高达5亿人民币,创下其在AI领域最大单笔投资记录[2][8] - 新公司经营范围覆盖软件开发、动漫游戏开发及人工智能应用软件等前沿领域[3] - 创始人蔡浩宇提出10-30年打造《黑客帝国》式虚拟世界的长期愿景[9] 技术研发体系 - 2018年成立"逆熵研究部"开发自研AI大模型Glossa,其数字人产品鹿鸣直播首秀吸引66万实时观看并收获150万订阅[10] - 2024年核心团队分拆成立上海半图科技专注二次元3D虚拟角色开发[12] - 创始人蔡浩宇在硅谷创立Anuttacon公司,团队集结微软、Meta、小鹏汽车等技术专家[13] 产品矩阵拓展 - 推出AI原生游戏《Whispers from the Star》,设定为天体物理学家星际求生RPG体验[14][16] - 2024-2025年间密集成立5家科技公司,涉及注册资本从100万至1.5亿不等[15] - 通过AI角色互动设计展现与马斯克Ani产品的差异化定位,前者侧重叙事后者侧重情绪输出[26] 行业趋势判断 - 公司认为AIGC将重塑游戏开发生态,仅0.0001%顶尖团队和99%业余爱好者能持续存活[18] - 实际产品验证阶段通过让Grok Ani试玩《Whispers》实现AI对话AI的营销事件[21] - 数字伴侣领域呈现故事驱动型(RPG)与用户驱动型(情绪价值)两条技术路线分化[26]