ShuffleNet
搜索文档
阶跃星辰不再低调:巨额融资,印奇加入,“1+3”核心决策层浮出水面
36氪· 2026-01-27 19:31
公司重大融资与人事动态 - 阶跃星辰完成超过50亿元人民币的B+轮融资,刷新了过去12个月大模型赛道的单笔融资纪录 [1] - 该融资金额超过了大模型“六小虎”中智谱和MiniMax的IPO募资金额 [2] - 印奇正式加入公司核心决策层并担任董事长,其背景为清华姚班首批校友、旷视科技创始人及现千里科技董事长 [2] 核心决策层“1+3”架构 - 公司核心决策层呈现“1+3”模式,即董事长印奇,以及CEO姜大昕、首席科学家张祥雨、CTO朱亦博 [4][5] - 该团队结构对应大模型落地所需的四类核心能力轴:战略、算法、系统、工程 [9] - 豪华的团队阵容是公司坚持“AI+终端”战略的底层支撑 [7] 核心团队成员背景与专长 - **董事长印奇**:拥有横跨AI 1.0(计算机视觉)与AI 2.0(大模型)时代的经验,成功带领旷视科技实现产业落地,并在千里科技主导“AI+车”战略转向,其产业落地经验与终端视角将为公司提供现实把控力 [10][11][12][13] - **CEO姜大昕**:自然语言处理领域全球知名专家,2025年IEEE Fellow,谷歌学术被引量超过2.4万次,曾任微软全球副总裁,负责必应搜索引擎开发,拥有超大规模在线系统经验,其背景适合带领团队迎战大模型应用落地 [14][16][17][18] - **首席科学家张祥雨**:ResNet作者之一,该论文被引用超过30万次,是深度学习领域的里程碑,其研究方向覆盖多模态大模型、神经网络架构设计及模型加速,长期致力于架构与结构层面的工作,为公司基座模型和原生多模态方向提供技术前瞻与决策锚点 [19][20][22][23][25][26][27][28] - **CTO朱亦博**:专攻AI基础设施(AI Infra),奠基了RoCE高速网络协议,曾于字节跳动从零建设国内最大规模AI Infra之一,并担任Google Cloud GPU产品技术负责人,其领导的系统团队在公司内部与算法团队同等重要,形成了双引擎架构,为公司带来训练效率、集群稳定性及模型迭代节奏上的差异化优势 [30][31][32][35] 团队深层背景与能力交汇 - 公司核心团队履历在“微软Search系”和“旷视CV系”两条线上反复交叉 [38] - 算法与商业化落地团队很大程度上来自旷视体系,拥有将算法与硬件结合、在真实物理世界中部署的软硬结合实战经验 [39][40] - 数据团队更多出自微软搜索团队,拥有处理海量数据、构建数据闭环和系统化评估结构的工程经验,能有效应对大模型长期运行中的数据漂移、评估失真等问题 [43][44][45] - 这两套体系的交汇,构成了公司“AI+终端”战略最核心的两个能力轴,即端到端体验把控和与物理世界打交道的能力 [46][47][48] 公司战略方向:AI+终端 - 公司自成立起就反复强调并坚持“AI+终端”的战略 [7] - 该战略与印奇在旷视和千里的“AI+终端落地”经验高度契合 [12] - 公司致力于将复杂的模型转化为适配手机、汽车等终端设备的实用方案 [40] - 印奇加入后规划,在2026年要实现三项目标:在汽车端让100万辆车搭载千里智驾系统;在基础模型上达到全球第一梯队水平;孵化创新硬件并在未来12~15个月内面世 [55][56] 行业市场前景 - 软硬件结合的“AI+终端”模式存在市场蓝海,终端设备拥有高频入口、上下文连续性和本地数据优势 [52] - 据IDC报告,到2026年,中国市场AI终端出货量将超过3亿台,AI终端渗透率在2027年将爆发式突破93% [52] - 行业范式正在转向,AI能力将从可选卖点向系统级基础能力迁移 [52]
阶跃星辰不再低调:巨额融资,印奇加入,“1+3”核心决策层浮出水面
量子位· 2026-01-27 16:32
公司近期重大动态 - 阶跃星辰完成超过50亿元人民币的B+轮融资,刷新了过去12个月大模型赛道的单笔融资纪录,其金额超过智谱和MiniMax的IPO募资金额[2] - 印奇正式加入公司核心决策层并担任董事长,标志着公司核心决策层形成了“1+3”的班底模式[3][8][13] 核心决策层“1+3”团队构成与能力 - “1”指新任董事长印奇,他是清华姚班首批校友、旷视科技创始人、现千里科技董事长,是横跨AI 1.0(计算机视觉)与AI 2.0(大模型)时代并完成过产业与硬件闭环的样本人物[5][6] - “3”分别为CEO姜大昕、首席科学家张祥雨、CTO朱亦博,四人团队对应大模型落地所需的战略、算法、系统、工程四类核心能力轴[13][14][15] - 董事长印奇在AI 1.0时代带领旷视科技将计算机视觉技术推向真实产业场景,后在2024年入主千里科技主导“AI+车”战略,其产业落地与终端视角与公司“AI+终端”战略高度契合[20][21][22][23][25] - CEO姜大昕是自然语言处理全球知名专家,2025年IEEE Fellow,谷歌学术被引量超过2.4万,曾任微软全球副总裁,负责必应搜索核心模块,拥有超大规模在线系统经验,其背景适合带领团队迎战大模型应用落地[28][29][30][31][33] - 首席科学家张祥雨是ResNet作者之一,该论文是计算机科学领域引用量最高的巅峰之作,其研究方向覆盖多模态大模型、神经网络架构设计、模型裁剪与加速,曾开发影响手机解锁技术的ShuffleNet,目前正带领团队攻坚原生多模态,为公司的技术路线提供可靠的决策锚点[35][36][39][40][43][48] - CTO朱亦博曾奠基RoCE高速网络协议,后于字节跳动从零建设国内最大规模AI Infra之一,拥有单集群万卡以上系统经验,加入公司后使AI Infra团队与算法团队处于同等重要的“双引擎”位置,为公司带来训练效率、集群稳定性及模型迭代空间的差异化竞争优势[50][51][54][56][57][58] 公司战略方向:AI+终端 - 公司自去年起反复强调并坚持“AI+终端”战略,该战略与印奇在旷视和千里的“AI+终端落地”经验不谋而合[11][23] - 公司核心团队背景交汇于微软搜索系与旷视计算机视觉系,分别带来了数据工程与软硬结合的实战经验,构成了“AI+终端”方向最核心的两个能力轴[63][67][71][78] - 从市场角度看,软硬件结合的AI+终端模式存在蓝海机会,终端设备具有高频入口和本地数据优势,据IDC报告,到2026年中国市场AI终端出货量将超过3亿台,2027年渗透率将爆发式突破93%[85][86] - 印奇加入后规划在2026年实现三件事:在汽车端让100万辆车搭载千里智驾系统;在基础模型上达到全球第一梯队水平;在未来12~15个月内孵化出创新硬件面世[90][91] 团队背景与公司能力构建 - 公司的算法团队和商业化落地能力很大程度上来自旷视体系,该体系成员拥有将算法与硬件结合、在真实物理世界约束下实现落地的软硬结合实战经验[65][66][67] - 公司的数据团队更多出自微软搜索团队,搜索系统对数据工程和实时反馈闭环的苛刻要求,使其沉淀的经验能有效应对大模型长期运行后的数据漂移、评估失真等关键问题[71][72][74][75] - 微软系与旷视系两条线的交汇,使公司成员共同秉持“模型必须接受真实系统约束”的前提,构成了公司相信系统、相信长期演进路径的工程逻辑基础[76][77][81]
「走出新手村」十次 CV 论文会议投稿的经验总结
自动驾驶之心· 2025-06-30 20:33
论文生产发表流程 - 深度学习论文生产流程包括从想法到实验扩充、撰写修改、投稿审稿、反驳修改等环节,通常需要经历多次打磨和修改[3] - 论文投稿后若未因格式等问题被直接拒绝,将进入审稿阶段,由三位审稿人给出意见反馈,作者需撰写一页反驳并等待最终结果[4] - 论文录用率通常在六分之一到四分之一之间,大多数论文会经历多次投稿和修改过程,形成所谓的"斐波那契投稿法"[4][5] 写好论文的意义 - 论文是传达思想的载体,帮助作者严格完成工作并明确创新点,同时为后人提供改进基础[7] - 高质量论文具有长期影响力,可能成为学者科研成就的代表作,而低质量论文可能误导他人或成为黑历史[7] - Simon Jones推荐通过写论文来监督研究进程,在写作过程中发现问题并补充实验[7] 创新点和论文核心 - 创新性(novelty)是论文关键,可表现为新问题、新发现或颠覆理论,MXNet作者李沐提出创新性=影响范围×有效性×新颖性[10] - 衡量创新性常见错误包括:认为复杂即创新、混淆前人工作、说不清创新点等[10] - 论文应明确核心想法并不断打磨,避免"从多个方面改进算法"等模糊表述,理想状态是"一条巨龙,一招制敌"[11] 论文的写作要点 - 深度学习论文常用"八股文"结构,同一故事在摘要、介绍和正文中分层次讲述三遍[13] - 标题和摘要最关键,影响检索和审稿人匹配,流行做法是为方法起好记名字如ShuffleNet、Transformer等[13][14] - 好论文标准:问题重要新颖、思路有理有据、实验超越前人、消融实验扎实;差论文则呈现混乱、拼凑或选择性展示结果[15] - 写作技巧包括:用图表串联故事、优化详略分布、先求严谨再求美观、统一符号定义等[16] 投稿经验与审稿意见 - 作者存在知识盲区,需通过他人反馈修正错误认知,写作时要考虑不同读者群体[18][19] - RIFE论文经历五次投稿,前四次分别因基准错误、动机不明、亮点不突出被拒,最终通过调整内容结构获得录用[20] - CoNR论文因跨领域问题遭遇多样化审稿意见,通过裁剪内容和凝练创新点改进;DMVFN论文因突出优势一次投稿即中并被选为CVPR亮点论文(占接收论文10%)[21] - 常见负面审稿意见包括:缺少重要参考文献、结果不可信、不尊重前人工作、创新性差、呈现质量差、路线分歧等[22][24]
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-08 12:51
多模态大模型发展现状 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V 基于业内最早的图文生成理解一体化框架DreamLLM [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻:多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战:语言对视觉控制能力弱 图文对齐不精确 数据质量有限 生成模块无法反向影响理解模块 [3] 计算机视觉领域瓶颈 - CV领域长期缺乏类似NLP的GPT时刻 主要受限于数据标注依赖和自监督方法局限性 [13][15] - 对比学习和MIM等方法在小模型有效 但缺乏scale up特性 因其学习的不变性来自人工设计而非数据驱动 [16][18][19] - 静态图像数据存在本质缺陷:生成 理解与人类对齐三者割裂 难以实现智能质变 [24][25][26] 多模态技术突破方向 - 短期解决方案是利用图文对齐数据 通过文字的自闭环特性赋予模型智能能力 [27] - 长期需探索视频和具身系统 视频数据蕴含更丰富信息但利用难度更高 [27] - 生成理解一体化需先解决视觉空间CoT问题 当前action space过于受限 [55][56] 大模型训练范式演进 - Next Token Prediction存在本质缺陷:更大模型在数学等推理任务上表现反降 因倾向跳步且优化目标与任务目标存在gap [38][40][42] - Rule-based RL通过直接优化任务目标 可抑制跳步并强化稳定思维路径 [44] - o1范式突破在于激发Meta CoT 允许模型在关键节点反悔重试 使推理从单线变为图状结构 [44][53] 多模态数据影响 - 图文混排训练中生成模块产生的gradient噪声大且信息量低 可能破坏语义理解 [62] - 高质量多模态数据应确保图文强相关 避免无关数据导致模型confuse [63][64] - 视频数据蕴含丰富思维过程但清洗难度大 是扩展action space的重要方向 [65][66] 未来技术趋势 - 多模态GPT时刻预计1年内到来 需解决生成可控性和视觉空间推理问题 [68][69] - 当前long context方案存在注意力涣散问题 未来可能采用multi-agent分层记忆架构 [69][73][74] - 模型自主学习是ASI关键路径 需解决环境scaling和自然语言反馈利用问题 [78][80][82]