Scaling Law

搜索文档
Thinking Machines Lab获20亿美元种子轮融资,人才成为AI行业最重要的要素
36氪· 2025-07-18 07:56
融资与估值 - Thinking Machines Lab获得由a16z领投的20亿美元种子轮融资,估值达到120亿美元,创下科技史上最大种子轮融资记录 [1] - 初始计划融资10亿美元,估值90亿美元,最终融资额和估值均翻倍 [1] - 参与融资的机构包括NVIDIA、Accel、ServiceNow、CISCO、AMD、Jane Street等各领域知名机构 [1] 创始团队与技术方向 - 公司由OpenAI前CTO Mira Murati创立,创始团队包括John Schulman、Barret Zoph、Bob McGrew等AI领域顶尖人才 [1][4] - Mira Murati曾领导开发GPT-3、GPT-4、DALL-E和ChatGPT等开创性技术,并在特斯拉负责Model S/X和Autopilot开发 [2] - 技术方向相对模糊,强调多模态能力和AI安全措施,包括对齐、红队演练和部署后监控等方法 [16] 产品规划 - 首款产品将在数月内发布,包含重要开源组成部分,为开发定制化模型的研究人员和初创公司提供帮助 [16] - 将为企业开发围绕KPI定制的AI解决方案,采用"商业强化学习"和从开源模型中选择性"摘取"特定层进行组合的新技术 [16] 行业趋势 - AI行业三要素中人才的重要性被提到前所未有的高度,算力和数据的Scaling Law效应正在减弱 [17] - DeepSeek在算力受限情况下训练出Sota模型R1,而Meta拥有顶级算力和数据却遭遇Llama 4失利,印证人才的核心地位 [18] - Meta以143亿美元收购ScaleAI 49%股权并组建"超级智能"部门,从OpenAI、DeepMind等公司挖角大量顶尖人才 [18][19] 人才竞争 - OpenAI Mafia中最强大的三家公司Anthropic、Safe Superintelligence和Thinking Machines Lab均以顶尖AI研究员领导 [17] - Google以27亿美元收购Character.AI并吸纳其核心团队,以24亿美元与Windsurf达成许可协议获取人才 [19] - 全球前20%的AI研究人员中47%来自中国,中国在语言、视觉、机器人模型和应用领域表现突出 [20]
Grok4、KIMIK2发布,算力板块业绩预告亮眼
山西证券· 2025-07-17 18:43
报告行业投资评级 - 领先大市 - A(维持)[1] 报告的核心观点 - 海外算力需求逻辑从训练模型的scalinglaw发展为头部模型的服务较量和护城河构建,2026、2027海外算力投资产业链机会仍被看好;国内模型通过算法创新达“低成本下功能的对齐”,算力加大投入确定,英伟达新版合规卡出货有边际改善,国产算力价值逐步凸显[7] 根据相关目录分别进行总结 周观点和投资建议 周观点 - Grok4发布,推理能力较前代提升10倍,语音能力快2倍,在多领域效果更佳[3][14] - Kimi发布并开源最新一代MoE架构基础模型K2,总参数量1万亿,在多项测试中取得开源模型SOTA成绩,工具调用能力进步[4][15] - 中报业绩预告开启,服务器、光模块、铜连接等板块预计亮眼,如工业富联等公司业绩增长[5][16] - 海外算力军备竞赛持续,看好2026、2027海外算力投资产业链机会;国内算法优化,算力投入确定,国产算力价值凸显[7][17][18] 建议关注 - 海外算力链:工业富联、中际旭创等[8][19] - 国内算力链:润泽科技、欧陆通等[8][19] - 卫星和火箭:航天电器、泰胜风能等[8][19] 行情回顾 市场整体行情 - 本周(2025.7.7 - 2025.7.11)市场整体上涨,创业板指数涨2.36%,申万通信指数涨2.13%等;细分板块中设备商、物联网、光模块周涨幅前三[8][19] 细分板块行情 - 涨跌幅:周涨幅前三为设备商(+6.35%)、物联网(+5.82%)、光模块(+4.02%);月涨跌幅光模块领先;年涨跌幅工业互联网、无线射频、控制器年初至今领先[8][19][23] - 估值:多数板块当前P/E低于历史平均水平,各板块当前P/B与历史平均水平有对比[29] 个股公司行情 - 涨幅领先个股:博创科技(+19.84%)、长光华芯(+12.19%)等[8][29] - 跌幅居前个股:移远通信(-2.84%)、和而泰(-2.67%)等[8][29] 海外动向 - Arm公司基于Arm架构处理器的服务器客户数量增至7万家,自2021年增长14倍;多家云计算巨头推出自研基于Arm架构服务器处理器[33]
对话千寻高阳:端到端是具身未来,分层模型只是短期过渡
晚点LatePost· 2025-07-10 20:30
具身智能行业趋势 - 具身智能技术已从学术研究阶段进入产业化阶段,突破将发生在市场而非实验室[2][13] - 行业正处于Scaling Law时刻,预计需要4-5年沉淀才能达到类似GPT-4的突破[2][29] - 技术路径已从500个研究方向收敛至100个左右,进入工程优化阶段[12][13] 技术路径选择 - 端到端VLA(vision-language-action)是行业终极方向,已在自动驾驶领域验证[19][20] - 短期分层方案(规划-感知-执行)更易工程实现,但长期将被端到端替代[22] - VLA模型通过统一处理视觉、语言和动作模块,实现任务理解和执行一体化[20] 数据训练方法 - 训练数据来源包括:互联网视频数据(1%可用率)、遥操作数据和强化学习数据[24][26] - 发现Scaling Law规律:数据量每增加10倍,模型精度小数点后多一个9[27][28] - 达到ChatGPT级别效果需100亿条有效互联网数据+1亿遥操数据+数千万强化学习数据[31] 机器人形态发展 - 人形设计因适应人类环境成为主流,但非必需形态[33][34] - L4阶段前轮式底盘+双臂可覆盖80%场景需求,双足非必须[33][37] - 双足平衡技术已实现高难度动作(如燕式平衡),工业级稳定仍需优化[37][38] 产业链分工 - 硬件本体价值有限,核心突破在于"大脑"(AI系统)[39] - 未来产业链将类似汽车行业,形成专业化分工(灵巧手、芯片等)[41] - 纯软件方案不可行,需针对具体硬件进行训练优化[40] 中美发展差异 - 中国优势在于硬件制造和维修效率(美国维修周期长达数周)[6][7] - 美国在快慢系统等核心技术方面暂时领先[6]
为什么 AI 搞不定体力活——对话清华大学刘嘉:这才是生物智能最难攻克的“万里长征” | 万有引力
AI科技大本营· 2025-07-09 15:59
AI发展历史与现状 - AI经历两次寒冬,第二次从20世纪90年代持续至21世纪第一个十年,期间人工智能领域备受冷落[1][2] - 1997年MIT人工智能实验室处于无人问津状态,而脑科学领域呈现蓬勃发展态势[3][13] - 当前AI发展已进入与脑科学结合的关键节点,两者关系类似DNA双螺旋结构[3][19] AI与脑科学的交叉演进 - 人工神经网络早期发展深受脑科学影响,多位AI先驱具有心理学或认知科学背景[4][46] - 深度学习革命后AI与脑科学分道扬镳,但下一代AI可能需要重新借鉴脑科学发现[17][25] - 人类大脑进化采取双路径:神经元数量增加(860亿个)与神经元复杂度提升[23][24] - 当前AI仅模仿大脑新皮层功能(推理/语言),而小脑功能(运动控制)更难模拟[48][50] Scaling Law与模型发展 - Scaling Law是AI第一性原理,扩大模型规模是通向智能的必要条件[22][26][27] - 模型参数量必须达到临界规模才能展现真正智能,小模型只是"玩具案例"[21][22] - 所谓Scaling Law撞墙是商业炒作,实质是资源限制下的妥协[29][30] - 国内多数模型采用蒸馏技术,导致继承原始模型的三观对齐问题[29] 学术界与工业界分工 - 大学应专注0到1的颠覆式创新,企业负责1到100的工程优化[32][34] - 工业界竞争呈现赢者通吃格局,技术路线之争最终只有一种算法存活[37][38] - 企业应避免开发专用模型,通用模型专家化将取代专业模型[40][41] AGI发展路径 - 通向AGI的三条路线中,NLP因具备高质量数据和"已知的未知"特性而胜出[52][54] - 当前大模型仅能压缩人类已有知识,缺乏0到1的创造力[55][56] - 语言模型仅模拟人类慢思维系统,快思维系统仍需脑科学突破[57][58] AI对行业的影响 - 知识密集型岗位将消失95%,仅保留具有稀缺性的TOP 5%从业者[60][61] - 教育需转向通识培养,清华已实施书院制改革和"AI+学科"跨领域教育[65][66] - 通用模型专家化趋势下,创业公司应避免与基础模型厂商直接竞争[43][44] 技术瓶颈与突破方向 - 数据枯竭是重大挑战,需突破创造力瓶颈实现自我数据生成[55] - 当前AI仅完成模仿生物智能的第一步,具身智能面临小脑功能模拟难题[49][50] - MoE架构等"新"技术实际源自认知科学的"全局工作空间"理论[46]
原来Scaling Law还能被优化?Meta这招省token又提效
机器之心· 2025-07-06 11:49
Transformer架构演进 - 2017年《Attention Is All You Need》论文提出Transformer架构,现引用量接近19万次,成为AI领域基础范式[1][2] - Transformer核心改进方向包括Multi-Token Attention和Multi-matrix Factorization Attention等新型注意力机制[2] - Meta最新研究提出旋转不变型三线性注意力机制,性能可改变Scaling Law系数[4] 2-simplicial Transformer技术突破 - 2-simplicial Transformer源自2019年研究,将点积注意力扩展为三线性形式[7][19] - 新型注意力机制通过三线性积构建三阶张量,计算复杂度为O(n^3)[22][23][35] - Meta采用滑动窗口参数化(O(n×w1×w2))降低计算负担,最优配置为w1=512,w2=32[32][37] Scaling Law理论框架 - 神经Scaling Law公式:L(N,D)=E+A/N^α+B/D^β,其中E为不可约损失[13][14] - Hoffmann等(2022)实验得出a≈0.49,b≈0.5,表明token数量需与模型规模同步扩展[15][17] - 2-simplicial Transformer展示更优参数扩展指数,token增长可慢于参数增长[10][50] 实验性能对比 - 在1B参数模型中,2-simplicial注意力使GSM8k和MBPP任务分别提升0.79%和0.88%[43] - 参数规模超过2B后,2-simplicial注意力优势减弱,3.5B模型在MMLU-pro任务下降2.15%[43][45] - 2-simplicial注意力斜率α更陡峭,显示其Scaling Law指数优于传统Transformer[49][50] 计算优化实现 - Meta使用Triton实现新型注意力机制,采用分组查询注意力(GQA)比率64提升计算效率[38] - 对比标准点积注意力(复杂度2n^2),窗口化2-simplicial注意力复杂度为6πw1w2[33][35] - 引入在线softmax等核优化技术,延迟最优配置达55.1ms(16k窗口)[32][39]
华泰证券:算力链高景气延续,下半年AI眼镜有望迎来拐点
快讯· 2025-07-02 08:01
电子板块2025年下半年展望 - 大模型架构持续迭代,Scaling Law有望再次加速叠加推理需求增长,算力链高景气度有望延续 [1] - 国内制造端先进工艺产能持续推进,新产能开出将提升国产设备商的国产化率 [1] - AI眼镜下半年或迎来拐点,智驾领域因价格带下探产业趋势有望加速 [1]
公布最新研究!这次1XWorldModel如何颠覆人形机器人领域?
机器人大讲堂· 2025-06-29 11:53
1X World Model技术突破 - 1X Technologies发布全球首个人形机器人世界模型1X World Model,该模型基于视频生成技术(Sora)和自动驾驶世界模型(E2EAD)构建,能通过输入图像状态与动作指令模拟未来场景,解决具身机器人评估难题[1][2] - 模型在动作可控性方面取得突破,能根据不同动作命令生成多样化结果,精准模拟物体间交互如抓取箱子、保持其他箱子静止等效果[3][5] - 与主流文本转视频模型不同,1X World Model需由精确机器人轨迹控制,能精准模拟执行精确动作的后果,如开门、擦拭台面等复杂操作[7][8] - 模型预测与现实执行结果对比验证表现出色,能准确复现开门动态过程,严格遵循指令轨迹完成空抓动作,具有可靠评估不同策略执行质量差异的能力[10] 模型表现评估方法 - 传统基于物理的模拟器(如Bullet、Mujoco等)难以精准模拟现实复杂交互,需大量手工建模且仿真精度有限[14] - 1X World Model通过采集超3000小时真实操作数据,利用多模态数据融合技术,直接从海量真实传感器数据中学习世界动态,准确预测未来场景演变[16] - 模型能准确预测未来状态和任务成功率,预测结果与现实表现保持高度一致统计分布特性,为模型架构优化和检查点选择提供数据支撑[18] - 实证表明在1X World Model评估中表现突出的检查点实际评估中通常更优,当两个检查点存在15%的真实成功率差距时,具备70%对齐度的世界模型能以90%准确率预测更优策略[20] 扩展定律验证与多任务迁移 - 研究表明1X World Model策略评估准确性随数据规模提升而改善,在Airfryer、Arcade和Shelf三个任务上验证了数据规模的影响[25] - 定量分析显示随着数据量增加,模型预测准确率持续提升,例如增加交互数据后能准确建模托盘分离运动及底座限制等细微物理交互[32] - 多任务迁移实验表明,在仅有2.16亿token的Shelf数据上模型对齐度为63.06%,结合14.6亿token的Arcade数据后提升至71.17%,验证了通过任务经验积累实现泛化的可行性[35] - 机器人自主策略rollout数据(特别是失败案例)对提升对齐度至关重要,缺乏失败数据会使模型过度乐观,出现错误估计抓取半径等问题[38] 行业影响与未来展望 - 1X World Model解决了机器人领域高质量数据稀缺问题,提供了精准评估任务表现的统一框架,使通用智能机器人发展迈入新阶段[41] - 模型进展可能让机器人技术经历类似"GPT时刻",加速家庭服务机器人商业化落地,并重塑整个AI产业竞争格局[42] - 随着训练算力提升和真实世界数据积累,模型预测准确率持续攀升,预示着机器人技术可能即将迎来关键的"数据奇点"[41]
通往 AGI 之路的苦涩教训
AI科技大本营· 2025-06-26 19:10
核心观点 - Google DeepMind CEO Demis Hassabis预测未来5到10年内有50%概率实现通用人工智能(AGI)[1] - AI发展历程中最大的教训是过度依赖人类经验而非算力与数据规模[2][3] - 当前AGI探索面临技术路径的隐忧,包括强化学习的局限性、脑模拟的算力瓶颈以及NLP的认知边界问题[9][14] 技术路径分析 - **强化学习**:虽为早期突破性技术,但存在"短视"缺陷,需结合更宏观的智能框架[14] - **脑模拟**:受限于算力瓶颈与理论盲区,难以完全复现人类认知机制[14] - **自然语言处理(NLP)**:虽进展迅速,但语言能力不等同于认知能力,模型输出与真实思想存在本质差异[9][15] 行业趋势与反思 - **算力驱动**:历史表明AI突破的核心引擎是计算规模而非人类直觉[2][3] - **大模型争议**:Scaling Law下参数膨胀可能掩盖智能本质,引发"进化还是幻觉"的质疑[15] - **跨学科融合**:脑科学与AI交叉研究成为新方向,强调对世界理解与知识迁移的能力[7][13] 关键人物与事件 - **刘嘉教授**:从AI转向脑科学再回归,提出AGI需融合认知科学、心理学等多学科视角[7][13] - **AlphaGo事件**:标志性技术转折点,推动研究者重新审视智能的本质与构建路径[7] - **《苦涩的教训》**:Richard Sutton指出AI发展应放弃人类经验依赖,专注算力与数据扩展[2][3] 未来探讨方向 - AGI构建是否需突破语言模型的表层能力,实现真正的认知理解[9][15] - 技术路线选择如何平衡短期效果(如NLP)与长期智能本质(如脑模拟)[14] - 跨学科研究(脑科学+AI)对突破现有范式局限的潜在价值[7][13]
Kimi还能找到月之亮面吗?
36氪· 2025-06-25 16:08
行业竞争格局演变 - 行业焦点从Kimi的长文本能力转向多模态生成(视频/代码)和Agent应用[1] - 大厂入场导致竞争加剧:字节豆包依托抖音生态实现流量垄断 单月投流预算达1.24亿[9] - 技术护城河被侵蚀:DeepSeek开源长文本模型 豆包整合视频库 Kimi仍依赖单一文本交互[12] Kimi发展历程分析 - 早期技术优势:2023年率先实现20万至200万字长文本处理 形成非对称竞争力[2][3] - 资本追捧因素:技术稀缺性+创始人学术光环(CMU博士/苹果谷歌导师)+资本防御性布局焦虑[3][4] - 估值逻辑:参照OpenAI 860亿美元估值 阿里8亿美元投资占股36%[4] 战略失误与运营问题 - 投流失控:单月最高投放2.2亿 日均烧钱700万 投流费用占比达70%[7][30] - 用户质量失衡:DAU从50.83万飙升至589.7万但高知用户流失 品牌调性受损[8][11] - 技术空心化:资源向流量倾斜 延误多模态和视频理解等关键技术升级[11] 潜在突围方向 - 提升价值密度:优化Kimi Researcher的交互逻辑 实现"打断+追问"深度研究功能[15][16] - 深耕垂直场景:医疗病历分析/法律条款审查等B端需求 配套完整开发者工具链[18][19] - 聚焦核心用户:服务数千万效率工作者 建立内容质量而非数量的竞争优势[22][23] 行业启示 - 战略定力关键:识别主要矛盾(真实付费需求) 避免被资本和流量带偏节奏[25][26] - 商业化前置:产品开发需同步规划变现路径 可持续增长率公式揭示投流占比应<30%[29][30] - 护城河本质:客户付款凭证比融资头条更重要 技术信仰需通过商业闭环验证[31]
Kimi没有梦想
虎嗅· 2025-06-24 13:32
行业动态 - AI行业产品迭代频繁,大模型版本更新速度达月均一次,但市场关注度集中于AI自媒体领域[1] - 行业存在代际更替现象,当前"杭州六小龙"取代了上一代"AI六小虎"的行业地位[2] - 技术路线争议显现,2024年11月OpenAI科学家质疑Scaling Law局限性,DeepSeek推出基于强化学习的新模型挑战传统技术路径[20][21] Kimi公司发展历程 - 2023年成立初期以长文本处理为技术特色,创始人杨圣提出"长文本是AI新内存"的理论框架[11][12] - 2023年内完成两轮融资累计近20亿人民币,2024年初获阿里8亿美元投资后估值飙升至30亿美金[13][14] - 公司战略多次转向,从长文本主业扩展到Agent开发、社区运营等新业务线[5][7] 运营策略问题 - 采取激进用户增长策略,投入大量资源进行短视频投流,内容定位偏离技术路线[16] - 早期投资人推崇"数据飞轮"理论,但2024年底行业证实Scaling Law存在技术天花板[18][19][20] - 营销决策被质疑模仿移动互联网烧钱模式,类比ofo单车的失败案例[17] 公司危机事件 - 2024年11月11日爆发重大商业伦理争议,创始人涉及老股东仲裁案及套现指控[22] - 舆论危机导致融资渠道受阻,尤其失去国资投资可能性[23] - 市场评价公司为"大号版循环智能",反映商业模式可持续性受质疑[24] 创始人背景 - 杨圣以卡耐基梅隆博士学历和AGI信仰建立"天才少年"人设,初期技术路线选择具前瞻性[11] - 但后期战略执行出现偏差,未能维持技术领先优势[6] - 创始人叙事光环因商业纠纷完全破裂,影响公司形象[22]