具身AI

搜索文档
ChatGPT见顶后,AI新战场世界模型:中国已经先行一步!
老徐抓AI趋势· 2025-07-31 09:03
AI发展阶段 - AI发展分为三个阶段:感知AI、生成式AI、具身AI [5][7][16] - 感知AI阶段始于2012年,图像识别准确率超越人类,但知识量有限(1400万张图片≈人类10年标注时间)[7][9] - 生成式AI阶段始于2017年,Transformer架构和GPU算力提升推动大语言模型发展,GPT-3训练数据达7500亿Token(≈人类10万年书写量)[12][13] 大语言模型瓶颈 - 互联网训练数据预计2028年枯竭,大语言模型增长面临天花板 [15] - AI需转向新学习方式,通过真实环境交互实现持续进化 [16][18] 世界模型定义与价值 - 世界模型是高精度物理规律模拟器,支持AI虚拟试错训练 [19] - 解决传统AI生成视频的物理错乱问题(如穿车、不合逻辑的物体交互)[20] - 自动驾驶训练成本大幅降低:虚拟场景可定制天气、光线、路况,替代百万小时现实数据采集 [19][22][23] 商汤科技技术突破 - 推出"开悟"世界模型,支持自然语言描述生成多视角物理合规视频 [22] - 发布"悟能"平台,整合世界模型与感知/导航能力,构建机器人虚拟训练环境 [24] - 技术应用覆盖自动驾驶、机器人操作等物理交互场景 [25][26] 行业竞争格局 - 世界模型将重塑AI数据生产方式(自我生成替代互联网采集)、训练效率(秒级仿真)、产业落地(制造业/医疗/教育等)[28] - 类比移动互联网发展:大语言模型类似"智能手机",世界模型类似"App Store",推动AI进入物理世界 [28] - 中国企业在世界模型领域已提前布局,技术升级节奏可能快于大语言模型周期(1-2年内或现突破)[28][30] 经济影响 - 世界模型与具身AI结合将推动机器人从工具向伙伴演进,加速AGI时代到来 [28] - 技术革命有望显著拉动经济增长,类似移动互联网对生产力的提升效应 [29]
通信行业:OpenAI发布chatGPTAgent并预热GPT5,英伟达端侧Thor即将发货
山西证券· 2025-07-25 18:36
报告行业投资评级 - 领先大市 - A(维持) [1] 报告的核心观点 - OpenAI通用智能体上线标志大模型迈入Agent时代,其对算力Token的无上限消耗以及工具调用能力将极大驱动GPU算力和云计算通用服务器的需求 [3][16] - OpenAI全新推理模型在IMO2025上达到金牌水平,且GPT - 5即将发布,此次突破依靠通用强化学习和测试时计算扩展方面的新突破 [4][17] - 英伟达Jetson Thor即将发售,物理AI已到爆发临界点,在云加端配合下英伟达有望推动产业发展,端侧算力芯片有轻、中、大三种类型值得关注 [5][18] - 算力板块多环节龙头股创新高,业绩置信度提升、中美经贸关系改善以及中长期需求预期提升是催化的三重因素,建议把握做多窗口,同时可左侧布局GPU和ASIC新架构相关预期差领域 [8][20] 根据相关目录分别进行总结 周观点和投资建议 周观点 - OpenAI发布全新ChatGPT Agent,完成复杂任务能力大幅提升,对算力和服务器需求有极大驱动作用 [3][16] - OpenAI新推理模型获IMO金牌并预告GPT5即将亮相,在推理和强化学习方面有重大进步 [4][17] - 英伟达Jetson Thor即将销售,有望推动物理AI产业发展,端侧算力芯片分三种类型值得关注 [5][18] - 算力板块多环节龙头股创新高,建议把握做多窗口,左侧布局相关预期差领域 [8][20] 建议关注 - 海外算力关注中际旭创、东山精密、光库科技、仕佳光子、鼎通科技、鼎泰高科 [9][21] - 端侧AI关注瑞芯微、天准科技、中科创达、泰凌微 [9][21] 行情回顾 市场整体行情 - 本周(2025.7.14 - 2025.7.18)市场整体上涨,申万通信指数涨7.56%,创业板指数涨3.17%,深圳成指涨2.04%,科创板指数涨1.32%,沪深300涨1.09%,上证综指涨0.69% [9][21] 细分板块行情 - 涨跌幅:周涨幅最高的前三板块为光模块(+27.45%)、液冷(+10.16%)、IDC(+10.01%) [9][21] 个股公司行情 - 新易盛、中际旭创、博创科技、英维克、光环新网涨幅领先,涨幅分别为+39.01%、+24.33%、+13.12%、+11.49%、+10.46% [9][34] - 中国移动、中国卫通、中天科技跌幅居前,跌幅分别为 - 0.95%、 - 0.80%、 - 0.57% [9][34] 海外动向 - 英伟达副总裁介绍在RISC - V CPU上的发展成果,宣布CUDA软件将支持在RISC - V上全面部署 [38] - ASML发布2025年二季度财报,营收等增长但对后续营收目标低于预期,股价大跌 [38] - 英伟达恢复向中国销售H20,并将推出新的兼容GPU [38]
图像目标导航的核心究竟是什么?
具身智能之心· 2025-07-04 20:07
研究背景与核心问题 - 图像目标导航需要两种关键能力:核心导航技能(如检测自由空间、障碍物)和通过比较视觉观察与目标图像计算方向信息 [2] - 当前主流方法依赖专门的图像匹配或预训练计算机视觉模块进行相对位姿估计 [2] - 研究聚焦于是否可以通过强化学习对完整智能体进行端到端训练来解决该任务 [2] 核心研究内容与方法 - 探讨了多种架构设计对任务性能的影响,核心在于如何支持图像间的隐式对应计算 [3] - 主要架构包括Late Fusion、ChannelCat、SpaceToDepth + ChannelCat、Cross-attention [4] - 实验设计使用Habitat模拟器和Gibson数据集,动作空间包括前进、左右转向和停止 [7] - 评估指标包括成功率(SR)和SPL(成功路径长度与最优路径长度的比值) [7] 主要发现 - 早期patch级融合(如ChannelCat、Cross-attention)比晚期融合(Late Fusion)更关键,能更好支持隐式对应计算 [8] - ChannelCat(ResNet9)在Sliding=True时SR达83.6%,远高于Late Fusion的13.8% [6] - Cross-attention(DEBiT-b)在Sliding=True时SR达90.5% [6] - 低容量架构(如ResNet9)在Sliding=False时SR从83.6%降至31.7%,而DEBiT受影响较小(从90.5%降至81.7%) [8][9] - 能力迁移性:将Sliding=True训练的感知模块权重迁移到Sliding=False并微调后,SR从31.7%提升至38.5% [10][11] 导航与相对位姿估计的关联 - 导航性能与相对位姿估计性能存在相关性,DEBiT在两者上均表现最优 [12] - 导航成功率(SR)与相对位姿估计精度(误差<2m, 20°)呈正相关 [12] 结论 - 支持早期局部融合(如交叉注意力、ChannelCat)的结构对任务成功至关重要 [15] - 模拟器的Sliding设置显著影响性能,但通过迁移感知模块权重可部分迁移至真实环境 [15] - 导航性能与相对位姿估计能力相关,验证了方向信息提取的核心作用 [15] - 简单低容量架构仅通过RL训练难以成功解决图像目标导航,预训练仍不可或缺 [15]
传媒中期策略报告:关注扎实基本面支持下有新业务推进及兑现的龙头标的-20250704
国投证券· 2025-07-04 16:52
核心观点 - 传媒板块需面向AI重新叙事,下半年侧重扎实基本面支持下有新业务推进及兑现的龙头标的,游戏侧重龙头,影视侧重有预期差的黑马标的,关注有产业并购逻辑及预期的标的 [1][2] 传媒行业及传媒板块历史回溯(2008年至今) 回溯传媒互联网,2005年或是起点 - 1994 - 1996年为互联网基础设施建设初期,摸索出互联网四大变现方式,初代互联网公司气质突出 [10] - 1998年前后是“极客当道”的蓬勃时期,众多互联网公司成立,商业模式未清晰 [10] - 2000年互联网泡沫破灭倒逼出四大变现模式,移动梦网提供收入基本盘,“持续改进策略”奠定互联网产品成功模式 [11] - 2002年开启内容运营时代,“持续改进策略”延续至今 [11] - 2003 - 2004年电商和网游崛起,腾讯上市前探索多方向业务和搭建会员体系 [12] - 2005年开启“内容下沉”之路,内容形态创新,分发平台酝酿交接,为后续发展奠定基础 [12][15] - 2006年社交模式兴起,2007 - 2008年进入黄金时代 [14] - AI时代可能率先重塑影视、动漫化制作产业链 [16] 2018年是流量红利的顶峰,传媒互联网行业也因政策开始出清 - 2018年流量红利达顶峰,智能手机出货量、移动互联网用户规模增长见顶,下沉市场用户增长饱和,互联网巨头战略调整,大巨头崛起减少 [20][21] - 强变现模式崛起,传统商业模式变现效率降低,会员经济成重要模式,买量发行和直播电商兴起 [24][25] - 影视单集价格和电影票房攀升后回落,游戏形成稳定竞争格局,出海浪潮被推高 [26][30] - 2017 - 2024年影视、游戏、教育、互联网平台等行业受政策严监管,资本市场估值体系被打断,2024年强监管转入常规监管,出清结束 [35][39] 传媒板块的出清(2017 - 2024) - 2011 - 2013年传媒板块交易额占比提升,指数表现靓丽,受政策支持 [41] - 2015年牛市结束后,传媒板块指数下行,成交额占比宽幅震荡,2017 - 2018年明显下降,受影视、游戏政策严监管影响 [42] - 2019 - 2020年指数和交易额占比有波动,受游戏版号、云游戏、疫情和平台型经济监管影响 [42] - 2021 - 2022年传媒成交额占比达阶段性历史最低,2022年10月指数创阶段性新低 [42] - 传媒板块出清受大盘、政策等多重因素压制,2022年10月和2024年9月为指数历史最低点,2024年因新技术和新内容形态创新出清结束 [43][44] - 近5年机构持仓比例波动,2023年后传媒板块交易额占比与机构持仓不匹配,量化资金偏好交易传媒标的 [45] “老树发新芽”,传媒板块当下的产业逻辑图 - 传媒互联网受益于互联网发展,2005年“内容下沉”带来内容创新,2010年后移动化带来多方面变化,2018年流量红利消退,强变现模式发展,影视和游戏板块有新变化 [48] - 2023年移动互联网用户数饱和,chatGPT出现,2024年平台型经济监管转向常规化,传媒板块需面向AI重新叙事,延伸出产业逻辑线 [49] - 传媒板块当下产业逻辑图包括纵向13个细分方向和横向5个逻辑,生成式AI和具身AI影响深刻,新生态系统评价体系未知,AI时代内容门槛和壁垒将提高 [52][57] 游戏板块回溯及数据分析(财务、估值等) 2013年以来,为何游戏子板块的估值一路下行? - 游戏板块26家上市公司,在财务、人员结构、股权性质等方面有不同特征 [62][65] - 游戏板块2010年后估值变化分三个阶段:2015年牛市顶点前,2013年影游量价齐升,2014年底牛市启动后估值略有下降但仍处高位;2017年影视严监管和2018年版号停发使估值下行,后因版号恢复等回升;2019年云游戏和疫情后估值短暂上行又下行,2024年2季度接近历史底部 [63][68][69] 2013年的高估值,源于端游/页游转向手游的估值切换 - 掌趣科技收购案例表明,端游/页游转向手游时,上市公司市值被整体给予手游估值水平,传媒估值抬升核心在于爆款内容创新,降本增效等难以明显抬升估值 [74][75][76] 游戏出海为何一直未被给予高估值? - 游戏出海业务未获额外估值溢价,市场将其视为正常业务,与“产品形态创新”“玩法创新”不同 [77] 游戏板块最新的基本面梳理及行业格局 - 按毛利率、净利率和ROE筛选出吉比特、巨人网络、恺英网络、三七互娱代表游戏板块龙头 [78] - 2017年后游戏行业格局基本定型,2021年《原神》奠定米哈游手游龙头地位 [80] 出版板块回溯及数据分析(财务、估值等) 2023年出版子板块为何整体估值上行? - 2023年chatGPT演绎中,出版板块因内容版权可作数据语料库面临估值重估 [81] - 2024年市场偏好高分红板块,出版板块主要龙头股息率高,业绩稳健,分红率表现好 [84] 出版板块最新的基本面梳理及行业格局 - 出版板块29家上市公司,按营业收入排序,凤凰传媒等6家公司可代表龙头,龙头公司毛利率、净利率和ROE有一定特征 [87] - 出版板块无明显行业格局,每个省有出版集团,教材教辅业务是普遍主营业务 [89] 传媒板块2025年上半年总结 - 2025年上半年传媒板块涨幅居前,无明显主逻辑,先后受益于《哪吒2》、IP衍生、新游上线和产品形态创新 [90] - 涨幅靠前标的受不同因素催化,跌幅榜多为影视、营销和出版标的,与行业现状有关 [91] 站在年中,审视2024年底传媒2025年策略观点 - 2024年底策略报告强调AI对新内容形态的催化,2025年上半年短剧等景气上行印证观点,游戏和出版是机构配置重点,游戏板块上半年表现好于出版子板块 [93] - 2025年策略观点中并购行情上半年未演绎,关注下半年 [94] 2025年下半年板块策略(修正与强化) - 下半年侧重扎实基本面支持下有新业务推进及兑现的龙头标的,游戏侧重龙头,影视侧重有预期差的黑马标的,营销平淡,出版行情取决于高分红标的偏好,关注有产业并购逻辑及预期的标的 [2][95]
下半年CCF-A/B类会议窗口期收窄,发一篇具身论文还来得及吗?
具身智能之心· 2025-06-29 17:51
下半年CCF会议投稿机会 - 错过上半年顶级会议投稿窗口可能导致研究成果发布延迟和错失学术交流机会 下半年CCF会议提供了关键替代渠道[1] - 高效利用投稿机会面临核心挑战 包括时间压力下确保论文质量 选题新颖性 实验严谨性 写作规范性和投稿策略匹配度[1] - 提供1v1指导课程帮助解决上述挑战 通过资深导师介入论文撰写与修改过程 提供个性化解决方案以提升论文竞争力[1] 论文辅导面向的痛点人群 - 计算机专业本硕博学生面临导师放养 缺乏科研指导[4] - 有科研需求需积累经验提升职称或学术成就的人群[4] - 人工智能领域从业者希望通过科研提升职场竞争力[4] - 考研申博留学需提升简历含金量的群体[4] 论文辅导解决的问题 - 解决导师放养导致的科研指导缺失问题[3] - 帮助建立科研思维和系统知识体系[3] - 掌握经典与前沿算法 形成清晰知识框架[3] - 实现模型理论与代码实践结合 提升实践能力[3] - 将baseline深化拓展形成个人论文成果[3] 论文辅导阶段与交付成果 - 选题阶段:导师引导构思或直接提供论文idea[5] - 实验阶段:全程指导实验设计 模型搭建 调参和idea验证[7] - 写作阶段:指导完成高质量论文写作 符合审稿人要求[9] - 投稿阶段:推荐合适期刊 提供精准投稿建议[14] - 录用阶段:确保论文在周期内完成录用[15] 辅导过程具体内容 - 选题阶段:梳理研究成果 提供文献 指导创新点构思[11] - 实验阶段:完成实验设计 数据处理 代码实现和结果分析[12] - 写作阶段:剖析优秀案例 搭建论文框架 润色论文内容[13] - 投稿阶段:筛选期刊会议 指导回复审稿意见[17] 课程服务与支持 - 腾讯会议在线1v1上课 微信群日常答疑[18] - 班主任全程督学跟进学习进度[16] - 私人群提供与主讲导师直接沟通渠道[24] - 线上语音会议结合文字/语音答疑[24] 课程交付成果 - 产出一篇目标区位的高质量论文[19] - 掌握完整科研流程和论文写作技巧[19] - 提升科研能力和专业素养[19] - 获得投稿选刊技巧和前沿技术认知[23] 课程指导周期 - 总周期=核心指导期+维护期 根据论文区位3-18个月不等[22] - CCF A/SCI 1区:核心36次课+9个月维护[22] - CCF B/SCI 2区:核心28次课+6个月维护[22] - CCF C/SCI 3区:核心28次课+6个月维护[22] - EI期刊/会议:核心24次课无维护期[22] - 硕士论文周期以学员需求为准[26] 课程特色亮点 - 主讲导师为顶会审稿人 提供全方位指导[24] - 每周1次45分钟1v1会议指导课[25] - 维护期通过微信群进行审稿意见答疑[25] - 提供基础课程供学员自主学习[28] - 专属沟通群配备导师和班主任答疑[28]
清华大学最新综述!具身AI中多传感器融合感知:背景、方法、挑战
具身智能之心· 2025-06-27 16:36
具身AI与多传感器融合感知 - 具身AI以物理实体为载体,通过动态环境实时感知实现自主决策和行动能力,是突破AI发展瓶颈、实现通用人工智能(AGI)的关键路径[3] - 多传感器融合感知(MSFP)对实现具身AI的稳健感知和准确决策能力至关重要,需融合视觉相机、毫米波雷达、激光雷达等多模态传感器数据[3] - 当前MSFP方法面临跨模态数据异质性、时空异步和传感器故障等固有挑战[4] 传感器数据与数据集 - 相机数据捕捉丰富外观特征但对光照敏感,激光雷达提供高精度3D点云但对天气敏感,毫米波雷达在恶劣天气性能良好[10] - KITTI数据集包含14,999张图像及相应点云,采集于德国卡尔斯鲁厄及附近城市[13] - nuScenes数据集在波士顿和新加坡采集,包含140万张相机图像、39万次LiDAR扫描和140万次雷达扫描[13] - Waymo Open数据集包括126万个3D边界框和118万个2D边界框,涵盖白天、夜间、黎明、黄昏和雨天场景[14] 感知任务 - 目标检测任务需准确定位和识别物体,2D检测输出类别和2D边界框,3D检测包括3D位置坐标、尺寸和航向角[16] - 语义分割任务将场景中的每个基本单元分类为语义类别[17] - 深度估计任务从传感器数据获取场景深度信息,为具身智能体提供3D几何理解[17] - 占用预测任务提供对3D空间的密集语义理解,通过离散化3D空间为体素预测占用状态和语义类别[17] 多模态融合方法 - 点级融合方法集成点云几何坐标信息与图像语义细节,如PointFusion、PointPainting等方法[23][24] - 体素级融合方法将LiDAR点云转换为规则网格,如CenterFusion、VPFNet等方法[25][26] - 区域级融合方法从2D图像和其他模态聚合特定区域信息,如AVOD、RoarNet等方法[28][29] - 多级融合方法从不同级别集成多模态信息,如MVX-Net、EPNet等方法[30][31] 多智能体融合方法 - 协作感知技术可集成多个智能体和基础设施的感知数据,解决遮挡和传感器故障问题[35] - CoBEVT通过稀疏Transformer生成BEV分割预测进行协作处理[35] - V2VNet基于图神经网络融合多辆车的中间特征表示[36] - When2Com框架学习构建通信组和通信时机,减少带宽使用[37] 时间序列融合方法 - 密集查询方法为高分辨率3D或BEV空间中的每个查询点分配固定位置,如BEVFormer、BEVFormer v2[40][41] - 稀疏查询方法因其效率、准确性和适用于稀疏感知任务而受欢迎,如StreamPETR、Sparse4D系列[42][43] - 混合查询方法结合密集和稀疏查询范式,如UniAD、FusionAD等方法[45][46] 多模态LLM融合方法 - 视觉-语言方法结合视觉和文本数据进行语义对齐,如X-Driver、Mpdrive等方法[50] - 视觉-LiDAR-语言方法集成视觉、LiDAR和语言数据进行3D空间理解,如DriveMLM、MAPLM等方法[51][52]
清华大学最新综述!当下智能驾驶中多传感器融合如何发展?
自动驾驶之心· 2025-06-26 20:56
具身AI与多传感器融合感知的重要性 - 具身AI是以物理实体为载体,通过实时感知实现自主决策和行动能力的智能形式,在自动驾驶、机器人群体智能等领域有广泛应用,是突破AI发展瓶颈、实现通用人工智能(AGI)的关键路径 [2] - 传感器数据理解是连接物理世界与数字智能的核心环节,具身智能体需要融合视觉相机、毫米波雷达、激光雷达(LiDAR)、红外相机和IMU等多模态传感器数据以实现全景感知 [2] - 多传感器融合感知(MSFP)对实现具身AI的稳健感知和准确决策能力至关重要,例如视觉相机易受光照变化干扰,而激光雷达在雨雾天气性能会大幅衰减 [2] 现有研究的局限性 - 当前基于AI的MSFP方法在具身AI中面临跨模态数据的异质性使得特征空间难以统一的挑战 [3] - 不同传感器之间的时空异步可能导致融合误差,传感器故障(如镜头污染、信号遮挡)可能导致多模态信息的动态丢失 [3][4] - 现有综述大多面向单一任务或研究领域,如3D目标检测或自动驾驶,缺乏对多智能体融合、时间序列融合等MSFP方法多样性的考虑 [4] 传感器数据 - 相机数据可捕捉物体的颜色、形状和纹理等丰富外观特征,但对光照条件敏感,在夜间和恶劣天气下图像质量显著下降 [7] - 激光雷达(LiDAR)数据直接输出包含空间几何信息的高精度3D点云,在3D感知中具有独特优势,但对天气敏感且点云数据稀疏不均匀 [7] - 毫米波雷达数据在恶劣天气下性能良好,可直接测量物体速度,但点云更稀疏难以准确描述物体轮廓 [10] 数据集 - KITTI包含14,999张图像及相应点云,数据采集车辆配备两台灰度相机、两台彩色相机、一个Velodyne 64线LiDAR等设备 [13] - nuScenes包括700个训练场景、150个验证场景和150个测试场景,总计5.5小时,包含140万张相机图像、39万次LiDAR扫描 [13] - Waymo Open包括感知和运动数据集,感知数据集中的注释包括126万个3D边界框、118万个2D边界框 [14] 感知任务 - 目标检测是通过传感器获取的数据准确定位和识别各种类型的物体,在3D目标检测场景中需包括目标的3D位置坐标、尺寸信息和航向角 [16] - 语义分割任务旨在将场景中的每个基本单元分类为语义类别,分割模型需要为每个基本单元分配相应的语义标签或类别概率分布 [16] - 深度估计旨在从传感器数据中获取场景的深度信息,为具身智能体提供3D几何理解,对路径规划和决策控制等下游任务至关重要 [16] 多模态融合方法 - 点级融合方法实现LiDAR点云与图像数据在单个点级别的特征融合,通过集成点云的几何坐标信息与图像的语义细节提高多模态感知精度 [21] - 体素级融合方法将不规则的LiDAR点云转换为规则网格,在保留几何信息的同时实现高效处理,相机图像被集成到基于体素的方法中以获得更好的感知能力 [23] - 区域级融合方法侧重于从2D图像和其他模态聚合特定区域的信息,在模态之间的空间对齐更容易实现的场景中特别有效 [28] 多智能体融合方法 - 协作感知技术可以集成来自多个智能体和基础设施的感知数据,对解决遮挡和传感器故障问题至关重要 [34] - CoBEVT是第一个通用的多智能体多相机感知框架,通过稀疏Transformer生成BEV分割预测以进行协作处理 [34] - V2VNet引入了一个基于图神经网络的框架,用于融合来自多辆车的中间特征表示 [35] 时间序列融合 - 密集查询方法为高分辨率3D空间或BEV空间中的每个查询点分配固定的光栅化空间位置,BEVFormer通过可变形注意力机制实现多个相机视图中的自适应特征交互 [44] - 稀疏查询方法因其效率、准确性和适用于稀疏感知任务而在行业中越来越受欢迎,StreamPETR通过对象查询系统地在帧间传播长期信息 [47] - 混合查询方法结合密集和稀疏查询范式,以平衡计算效率和全面的场景理解,UniAD将感知、预测和规划集成在一个统一的框架中 [51] MM-LLM融合方法 - 视觉-语言方法结合视觉和文本数据进行语义对齐,X-Driver利用具有思维链推理和自回归建模的多模态大型语言模型实现卓越的闭环自动驾驶性能 [57] - 视觉-LiDAR-语言方法将点云特征与文本特征对齐,DriveMLM采用时间QFormer处理多视图图像,有效捕捉不同视角之间的时间动态和空间关系 [59] - MAPLM将3D LiDAR点云数据投影到BEV图像,并通过视觉编码器提取特征,使强大的视觉模型的使用成为可能 [60]
专家访谈汇总:类人机器人训练,催生推理专用芯片
阿尔法工场研究院· 2025-06-18 19:24
电子元件板块 - 电子元件板块近期涨幅超过5%,中京电子、沪电股份等个股涨停,反映资本市场对该板块景气度的强烈预期 [1] - 5G手机、智能穿戴设备等终端产品升级推动对高性能、小型化电子元件需求上升,5G手机中射频、滤波器等核心部件需求显著高于4G [1] - 国家政策支持电子元件产业,包括税收优惠、专项补贴等,旨在加快自主可控和关键技术突破 [1] - 国际贸易摩擦与供应链安全压力下,国产替代成为主线,国内厂商获得更大市场空间 [1] - 沪电股份全球PCB百强供应链扎实,深南电路在封装基板和高端装联领域有核心竞争力,中京电子等细分赛道成长性良好 [1] 算力与光通信 - 2024年新增资源超九成来自大型/超大型项目,高功率智算中心占比达40%,"东数西算"西部节点受益于电力、地价优势 [2] - 东山精密计划60亿元全资控股索尔思光电,其光模块覆盖10G~800G,客户包括数据中心、运营商与5G基站 [2] - 空芯光纤因超低延迟、超大带宽成为下一代通信关键赛道,2025年中国电信集采招标已明确推进 [2] - 新易盛、铖昌科技等公司在AI/5G应用落地逻辑下盈利与估值匹配度优,属"高增长、低估值"组合 [2] 东阳光投资纵慧芯光 - 东阳光拟9000万元投资纵慧芯光,持股2.575%,强调战略协同,结合液冷技术与光芯片提升数据中心解决方案竞争力 [2] - 纵慧芯光2024年亏损5830万元,2025年Q1亏损1532万元,未设业绩承诺,短期盈利能力弱 [2] - 东阳光2024年净利润同比下降44.54%,但2025年Q1同比增长超180%,主业改善支撑战略投资 [2] DDR4内存价格飙涨 - 三星、SK海力士、美光停止生产DDR4芯片转向DDR5/HBM,DDR4供应急剧收缩,5月价格单月暴涨53% [3] - 中国厂商如长鑫存储、长江存储迎来中低端DDR4市场份额快速提升窗口期,PC/消费类订单有望转移至国产阵营 [3] - 涨价为结构性机会,催化存储产业链国产替代,封测、模组等环节订单增长与ASP提升预期明确 [3] 人形机器人产业 - Token生成量暴涨驱动算力需求从G级跃升至TB级,催生推理专用芯片如NVIDIA Blackwell需求 [3] - 信息机器人与具身AI汇合,类人机器人训练转向Omniverse模拟训练+Thor部署 [3]
迈向通用具身智能:具身智能的综述与发展路线
具身智能之心· 2025-06-17 20:53
具身AGI的定义 - 具身AGI被定义为能够以人类水平的熟练度完成多样化、开放式现实世界任务的具身AI系统,强调其人类交互能力和任务执行能力 [3] 通用具身智能路线 - 论文提出从L1到L5的五级路线图,衡量和指导具身AGI的发展,每个级别基于四个核心维度:模态、类人认知能力、实时响应能力和泛化能力 [4] - L1(单一任务完成):机器人能够可靠地完成单一、明确定义的任务,但功能局限于特定任务领域 [7] - L2(组合任务完成):机器人能够处理组合任务,通过将高级人类指令分解为简单动作序列来执行,但能力仍限于预定义任务和技能库 [7] - L3(有条件的一般任务完成):机器人能够处理多种任务类别,表现出对任务、环境和人类指令的有条件泛化能力,但对全新或开放式任务的可靠性不足 [7] - L4(高度通用机器人):机器人展现出对广泛未见任务的稳健泛化能力,具备强大的多模态理解和推理能力 [7] - L5(全功能机器人):机器人能够满足人类日常生活的广泛需求,展现出类似人类的认知行为 [7] 现状和挑战 - 当前具身AI的能力处于L1和L2之间 [7] - 现有的具身AI模型大多仅支持视觉和语言输入,并且输出仅限于动作空间 [8] - 现有的机器人主要专注于任务特定的操作,缺乏高级的推理和社交互动能力 [11] - 大多数现有的具身AI系统以半双工方式运行,即在完全接收和处理指令后才开始行动,这使得它们在动态环境中表现不佳 [14] - 具身AI需要在推理和对话智能方面表现出色,类似于复杂的聊天机器人,并展示与人类偏好和伦理价值观的一致性 [17] L3∼L5核心能力组件 - 全模态能力:L3+机器人需处理超越视觉和文本的多模态输入(如听觉、触觉、热感等),并生成多模态响应(动作、语音、推理等) [18] - 类人认知行为:包括自我意识、社会关联理解、程序性记忆和记忆重组 [18] - 实时交互:现有模型因参数量限制难以支持全模态实时响应,且计算复杂度随序列长度平方增长 [19] - 开放任务泛化:当前模型依赖任务特定数据,缺乏物理规律的内化 [19] L3+机器人大脑框架 - 模型结构设计原则包括全模态流式处理和动态响应 [19] - 训练范式包括全模态从头训练、终身学习集成和物理导向训练 [20] 总结与未来挑战 - 具身AGI的发展路线图具有长期相关性 [20] - 未来挑战包括技术障碍以及伦理、安全和社会影响等方面的挑战 [20]
大摩解读“特马”开撕:马斯克精心设计,市场低估了他的能力,后续会有很多交易机会
华尔街见闻· 2025-06-11 14:45
马斯克的政治战略与特斯拉投资框架 - 马斯克近期关于美国"双赤字"的言论是精心设计的战略,旨在通过影响力将财政议题置于公众关注前沿 [2] - 摩根士丹利将马斯克的政治行动纳入特斯拉投资框架分析,认为其相信企业命运与国家财政实力紧密相关 [2] - 马斯克将美国主权信用比喻为"海上航船",强调国家财政健康是企业发展的终极锚点 [2] 马斯克的资产与市场影响力 - 马斯克拥有3000亿至3500亿美元资产(包括公开和私人资产),极小部分资产即可撬动国家政策讨论 [3] - 市场低估了马斯克的决心和承受负面冲击的能力,其参与政治活动对特斯拉的负面冲击是短期"牺牲" [3] - 马斯克目前管理5家公司,在唯一上市公司特斯拉中仅持有13%股份 [4] 特斯拉的股价波动与交易机会 - 若马斯克与总统分歧持续升级,特斯拉股价将面临更剧烈波动,但同时创造大量交易机会 [1][4] - 摩根士丹利维持特斯拉目标价410美元,较6月9日收盘价308.58美元存在33%上行空间 [6] 特斯拉在物理AI领域的长期前景 - 特斯拉在制造、数据收集、机器人/物理AI等领域的专业知识对美国保持具身AI竞争力至关重要 [5] - 摩根士丹利超配评级基于特斯拉在自动驾驶汽车、人形机器人等物理AI关键领域的能力 [6] - 预期不同实体间战略交叉合作时机临近,如Grok进入汽车、SpaceX装载Cybertruck等 [6] 特斯拉的市场定位 - 摩根士丹利维持特斯拉为美国汽车板块"首选股",看好其增长和利润机会远超传统电动汽车业务 [1][6] - 分析师认为特斯拉股价下跌是暂时的,长期前景仍被看好 [1]