Workflow
推理
icon
搜索文档
关注半导体,脑机接口,深海科技
2025-06-23 10:09
纪要涉及的行业和公司 - **行业**:芯片半导体、新消费、创新药、油气、油运、银行、保险、算力通信、新能源、白酒、稳定币 - **公司**:摩尔线程、盛合晶微、新易盛、世佳光子、沪电股份、小米 纪要提到的核心观点和论据 - **A股市场表现及影响因素**:本周A股市场整体缩量回调,成交额回到周均值1.22万亿元,较上周减少1500亿元,港股跌幅更大 影响因素包括中伊冲突升级致风险偏好下降、陆家嘴论坛政策博弈、沪指技术阻力位、宏观经济基本面复苏乏力、市场内生结构问题、季末及中报期资金切换、港股调整联动等[1][2] - **各板块表现** - **抗跌板块**:红利或蓝筹价值板块相对抗跌,资金流向银行和保险板块避险,地缘事件驱动油气、油运板块走强[1][5] - **强势板块**:芯片半导体行业表现较强,科创板分层政策支持未盈利硬科技企业上市,中美博弈加速芯片制造材料设备国产化,存储领域国产化预期提升[1][12] - **调整板块**:新消费和创新药板块拥挤度高,对利空敏感利好钝化,港股新消费和创新药板块拥挤度高且新股破发[1][5] - **轮动反弹板块**:稳定币因美股映射及政策催化持续超预期,推理算力通信防线、海丰业绩预期方向、军工、新能源等低位方向及科创芯片有表现,市场轮动方向多且速度快[9] - **创新药政策影响**:创新药临床试验申请期缩短至30天政策超出多数投资者预期,但因行情阶段性尾声,政策提振效果较弱[6][7] - **市场情绪指数**:本周市场情绪指数明显比大盘表现更弱,下跌超2.6%,涨停个数减少,市场活跃度下降[8] - **算力通信产业链**:6月初反弹,上周不佳,因北美算力叙事承压、美国大厂业绩验证推理景气度上修,临近中报资金关注业绩能见度高的方向而补涨,部分标的赔率收缩[10][11] - **新能源板块**:整体位置不高,本周光伏、固态电池和海风反弹,固态电池产业将进入中试阶段,光伏有供给侧产能调整预期[13] - **白酒行业**:本周反弹,官媒发文纠偏修复过度悲观情绪,但暂不看反转[14] - **稳定币领域**:本周表现超预期,周四、周五补跌,受中美政策共振及美股映射影响,跨国巨头和国内企业入局,美国参议院通过稳定币法案,对A股基本面影响尚不明显但具交易性特征[15] 其他重要但是可能被忽略的内容 - **投资建议**:关注芯片半导体、算力通信核心公司、AI端侧、深海科技、脑机接口、泛科技方向如商业航天和低空飞行器等[16][18] - **重要产品或事件**:下周小米YU7发布会受关注,需密切跟踪相关动态[18]
清华教授刘嘉:人工智能时代,我们需要具备的五大能力
36氪· 2025-06-23 07:10
通识教育的历史演变 - 古希腊通识教育以培养贵族政治文化能力为核心,与平民生活需求无关,劳动由普通公民和奴隶承担[1] - 古罗马时期通识教育实用性提升,法律、建筑、雄辩术等实用学科取代思辨内容[1] - 工业革命推动普鲁士义务教育模式成为现代教育模板,侧重培养各阶层工作技能以适应新技术经济[1] AGI时代通识教育的五大能力 - **研究能力**:提出正确问题的能力,联结主义AI研究者通过质疑"智能本质是记忆"的传统观点,转向探索"模拟人脑学习机制"的新路径[7][9] - **统计能力**:通过大数据分析万物关联,量化基金运用AI实时解析社交媒体情绪制定交易策略,网飞通过用户数据分析精准打造《纸牌屋》新增200万订阅用户[10][13] - **逻辑能力**:基于第一性原理的演绎推理,马斯克运用物理定律拆解问题实现商业创新,U形思考模式突破局部最优限制[16][17][18] - **心理能力**:理解自我与他人的动机,OpenAI团队通过追求"计算与人类未来"的社会幸福感突破"约拿情结"限制[19][20][23] - **修辞能力**:亚里士多德定义为说服艺术,AI时代升级为"数字修辞",通过情感计算、数据可视化技术构建全球共识[24][25] 技术应用案例 - 人工神经网络:1958年罗森布拉特感知机模型首次实现自主调整权重的学习机制[8] - 数据思维应用:星巴克数据驱动选址、PayPal异常检测降低70%欺诈损失、网飞内容定制策略[12][13] - AI共识构建:自然语言处理打破文化障碍,情感分析优化社交媒体舆论引导[25] 核心方法论 - 研究能力构建:文献综述+批判性思维组合,识别研究盲点并挑战传统假设[9] - 统计思维四要素:数据驱动决策、模式识别、因果推理、价值最大化[12] - 逻辑训练路径:从IF-AND-THEN形式化表达发展到第一性原理的U形思考[14][18]
FindingDory:具身智能体记忆评估的基准测试
具身智能之心· 2025-06-22 18:56
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 一、研究背景与核心问题 长期记忆缺失 是当前具身智能体的关键瓶颈。尽管视觉语言模型(VLMs)在规划与控制任务中表现突 出,但其 处理跨时空的多模态观察数据 能力严重受限: 核心矛盾 :具身智能需整合长期历史经验(如"找到昨天未整理的玩偶"),但缺乏针对性评估框架。 二、基准设计创新点 2.1 任务架构 作者丨 Karmesh Yadav等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 动态环境交互 记忆推理验证 输入限制 :主流VLMs仅能处理数百张图像(远低于真实场景的千帧级输入) 评估缺陷 :现有视频QA基准(如EgoSchema)依赖选择题形式,无法评估 物体操纵/导航 等需细粒 度推理的具身任务 记忆-动作脱节 :传统方法孤立评估记忆召回与决策执行,忽视二者在具身环境中的耦合性 动态环境构建 :脚本代理在Habitat模拟器中执行物体抓取-放置(Pick-and-Place),产生 ...
大模型为何难成为「数学家」?斯坦福等揭示严谨证明中的结构性弱点
机器之心· 2025-06-22 12:26
数学推理与AI研究 - 数学证明需要逻辑闭合和严谨推理过程,不等式问题是检验模型推理能力的理想对象[1] - 当前形式化数学系统如Lean、Coq要求极高精度,难以规模化应用于中学到奥数级别的不等式问题[1] - 大语言模型在非形式化推理方面表现出色,能给出看似合理的答案并模仿人类初期思维方式[1] IneqMath创新方法 - 研究团队提出将不等式证明拆解为"界限估计"和"关系预测"两个子任务[2][7] - 构建首个奥林匹克级不等式证明基准数据集IneqMath,包含1,252道训练题目和200道测试题目[11][12] - 数据集覆盖83种定理和29个定理类别,测试集由IMO奖牌得主设计并经数学家审核[12] 评估框架 - 开发LLM-as-Judge框架,包含五种自动评审器评估模型推理严谨性[20] - 评审器系统在与人工标注对齐的任务上达到F1=0.93的表现[24] - 框架可判断模型是"碰巧答对"还是每个推理节点都正确[23] 研究发现 - 存在Soundness Gap现象:模型最终答案准确率与推理严谨性差距显著[27] - Grok 3 mini最终答案准确率71.5%,但逐步评审后骤降至6.0%[29] - 模型规模增大能提升猜测准确率,但对推理严谨性提升有限[30] - 增加推理token数仅带来轻微提升,很快进入饱和状态[32] 改进策略 - 自我批判提升策略为Gemini 2.5 Pro带来约5%的准确率提升[42] - 定理提示策略使Gemini 2.5 Pro准确率提升约10%[42] - 研究团队设立动态更新的排行榜推动模型在严谨数学推理上的进步[36] 研究团队 - 项目由斯坦福大学、麻省理工学院和加州大学伯克利分校的研究者联合完成[44] - 负责人Pan Lu是斯坦福大学博士后研究员,研究方向包括大语言模型和数学发现[45] - 合作者包括MIT博士生Alex Gu和斯坦福大学博士生Jikai Jin[46][47]
概率统计机制下,LLM 推理真的「理解世界了」吗?
机器之心· 2025-06-21 14:32
概率统计机制下LLM推理能力的本质探讨 - 苹果公司近期发表论文指出当前LLM的推理仅是模式匹配而非真正思考,引发行业对AI推理能力的重新审视[3] - 学术界对AI推理的经典定义强调其应包含逻辑推导、符号操作或统计关联生成新结论的过程,但佛罗里达人类与机器认知研究所科学家明确表示主流LLM尚未具备严格推理能力[4] - 2011年图灵奖得主Pearl的因果推理理论指出真正推理需理解「如果…那么…」的因果关系,而当前LLM缺乏因果框架导致推理深度不足[5] - 圣塔菲研究所教授通过实验证明GPT-4仅能复述类比题型但未发展出因果归纳能力,显示模型学习的是语言形式而非理解结构[5] 关于LLM推理能力的对立学术观点 - 普林斯顿荣誉教授提出推理本质是基于心智模型的认知活动,2018年图灵奖得主Hinton支持该观点并认为人类认知更接近模式匹配而非逻辑推理[5] - Hinton强调人类决策依赖经验映射和类比推理,而LLM展现的模式拟合能力已达到准认知水平[5][6] - UCLA研究者发现GPT-3/4在零试条件下通过类比推理解决新问题的能力匹配甚至超越人类表现[7] 思维链(CoT)在LLM推理中的实际作用 - 部分研究者认为思维链是LLM实现可用性推理的核心机制,Next Token Prediction可能构成动态建模过程而非简单复读[7] - 行业对CoT是否显性触发推理路径存在争议,强化学习后训练或可突破LLM当前的「知识幻觉」限制[1][3] 企业AI采购预算趋势分析 - 企业增加生成式AI支出的核心动因包括从自建转向采购第三方应用,且采购流程呈现传统软件特征[1] - 生产用例中采用多模型的策略源于对评估框架的优化需求,关键因素涵盖性能、成本与适配性等维度[1] 本期通讯数据概览 - 包含2项专题深度解读及31项AI/Robotics赛道要闻速递,其中国内动态8项、国外动态11项、技术进展12项[2] - 总字数达22632字,免费试读比例为7%,完整版需消耗99微信豆(约合人民币9.9元)[3]
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
量子位· 2025-06-21 14:07
核心观点 - 蚂蚁技术研究院联合中科院自动化所和香港中文大学开源ViLaSR-7B模型,通过"Drawing to Reason in Space"范式实现空间推理能力突破,在5个基准测试中平均提升18.4% [1][2][3] - 模型在VSI-Bench基准上达到45.4%准确率,与Gemini-1.5-Pro相当,显著超越Qwen2.5-VL-7B等开源模型(+12.7%)[4][26] - 采用三阶段训练框架(冷启动+反思拒绝采样+强化学习)系统化培养空间推理能力,强化学习使绘图操作效率提升159.4% [21][22][23][24][29] 技术突破 推理范式创新 - 提出"边看边画、边画边想"的交互式视觉推理范式,通过绘制辅助标注(参考线/标记框)保留空间信息,解决传统"视觉转文本"范式信息丢失问题 [17][20] - 相比OpenAI的"Thinking with Images"范式,ViLaSR支持多图场景下的连贯空间推理,动态追踪跨帧变化关系 [8][17][20] - 传统LVLMs因视觉编码器压缩丢失时空信息,ViLaSR在迷宫导航任务中准确率提升64.5%(达98.2%)[10][11][25] 训练方法 - 冷启动阶段:合成数据训练基础绘图操作能力(标注边界框/辅助线)[22] - 反思拒绝采样:筛选含修正行为的高质量样本,使反思行为频率提升9.1% [23][29] - 强化学习阶段:通过双奖励机制(结果+格式)优化操作策略,数值类任务性能提升9.21% [24][29] 性能表现 基准测试 - 迷宫导航(MAZE):98.2%(超越GPT-4o 35.1个百分点)[25] - 静态图像理解(SpatialEval-Real):63.9%(优于LLaVA-NeXT-Video-72B)[25] - 多图像推理(MMSI-Bench):30.2%(较SpaceR-7B提升3.3%)[25] 类人能力 - 参考物度量推理:主动识别已知尺寸物体进行比例换算 [30] - 跨帧对象追踪:系统性标注多帧中相同物体建立时空关联 [32] - 案例显示模型可自主修正错误路径,推理步骤减少4.07% [29][33] 行业影响 - 为机器人导航、虚拟助手等空间智能应用奠定技术基础 [34] - 突破视觉语言模型在多图/视频场景的时空关联限制,推动多模态推理向高效性发展 [16][34] - 开源模型ViLaSR-7B代码及论文已公开,加速行业技术迭代 [35]
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
量子位· 2025-06-21 11:57
核心观点 - 清华大学、腾讯ARC Lab、香港中文大学和香港大学联合推出新大模型MindOmni,显著增强AI的推理生成能力,能理解复杂指令并基于图文内容展开连贯的"思维链"(Chain-of-Thought, CoT),生成具备逻辑性与语义一致性的图像或文本输出 [7][9] - MindOmni基于Qwen2.5-VL构建,通过预训练的ViT提取图像特征并编码文本,结合扩散解码器OmniGen实现高质量图像生成 [14][15] - 采用三阶段训练框架(基础预训练、监督微调、推理生成策略优化RGPO),通过强化学习显式生成逻辑推理链,在MMMU、MMBench等基准测试中性能领先 [20][26][36][38] 模型架构 - 视觉语言模型部分基于Qwen2.5-VL,处理图像和文本输入,通过ViT提取图像特征并编码文本标记序列 [14] - 扩散解码器基于OmniGen构建,通过去噪过程将噪声信号转化为图像,在序列维度合并视觉/文本特征与噪声标记 [15][16] - 使用双层Transformer连接器对齐VLM输出特征与生成模块输入维度 [16] 训练框架 - **基础预训练阶段**:利用开源图像-文本对和X2I数据训练连接器,通过扩散损失和KL散度蒸馏损失优化生成过程 [20][21] - **监督微调阶段**:构建推理生成指令数据(粗/细粒度描述),结合高性能文生图模型生成的高质量图像提升生成质量 [23][24][25] - **RGPO阶段**:引入强化学习算法,设计格式奖励和一致性奖励函数(CLIP余弦相似度),优化推理链生成 [26][29][30] 性能表现 - **视觉理解**:在MMMU基准比Janus-Pro提升10.6%,在MMBench比MetaMorph提升9.8% [38] - **图像生成**:GenEval基准总体分数83%,DPG-Bench得分83.0,单对象生成任务准确率97% [40][41][43] - **推理生成**:WISE基准总体分数0.71,在文化知识、时空推理等子类超越FLUX、PixArt等模型 [45] 应用案例 - 正确生成"(3+6)条命的动物"对应的猫图像,理解数学表达式背后的语义 [46] - 生成"悉尼歌剧院在纽约中午时的场景"时能计算时差并匹配场景 [47] - 在多模态输入场景下保持图文语义一致性 [48]
三年累亏5.68亿元,AI云公司PPIO派欧云冲刺港股CEO要圆上市梦
钛媒体APP· 2025-06-21 08:57
公司概况 - PPIO派欧云由PPTV创始人姚欣于2018年创立,是一家独立分布式云计算服务商,上市主体PPlabs Technology Limited于2019年在开曼群岛注册成立[5] - 公司联合创始人姚欣为连续创业者,曾创办PPTV并累计募资超7亿美元,2014年出售给苏宁后转型投资领域,2016年加入蓝驰创投担任风险合伙人[5] - 公司获得百川智能创始人王小川、前微软Azure中国总裁申元庆等天使投资,以及创世伙伴资本CCV、磐霖资本等机构入股,2025年5月获港投公司支持[5] 股权结构 - 2025年4月完成B轮融资,分别获得Harvest Oriental及LCV Pathfinder的1100万美元和1000万美元投资[6] - IPO前姚欣夫妇共持股50.61%,其中吕姗姗直接持股28.52%,通过Ant Colony旗下实体持股22.09%,联合创始人王闻宇通过JayaSkypiea持股11.41%[6] - 公司执行董事包括姚欣、王闻宇、李哲,非执行董事为吕姗姗,独立非执行董事为何翠萍、孔杰、姚希[6] 业务模式 - 主营业务包括边缘云服务和AI云服务两大板块,合作伙伴涵盖中国移动、联通、电信及阿里云等[8] - 2024年收入结构:边缘节点服务占比70%(3.91亿元),边缘CDN占比28.1%(1.57亿元),AI云计算服务占比1.9%(1039万元)[12] - 算力网络覆盖全球1200多个县市,包含4000多个计算节点,AI云计算服务拥有超12万注册开发者[10] 财务表现 - 2022-2024年营收复合年增长率39.7%,分别为2.86亿元、3.58亿元、5.58亿元,2024年同比增长55.7%[11] - 同期毛利分别为4616万元、6352万元、6885万元,毛利率从16.1%降至12.3%[11] - 累计亏损5.68亿元,经调整后净亏损总额1.38亿元,主要源于优先股公允价值亏损及研发投入[11][12] - 2024年底持有现金及等价物1.14亿元,贸易应收款项1501万元,周转天数79天[13][14] 研发与行业前景 - 2022-2024年研发开支占比收入14.5%-18.9%,总额达1.96亿元,重点投入边缘云计算技术优化[13] - 中国边缘云计算市场规模预计2029年达370亿元,年复合增长率22.9%,全球AI云计算市场2029年规模将达4277亿元,年复合增长率68.5%[10] - 公司2025年5月日均token消耗量达1419亿,较2024年12月的271亿增长424%,跻身中国独立AI云计算服务商前二[10] 战略规划 - IPO募集资金将用于技术能力提升、多模态API平台升级、业务扩张及海外市场开拓[16] - 姚欣预测未来三年AI大模型推理成本或降1000倍以上,分布式算力将成为发展关键动力,中国AI将进入"免费应用"时代[15] - 公司认为智能体AI和具身智能将推动推理需求指数级增长,全球日均token使用量预计从2024年30万亿增至2029年3000万亿[16]
光电芯片:AI推理时代的算力新引擎
Wind万得· 2025-06-21 06:14
光电芯片技术优势 - 光电芯片数据传输速率可达每秒数太比特(Tbps),延迟性能较电子芯片降低两个数量级,光信号传输能耗极低,几乎不产生热量 [8][13] - 光电芯片可利用波分复用实现太赫兹(THz)级别带宽,而传统电子芯片带宽一般在吉赫兹(GHz)级别 [13] - 光计算每比特能耗低至10-18焦耳,相同功耗下运算速度比电子芯片快数百倍,大幅降低系统运行成本和散热需求 [8] AI算力需求与结构变化 - 全球AI服务器市场规模从2020年122亿美元增长至2024年1251亿美元,五年增长近10倍,2025年将持续扩大 [5] - 微软2025财年Q1资本支出达167.5亿美元(同比+53%),计划全年投入800亿美元扩建数据中心,目标2026年前AI训练算力提升5倍 [6] - 亚马逊2025年Q1资本支出243亿美元(同比+74%),全年1000亿美元支出大部分用于AI项目,算力需求从训练转向ASIC推理算力 [6][7] 光电芯片产业化进展 - 硅光平台是光计算主要实现方式,通过集成光子矩阵和DAC/ADC等器件替代传统ASIC硬件,未来将采用光电混合集成工艺提升效率 [10] - 光电芯片当前处于技术导入初期,实验室阶段已突破光信号调制技术,下一阶段将解决量产工艺难题,长期将渗透AI计算、通信等领域 [10][11] - Intel、IBM、NVIDIA占据2024年光电芯片专利总数68%,国内光本位科技完成5次芯片流片,128x128光计算板卡计划2025年商业化 [15] 国内光电芯片发展现状 - 国内10G光芯片国产化率约60%,25G以上仅5%,100G EML芯片未批量供货,CPO技术落后国际水平 [16] - 上海交大无锡研究院下线首片6英寸薄膜铌酸锂光电芯片晶圆,关键指标达国际先进水平,实现从"技术跟跑"到"产业领跑"跨越 [19] - 中国在光传输领域具备产业环境优势,光电芯片不依赖摩尔定律,通过工程经验突破高功率光源等关键技术 [16] 光电芯片市场前景 - 全球光电芯片市场规模2027年将超300亿美元,2022-2027年CAGR约25%,AI计算领域将呈现指数级增长 [17] - 光电芯片在5G/6G通信、智能驾驶(实时道路信息处理)、VR/AR设备等领域有广泛应用潜力 [21] - 广东省设立千亿级光芯片产业基金,上海张江科学城吸引15家初创企业入驻,形成产学研投协同体系 [22] 投融资动态 - 2025年国内光电芯片融资加速,老鹰半导体获超3亿人民币B轮融资,华辰芯光A++轮融资近2亿人民币 [25] - 资本集中于A轮后阶段,地方政府引导基金参与催化,如江苏国经投资喜咲光芯D轮,显示长期布局意图 [22][25]
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
量子位· 2025-06-20 11:28
核心观点 - 当前主流AI图像生成模型在复杂逻辑推理和多模态信息融合方面存在局限,难以理解隐含语义(如"(3+6)条命=猫")[3][6] - 清华大学等机构联合开发的MindOmni模型通过三阶段训练框架显著提升AI的推理生成能力,支持多模态输入下的逻辑链生成[7][9][32] - MindOmni在MMMU等视觉理解基准测试中比Janus-Pro提升10.6%,在GenEval生成任务中取得83%总体分数[38][40] 模型架构 - 基于Qwen2.5-VL构建视觉语言模型,通过ViT提取图像特征并与文本标记序列对齐[14] - 采用OmniGen扩散解码器实现高质量图像生成,通过Transformer层连接器融合视觉与文本特征[15][16] - 支持视觉理解、多模态推理生成和视觉编辑的统一任务处理框架[18] 训练策略 - **基础预训练阶段**:利用图像-文本对训练连接器,通过扩散损失和KL散度优化语义对齐[20][21] - **监督微调阶段**:构建粗细粒度指令数据,结合高性能生成图像提升推理文本生成能力[23][24][25] - **RGPO强化学习**:引入格式奖励和一致性奖励机制,通过KL散度蒸馏避免策略偏移[26][29][30] 性能表现 - **视觉理解**:MMBench测试得分83.2,超越MetaMorph的75.2;RealworldQA得分68.1[37][38][42] - **图像生成**:GenEval基准单物体生成准确率99%,全局关系任务得分89.7,总体分数超越SDXL 2.6B模型[43] - **推理任务**:WISE基准文化知识类得分0.71,时空推理任务可视化结果符合物理规律[45][46][47] 技术验证 - 消融实验证实三阶段训练缺一不可,RGPO算法使WISE基准性能提升12%[50] - 连接器设计和KL系数(0.1-0.3范围)对特征对齐效果影响显著[51]