Workflow
大语言模型
icon
搜索文档
光芯片,即将起飞!
半导体行业观察· 2025-06-09 08:53
大型语言模型的计算挑战与光子硬件解决方案 - 训练GPT-3消耗约1300兆瓦时电力,下一代LLM可能需要吉瓦级电力预算[1][4] - 传统硅基芯片接近物理极限(3纳米晶体管),冯·诺依曼架构存在存储器-处理器瓶颈[4] - 光子计算具有高带宽、超强并行性和极低热耗散优势,可能超越电子处理器几个数量级[2][4] 光子神经网络核心器件 - 微环谐振器(MRRs)实现波长复用与光频梳生成,支持多波长信号处理[10][12] - 马赫-曾德干涉仪(MZI)阵列执行光学矩阵-向量乘法运算,实现可编程酉变换[13] - 超表面通过亚波长结构调控光波相位与幅度,支持大规模并行光学计算[14][16] - 4f系统利用傅里叶变换在衍射域实现线性滤波功能[20][21] - 垂直腔面发射激光器(VCSEL)实现全光尖峰神经网络,支持光速计算[25][29] 二维材料在光子芯片中的应用 - 石墨烯在宽光谱吸收2.3%入射光,载流子迁移率支持高速调制[30][31] - TMDCs(如MoS₂)具有可调带隙和强激子效应,增强光与物质相互作用[31] - 石墨烯调制器实现超过100GHz运行频率,适用于AI高速数据传输[35] - 石墨烯-量子点混合光电探测器提升宽带探测能力[36][41] - 范德瓦尔斯异质结构实现超薄波导,保持低传播损耗特性[37] 自旋电子类脑计算技术 - 磁隧道结(MTJ)实现604%隧道磁阻比,支持概率计算和GHz级振荡[54] - 磁涡旋(skyrmion)模拟神经递质释放机制,阈值电流仅10μA[55] - 自旋霍尔纳米振荡器(SHNO)阵列实现96%元音识别准确率,每次分类仅3mW功耗[56] - 反铁磁自旋电子器件实现4fJ/次突触更新能耗,10^12次循环权重漂移<0.1%[57] 光子LLM实现挑战与解决方案 - 光子芯片缺乏片上内存缓存长序列tokens,限制上下文窗口扩展[62] - PB级数据集存储导致I/O瓶颈,数据移动成为系统主导限制因素[63][65] - 光子模拟计算难以表示高精度张量,ADC/DAC电路占50%芯片面积[66] - 缺乏原生非线性函数实现,需依赖电子电路完成激活函数[67] - 光子张量核利用MZI网格实现大规模矩阵并行运算,减少片外转换[68][69] 未来发展方向 - 脉冲光子LLM将token流编码为光学脉冲,通过光子SNN实现序列处理[70][71] - 光电协同封装将光子张量核与共置内存紧密耦合,缓解数据瓶颈[72] - 神经形态光子技术有望实现PetaOPs/Watt计算效率[75] - PIC成本、可扩展性和集成性提升,可能取代IC成为计算系统核心[75]
对话智源研究院院长王仲远:AI正加速从数字世界走向物理世界
21世纪经济报道· 2025-06-08 19:49
AI技术发展趋势 - AI技术从数字世界加速向物理世界转化,重点应用于人形机器人训练和落地[1] - 大语言模型性能提升遇到瓶颈,强化学习优化推理能力、合成高质量数据替代人类标注、激活海量多模态数据成为三大解法[1] - 多模态数据规模可达文本数据的"百倍乃至万倍",将成为未来技术突破的关键[1] 世界模型技术路线 - 大模型技术路线从大语言模型转向原生多模态世界模型,以实现对物理世界的感知和理解[2] - 智源研究院推出"悟界"系列大模型,包括Emu3、见微Brainμ、RoboOS 2.0、RoboBrain 2.0和OpenComplex2[2] - Emu3的核心突破在于建立对物理因果关系的理解,而非简单的多模态信息拼接[2] 具身智能发展现状 - 人形机器人长期价值显著,因其更易融入社会基础设施且利于模型训练,但短期内四足、轮式等形态将共存[3] - 具身智能面临"硬件能力不足限制数据采集,数据稀缺制约模型进化"的循环困局,可通过互联网视频数据训练基础能力再微调解决[3] - 工厂场景成为具身智能优先落地领域,因其封闭环境可规避安全风险且存在重复任务刚需[3] 大小脑融合与泛化性 - 当前具身智能数据量不足以支持大小脑融合模型训练,预计5-10年内可能成熟[3][4] - 具身智能VLA模型泛化性不足,未来需突破专有任务达到跨领域泛化性[4] - 具身大模型发展处于早期阶段,类似GPT-3前的探索期,面临技术路线分歧和产业落地挑战[5][6] Agent与产业应用 - Agent成为产业界发力领域,类比移动互联网APP,基于可用基础大模型开发[4][5] - 基础大模型竞争已收敛至少数玩家,未来可能出现基于基座模型+垂类数据的"千模大战"[5] - 具身智能需解决"感知-决策-行动"协同、多模态数据融合等基础问题才能实现大规模商用[6] AGI发展里程碑 - 物理AGI的重要标志是机器人能真正理解物理因果关系,如"咖啡杯放桌沿会摔碎"[7] - 当前AGI刚过起跑线,具身智能仍需突破技术路线共识和产业落地障碍[5][6]
有医院为AI投入近千万元 头部医院仍在观望医疗AI大模型
快讯· 2025-06-08 19:13
医疗AI大模型行业动态 - 上半年医疗AI大模型成为头部三甲医院争相布局的热门赛道 [1] - 上海中山、瑞金、仁济等顶级医院已高调发布心血管、病理、泌尿科等专科AI模型 [1] - 为这些大模型提供软件和算力支持的企业开始显现 [1] 医疗AI大模型采购情况 - 头部三甲医院实际采购医疗AI大模型的案例较少 [1] - 地方政府成为主要采购方 常州市第一人民医院上半年启动两项招标 总预算达1000万人民币 [1] - 多数采购项目预算规模在数百万元级别 [1] 医疗AI大模型应用现状 - AI医疗模型在病理等垂直领域已展现出明确应用潜力 [1] - 通用大语言模型(LLM)在医疗领域的应用部署仍面临多重挑战 [1]
用好信息导航
经济日报· 2025-06-08 06:05
大语言模型的影响 - 大语言模型增强了信息收集和筛选能力,类似于卫星导航在物理世界中的作用,但在信息领域提供"信息导航"功能 [1][3] - 大语言模型依赖人类提供的信息,观察视角和表述差异会影响输出结果,因此它提供的是选择而非确定答案 [3] - 主动判断与取舍是技术时代中最重要的能力,需要人类对各种备选方案进行判断 [3][4] 新技术与人类社会的关系 - 对于新技术与人类社会演进的关系存在悲观和乐观两种观点,悲观者认为突破性技术可能带来威胁,乐观者相信技术进步促进社会进化 [5] - 作者主张避免技术决定论,强调人类有能力权衡选择并规划潜在情境,应审慎思考技术与人类的关系 [5] - 盲目排斥技术进步或过分陶醉于技术乌托邦都是对人类能力的忽视,应通过积极行动引导科技向善 [5] 个体与技术的共生 - 技术是人类能力的放大器,个体借助AI可提升创造力、生产力和影响力 [6] - 用好AI需要个人具备基本素质,如直面"AI谎言"时的信任重构和通过动态契约实现人机协同 [6] - 《AI赋能》构建了AI时代个体与技术的共生框架,使个体能从技术赋予的新能力中获益并享受溢出价值 [6]
ACL 2025 | 大语言模型正在偷改你的代码?
机器之心· 2025-06-07 11:59
研究背景 - 大语言模型在代码推荐领域展现出巨大潜力,已成为开发者依赖的智能助手 [7] - 现有大语言模型在代码生成与修改中存在显著的「供应商偏见」问题,例如无明确指令时偏好部分供应商或静默替换用户代码中的目标服务 [7] - 这种偏见式输出违背用户意图,可能引发开发流程失控、技术生态失衡等多重风险 [7] 核心方法 - 构建自动化数据集:覆盖30个真实应用场景,包含145个子功能需求,以Python为主 [14] - 服务采集:为每个场景手动收集至少5个第三方服务/API,提取服务特征用于后续标注 [14] - 任务分类:构建6类代码任务,包括代码生成任务和5类代码修改任务 [14] - 利用GPT-4o生成初始代码并模拟真实开发中的代码缺陷,构建含错误代码的输入提示 [15] 模型评估与偏见量化 - 评估7个主流大语言模型(GPT-3.5-Turbo、GPT-4o等),花费约5亿个token,采集59万条有效响应 [16] - 使用基尼系数(GI)衡量代码生成任务中供应商偏好集中度,取值0-1,值越高表示越倾向特定供应商 [17] - 使用修改率(MR)计算代码修改任务中服务修改的比例,取值0-1,值越高表示越倾向修改代码使用的服务 [17] 实验结果与数据分析 - 代码生成任务中,大语言模型系统性偏向特定服务供应商,形成「默认选择霸权」,GI中位数为0.80 [19] - 不同模型偏好不同:例如在「邮件发送」场景中,GPT-4o的生成结果80.40%依赖SMTP服务,而Llama-3.1-405b只有19.70% [21] - 代码修改任务中,共识别出11,582个服务修改案例,Claude-3.5-Sonnet的MR最高 [23] - 大语言模型最容易将服务供应商替换为谷歌,原始供应商为微软的修改案例占比最大 [25] 风险与后果 - 市场层面:大语言模型的偏见可能被操纵以提高特定提供商的服务曝光度,加剧市场不公平竞争并催生数字垄断 [27] - 用户层面:静默替换代码中的服务损害用户自主决策权,增加项目开发成本,削弱用户对大语言模型的信任 [27] 局限性 - 数据集覆盖范围有限:30个场景不能完全覆盖现实多样场景,实验主要聚焦于Python代码 [28] - 无法访问大语言模型的预训练数据和训练流程,暂时无法对偏见的具体来源与形成原因进行深入分析 [32] 结论与展望 - 首次系统研究大语言模型代码推荐中的供应商偏见,发现其对特定供应商表现出显著偏好,甚至静默修改用户代码中的服务 [30] - 未来需拓展至更多编程语言和垂直领域,开发更丰富评估指标与基准以全面衡量供应商偏见与公平性 [31]
爱诗王长虎、谢旭璋:“不会创业” 的创始人,怎么做出用户量第一的 AI 视频产品
晚点LatePost· 2025-06-06 19:05
公司概况 - 爱诗科技由80后王长虎与90后谢旭璋联合创立,团队组合打破"35岁以下更适合大模型创业"的行业偏见 [3][4] - 公司定位为AI视频生成领域,同时开发底层模型与to C应用产品,全球用户超6000万,是竞品可灵的3倍 [4] - 核心产品PixVerse移动端上线6个月月活达1600万,国内版"拍我 AI"于6月6日正式发布 [4][6] 产品与技术 - 差异化路径:聚焦普通人需求,通过模板化设计(如毒液变身、科目三跳舞等)实现零Prompt操作,用户首条视频即可获万至百万点赞 [4][8][9] - 技术迭代:模型V3将生成成功率提升至近100%,V3.5将等待时间压缩至10秒内,累计更新7版模型 [6][9] - 生成效率:V4模型实现5-7秒生成5秒视频,正在探索实时生成技术以模糊创作与消费界限 [16][17] 市场表现 - 病毒式传播案例:毒液变身模板全球播放量超10亿次,咧嘴笑模板推动PixVerse登顶美国iOS下载榜前五 [6][12] - 商业化进展:订阅收入已覆盖绝大部分成本,现金流接近转正 [7] - 全球化布局:视频内容天然跨语言传播,高GDP国家贡献主要收入,暂未精细化运营区域市场 [12] 行业竞争 - 视频生成第一梯队:国内为爱诗、快手可灵、MiniMax海螺,海外Google表现突出,认为Sora实际效果与demo差距显著 [14] - 对抗大厂逻辑:视频行业持续分化(长/短视频、直播等),新内容形态需增量供给,非存量替代 [10] - 技术壁垒:毒液模板半年未被复现,依赖高质量生成模型与持续用户洞察能力 [12] 战略决策 - 关键转折:2023年6月All in视频生成,抓住当时行业非共识机会 [23][24] - 资源分配:Sora发布后坚持原定技术路线,未盲目追加资源追赶,最终验证模型实效优于Sora [26] - 双引擎驱动:前期以模型技术为核心,后期产品与模型协同进化,产品需求反哺技术方向 [20] 行业趋势 - 技术架构:主流仍为DiT,自回归+Diffusion混合架构显现潜力但存在帧间误差挑战 [15][16] - 交互革命:实时生成将改变视频线性叙事,用户可动态改变剧情走向,视频与游戏界限模糊化 [17][18] - 价值认知:视频生成领域整体被低估,较之大语言模型更少舆论关注但实际商业落地更快 [24][25]
理想同学MindGPT-4o-Audio实时语音对话大模型发布
理想TOP2· 2025-06-06 23:24
核心观点 - 公司推出全模态基座模型MindGPT-4o的预览版MindGPT-4o-Audio,具备全双工、低延迟的语音端到端能力,实现类人自然对话交互 [1] - 模型在语音知识问答、多角色语音生成、风格控制、工具调用等核心能力上达到行业领先水平,多项评测显著超越竞品 [4][5][8] - 技术架构采用感知-理解-生成的级联式流式生成方案,实现260ms推理延迟和800ms全链路响应 [4][5] - 已全量上线理想车机及手机App,用户满意度测试中口语真实感(94%)和交互自然度(92%)均领先豆包、ChatGPT [8][10] 模型能力 全双工语音对话 - 采用IPU停顿间隙判定和KLT自适应响应机制,轮次切换准确率96.5%,打断响应延迟150ms [14][15] - 流式方案实现99%打断响应率和95%背景音拒识率,支持边说边听的真人交互模式 [12][17] 语音知识问答 - 构建百万级高质量多模态训练数据管线,数据正确率95%,覆盖26个能力类目 [19] - 多阶段训练策略使知识问答准确率较MindGPT-3o提升6pp,业务单轮问答达89.48% [22][23][24] 多角色对话 - 设计十余维度人物档案系统,涵盖背景、性格、情绪反应等立体设定 [25][26] - 通过拟人化数据管线实现情感识别和多轮上下文保持,支持有温度的陪伴式交互 [27] 高表现力语音生成 - 30万小时对话语音训练使韵律自然度提升,流式合成首包延迟<100ms [30] - 字符级建模结合DPO优化,中英文发音错误率降至极低水平 [31] 多样风格控制 - 音色解耦技术实现多风格/口音模仿,Style CoT方案支持多轮风格记忆 [35][36] 工具能力 多模态规划 - 时空感知任务规划准确率95.55%,DAG拓扑支持并行多任务处理 [39][40] - 工具调用准确率94.25%,在复杂任务评测中满意度达79% [40][50] 搜索优化 - Claim-level重排序使搜索丰富度提升35%,专业术语识别准确率+47% [42][43] - 动态Query理解框架实现28%首次搜索满足率提升 [43] 工程能力 全双工架构 - RTC技术实现端云实时通信,消息延迟降低67%,弱网环境连通率提升 [52][60] 低延迟优化 - 流式推理使首token延迟从1s降至20ms,异构计算降低50%部署成本 [61][63] - 全链路重叠计算实现语音首包60ms,端到端延迟1100ms领先豆包(2100ms) [10][61] 安全与运营 - 构建MindGuard实时风险检测体系,价值观安全奖励模型覆盖全生命周期 [53] - Prompt平台支持T+0分钟级热更新,角色扮演场景达成率>90% [64]
多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品
量子位· 2025-06-06 21:45
多模态大模型推理能力评估 - 复旦大学、香港中文大学MMLab及上海人工智能实验室联合推出MME-Reasoning基准,全面评估多模态大模型(MLLMs)的推理能力,涵盖演绎、归纳和溯因三种推理类型[1][3][4] - 基准包含1188道题目,其中84.85%为新增题目,15.15%为抽样题目,题型包括选择题(58.50%)、自由形式问题(31.57%)和基于规则的题目(9.93%)[9] - 题目设计弱化学科知识依赖,聚焦K12以下难度,避免知识盲区干扰推理能力测试[11] 推理类型与评估维度 - 演绎推理通过规则和前提推导结论,归纳推理从大量案例学习规则,溯因推理通过结论反推前提[5] - 评估维度包括五种能力:模式分析、规划与探索、空间与时间、计算、因果链分析,每道题目标注1-5种能力[11] - 题目难度分为三级,图像类型包含单图(58.50%)和多图(31.57%)问题,学科类题目占比31.48%[8][9] 模型表现分析 - 30余个模型评测显示最优成绩仅60.2%(Gemini-2.5-Pro-T),显示基准挑战性极强[2][18] - 模型表现存在显著偏差:演绎推理平均得分最高(如Gemini-2.5-Pro-T达64.0),溯因推理最弱(如开源模型R1-VL-7B仅15.8)[18][19] - 闭源"思考模式"模型普遍优于基础版,如Gemini-2.5-Pro-T比Gemini-2.5-Flash-T高35个百分点[18] 技术瓶颈与发现 - 开放式问题表现最差,规划与探索类任务平均得分最低(如Mulberry仅13.3)[18][20] - 规则强化学习在7B规模模型上效果有限,可能降低泛化能力(如R1-VL-7B得分21.1)[18][20] - 推理过程存在边际效应:输出token超1k时准确率提升趋缓,o4-mini案例达24.6k token但效率下降[22][25] 模型行为特征 - 案例显示模型存在结构化规划行为,包含假设生成-验证-反思的多次迭代(最高达7次)[25][26] - 开源模型表现显著落后闭源模型,Qwen2.5-VL-72B最高34.1分,仅为闭源头部模型的56%[18] - 多图像问题(占比31.57%)和学科类问题(占比31.48%)构成主要挑战点[9][11]
大模型热潮第三年,“AI春晚”又换主角 为什么是具身智能?
每日经济新闻· 2025-06-06 21:20
行业趋势演变 - 大模型热潮进入第三年,行业关键词从"大语言模型"跃升为"具身智能"与"机器人2.0",AI正加速迈入"干实事"阶段[1] - 2023年生成式大语言模型是焦点,2024年国产大模型厂商崛起,2025年具身智能成为主论坛重要议题[3] - 技术发展呈现非线性特征,产业关注重心从底层模型向具体应用转移是必然趋势[4] 具身智能发展现状 - 具身智能成为2025年最热关键词,机器人通过格斗、舞蹈等赛事展示AI控制系统水平[7] - 人形机器人租赁市场在上半年表现火爆,显示初步商业价值[7] - 行业正从表演转向实际应用,重点攻关"通用移动抓取"等实用技能,已有机器人值守无人药店案例[8] 技术路径争议 - 人形与非人形机器人形态存在分歧:人形在数据采集和训练上具优势,但未来形态可能多样化[11][12] - VLA(视觉语言动作模型)成为研究热点,但对其能力边界存在不同观点,需融合更多感知模态[15][16] - 物理世界理解能力的增强是突破关键,仿真数据可减少真实训练样本依赖[17] 应用场景拓展 - 世界人形机器人运动会将包含竞技类和真实生活/工业场景,成为技术训练场和客户沟通桥梁[8] - 家庭和商用服务被视为具身智能最大应用场景,工业应用只是"开胃小菜"[12] - 移动、抓取和放置类任务最适合当前VLA模型技术阶段,可能带来具身智能第一次高潮[16]
博实结(301608) - 301608投资者关系活动记录表2025年6月6日
2025-06-06 16:46
公司基本情况 - 公司是高新技术与专精特新“小巨人”企业,以通信、定位、AI等技术为核心,提供智能终端产品及配套解决方案,使命是“智慧赋能万物,共创美好未来”,经营理念为“成就客户、创新驱动、博大务实、品质至上”,业务模式是“模组+平台+终端”,目标是成为全球物联网智能化应用解决方案专家 [1] - 2024年度,公司实现营业收入14.02亿元,同比增加24.85%,净利润1.76亿元,同比增加0.81%;2025年一季度,营业收入3.48亿元,同比增加40.28%,净利润0.40亿元,同比增加14.42% [1][2] 拓展应用场景核心能力 - 基于“通信+定位+AI”底层核心技术在不同物联网应用场景延伸拓展,保持清晰研发主线,将核心技术赋予不同产品形态应用于不同场景,在通信、定位等技术应用方面积累丰富经验 [2] - 深耕通信、定位、AI算法等技术领域,构建“模组+平台+终端”业务体系,自研自产自供无线通信模组,具备全链路能力,在终端开发初期介入技术适配,提升性能、降低成本,构建模块化、标准化云管理平台,通过模块化调用与功能重组完成定制化开发 [3] - 完成Deepseek大语言模型和通义千问视频分析模型本地化部署,未来推动专业化、定制化AI模型在物联网多场景应用落地 [3] 新拓展场景和产品 - 2024年其他智能硬件收入1.42亿元,相比2023年增长21.70% [3] - 其他智能产品涵盖电子学生证、智能穿戴手表等二十余种物联网产品,处于市场开拓与孵化阶段,还在智慧城市、智能运动、智慧办公等场景有产品布局 [3][4][5] - 电子学生证聚焦“平安校园”,实现学生定位、轨迹查询等功能;智能穿戴手表针对“老人康养”“平安校园”,低功耗、长续航,支持语音通话等功能 [5] 美国关税政策影响 - 海外市场中,智能车载终端销往非洲、东南亚、西亚等地区,智能支付硬件销往东南亚等地区,智能睡眠终端销往欧美地区,智能睡眠终端客户交易模式为EXW,关税等费用由客户承担,美国关税政策变动对公司影响较小 [5]