大语言模型

搜索文档
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
核心观点 - AI技术正在重新定义商业创新模式,企业需转变思路以保持竞争力 [1][2] - OpenAI和DeepSeek分别通过不同路径实现AI技术突破,为行业提供创新范式 [3][4] - AI能力的"涌现"现象成为技术跃迁的关键特征 [19][20][21] - 人机交互范式因ChatGPT发生根本性变革 [22][23][24] - 中国公司DeepSeek打破"美国原创、中国应用"的思维定式,展现基础研究实力 [75][77][78] OpenAI的创新路径 创立背景 - 2015年由马斯克和奥特曼创立,初衷是防止AI技术被巨头垄断 [9] - 从谷歌挖来核心科学家伊利亚·苏茨克维尔,坚持开源、安全、普惠理念 [10][12] 技术突破 - 基于Transformer架构的"自注意力机制"大幅提升语言理解能力 [13] - Scaling Law揭示模型规模与性能的线性关系,指导大规模投入 [15][16] - GPT系列模型通过"涌现"现象实现能力跃升,参数量临界点触发智能爆发 [19][20] 产品里程碑 - ChatGPT通过自然语言交互降低使用门槛,引发全球现象级应用 [22][23] - 推理模型o1实现从直觉思维(系统1)到理性推理(系统2)的认知跃迁 [26][30] DeepSeek的逆袭战略 技术路线 - 提出"有限Scaling Law",在资源受限下追求高性能 [32][33] - MLA技术优化内存效率,MoE架构实现计算资源动态分配 [38][39][42] - V3模型6710亿参数仅激活37亿,训练成本5557万美元(行业1/10) [44] 核心突破 - R1模型采用纯强化学习(类似AlphaGo Zero),展示完整推理过程 [45][47][49] - 在奥数竞赛中与OpenAI o1准确率相当,登顶美国应用榜单 [50][51] 组织创新 - 动态团队构成和自组织管理激发"涌现"式创新 [55][56][57] - 研究员自主提出MLA架构和训练公式,体现扁平化协作 [59][60] - 150人论文署名包含数据标注员,打破传统KPI束缚 [61][62] 行业启示 技术趋势 - AI从专用工具向通用智能演进,"涌现"成为能力突破关键指标 [20][21] - 对话式交互(ChatGPT)和推理能力(o1/R1)定义下一代AI标准 [23][26][45] 创新生态 - 中国公司首次在基础研究领域实现全球领先,打破技术跟随惯性 [75][77] - 资源效率(DeepSeek)与规模投入(OpenAI)并存,拓宽行业可能性 [32][44] 组织变革 - 传统金字塔管理让位于开放协作和资源自由调配的新型研发模式 [55][63][68] - "非标准人才"和纯粹技术热情成为创新核心驱动力 [66][67]
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
量子位· 2025-06-10 15:35
模型性能与效率 - MiniCPM4提供8B和0.5B两种参数规模,仅使用同级别开源模型22%的训练开销就达到同级别最优性能 [1] - MiniCPM4-8B是首个开源原生稀疏模型,5%极高稀疏度支持长文本和深思考在端侧运行 [2] - 在MMLU等基准测试中,MiniCPM4-8B性能比肩Qwen-3-8B,超越Gemma-3-12B;0.5B版本超越同级Qwen-3-0.6B等模型 [3] - 在端侧芯片上实现长文本处理5倍常规加速与极限场景百倍加速 [4] 技术创新架构 - 采用高效稀疏注意力架构InfLLM v2,保持性能同时实现高效长上下文处理 [8] - InfLLM v2不引入额外参数,短序列推理速度不受影响 [10] - 相比NSA减少60%上下文选择计算成本 [11] - 上下文分块分区域处理,实现注意力层智能化选择机制 [14] 推理加速技术 - 构建轻量化CUDA推理框架CPM.cu与跨平台部署框架ArkInfer [20] - 提出FR-Spec词表剪枝技术,降低75%计算开销,实现2倍生成加速 [26][28][29] - 开发前缀感知GPTQ方法,排除初始词元干扰提升量化质量 [31][32] - 采用位置感知校准策略,消除初始词元统计偏差 [33] 数据与训练优化 - 仅使用8T词元达到Qwen3用36T词元的效果 [56] - 提出UltraClean高能力密度数据筛选方法,构建1T+高质量中英文语料 [61][71] - 开发UltraChat-v2合成数据框架,覆盖知识应用等五大技能领域 [77] - ModelTunnel v2预训练策略搜索仅需32GPU机时,大幅降低超参数搜索开销 [88] 应用场景表现 - 在Jetson AGX Orin上实现7倍解码加速,长序列处理优势明显 [108][109] - MiniCPM4-8B超越Gemma3-12B和Phi4-14B,0.5B版本超越Llama3.2-1B [114] - 训练数据量仅为Qwen3的22%但性能相当 [116] - 在128K上下文窗口达到100%准确率,稀疏度仅5% [119]
苹果(AAPL.O):今年Apple智能将支持更多语言,同时苹果将允许直接访问位于Apple智能核心的设备端大语言模型。
快讯· 2025-06-10 01:31
产品更新 - 苹果智能将支持更多语言 [1] - 苹果将允许直接访问位于Apple智能核心的设备端大语言模型 [1]
北大携手深圳先进院推出合成生物AI大语言模型,成功获得高性能加帽酶,催化效率高于商业酶2倍
合成生物学与绿色生物制造· 2025-06-09 21:43
天然生物基因组编码海量的功能基因,这些基因在长期进化选择过程中,占据了广泛的序列空间,并发展 出精巧多样的功能活性,为生物体在复杂环境中的生存和繁衍提供了独特优势。 随着测序获得的生物序列累计达数十亿量级,这些潜在的功能基因也为生物制造和合成生物技术提供了基 因元件的"宝库"。然而,尽管天然基因具备极为丰富的功能和应用潜力,目前只有一小部分热门的功能基因 (如基因编辑工具酶)被高质量注释并构建了序列或结构模型。因此,基于序列、结构或深度学习的基因 挖掘和蛋白质设计方法无法拓展至复杂功能基因,限制了对高价值基因元件的挖掘与开发利用。 【SynBioCon】 获悉,针对上述问题 , 北京大学定量生物学中心钱珑 团队 于近日推出了 一款面向 合成生物学元件挖掘与生物制造应用的大语言模型 SYMPLEX , 该模型通过融合领域大语言模型训 练、合成生物专家知识对齐和大规模生物信息分析,实现了从海量文献中自动化挖掘功能基因元件并精准 推荐其工程化应用潜力。 此外, 团队 与 中科院深圳先进技术研究院娄春波研究员 合作,将 SYMPLEX 应用于 mRNA 疫苗生物制 造关键酶—— 加帽酶的挖掘 ,成功获得多种高性能新型 ...
AI动态汇总:谷歌更新Gemini2.5Pro,阿里开源Qwen3新模型
中邮证券· 2025-06-09 19:39
根据提供的研报内容,以下是关于量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称:Gemini 2.5 Pro** - **模型构建思路**:通过多模态架构优化编程、推理及多模态能力,提升AI工具的实用性和效率[12] - **模型具体构建过程**: 1. **编程能力优化**:在LMArena编码测试中提升24分至1470分,支持单条提示生成完整交互式Web应用(如YouTube视频转学习应用)[12] 2. **推理能力增强**:在GPQA科学问答测试中达到86.4%准确率,无需多数投票策略[12] 3. **多模态处理**:支持百万级Token上下文窗口,解析1小时视频或11小时音频,VideoMME基准得分84.8%[12] 4. 引入"思考预算"功能,动态调节Token消耗量平衡质量与成本[13] - **模型评价**:在编程和推理任务中显著领先竞品,但多模态细节处理仍有优化空间[16] 2. **模型名称:Qwen3-Embedding & Reranker** - **模型构建思路**:基于双塔结构和指令感知设计,提升文本表征与排序技术的多场景适应性[17][18] - **模型具体构建过程**: 1. **Embedding模型**: - 采用双塔结构,提取[EOS]标记隐藏状态作为语义向量,支持动态输出维度(768/1024/4096)[18] - 三阶段训练:弱监督对比学习预训练(1.5亿文本对)→监督微调(改进InfoNCE损失)→球面线性插值融合检查点[19][20] 2. **Reranker模型**: - 单塔交互结构,通过二元分类模板计算相关性得分,结合RoPE位置编码与双块注意力机制[18] - **模型评价**:在MTEB多语言基准测试中超越商业模型,轻量版显存需求仅1.5GB[21] 3. **模型名称:Fast-dLLM** - **模型构建思路**:通过分块KV缓存和置信度感知并行解码,加速扩散式大语言模型推理[23][24] - **模型具体构建过程**: 1. **分块KV缓存**:将序列划分为块并缓存双向注意力激活值,实现90%以上激活值复用[24][26] 2. **并行解码**:动态筛选高置信度标记(概率≥0.9)并行处理,数学保证生成一致性(公式:$(n+1)\epsilon \leq 1$)[26] - **模型评价**:实现27.6倍加速且质量损失<2%,但需进一步验证千亿参数级扩展性[27][30] 4. **模型名称:KwaiCoder-AutoThink** - **模型构建思路**:通过双模思考机制和Step-SRPO强化学习,动态切换问题解决深度[31][32] - **模型具体构建过程**: 1. **训练范式**: - 阶段1:Ellipsis Prompt技术引导快慢思维路径分化 - 阶段2:异构离线蒸馏(DeepSeek-V3/R1作为教师模型) - 阶段3:Step-SRPO强化学习(过程监督优化优势函数)[32] 2. **动态上下文窗口**:支持16K-32K自适应调整,减少17%冗余计算[36] - **模型评价**:在非推理任务中实现3-5倍加速,但80GB体积部署成本较高[36] 5. **模型名称:ProRL** - **模型构建思路**:通过延长训练周期和改进GRPO算法,解锁大语言模型新推理策略[43][44] - **模型具体构建过程**: 1. **训练架构**: - 动态KL散度控制(每500步重置参考策略) - 高温采样(温度系数1.2)结合DAPO动态采样[44] 2. **任务覆盖**:13.6万跨领域样本(数学/编程/STEM等)[44] - **模型评价**:在逻辑推理任务中提升54.8%,但需1.6万GPU小时训练投入[47][48] --- 模型的回测效果 1. **Gemini 2.5 Pro** - TextArena评分:1470分(提升24分)[12] - WebDevArena评分:1443分(提升35分)[12] - GPQA准确率:86.4%[12] - VideoMME得分:84.8%[12] 2. **Qwen3-Embedding** - MTEB多语言平均得分:70.58(8B版本)[22] - 代码检索nDCG@10:80.68[22] - 中文检索得分:77.45[22] 3. **Fast-dLLM** - GSM8K加速比:27.6倍[27] - 质量损失:<2%[27] - HumanEval加速:3.7倍[27] 4. **KwaiCoder-AutoThink** - MBPP代码生成得分:95.6[36] - AIME数学竞赛得分:78.8[36] - GPQA专业问答得分:71.7[36] 5. **ProRL** - GPQA Diamond准确率提升:25.9%[44] - 逻辑谜题解决能力提升:54.8%[44] --- 技术补充 - **世界模型理论**:DeepMind研究证明智能体需隐含世界模型以实现长期目标规划,误差上界为$\sqrt{2p(1-p)/(n(1-\delta))}$($p$为转移概率,$n$为目标深度)[56] - **ChatGPT优化**:Karpathy建议按任务类型选择模型(如GPT-4o处理简单问题,o3处理复杂推理),可提升2倍效用[49][50]
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 18:41
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...
CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架
机器之心· 2025-06-09 12:33
核心观点 - 研究团队提出首个支持超长视频理解的跨模态记忆压缩框架AdaCM2,解决现有模型在长视频场景下的显存瓶颈和冗余信息干扰问题 [2][5][6] - AdaCM2基于两大核心观察(帧内注意力稀疏性和层间语义冗余性)设计,通过跨模态注意力驱动的层级记忆压缩策略实现高效信息筛选 [7][9][11][15] - 实验显示AdaCM2在多项任务中超越SOTA模型,显存使用下降65%,支持处理超2小时长视频 [20][22][24] - 该技术为多模态大模型提供可控的长时记忆能力,拓展智能交通、医疗、教育等领域的应用边界 [23][25][26] 技术背景 - 现有视频理解模型(如VideoLLaMA、VideoChat)在短视频(5-15秒)表现优异,但面对分钟级/小时级视频时出现显存瓶颈和冗余信息干扰 [5] - 长视频处理存在三大核心问题:内存消耗指数级上升、视觉Token冗余严重、文本与视频缺乏精准对齐机制 [6] 关键观察 - **帧内注意力稀疏性**:长视频单帧中仅极少数视觉Token对文本提示强相关,注意力得分呈尾部偏置分布,高价值信息集中在少数Token [9] - **层间语义冗余性**:深层网络中临近帧/远帧间跨模态注意力相似度高,多个Token在不同时间或层次上表达重复语义 [11] 技术方案 - **逐帧回归式建模**:动态更新记忆缓存替代一次性输入全部帧,实现轻量连续建模 [20] - **跨模态注意力打分**:通过Q-Former模块计算视觉Token与文本提示的注意力权重,仅保留高分Token [20] - **分层压缩机制**:针对不同Transformer层设置可调压缩参数(α和β),实现精细内存控制 [20] - **LLM兼容性**:支持与Vicuna-7B、FlanT5等主流LLM无缝对接,仅需轻量微调Q-Former模块 [19] 性能表现 - **LVU分类任务**:平均Top-1准确率提升4.5%,在"导演""场景"等任务领先所有方法 [22] - **行为理解任务**:在COIN/Breakfast数据集上超越MA-LMM(94.4 vs 93.0) [21][24] - **视频字幕生成**:MSVD数据集达到189.4 CIDEr,显著优于GIT(180.2)和VideoLLaMA(175.3) [21][24] - **内存效率**:显存使用下降65%,极端情况下仍能稳定处理超2小时视频 [20][24] 应用场景 - **智能交通监控**:支持全天候视频智能分析与摘要生成 [25] - **医疗手术记录**:自动分析长时间术中操作行为 [25] - **教育/会议记录**:提取关键片段并生成总结 [25] - **机器人感知**:为具身智能体提供持续视觉记忆能力 [25]
具身智能推动实现通用人工智能
人民日报海外版· 2025-06-09 12:19
具身智能理论 - 具身智能强调智能体的认知受感知与动作影响,主张智能行为来自身体与环境的交互,而非仅大脑功能[1] - 该理论与传统离身智能形成对比,后者基于笛卡尔身心二元论,忽视大脑与身体的联系[1] - 具身智能对认知科学、心理学、人工智能和机器人技术等领域产生深远影响[1] 人工智能发展历程 - 第一代人工智能基于知识与经验的推理模型,具有可解释性但应用受限[3] - 第二代人工智能采用数据驱动模型,通过大数据机器学习模拟人类感性行为,但存在不可解释等缺陷[3] - 2020年大语言模型出现标志第三代人工智能,在语言生成上取得突破,向通用人工智能迈出关键一步[4] 具身智能的优势 - 具身智能通过强化学习实现与环境的反复交互,优化决策和行动,弥补传统人工智能的不足[5] - 该理论将思考、感知与动作整合,使人工智能能在更广泛环境下完成复杂任务[5] - 具身智能推动机器人技术从单一感知向多模态感知发展,如自动驾驶汽车的多传感器融合[8] 机器人技术发展 - 1954年数字控制机械臂发明奠定现代工业机器人基础[7] - 1986年罗德尼·布鲁克斯提出行为主义机器人学,首次在机器人领域引入具身智能思想[7] - 具身智能推动机器人软硬件高度整合,催生人形机器人、装配机器人等多样化形态[8] 智能体概念应用 - 智能体理论将机器人思考、感知和动作连为一体,可在数字和物理世界完成任务[9] - 利用数字世界仿真可大幅提高机器人测试效率,如无人车实验[9] - 智能体间的博弈可实现机器自我进化,持续提升机器人性能[9]
光芯片,即将起飞!
半导体行业观察· 2025-06-09 08:53
大型语言模型的计算挑战与光子硬件解决方案 - 训练GPT-3消耗约1300兆瓦时电力,下一代LLM可能需要吉瓦级电力预算[1][4] - 传统硅基芯片接近物理极限(3纳米晶体管),冯·诺依曼架构存在存储器-处理器瓶颈[4] - 光子计算具有高带宽、超强并行性和极低热耗散优势,可能超越电子处理器几个数量级[2][4] 光子神经网络核心器件 - 微环谐振器(MRRs)实现波长复用与光频梳生成,支持多波长信号处理[10][12] - 马赫-曾德干涉仪(MZI)阵列执行光学矩阵-向量乘法运算,实现可编程酉变换[13] - 超表面通过亚波长结构调控光波相位与幅度,支持大规模并行光学计算[14][16] - 4f系统利用傅里叶变换在衍射域实现线性滤波功能[20][21] - 垂直腔面发射激光器(VCSEL)实现全光尖峰神经网络,支持光速计算[25][29] 二维材料在光子芯片中的应用 - 石墨烯在宽光谱吸收2.3%入射光,载流子迁移率支持高速调制[30][31] - TMDCs(如MoS₂)具有可调带隙和强激子效应,增强光与物质相互作用[31] - 石墨烯调制器实现超过100GHz运行频率,适用于AI高速数据传输[35] - 石墨烯-量子点混合光电探测器提升宽带探测能力[36][41] - 范德瓦尔斯异质结构实现超薄波导,保持低传播损耗特性[37] 自旋电子类脑计算技术 - 磁隧道结(MTJ)实现604%隧道磁阻比,支持概率计算和GHz级振荡[54] - 磁涡旋(skyrmion)模拟神经递质释放机制,阈值电流仅10μA[55] - 自旋霍尔纳米振荡器(SHNO)阵列实现96%元音识别准确率,每次分类仅3mW功耗[56] - 反铁磁自旋电子器件实现4fJ/次突触更新能耗,10^12次循环权重漂移<0.1%[57] 光子LLM实现挑战与解决方案 - 光子芯片缺乏片上内存缓存长序列tokens,限制上下文窗口扩展[62] - PB级数据集存储导致I/O瓶颈,数据移动成为系统主导限制因素[63][65] - 光子模拟计算难以表示高精度张量,ADC/DAC电路占50%芯片面积[66] - 缺乏原生非线性函数实现,需依赖电子电路完成激活函数[67] - 光子张量核利用MZI网格实现大规模矩阵并行运算,减少片外转换[68][69] 未来发展方向 - 脉冲光子LLM将token流编码为光学脉冲,通过光子SNN实现序列处理[70][71] - 光电协同封装将光子张量核与共置内存紧密耦合,缓解数据瓶颈[72] - 神经形态光子技术有望实现PetaOPs/Watt计算效率[75] - PIC成本、可扩展性和集成性提升,可能取代IC成为计算系统核心[75]
对话智源研究院院长王仲远:AI正加速从数字世界走向物理世界
21世纪经济报道· 2025-06-08 19:49
AI技术发展趋势 - AI技术从数字世界加速向物理世界转化,重点应用于人形机器人训练和落地[1] - 大语言模型性能提升遇到瓶颈,强化学习优化推理能力、合成高质量数据替代人类标注、激活海量多模态数据成为三大解法[1] - 多模态数据规模可达文本数据的"百倍乃至万倍",将成为未来技术突破的关键[1] 世界模型技术路线 - 大模型技术路线从大语言模型转向原生多模态世界模型,以实现对物理世界的感知和理解[2] - 智源研究院推出"悟界"系列大模型,包括Emu3、见微Brainμ、RoboOS 2.0、RoboBrain 2.0和OpenComplex2[2] - Emu3的核心突破在于建立对物理因果关系的理解,而非简单的多模态信息拼接[2] 具身智能发展现状 - 人形机器人长期价值显著,因其更易融入社会基础设施且利于模型训练,但短期内四足、轮式等形态将共存[3] - 具身智能面临"硬件能力不足限制数据采集,数据稀缺制约模型进化"的循环困局,可通过互联网视频数据训练基础能力再微调解决[3] - 工厂场景成为具身智能优先落地领域,因其封闭环境可规避安全风险且存在重复任务刚需[3] 大小脑融合与泛化性 - 当前具身智能数据量不足以支持大小脑融合模型训练,预计5-10年内可能成熟[3][4] - 具身智能VLA模型泛化性不足,未来需突破专有任务达到跨领域泛化性[4] - 具身大模型发展处于早期阶段,类似GPT-3前的探索期,面临技术路线分歧和产业落地挑战[5][6] Agent与产业应用 - Agent成为产业界发力领域,类比移动互联网APP,基于可用基础大模型开发[4][5] - 基础大模型竞争已收敛至少数玩家,未来可能出现基于基座模型+垂类数据的"千模大战"[5] - 具身智能需解决"感知-决策-行动"协同、多模态数据融合等基础问题才能实现大规模商用[6] AGI发展里程碑 - 物理AGI的重要标志是机器人能真正理解物理因果关系,如"咖啡杯放桌沿会摔碎"[7] - 当前AGI刚过起跑线,具身智能仍需突破技术路线共识和产业落地障碍[5][6]