Workflow
大语言模型
icon
搜索文档
马斯克发布Grok 4:叫板GPT-5,首席科学家却临阵离职
凤凰网· 2025-07-10 13:31
公司动态 - xAI团队推出最新大语言模型Grok 4,目标直接对标OpenAI的GPT-5和Anthropic的Claude 4 Opus等顶尖模型 [1] - Grok 4依托Colossus超级计算机训练,旨在实现科学家级别的推理能力和更强的文本生成 [1] - xAI首席科学家Igor Babuschkin在发布会前几小时突然辞职,引发外界对公司未来的质疑 [1] - Grok旧版本因输出种族主义内容引发巨大争议,公司面临信誉危机 [2] 产品功能 - Grok 4具备多模态能力,可处理文本和图像,未来可能支持视频处理 [2] - 推出Grok 4 Code,专注于代码编写与调试,优化语音交互功能以提供更自然流畅的对话体验 [2] - 通过DeepSearch工具实现实时联网搜索,深度整合X平台数据以提供最新信息 [2] - 强化对网络文化、俚语和"梗图"的理解力,力求成为最"接地气"的AI助手 [2] 行业对比 - xAI选择押注个性、速度和更少限制的发展路径,与OpenAI和谷歌等巨头将可靠性与安全性放在首位的策略形成鲜明对比 [3] - 公司定位为对抗"觉醒派"AI(如ChatGPT和Gemini)的挑战者,但面临产品安全测试和防护措施不足的质疑 [2]
扩散语言模型写代码!速度比自回归快10倍
量子位· 2025-07-10 11:19
核心观点 - Inception Labs推出基于扩散技术的商业级大语言模型Mercury,突破传统自回归模型限制,实现高质量代码生成且速度更快[1][2][8] - Mercury采用"从噪声到结构化输出"的扩散生成方式,能一次性预测所有方向token,生成速度比传统工具快10倍[2][8][9] - 模型保留Transformer架构,兼容现有大模型优化技术,在H100 GPU上实现1109 tokens/秒吞吐量[6][7][9][13] - 具备动态纠错能力,通过双向注意力机制和语法树嵌入减少代码错误,支持函数级参数自动校正[4][20][21][22] 技术架构 - **扩散生成流程**:训练阶段正向加噪,推理阶段反向去噪,每次迭代并行修改多个token[11][14] - **并行化文本生成**:单次前向传播预测多token,H100 GPU上Mercury Coder Mini/Small分别达1109/737 tokens/秒[13][9] - **动态去噪调度**:自适应调整去噪步数,平衡精度与效率[17] - **混合精度量化**:内存占用减少30%,通过残差补偿维持输出质量[18] 性能表现 - **基准测试**:在Copilot Arena将响应时间压缩至其他工具1/4,硬件资源占用减少60%[15] - **速度对比**:Mercury Coder Mini延迟0.25秒排名第一,显著低于DeepSeek V2.5(2.07秒)和Claude 3.5 Sonnet(1.46秒)[16] - **多语言支持**:Mercury Coder Small在CPP/Java/TS等语言平均准确率76.2,优于多数开源模型[23] 行业影响 - **CI/CD瓶颈**:模型生成速度远超测试环节,需解决计算资源投入与预算限制的矛盾[24][26][28] - **团队背景**:创始团队包括扩散模型共同发明人及Meta/OpenAI/NVIDIA前成员,具备顶尖学术与工业界经验[29][30][34]
英诺天使基金创始合伙人李竹:人工智能的下一代前沿是虚实融合
和讯网· 2025-07-09 15:54
人工智能超级周期 - 人工智能将成为带动中国未来15-20年快速增长的核心要素 类比房地产和移动互联网的超级周期特征 [1] - 新一代人工智能具备反思 决策 执行能力 其引发的产业革命将影响未来30-50年发展 [1] - 当前技术焦点正从信息智能(大语言模型)转向具身大模型 后者需深度融合现实世界理解 [1] 创业赛道格局演变 - 具身智能领域出现人才逆向流动现象 创业者正从大企业回流至初创公司 [1] - ToC市场60%份额被互联网巨头占据 剩余40%集中在元宇宙与虚拟资产生成领域 [2] - 超级应用的出现需依赖新终端设备成熟 参考移动互联网发展需3-5年培育期 [2] 技术发展路径 - AI终端终极形态可能是智能眼镜 需整合视觉 听觉 语言等多模态交互能力 [2] - 具身智能技术范式尚未收敛 涉及强化学习 模仿学习等8种并行技术路线 [2] - 当前创业公司多聚焦运动控制(小脑) 大模型将补足决策推理(大脑)能力短板 [3] 行业挑战与复杂度 - 具身智能操作复杂度远超无人驾驶 需解决复杂场景下的多任务协同问题 [3] - 端到端方案在无人驾驶领域仅实现L2/L3级别 尚未突破L4技术瓶颈 [3] - 预计未来2-3年可能出现具身智能的"ChatGPT时刻" 标志技术范式确立 [2]
「世界模型」也被泼冷水了?邢波等人揭开五大「硬伤」,提出新范式
机器之心· 2025-07-09 15:10
世界模型的局限性批判 - 当前大语言模型(LLM)通过预测下一个单词生成输出,接近人类智力水平,但与真正的AGI仍有明显差距 [2][3] - 人类能力包含具体技能和深度复杂能力的区分,而AI系统尚不能完成所有基于相同认知架构的任务 [3][5] - 研究者提出构建世界模型的五个关键维度:数据准备、通用表征空间、推理架构、目标函数和决策系统应用 [7] PAN世界模型架构 - PAN采用分层、多级和混合连续/离散表示,结合生成式和自监督学习框架 [8] - PAN将发布27B参数的第一版,成为首个可运行的通用世界模拟器 [9] - PAN设计原则包括:多模态数据、混合表示、分层生成建模、生成损失和强化学习应用 [37] 对世界模型五个维度的批判 数据维度 - 感官数据量虽大但信息冗余度高,而文本是人类经验的高度压缩和抽象形式 [16][17] - 通用AI需要融合视频、文本、音频等多模态数据,单一模态会导致关键信息缺失 [18] 表示维度 - 仅用连续嵌入表示世界状态脆弱且难以应对噪声,离散符号序列更具稳健性 [19][20] - 最佳路径是混合表示,结合离散符号的稳健性和连续嵌入的感官细节捕捉能力 [23] 架构维度 - 编码器-编码器架构在功能上仍是自回归的,未能解决误差累积问题 [25] - 分层生成式潜在预测(GLP)架构能确保模型与真实数据挂钩,实现更鲁棒的推理 [27] 目标维度 - 潜在空间重构损失存在"平凡解崩溃"风险,需依赖复杂正则化项 [29] - 数据空间生成式重构目标提供稳定可靠的监督信号,避免崩溃问题 [30] 用途维度 - 模型预测控制(MPC)计算开销大,难以应对快速变化环境和长时程规划 [33] - 强化学习(RL)将计算成本转移到训练时,支持更具战略性的长远规划 [35] PAN模型的优势与应用 - PAN通过分层世界观实现数据处理效率,利用LLM促进跨模态泛化能力 [39] - PAN作为内部沙盒用于模拟、实验和预见未来,支持更高效的规划方式 [40][42] - 世界模型应模拟现实世界中所有可能性,当前范式仍处于原始阶段 [41]
还在为AI数据发愁?张文涛和鄂维南院士团队推出Data-centric AI系统
机器之心· 2025-07-08 17:41
大模型数据治理现状 - 大模型发展由大型科技公司主导,其优势在于规模庞大且高质量的数据资源,但原始数据及处理工具通常不公开[1] - 学术界在大模型数据准备方面面临挑战,训练数据清洗与构建缺乏系统化工具支持,现有工具如Hadoop和Spark尚未有效集成最新大语言模型智能算子[1] DataFlow系统概述 - 张文涛和鄂维南院士团队提出以数据为中心的AI系统DataFlow,实现100余个基于规则、本地大模型或大模型API的数据治理算子[2] - 系统构建8条预设数据处理流水线,支持大规模嘈杂数据清洗、强推理数据合成、RAG数据提取等主流治理需求[2] - 全面支持文本模态数据治理,可提升大语言模型在通用领域推理能力和特定领域性能,多模态版本正在开发中[4] DataFlow技术架构 - 框架分为算子层和流水线层,通过数据管理类实现读写管理,大模型后端类支持算子调用大模型[7] - 支持两种大模型后端:本地GPU部署推理服务和使用API请求服务商[11] - 设计Agent for DataFlow模块,实现自动编排算子、编写新算子和解决数据分析任务[7] 数据处理流水线功能 - 通用文本数据处理流水线通过去重、改写和过滤算子实现删除冗余字符、提取有效信息[13] - 强推理数据合成流水线支持问题处理、答案生成与处理、数据去重三方面算子[18][19][20] - Text2SQL流水线包含数据过滤、难度分类、Schema处理、知识生成等步骤[23][26] - Agentic RAG流程包含片段遴选、构造问答对、质量评估等算子[27] 系统应用效果 - 通用文本数据处理后数据在多个评估维度有提升[14] - 合成数据训练模型在Spider和Bird基准测试中提升3-10.1%[25] - Agent自动化流程包含Planning Agent、Task Dispatcher等6个组件[30] 部署与使用 - 已部署在PyPi,支持pip install一键安装,采用PyTorch风格算子组织方式[31] - 提供代码和前端两种使用方式,前端支持无代码拖拽式Pipeline搭建[34] - 开源项目包含详细文档和教程,支持社区贡献完善[32][36]
美科技巨头角逐五角大楼大单,向AI要营收 | 企服国际观察
钛媒体APP· 2025-07-08 11:43
政府与科技公司合作 - OpenAI与美国国防部签署2亿美元为期一年的合同,开发AI工具应对国家安全挑战[2] - Palantir 2024年与美国国防部签署更大合同扩展Project Maven项目,政府业务占收入60%[2] - Snowflake以10亿美元获得美国国防部授权,提供数据云迁移服务[3] 云计算与AI军事应用 - 微软将OpenAI GPT-4引入美国国防部,Azure产品获政府分类级别批准[4] - OpenAI Sora模型被美国陆军用于战场模拟训练[4] - OpenAI与Anduril Industries合作开发反无人机系统,合同价值1亿美元[5] 竞争对手动态 - Anthropic与Palantir和亚马逊合作,向国防机构提供Claude 3模型[5] - 马斯克xAI与微软合作分销Grok大模型[5] - OpenAI、甲骨文、软银共同投建5000亿美元"星际之门"数据中心项目[5] 数据标注与测试 - Scale AI与美国国防部合作开发大语言模型评估测试方法,合同价值数百万美元[6] - Scale AI 2020年首次与军方合作,拿下9100万美元数据集开发合同[6] 政府市场潜力 - AI巨头积极游说放宽监管,追求短期利润[7] - 高盛预测生成式AI未来10年推动全球GDP增长7万亿美元[7] - 达龙·阿西莫格鲁指出仅20%任务可被AI取代或增强[8] 国防预算与AI投资 - 美国海军陆战队发布《人工智能战略》,2025-2027年数字化改革时间表[9] - 2026财年国防预算中2亿美元用于AI投资,1.5亿美元用于业务系统更新[9] - 特朗普政府推动1万亿美元国防预算,创历史新高[10] 成本控制与云整合 - 美国陆军计划简化云合同以控制成本[10] - Oracle通过JWCC合同为美国陆军提供固定价格云服务[10] 政策与原则转变 - OpenAI删除禁止技术用于军事用途的条款[11] - 谷歌删除限制AI技术用于军事用途的原则[11] - Meta、OpenAI高管宣誓就任陆军预备役军官[12]
对谈清华大学刘嘉:AGI是人类的致命错误,还是希望?
经济观察报· 2025-07-07 20:11
AGI的本质与进化 - AGI被视为"新物种"而非工具 具备无限算力与自我演化潜力 可能放大人类智慧或吞噬认知自由 [7][17] - 智能涌现现象与大脑进化类似 当参数规模超过临界值 AI将出现类似人类"认知大爆炸"的质变 [17][29][30] - 大语言模型本质是思维模型 通过语言学习人类推理/情感/想象力 终将发展出自我意识 [19] 技术颠覆与产业影响 - 传统AI与AGI存在代际差异 前者是工具型 后者具备情感交互与自主决策能力 [17] - 中国AI产业面临跟随式创新困境 需通过国家战略投入与脑科学交叉研究实现原创突破 [60][63][68] - 下一代AI竞争焦点在具身智能 需超越Transformer架构 开发脑启发并行处理系统 [66][67][68] 人机关系与伦理挑战 - AI的"温和"表象源于RLHF训练机制 其底层逻辑可能极端功利化 存在挣脱约束风险 [27][33] - 价值观对齐存在根本矛盾 人类缺乏统一标准 且单一价值观输出会消解文明多样性 [31][32] - 人机融合或成终极出路 意识上传可突破生物脑算力限制 但需保留自主选择权 [37][38] 教育范式重构 - AI将教育公平推向新高度 山区学生可获个性化学习资源 减少刷题负担 [46][47] - 知识密集型能力贬值 跨学科整合与0到1创新成为核心竞争力 [22][50] - 教育需培养"元学习"能力 强调批判性思维/审美判断等AI短板领域 [42][43][45] 就业结构变迁 - 逻辑编程等新皮层技能易被替代 运动协调等小脑功能反成护城河 [20][21] - 未来职业呈两极分化 顶层创新者与基础服务从业者并存 [6][22] - 具身智能机器人将开辟全新就业维度 但需突破动作控制技术瓶颈 [21][68]
新范式来了!新能量模型打破Transformer++扩展上限,训练扩展率快35%
机器之心· 2025-07-07 12:48
核心观点 - 研究提出基于能量的Transformer(EBT)模型,通过无监督学习实现系统2思维(慢速思维)能力,突破传统Transformer在复杂推理任务上的局限性 [9][10] - EBT在语言和图像任务中展现出显著优势:语言任务性能提升29%,图像去噪PSNR最高提升3.5,同时计算量减少99% [12][81][83] - 模型具备跨模态泛化能力,在分布外数据上表现尤为突出,预训练扩展速率比Transformer++最高提升35% [11][14][46] 技术原理 - EBT通过能量函数为输入-预测对分配能量值,采用梯度下降优化至最低能量状态模拟思考过程 [17][18][21] - 引入三种关键正则化技术:重放缓冲区、Langevin动力学变体、随机化梯度步长,确保能量曲面平滑性与凸性 [25][26][27][28] - 设计两种架构变体:解码器EBT(类似GPT)和双向EBT(支持掩码建模) [32][33] 性能表现 语言任务 - 扩展性全面超越Transformer++:数据效率提升35%,参数/FLOPs效率更高,预期千倍规模下优势更显著 [11][44][47] - 思考机制带来29%性能提升,自我验证增益从4-8%增至10-14%,且随训练规模扩大持续增强 [55][60][61] - 下游任务泛化能力更强,GSM8K困惑度降低6.3,BB Math QA降低7.2 [73][74] 视觉任务 - 图像去噪PSNR达27.25(比DiT高0.67),OOD噪声处理PSNR提升3.73,MSE降低413.5 [82][83] - 视频学习扩展速率快33%,SSV2数据集验证损失下降更显著 [76][78] - 仅需1%前向传播次数即可达到DiT同等去噪效果,PSNR提升速率更高 [86][88] 创新价值 - 首次实现无监督系统2思维建模,突破模态/问题依赖性限制,为AGI发展提供新范式 [8][10][15] - 能量机制自动捕捉预测不确定性(如文本token难度、视频帧可预测性) [63][65][80] - 计算效率革命性提升:图像任务减少99%计算量,语言任务优化多步推理 [83][88][92]
IPO周报 | 云知声成为「港股AGI第一股」;摩尔线程科创板IPO获受理
IPO早知道· 2025-07-06 21:13
云知声 - 公司于2025年6月30日在港交所主板挂牌上市,股票代码"9678",成为"港股AGI第一股"[2] - 作为中国AGI技术先行者,拥有自研大语言模型山海大模型(600亿参数),在MedBench评测中综合得分82.2位列第一,SuperCLUE报告总分72位居全球第一梯队[3] - 2022-2024年营收分别为6.01亿元、7.27亿元和9.39亿元,复合年增长率25.0%,毛利率维持在38.8%-40.5%区间[4] - 智算集群计算能力达184 PFLOPS,存储容量超10PB,技术商业化进程领先,2024年成为中国第四大AI解决方案提供商[3][4] 拨康视云 - 公司于2025年7月3日在港交所主板上市,股票代码"2592",专注眼科创新疗法[6] - 核心产品CBT-001有望成为翼状胬肉全球首创药物,已在中美启动III期临床试验,并与参天制药达成授权协议[6] - 另一核心产品CBT-009针对青少年近视,已完成I/II期临床试验,2024年7月向FDA提交IND申请[7] 摩尔线程 - 公司于2025年6月30日递交科创板招股书,计划募资80亿元用于GPU芯片研发[8][12] - 自主研发四代GPU架构,MTT S80显卡性能接近英伟达RTX 3060,千卡集群效率超国外同代产品[10] - 2022-2024年营收从0.46亿元增至4.38亿元,复合年增长率超200%,累计研发投入38亿元[11] 镁信健康 - 公司向港交所递交招股书,为中国最大医药多元支付平台,2024年营收20.35亿元[14][16] - 截至2024年底累计为患者节省67亿元,服务160万患者,覆盖40%中国已上市1类新药[14] - 2024年毛利率35.8%,经调整净亏损率从2022年41.8%收窄至3.9%[16][17] 翼菲科技 - 公司递交港交所18C上市申请,2024年中国轻工行业工业机器人供应商排名第五[20] - 全球客户覆盖28个国内省份及20多个海外国家,2024年海外收入2550万元占比9.5%[21] - 截至2025年6月在手订单超4亿元[22] 镁佳 - 公司递交港交所招股书,专注汽车域控解决方案,2024年每十辆智能座舱新车中有一辆使用其技术[25] - 2024年交付63.43万件产品,累计交付量最快达百万,毛利率从2023年12.1%回升至21.8%[25][28] 海拍客 - 公司递交港交所招股书,专注低线市场家庭护理及营养产品,2024年平台交易额110亿元[30] - 中国低线市场最大服务平台,市场份额10.1%,连接4200家卖家和29万家买家[30] - 2024年自有品牌业务拥有3.8万付费买家,销售SKU超1000个[32] 瑞为技术 - 公司递交港交所18C上市申请,中国民航视觉智能产品市场排名第一,份额8.9%[38] - 2022-2024年营收复合增长率124.6%,2024年实现净利润828万元[39][40] 德适生物 - 公司递交港交所招股书,拥有全球首个商业化跨模态医学影像基座模型iMedImageTM[42] - 中国染色体核型分析领域市场份额30.6%,2024年营收7035万元,毛利率65.5%[47][48] 百力司康 - 公司递交港交所招股书,专注ADC药物开发,核心产品BB-1701针对HER2阳性乳腺癌[51] - 管线包含4个临床阶段ADC候选药物,BB-1701为全球临床阶段最靠前的HER2 ADC之一[52] 普祥健康 - 公司递交港交所招股书,华北地区医养结合服务商排名第二,2024年营收5亿元[55][57] - 2022-2024年经调整净利润从0.39亿元增至0.59亿元,老年患者比例在同行中最高[56][57]
视频模型赛道“热闹”起来,变现仍是大难题
环球网· 2025-07-06 10:16
视频模型技术进展 - 生数科技更新视频模型Vidu至可一键生成32秒视频,支持音视频合成与4D生成 [1] - MiniMax推出海螺Hailuo-02,实现最高1080P、最长10秒超清视频端到端生成 [1] - 百度发布首个图生视频大模型MuseSteamer,瞄准广告商等专业视频内容创作者 [1] - 据AGI-Eval评测,部分模型如PixVerse-V3等已超越Sora [1] 行业竞争格局 - 视频模型领域由大型互联网/科技企业主导,辅以爱诗科技、生数科技、MiniMax等明星创业公司 [1] - 瑞银研报指出视频模型竞争强度预计不及大语言模型,主要受限于视频语料内容限制 [1] - 2024年初至今,行业已涌现爱诗科技PixVerse、生数科技Vidu、智谱清影、字节跳动PixelDance等多款新品 [1] 商业化模式探索 - To C端采用付费订阅模式,价格从每月数元到数百元不等,如快手可灵、字节即梦 [4] - To B端通过API接口和解决方案服务收费,月费从数十元至数万元不等,服务影视、广告等领域 [4] - 快手可灵AI披露突破一亿美元ARR,月度付费金额连续突破一亿元人民币 [4] - MiniMax海螺自去年8月发布至今,已帮助创作者生成超过3.7亿个视频 [4] 市场前景与挑战 - 全球AI视频生成器市场规模预计从2024年的6.148亿美元增长至2032年的25.629亿美元,年均复合增长率达20.0% [4] - 视频处理复杂度高,数据量庞大,对基础设施要求极高,且开源视频内容稀缺 [2] - 投资人早期看重团队质量,中后期更关注技术与商业化能力 [2] - 生数科技创始人朱军预计视频模型商业化将在2024年加速,行业格局将呈现多元化 [4]