推理

搜索文档
WaveSpeedAI 成泽毅:AI Infra 本来就是一门能挣钱的生意
Founder Park· 2025-06-10 20:59
核心观点 - 技术人追求价值证明而非安稳,大厂天花板促使成泽毅创业[1][2] - 推理加速是AI商业化关键环节,海外市场更认可Infra价值[15][20] - 通过开源验证技术市场潜力,全球化策略从Day One确立[11][21] - 轻资产团队+重系统架构,实现成本1/5的极致性价比[28][46] - 视频生成市场爆发前夜,降本需求催生百亿美元蓝海[42][47] 职业转折与创业动机 - 阿里两年升两级后遭遇成长瓶颈,团队膨胀稀释个体价值[1][6][7] - 创业公司商业化路线模糊,被动等待市场的心态成束缚[3][17] - GitHub项目24小时700星验证技术独立价值[8][11] - 国内Infra价值被低估,海外客户愿为稳定高效付费[12][20] 公司定位与商业模式 - 专注图片/视频生成推理加速,25年2月上线3月营收5万美元[4] - 寄生式合作策略:嵌入大客户系统分润,避免平台竞争[32] - 7人全栈团队实现小时级响应,远程协作降低沟通成本[29][30] - 与Datacrunch/Replicate等合作,技术授权+算力弹性调度[32][35] 技术架构与竞争优势 - 10万行代码自研PyTorch原生推理框架,拒绝ONNX复杂化[34] - 延迟从6秒优化至2.4秒,单位成本降至行业1/5[46][48] - 服务Freepik日处理200万图像,GPU支出节省数千美元/小时[48] - 系统兼容Google Veo/Minimax等主流商业模型[32] 市场洞察与行业趋势 - AI视频生成成本痛点:Veo 2模型10秒视频成本达5美元[43] - 全球视频生成市场规模2030年将达百亿美元,CAGR超30%[42] - 多模态技术需求爆发,开发者计划赋能超1万名创作者[55][56] - 国内企业忽视长期维护,海外认可Infra为商业化突破口[19][20] 运营策略与未来规划 - 先盈利后融资:4月实现数百万美元天使轮时已现金流为正[4][27] - 开源引流+快速商用验证,拒绝重资产GPU采购[24][35] - 规划Agent生态/建站工具,强化开发者支持体系[56] - 定位中国AI全球化范本,目标国际市场份额[57][58]
面壁小钢炮4.0发布:性能比肩 Qwen-3-8B,极限220倍提速
新浪科技· 2025-06-10 17:37
新浪科技讯 6月10日下午消息,近日,面壁智能第四代"面壁小钢炮" MiniCPM4.0 端侧模型(代号"前进 四")发布。据悉,第四代小钢炮拥有 8B 、0.5B两种参数规模,实现了同级最佳的模型性能。可让长 文本、深思考在端侧真正跑起来,实现220倍极限加速。 据悉,MiniCPM 4.0 模型采用的InfLLMv2稀疏注意力架构改变了传统 Transformer 模型的相关性计算方 式,有效摆脱了逐字重复计算的低效,将稀疏度从行业普遍的40%-50%,降至极致的5%,注意力层仅 需1/10的计算量即可完成长文本计算。且对算子底层重写,进一步加速提升,并使得对文本相关性精准 性大大提升。 值得一提的是,DeepSeek 使用的长文本处理架构NSA(Native Sparse Attention)也引用并采用了与 InfLLM相同的分块注意力计算思路,但其对于短文本的推理较慢,InfLLMv2则很好地解决了NSA在短 文本推理上的短板。 在缓存消耗上,MiniCPM 4.0-8B在 128K 长文本场景下相较于Qwen3-8B仅需 1/4 的缓存存储空间。在速 度、性能飙升的同时,又做到了模型极致压缩,让端 ...
WWDC前夕,苹果论文“炮轰”AI推理模型“假思考”,测试方法遭质疑
每日经济新闻· 2025-06-09 19:06
苹果机器学习研究中心论文核心观点 - 论文认为现有推理模型的"思考"能力是一种"幻象",缺乏稳定可理解的思维过程 [1][4] - 指出OpenAI、Anthropic、谷歌和DeepSeek等公司推出的链式思考(CoT)模型声称接近"类人思维"存在争议 [4] - 批评当前评估方法存在数据污染风险,缺乏对思考过程质量的量化分析 [4] 实验设计与发现 - 设计四类谜题环境(汉诺塔/跳棋交换/过河问题/积木世界)测试模型推理能力 [4] - 低复杂度任务中非推理模型更准确高效,中等复杂度时推理模型显现优势 [6] - 问题难度超过临界点后两类模型准确率均降为零,显示未突破能力瓶颈 [6][7] - 发现模型存在"缩放限制"现象:难度超限时即便有充足计算预算也会减少思考投入 [9] 推理过程异常现象 - 简单问题中模型过早找到正确答案却继续无效思考 [10] - 中等复杂度问题存在路径偏差,后期才修正答案 [11] - 高复杂度任务中推理痕迹变得混乱不连贯 [11] - 汉诺塔测试中即使提供完整解题算法,模型表现仍无改善 [11] 行业争议与反驳 - 研究者指出实验失败源于输出token限制而非推理能力缺陷 [12] - 观点认为存在复杂度阈值不等于否定全部推理能力 [12] - 批评声音认为苹果聚焦记录局限性缺乏建设性 [12] - 行业观察者质疑苹果因AI进展滞后而贬低竞争对手 [13] 苹果AI发展背景 - WWDC 2025前夕被曝AI进展有限,Siri升级可能继续延期 [14] - 去年宣布的Siri重构未见实质性推进 [15] - 内部消息透露进展受阻与组织协作问题、隐私政策限制有关 [15]
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 18:41
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
量子位· 2025-06-09 17:27
视觉语言模型(VLM)技术突破 - 视觉语言模型正经历从「感知」到「认知」的关键跃迁,实现多模态交互的全新可能 [1][2] - 传统VLM依赖文本token间接翻译视觉信息,导致在高清图像微小物体、视频动态细节等场景中表现不足 [2] - 研究团队提出「像素空间推理」范式,将推理战场从文本空间拓展到像素空间,实现原生视觉操作 [2][3] 像素空间推理的核心优势 - 模型可自主触发视觉变焦、时空标记等原生操作,在像素矩阵上直接完成闭环推理,避免信息衰减 [6] - 视觉主导推理机制使模型能捕捉传统方法难以处理的空间关系与动态细节,如具身视觉导航、复杂视频理解等场景 [6] - 打破文本对视觉语义的「翻译牢笼」,实现与人类视觉认知同构的推理能力 [7] 学习陷阱与激励机制 - 指令微调模型面临「认知惰性」挑战,表现为负面反馈循环和路径依赖惯性 [8] - 研究团队设计内在好奇心激励配合外在正确性激励的强化学习方案,鼓励模型练习视觉操作 [9][10] - 通过像素推理率约束和操作效率约束,在探索与计算成本间找到平衡 [10][11] 性能表现与行业影响 - 基于Qwen2.5-VL-7B构建的Pixel-Reasoner在四大视觉推理基准测试中表现优异:V* Bench 84.3%准确率,超越GPT-4o和Gemini-2.5-Pro [13][15] - 在TallyQA-Complex、InfographicsVQA、MVBench等测试中均实现显著性能提升,展现「小模型大能力」特性 [19][20] - 像素空间推理为VLM开启「第二思维通道」,推动多模态模型真正理解世界复杂性 [21]
大模型高考成绩单出炉,讯飞星火语数外实力位居第一梯队
和讯网· 2025-06-09 17:05
国产大模型高考表现 - DeepSeek R1以143分成为国产大模型数学科目状元,讯飞星火X1以141分紧随其后,两者在函数题、数列证明等高难度题型中均展现完整解题链[9] - 数学实测显示DeepSeek R1在128K上下文优势明显,复杂题目分步推导无遗漏,但存在OCR识别短板需人工转写题目[10] - 不同评测机构结果存在差异:IT之家测试中DeepSeek数学143分第一,而自媒体"数字生命卡兹克"评测中其得分64.3分低于讯飞星火X1和豆包1.5[9][11][12] 语文作文能力对比 - 讯飞星火X1作文《以歌为刃破长夜且将热血铸山河》获52/54高分,专家评价其结构如交响乐章,选材如历史长卷,构建从个体觉醒到文明永续的逻辑链[2] - DeepSeek《悲歌当泣》采用六段式结构层层递进探讨艺术作用,获52.5分但被指敦煌案例"缺乏现代表达"[4][6] - 文心一言因过度抒情跌至47分垫底,豆包1244字超长作文因"沉默与发声辩证不足"扣分[6] 英语作文跨文化表达 - 讯飞星火X1英语作文以19.5平均分夺冠,其"全球气候行动网络"提案内容完整且句式多样,展现对国际议题精准理解[13][14] - DeepSeek R1英语作文结构严谨逻辑流畅但UN initiatives翻译不够具体,ChatGPT o3因口语化表达和腾讯混元T1因非正式语体得分较低[16] 技术路线与行业格局 - 全国产算力下70B量级的讯飞星火凭借算法优化与教育领域深耕,超越更大参数规模对手[1] - 深度推理大模型执行"解析题干-提炼论点-匹配论据"流程,可成为学生写作思考链条,启发突破套路化表达[18] - 国产大模型推理能力实现质的飞跃,讯飞星火等多家模型高考数学成绩突破130分[18]
无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10%
机器之心· 2025-06-09 16:03
近期,当很多人还在纠结用什么 label 和 reward 训练大模型的时候,以及纠结用什么样的基准模型进行公平比较的时候,西湖大学 MAPLE 实验室另辟蹊径:既然 LLM 在复杂指令上表现不佳,需要引入单独的 SFT 或者 RL 过程,那为什么不让模型在推理时「临时学习」一下这 个具体的问题呢?这个看似「离谱」的想法,竟然带来了惊人的效果提升。 试想一下,如果你参加考试时,可以在答题前花几秒钟「适应」一下这道具体的题目,你的表现会不会更好? 这正是西湖大学研究团队在最新论文中提出的核心思想。他们开发的 SLOT(Sample-specific Language Model Optimization at Test-time)方法, 把每个输入 prompt 本身当作一份「迷你训练数据」 ,让模型在生成答案前先「学习」理解这个具体问题。 更令人惊讶的是,这个方法 简单到离谱 : Qwen2.5-7B 在 GSM8K 数学推理任务上准确率从 57.54% 飙升至 66.19% ,提升 8.65 个百分点。 DeepSeek-R1-Distill-Llama-70B 在 GPQA Diamond 上达到 68. ...
质疑DeepSeek-R1、Claude Thinking根本不会推理!苹果争议论文翻车了?
机器之心· 2025-06-09 12:33AI Processing
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-09 12:23
多模态大模型技术发展 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V,基于DreamLLM框架实现图文生成理解一体化 [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻:多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战:语言对视觉控制能力弱、图文对齐不精确、数据质量有限、生成模块无法反向影响理解模块 [3] 模型规模与能力关系 - 模型参数扩展到万亿级别时出现能力分化:文本生成和知识问答增强,但数学推理能力随规模增长反而下降 [3] - 大模型推理能力下降的核心原因是next token prediction框架更关注压缩率而非推理精度,导致思维跳步现象 [4][37] - Rule-based RL可通过直接优化任务目标来抑制跳步、强化稳定思维路径,显著提升大模型推理能力 [4] 计算机视觉领域挑战 - CV领域难以仅靠视觉数据实现GPT时刻,因静态图像数据中生成、理解与人类对齐三者割裂 [23] - 对比学习和MIM等方法在小模型有效但缺乏scale up特性,因依赖人工设计的不变性而非数据驱动 [15][16] - 视频数据可能成为突破口,因其蕴含更丰富的时空信息和自然对齐关系 [24] 生成理解一体化难题 - 语言模型通过next token prediction天然实现生成理解一体化,但该范式在多模态领域效果有限 [17] - 实验显示外挂生成模块对理解性能无影响,生成模块可控性差,常产生违反物理常识的输出 [29][31] - 复杂度问题是核心障碍:视觉生成需要考虑的因素远超单步推理能力上限 [52] o1范式突破 - o1范式通过引入Meta CoT实现思维链网状结构,允许模型在关键节点反悔重试 [5] - 该范式成功关键在于预训练语料中已存在多样化思维pattern,RL仅需强化而非创造 [51] - 相比传统RL,语言模型预训练大幅压缩action space,使复杂问题可解 [45] 多模态发展路径 - 短期解决方案是利用图文对齐数据,通过语言模态带动视觉智能 [24] - 长期需突破视频数据利用难题,教学视频中的教学行为可提供丰富action space [63] - 高可控生成技术突破将解开生成与推理的相互依赖死锁,目前OpenAI 4o已展现显著进展 [63][64] 模型架构演进 - 当前transformer架构处理long context存在根本缺陷,需建立分层记忆系统 [67] - multi-agent协作架构可有效解决上下文干扰问题,实现情景隔离式推理 [70] - 架构设计应服务于算法需求,如FFA算法可能彻底改变现有训练范式 [74] 自主学习方向 - 当前rule-based RL面临environment scaling瓶颈,需建立内生学习机制 [76] - 从自然语言反馈中提取多维评价信息是实现自主学习的关键技术难点 [78] - 无限长上下文建模和动态环境交互能力是自主智能体的基础要求 [79]