Workflow
AI前线
icon
搜索文档
看不见的底座:大模型 Infra 工程师的实战日常 | 直播预告
AI前线· 2025-06-14 12:06
大模型能跑起来、跑得好,背后有哪些看不见的工程细节?三位分别来自华为、蚂蚁集团与 SGLang 开源项目的 AI Infra 从业者 将分享他们的观察与体验。扫码预约直播,不见不散! 直播介绍 直播时间 Infra 工程师日常遇到的真实需求与故障类型 训练 / 推理流程中最常出错的环节有哪些 开源 Infra 项目的推进难点:技术之外还要兼顾什么 国产卡适配训练 / 推理过程中的实际体验与挑战 如何看直播? 扫描下图海报 【二维码】 ,或戳直播预约按钮,预约 AI 前线视频号直播。 如何向讲师提问? 看不见的底座:大模型 Infra 工程师的实战日常 直播嘉宾 主持人 :ZOMI 酱 华为 / 昇腾技术专家 嘉宾 : 直播亮点 马介悦 蚂蚁集团 / 高级专家 尹良升 SGLang 核心开发者 6 月 16 日 20:00~21:30 直播主题 文末留言写下问题,讲师会在直播中为你解答。 ...
员工每天花1000美元也要用ClaudeCode!创始人:太贵了,大公司专属,但它比 Cursor 猛!
AI前线· 2025-06-14 12:06
产品定位与核心优势 - Claude Code定位为终端环境下的代理式编程工具,无需更换IDE或学习新工具,直接在原有工作环境中使用[5] - 产品设计源于公司内部工程师多样化技术栈需求,选择终端作为通用入口以兼容所有开发者[5] - 在处理大型代码库时表现突出,无需额外索引或复杂配置即可开箱即用[9] - 被评价为让Cursor、Windsurf、Augment等工具显得过时,代表编程体验的范式变革[2][13] 技术能力与用户体验 - 采用Claude 4系列模型驱动,理解指令能力显著提升,首次执行准确率大幅改善[14][15] - 支持GitHub Actions集成,可直接在PR中@Claude自动修复问题或编写测试[16] - 通过Claude.md文件实现指令记忆与团队共享,支持全局/个人/项目级配置[24][25][26] - 工作流分为自动化处理简单任务与人工参与复杂任务两种模式[19][20] 市场反馈与定价策略 - 内部测试阶段DAU呈垂直上涨,发布三个月后获企业用户广泛采用[7][9] - 基础使用月费50-200美元,纳入Claude Max订阅计划后实现"无限量"使用[9][10] - 用户承认其能力超越Cursor等工具,但价格成为阻碍大规模采用的主因[1][2] - 公司内部工程师单日使用成本可超1000美元,反映高频使用的经济门槛[1] 行业影响与未来方向 - 推动开发者角色从代码编写者转变为技术决策主导者[4][18] - 代表编程语言演进后的体验变革,进入提示词驱动的新时代[13][18] - 计划拓展工具集成范围,支持更多CI系统和聊天工具场景化调用[27] - 采用"规划-执行"工作流,显著提升复杂任务处理效率[22][23] 开发历程与产品哲学 - 产品本身使用Claude Code进行多轮编写与重构,实现自我迭代开发[8] - 强调内部测试重要性,产品细节体现开发团队实际使用经验[8] - 创始人认为编程演进路径从打孔卡到提示词具有历史延续性[12][13] - 设计理念聚焦降低开发者认知负荷,通过自然语言交互完成编码[11][18]
硅基流动完成新一轮数亿元融资,打造开发者首选生成式 AI 开发平台
AI前线· 2025-06-13 14:42
融资与战略发展 - 硅基流动完成数亿元人民币A轮融资,由阿里云领投,创新工场等老股东超额跟投,华兴资本担任独家财务顾问 [1] - 公司定位为AI基础设施领域专业选手,通过技术突破解决国内AI行业发展重大问题,业务因开源大模型崛起和推理算力需求激增迎来爆发式增长 [1] - 融资资金将用于加大研发投入,拓展海内外市场,目标成为开发者首选的生成式AI开发平台 [1] 技术突破与产品创新 - 自主研发高性能推理引擎,显著提升芯片计算效率,完成国产芯片深度适配,实现国产算力从"可用"到"好用"的突破 [2] - 2025年2月推出基于国产算力的DeepSeek-R1 & V3服务,用户体验和性价比达国际主流GPU水准,验证国产算力部署大模型的商业可行性 [2] - 推出异构算力纳管平台,通过弹性调度技术整合碎片化算力资源,提升运营效率,推动算力资源普惠化 [2] - 大模型云服务平台SiliconCloud上线超百款主流开源大模型,提供模型精调、托管到部署的一站式解决方案,总用户数突破600万,企业客户数千家,日均Token生成量上千亿 [4] 应用场景与生态建设 - 一站式工作流设计平台BizyAir实现云端GPU与本地ComfyUI无缝协同,提供开箱即用模板,支持自定义模型与节点,已应用于阿里巴巴通义万相视频生成工作流 [6] - 推出API服务、专属实例、软件订阅及大模型一体机等多元解决方案,覆盖大语言模型、文生图、视频生成等领域,服务互联网、金融、制造、文娱等行业头部客户 [6] - 未来将持续降低AI开发与部署门槛,携手上下游合作伙伴推动AI技术深度应用,加速行业智能化升级 [6] 行业活动与趋势 - 创始人袁进辉将在AICon大会分享《AI-Native Cloud构建之路与展望》,聚焦推理引擎、FaaS、MaaS、工作流等技术探索 [1][10] - AICon北京站将围绕AI Agent、多模态应用、大模型推理优化等议题探讨技术与应用融合趋势 [10]
三大云厂同时瘫了?Cursor、ChatGPT跟着倒下!网友:整个互联网都要废了
AI前线· 2025-06-13 14:42
云服务中断事件概述 - 北京时间昨夜AWS、谷歌云、Azure和Cloudflare同时出现服务中断[1] - Down Detector数据显示谷歌云中断峰值达13000起报告,Azure和AWS分别达1000份和5000份[2][3][4] - 微软和AWS官方状态页面未显示异常,但第三方监测平台记录大量中断[5] 谷歌云中断详情 - 中断始于太平洋时间10:51,持续近3小时,影响Gmail、Google Drive等Workspace产品及GCP多项服务[10] - 根本原因为身份和访问管理服务(IAM)故障,导致全球13个区域云服务异常[38] - 至15:16大部分服务恢复,但Dataflow和Vertex AI等产品仍存在延迟和错误[13][14] 受影响企业 - Shopify因依赖谷歌云成为重灾区,多项服务异常[17] - Spotify中断持续3小时,恢复后仍存在访问量下降问题[19][20] - Cloudflare因依赖谷歌云导致Workers KV等核心服务故障,股价当日下跌5%[21][25] 行业连锁反应 - 多米诺效应引发Twitch、GitHub等20余家依赖云服务的平台连锁中断[38] - 暴露Cloudflare等基础设施供应商对公有云的高度依赖[35][36] - Hacker News用户推测故障源于谷歌内部Chemist服务策略检查失败[30][31] 谷歌云业务影响 - 事件发生在谷歌云快速增长期,正值与AWS、Azure竞争关键阶段[38] - Alphabet近期裁员及岗位转移至印度/墨西哥引发服务质量担忧[40][41] - 云计算部门虽保持美国最大团队规模,但成本削减措施或影响运维能力[42]
SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻
AI前线· 2025-06-13 14:42
SGLang 开源推理引擎发展现状 - 截至2025年6月 GitHub Stars达15K 月均下载量突破10万次 [1] - 已被xAI Microsoft Azure NVIDIA AMD LinkedIn 美团等行业巨头采用 [1] - 成为DeepSeek R1官方推荐推理引擎 并实现首个完全开源的大规模专家并行部署方案 [1] 核心技术优势 - 采用PD分离架构控制尾延迟 推测解码提升Token生成速度 KV缓存落盘优化显存 [2] - 实现RadixAttention Overlap Scheduling等高效架构设计 复现PD分离 大规模EP等前沿技术 [3] - 支持离线批处理最大化GPU利用率 线上推理优先保障Token生成速度的差异化部署策略 [4] 并行部署技术挑战 - 专家并行实现中面临通讯与Prefill/Decode传输KV缓存的时间重叠问题 [4] - 网卡资源争抢 CPU负载过大 Python GIL锁释放不及时等工程挑战突出 [4] 社区生态建设 - 开源模式吸引广泛参与 技术分享增强社区认同感 [5] - 超过100k显卡规模的工业部署经验反哺技术演进 [5] 关键技术解析 - PD分离使Decode延迟均匀稳定 允许采用不同并行策略提升资源利用率 [6] - 推测解码通过隐藏层信息一次预测多个Token 显著提升Decode速度 [6] - KV缓存落盘将历史上下文存储至大容量设备 避免重复Prefill计算 [6] 部署实践洞察 - 参数配置调试是影响上线效率的关键环节 需精细化优化而非依赖"开箱即用" [7] - 模型规模持续扩大背景下 多GPU与高效并行策略是实现高性价比部署的必经之路 [7] 行业活动预告 - AICon全球人工智能开发与应用大会将深入解析大模型推理关键技术 [2][7] - 聚焦AI Agent构建 多模态应用 大模型推理优化等前沿议题 [7]
长文本推理 5 倍提速!面壁MiniCPM4 端侧模型发布,0.5B模型效果秒杀同级
AI前线· 2025-06-12 14:07
模型发布与性能 - 新一代"面壁小钢炮" MiniCPM4 0端侧模型发布 包含8B和0 5B两种参数规模 其中8B稀疏闪电版带来端侧性能大跃升 0 5B版本适配广泛终端场景 [1] - MiniCPM4 0-8B是首个原生稀疏模型 5%极高稀疏度加持系统级创新技术 在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销 性能比肩Qwen-3-8B 超越Gemma-3-12B [2] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等基准测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现几乎不掉点的int4量化 推理速度达600 Token/s [4] 技术架构创新 - 采用新一代InfLLMv2稀疏注意力架构 稀疏度从行业普遍的40%-50%降至5% 注意力层仅需1/10计算量完成长文本计算 算子底层重写进一步提升速度与精准性 [14] - 引入高效双频换挡机制 根据任务特征自动切换注意力模式 长文本启用稀疏注意力降低计算复杂度 短文本切换至稠密注意力确保精度与速度 [17] - 开发并开源InfLLMv2高效训练与推理算子 提出高效LogSumExp估计算法 相比DeepSeek NSA算法节省60%计算开销 [16] 性能表现对比 - 在MMLU测试中 MiniCPM4-8B得分为75 83 高于Qwen3-8B的75 90和Gemma3-12B的73 36 [5] - 在CEval测试中 MiniCPM4-8B得分81 36 显著高于Qwen3-8B的80 35和Gemma3-12B的62 23 [5] - 在HumanEval测试中 MiniCPM4-8B得分85 37 接近Qwen3-8B的85 98 高于Gemma3-12B的83 54 [5] 端侧优化与部署 - 实现长文本缓存大幅锐减 128K长文本场景下仅需Qwen3-8B 1/4缓存存储空间 量化版模型瘦身达90% [8] - 自研CPM cu推理框架实现5倍速度提升 集成高效稀疏注意力算子 投机采样和量化技术 [19][21] - 已适配Intel 高通 MTK 华为昇腾等主流芯片 可在vLLM SGLang llama cpp等开源框架部署 [10] 训练与数据策略 - 采用Ultra-FineWeb高知识密度数据筛选机制 实现90%验证成本降低 处理15万亿token数据仅需1000小时CPU时间 [28] - 应用风洞2 0方案 将超参数配置搜索实验次数降低50% 采用Chunk-wise Rollout技术提升GPU资源利用率 [29] - 仅用22%训练开销即达到同尺寸开源模型能力水平 训练策略包括FP8训练和MTP监督信号等前沿技术 [28][30]
被“网暴”两个月后,Yann LeCun 携最新世界模型杀回!小扎千万美元激励抢人,Meta AI 内部权利之争开始
AI前线· 2025-06-12 14:07
Meta推出V-JEPA 2世界模型 - Meta推出新一代世界模型V-JEPA 2,旨在提升AI在物理世界中的视觉理解与预测能力,实现高级机器智能(AMI)[1] - V-JEPA 2被描述为"现实的抽象数字孪生",使AI能够预测行为后果并规划行动方案[1] - 该模型比英伟达Cosmos模型快30倍,并已开源[1][5] - V-JEPA 2基于100多万小时视频数据训练,无需标记视频片段即可执行推理[3][4] - 模型赋予AI三大核心能力:理解、预测与规划,帮助机器构建现实内部模拟[3] 技术特点与应用场景 - V-JEPA 2可帮助AI模拟人类物理直觉,如理解重力影响、预测物体运动轨迹[2][4] - 在实验室测试中,机器人借助V-JEPA 2成功执行抓取、拾取和放置物体等任务[5] - 适用于自动驾驶汽车、仓库机器人和无人机配送系统等需要实时空间理解的技术[3] - Meta发布三项新基准测试(IntPhys 2、MVPBench和CausalVQA)评估模型物理推理能力[5] - 潜在应用领域包括医疗、农业和救灾等需要AI在陌生环境自主运行的场景[18] 行业竞争与战略布局 - Meta将V-JEPA 2视为实现通用人工智能(AGI)的关键里程碑,与OpenAI、谷歌等展开竞争[11] - 行业趋势显示AI研究正向世界建模发展,李飞飞初创公司World Labs获2.3亿美元融资,谷歌DeepMind测试Genie项目[19] - 英伟达在CES上发布Cosmos World Foundation模型系列,提供物理感知视频预测与生成能力[5] - Meta称V-JEPA 2依赖简化空间推理而非大量数据输入,可能比现有AI模型更高效和可扩展[17] Meta内部AI战略调整 - Meta首席执行官扎克伯格亲自领导新成立的"超级智能"团队,计划招募约50名顶尖AI专家[14] - 公司向Scale AI投资140亿美元以获取高质量训练数据,应对Llama 4表现不佳的挑战[13] - 时隔两年Meta再次重组AI团队,提供数千万美元薪酬方案吸引人才[14] - 公司试图挖角谷歌和OpenAI顶级研究员未果,显示行业人才竞争加剧[15] Yann LeCun的AI理念 - Meta首席AI科学家LeCun认为AI需要世界模型而非仅大语言模型,此理念已研究20年[7][8] - LeCun批评大语言模型(LLM)不足以实现人类水平智能,称其为"token生成器"[8] - V-JEPA 2的发布被视为LeCun长期坚持的世界模型理念的重要突破[11]
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天
AI前线· 2025-06-11 16:39
智源研究院"悟界"系列大模型发布 - 推出原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS2.0与具身大脑RoboBrain2.0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 构建模态无关的统一表征空间 实现文本、图像、视频的任意组合理解与生成 [3] - Brainμ基于Emu3架构 引入脑信号模态数据 实现单一模型完成多种神经科学任务 在自动化睡眠分型等任务中性能显著超越现有专有模型 [4] 原生多模态世界模型技术突破 - Emu3支持多模态输入输出的端到端映射 验证自回归框架在多模态领域的普适性 为跨模态交互提供技术基座 [4] - Brainμ整合超过100万单位神经信号预训练 支持从基础研究到临床研究和脑机接口应用 有望成为神经科学领域的"AlphaFold"模型 [5] - 与强脑科技BrainCO合作 首次在便携式消费级脑电系统上重建感觉信号 展现脑机接口应用潜力 [5] 具身智能技术进展 - RoboOS2.0是全球首个基于具身智能SaaS平台的开源框架 支持无服务器一站式轻量化机器人本体部署 整体性能提升30% 全链路平均响应时延低至3ms以下 [6][7] - RoboBrain2.0在多项空间推理与任务规划指标上超越主流大模型 任务规划准确率相较1.0版本提升74% 空间智能性能提升17% [8][9] - 新增多本体时空记忆场景图共享机制和深度思考能力 支持动态环境下的实时感知与建模 提升任务执行稳定性与成功率 [7][9] 微观生命模型突破 - OpenComplex2实现从静态结构预测到动态构象分布建模的突破 能表征生物分子系统的连续演化能量景观 [11] - 在CASP16竞赛中成功预测蛋白质T1200/T1300的空间构象分布 成为23支参赛队伍中唯一取得该突破的团队 [12] - 突破静态结构预测瓶颈 为原子级结构生物学提供全新建模工具 有望显著缩短生物医药研发周期并降低成本 [12] 技术发展趋势 - 人工智能正加速从数字世界走向物理世界 原生多模态世界模型是实现物理AGI的重要发展路径 [2][3] - 公司预判大模型技术将从大语言模型向多模态尤其是原生多模态世界模型方向发展 当前工作布局围绕该趋势展开 [2] - 未来5-10年可能出现大小脑融合模型 但当前数据受限不具备融合条件 现阶段采用大小脑协作框架 [7]
OpenAI o3-pro模型发布,但不能聊天
AI前线· 2025-06-11 16:39
OpenAI o3-pro发布 - OpenAI正式发布o3-pro模型,ChatGPT Pro用户可通过API使用该模型[1] - o3-pro是OpenAI当前最强智能模型o3的子版本,旨在延长思考时间以提供更可靠的响应结果[1] - 与o3类似,o3-pro可以使用ChatGPT擅长的各类工具,包括搜索网页、分析文件、推理视觉输入、使用Python、运用记忆个性化响应等[1] - 由于o3-pro使用工具,响应生成时间比o1-pro更长,建议用于可靠性优先于速度的棘手难题[1] o3-pro性能表现 - 在专家评估中,o3-pro在科学、教育、编程、商业及写作协助等关键领域的所有测试类别中表现优于o3[2] - 评估者一致认为o3-pro在清晰度、全面性、指令执行及准确性等方面有更好表现[2] - 学术评估结果表明o3-pro表现始终优于o1-pro及o3[3] - OpenAI采用严格的"4/4信度"评估方法,模型需在四次尝试中始终正确回答问题才被视为成功[3] 用户访问与功能限制 - o3-pro已在Pro和Team用户的模型选择器中开放,取代原有o1-pro[3] - Enterprise与Edu用户将在下周获得访问权限[3] - o3-pro临时聊天功能已停用,因技术问题未最终解决[3] - o3-pro不支持图像生成,用户需选择GPT-4o、OpenAI o3或OpenAI o4-mini模型生成图像[3] - o3-pro目前暂不支持Canvas[3]
字节 AI 卷出新高度:豆包试水“上下文定价”,Trae 覆盖内部80%工程师,战略瞄定三主线
AI前线· 2025-06-11 16:39
字节AI技术发展主线 - 公司认为AI技术发展主线包括多模态推理与思考、视频生成技术突破、多步骤复杂任务处理能力提升[5] - 预计2025年视频生成技术将进入实际生产环节 如消费领域和电商广告短片制作[5] - 多步骤复杂任务处理能力预计在2024年Q4达到可用水平 简单任务准确率可达80%-90%[5] 豆包大模型1.6升级 - 发布三个版本模型 均支持256K超长上下文和多模态输入[3] - 在高考数学测试中取得144分 海淀模拟考试理科706分 文科712分[3] - 支持自动操作浏览器完成酒店预定 识别购物小票并整理Excel等真实世界任务[3] - 综合成本仅为豆包1.5深度思考模型或DeepSeek R1的三分之一[8] 模型定价策略 - 1-32K上下文长度定价:输入0.8元/百万tokens 输出8元/百万tokens[9] - 32-128K上下文长度定价:输入1.2元/百万tokens 输出16元/百万tokens[9] - 128-256K上下文长度定价:输入2.4元/百万tokens 输出24元/百万tokens[9] 视频生成模型Seedance 1.0 Pro - 具备无缝多镜头叙事 多动作运镜 稳定运动与真实美感三大特点[18] - 生成5秒1080P视频仅需3.67元 价格具有竞争力[18] - 1万元预算可生成2700条1080P视频 或9700多条780P视频[20] Trae开发工具进展 - 内部超过80%工程师使用 月活用户超100万[14] - 采用自然语言编程方式 AI生成85%代码 开发者仅需优化不到5%[16] - 支持100+MCP Servers 支持代码重构 批量修改和交互式问答等复杂任务[16] 行业技术趋势 - 强化学习算力消耗快速攀升 预计2027年投入可能接近预训练规模[25] - 企业加速改造基础设施和云计算体系以适应AI发展需求[23] - 提示词工程正向价值随模型能力提升而增大 最终将由自动化系统解决[25] 商业化应用实践 - 与网易《逆水寒》合作测试玩家创作角色故事视频生成[22] - 豆包实时语音模型全量上线方舟平台 推出支持自然对话的播客模型[22] - 自建算力占比达30% 结合公有云资源平衡成本[11]