Workflow
AI前线
icon
搜索文档
硅基流动完成新一轮数亿元融资,打造开发者首选生成式 AI 开发平台
AI前线· 2025-06-13 14:42
融资与战略发展 - 硅基流动完成数亿元人民币A轮融资,由阿里云领投,创新工场等老股东超额跟投,华兴资本担任独家财务顾问 [1] - 公司定位为AI基础设施领域专业选手,通过技术突破解决国内AI行业发展重大问题,业务因开源大模型崛起和推理算力需求激增迎来爆发式增长 [1] - 融资资金将用于加大研发投入,拓展海内外市场,目标成为开发者首选的生成式AI开发平台 [1] 技术突破与产品创新 - 自主研发高性能推理引擎,显著提升芯片计算效率,完成国产芯片深度适配,实现国产算力从"可用"到"好用"的突破 [2] - 2025年2月推出基于国产算力的DeepSeek-R1 & V3服务,用户体验和性价比达国际主流GPU水准,验证国产算力部署大模型的商业可行性 [2] - 推出异构算力纳管平台,通过弹性调度技术整合碎片化算力资源,提升运营效率,推动算力资源普惠化 [2] - 大模型云服务平台SiliconCloud上线超百款主流开源大模型,提供模型精调、托管到部署的一站式解决方案,总用户数突破600万,企业客户数千家,日均Token生成量上千亿 [4] 应用场景与生态建设 - 一站式工作流设计平台BizyAir实现云端GPU与本地ComfyUI无缝协同,提供开箱即用模板,支持自定义模型与节点,已应用于阿里巴巴通义万相视频生成工作流 [6] - 推出API服务、专属实例、软件订阅及大模型一体机等多元解决方案,覆盖大语言模型、文生图、视频生成等领域,服务互联网、金融、制造、文娱等行业头部客户 [6] - 未来将持续降低AI开发与部署门槛,携手上下游合作伙伴推动AI技术深度应用,加速行业智能化升级 [6] 行业活动与趋势 - 创始人袁进辉将在AICon大会分享《AI-Native Cloud构建之路与展望》,聚焦推理引擎、FaaS、MaaS、工作流等技术探索 [1][10] - AICon北京站将围绕AI Agent、多模态应用、大模型推理优化等议题探讨技术与应用融合趋势 [10]
三大云厂同时瘫了?Cursor、ChatGPT跟着倒下!网友:整个互联网都要废了
AI前线· 2025-06-13 14:42
云服务中断事件概述 - 北京时间昨夜AWS、谷歌云、Azure和Cloudflare同时出现服务中断[1] - Down Detector数据显示谷歌云中断峰值达13000起报告,Azure和AWS分别达1000份和5000份[2][3][4] - 微软和AWS官方状态页面未显示异常,但第三方监测平台记录大量中断[5] 谷歌云中断详情 - 中断始于太平洋时间10:51,持续近3小时,影响Gmail、Google Drive等Workspace产品及GCP多项服务[10] - 根本原因为身份和访问管理服务(IAM)故障,导致全球13个区域云服务异常[38] - 至15:16大部分服务恢复,但Dataflow和Vertex AI等产品仍存在延迟和错误[13][14] 受影响企业 - Shopify因依赖谷歌云成为重灾区,多项服务异常[17] - Spotify中断持续3小时,恢复后仍存在访问量下降问题[19][20] - Cloudflare因依赖谷歌云导致Workers KV等核心服务故障,股价当日下跌5%[21][25] 行业连锁反应 - 多米诺效应引发Twitch、GitHub等20余家依赖云服务的平台连锁中断[38] - 暴露Cloudflare等基础设施供应商对公有云的高度依赖[35][36] - Hacker News用户推测故障源于谷歌内部Chemist服务策略检查失败[30][31] 谷歌云业务影响 - 事件发生在谷歌云快速增长期,正值与AWS、Azure竞争关键阶段[38] - Alphabet近期裁员及岗位转移至印度/墨西哥引发服务质量担忧[40][41] - 云计算部门虽保持美国最大团队规模,但成本削减措施或影响运维能力[42]
SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻
AI前线· 2025-06-13 14:42
SGLang 开源推理引擎发展现状 - 截至2025年6月 GitHub Stars达15K 月均下载量突破10万次 [1] - 已被xAI Microsoft Azure NVIDIA AMD LinkedIn 美团等行业巨头采用 [1] - 成为DeepSeek R1官方推荐推理引擎 并实现首个完全开源的大规模专家并行部署方案 [1] 核心技术优势 - 采用PD分离架构控制尾延迟 推测解码提升Token生成速度 KV缓存落盘优化显存 [2] - 实现RadixAttention Overlap Scheduling等高效架构设计 复现PD分离 大规模EP等前沿技术 [3] - 支持离线批处理最大化GPU利用率 线上推理优先保障Token生成速度的差异化部署策略 [4] 并行部署技术挑战 - 专家并行实现中面临通讯与Prefill/Decode传输KV缓存的时间重叠问题 [4] - 网卡资源争抢 CPU负载过大 Python GIL锁释放不及时等工程挑战突出 [4] 社区生态建设 - 开源模式吸引广泛参与 技术分享增强社区认同感 [5] - 超过100k显卡规模的工业部署经验反哺技术演进 [5] 关键技术解析 - PD分离使Decode延迟均匀稳定 允许采用不同并行策略提升资源利用率 [6] - 推测解码通过隐藏层信息一次预测多个Token 显著提升Decode速度 [6] - KV缓存落盘将历史上下文存储至大容量设备 避免重复Prefill计算 [6] 部署实践洞察 - 参数配置调试是影响上线效率的关键环节 需精细化优化而非依赖"开箱即用" [7] - 模型规模持续扩大背景下 多GPU与高效并行策略是实现高性价比部署的必经之路 [7] 行业活动预告 - AICon全球人工智能开发与应用大会将深入解析大模型推理关键技术 [2][7] - 聚焦AI Agent构建 多模态应用 大模型推理优化等前沿议题 [7]
长文本推理 5 倍提速!面壁MiniCPM4 端侧模型发布,0.5B模型效果秒杀同级
AI前线· 2025-06-12 14:07
模型发布与性能 - 新一代"面壁小钢炮" MiniCPM4 0端侧模型发布 包含8B和0 5B两种参数规模 其中8B稀疏闪电版带来端侧性能大跃升 0 5B版本适配广泛终端场景 [1] - MiniCPM4 0-8B是首个原生稀疏模型 5%极高稀疏度加持系统级创新技术 在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销 性能比肩Qwen-3-8B 超越Gemma-3-12B [2] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等基准测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现几乎不掉点的int4量化 推理速度达600 Token/s [4] 技术架构创新 - 采用新一代InfLLMv2稀疏注意力架构 稀疏度从行业普遍的40%-50%降至5% 注意力层仅需1/10计算量完成长文本计算 算子底层重写进一步提升速度与精准性 [14] - 引入高效双频换挡机制 根据任务特征自动切换注意力模式 长文本启用稀疏注意力降低计算复杂度 短文本切换至稠密注意力确保精度与速度 [17] - 开发并开源InfLLMv2高效训练与推理算子 提出高效LogSumExp估计算法 相比DeepSeek NSA算法节省60%计算开销 [16] 性能表现对比 - 在MMLU测试中 MiniCPM4-8B得分为75 83 高于Qwen3-8B的75 90和Gemma3-12B的73 36 [5] - 在CEval测试中 MiniCPM4-8B得分81 36 显著高于Qwen3-8B的80 35和Gemma3-12B的62 23 [5] - 在HumanEval测试中 MiniCPM4-8B得分85 37 接近Qwen3-8B的85 98 高于Gemma3-12B的83 54 [5] 端侧优化与部署 - 实现长文本缓存大幅锐减 128K长文本场景下仅需Qwen3-8B 1/4缓存存储空间 量化版模型瘦身达90% [8] - 自研CPM cu推理框架实现5倍速度提升 集成高效稀疏注意力算子 投机采样和量化技术 [19][21] - 已适配Intel 高通 MTK 华为昇腾等主流芯片 可在vLLM SGLang llama cpp等开源框架部署 [10] 训练与数据策略 - 采用Ultra-FineWeb高知识密度数据筛选机制 实现90%验证成本降低 处理15万亿token数据仅需1000小时CPU时间 [28] - 应用风洞2 0方案 将超参数配置搜索实验次数降低50% 采用Chunk-wise Rollout技术提升GPU资源利用率 [29] - 仅用22%训练开销即达到同尺寸开源模型能力水平 训练策略包括FP8训练和MTP监督信号等前沿技术 [28][30]
被“网暴”两个月后,Yann LeCun 携最新世界模型杀回!小扎千万美元激励抢人,Meta AI 内部权利之争开始
AI前线· 2025-06-12 14:07
Meta推出V-JEPA 2世界模型 - Meta推出新一代世界模型V-JEPA 2,旨在提升AI在物理世界中的视觉理解与预测能力,实现高级机器智能(AMI)[1] - V-JEPA 2被描述为"现实的抽象数字孪生",使AI能够预测行为后果并规划行动方案[1] - 该模型比英伟达Cosmos模型快30倍,并已开源[1][5] - V-JEPA 2基于100多万小时视频数据训练,无需标记视频片段即可执行推理[3][4] - 模型赋予AI三大核心能力:理解、预测与规划,帮助机器构建现实内部模拟[3] 技术特点与应用场景 - V-JEPA 2可帮助AI模拟人类物理直觉,如理解重力影响、预测物体运动轨迹[2][4] - 在实验室测试中,机器人借助V-JEPA 2成功执行抓取、拾取和放置物体等任务[5] - 适用于自动驾驶汽车、仓库机器人和无人机配送系统等需要实时空间理解的技术[3] - Meta发布三项新基准测试(IntPhys 2、MVPBench和CausalVQA)评估模型物理推理能力[5] - 潜在应用领域包括医疗、农业和救灾等需要AI在陌生环境自主运行的场景[18] 行业竞争与战略布局 - Meta将V-JEPA 2视为实现通用人工智能(AGI)的关键里程碑,与OpenAI、谷歌等展开竞争[11] - 行业趋势显示AI研究正向世界建模发展,李飞飞初创公司World Labs获2.3亿美元融资,谷歌DeepMind测试Genie项目[19] - 英伟达在CES上发布Cosmos World Foundation模型系列,提供物理感知视频预测与生成能力[5] - Meta称V-JEPA 2依赖简化空间推理而非大量数据输入,可能比现有AI模型更高效和可扩展[17] Meta内部AI战略调整 - Meta首席执行官扎克伯格亲自领导新成立的"超级智能"团队,计划招募约50名顶尖AI专家[14] - 公司向Scale AI投资140亿美元以获取高质量训练数据,应对Llama 4表现不佳的挑战[13] - 时隔两年Meta再次重组AI团队,提供数千万美元薪酬方案吸引人才[14] - 公司试图挖角谷歌和OpenAI顶级研究员未果,显示行业人才竞争加剧[15] Yann LeCun的AI理念 - Meta首席AI科学家LeCun认为AI需要世界模型而非仅大语言模型,此理念已研究20年[7][8] - LeCun批评大语言模型(LLM)不足以实现人类水平智能,称其为"token生成器"[8] - V-JEPA 2的发布被视为LeCun长期坚持的世界模型理念的重要突破[11]
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天
AI前线· 2025-06-11 16:39
智源研究院"悟界"系列大模型发布 - 推出原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS2.0与具身大脑RoboBrain2.0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 构建模态无关的统一表征空间 实现文本、图像、视频的任意组合理解与生成 [3] - Brainμ基于Emu3架构 引入脑信号模态数据 实现单一模型完成多种神经科学任务 在自动化睡眠分型等任务中性能显著超越现有专有模型 [4] 原生多模态世界模型技术突破 - Emu3支持多模态输入输出的端到端映射 验证自回归框架在多模态领域的普适性 为跨模态交互提供技术基座 [4] - Brainμ整合超过100万单位神经信号预训练 支持从基础研究到临床研究和脑机接口应用 有望成为神经科学领域的"AlphaFold"模型 [5] - 与强脑科技BrainCO合作 首次在便携式消费级脑电系统上重建感觉信号 展现脑机接口应用潜力 [5] 具身智能技术进展 - RoboOS2.0是全球首个基于具身智能SaaS平台的开源框架 支持无服务器一站式轻量化机器人本体部署 整体性能提升30% 全链路平均响应时延低至3ms以下 [6][7] - RoboBrain2.0在多项空间推理与任务规划指标上超越主流大模型 任务规划准确率相较1.0版本提升74% 空间智能性能提升17% [8][9] - 新增多本体时空记忆场景图共享机制和深度思考能力 支持动态环境下的实时感知与建模 提升任务执行稳定性与成功率 [7][9] 微观生命模型突破 - OpenComplex2实现从静态结构预测到动态构象分布建模的突破 能表征生物分子系统的连续演化能量景观 [11] - 在CASP16竞赛中成功预测蛋白质T1200/T1300的空间构象分布 成为23支参赛队伍中唯一取得该突破的团队 [12] - 突破静态结构预测瓶颈 为原子级结构生物学提供全新建模工具 有望显著缩短生物医药研发周期并降低成本 [12] 技术发展趋势 - 人工智能正加速从数字世界走向物理世界 原生多模态世界模型是实现物理AGI的重要发展路径 [2][3] - 公司预判大模型技术将从大语言模型向多模态尤其是原生多模态世界模型方向发展 当前工作布局围绕该趋势展开 [2] - 未来5-10年可能出现大小脑融合模型 但当前数据受限不具备融合条件 现阶段采用大小脑协作框架 [7]
OpenAI o3-pro模型发布,但不能聊天
AI前线· 2025-06-11 16:39
OpenAI o3-pro发布 - OpenAI正式发布o3-pro模型,ChatGPT Pro用户可通过API使用该模型[1] - o3-pro是OpenAI当前最强智能模型o3的子版本,旨在延长思考时间以提供更可靠的响应结果[1] - 与o3类似,o3-pro可以使用ChatGPT擅长的各类工具,包括搜索网页、分析文件、推理视觉输入、使用Python、运用记忆个性化响应等[1] - 由于o3-pro使用工具,响应生成时间比o1-pro更长,建议用于可靠性优先于速度的棘手难题[1] o3-pro性能表现 - 在专家评估中,o3-pro在科学、教育、编程、商业及写作协助等关键领域的所有测试类别中表现优于o3[2] - 评估者一致认为o3-pro在清晰度、全面性、指令执行及准确性等方面有更好表现[2] - 学术评估结果表明o3-pro表现始终优于o1-pro及o3[3] - OpenAI采用严格的"4/4信度"评估方法,模型需在四次尝试中始终正确回答问题才被视为成功[3] 用户访问与功能限制 - o3-pro已在Pro和Team用户的模型选择器中开放,取代原有o1-pro[3] - Enterprise与Edu用户将在下周获得访问权限[3] - o3-pro临时聊天功能已停用,因技术问题未最终解决[3] - o3-pro不支持图像生成,用户需选择GPT-4o、OpenAI o3或OpenAI o4-mini模型生成图像[3] - o3-pro目前暂不支持Canvas[3]
字节 AI 卷出新高度:豆包试水“上下文定价”,Trae 覆盖内部80%工程师,战略瞄定三主线
AI前线· 2025-06-11 16:39
字节AI技术发展主线 - 公司认为AI技术发展主线包括多模态推理与思考、视频生成技术突破、多步骤复杂任务处理能力提升[5] - 预计2025年视频生成技术将进入实际生产环节 如消费领域和电商广告短片制作[5] - 多步骤复杂任务处理能力预计在2024年Q4达到可用水平 简单任务准确率可达80%-90%[5] 豆包大模型1.6升级 - 发布三个版本模型 均支持256K超长上下文和多模态输入[3] - 在高考数学测试中取得144分 海淀模拟考试理科706分 文科712分[3] - 支持自动操作浏览器完成酒店预定 识别购物小票并整理Excel等真实世界任务[3] - 综合成本仅为豆包1.5深度思考模型或DeepSeek R1的三分之一[8] 模型定价策略 - 1-32K上下文长度定价:输入0.8元/百万tokens 输出8元/百万tokens[9] - 32-128K上下文长度定价:输入1.2元/百万tokens 输出16元/百万tokens[9] - 128-256K上下文长度定价:输入2.4元/百万tokens 输出24元/百万tokens[9] 视频生成模型Seedance 1.0 Pro - 具备无缝多镜头叙事 多动作运镜 稳定运动与真实美感三大特点[18] - 生成5秒1080P视频仅需3.67元 价格具有竞争力[18] - 1万元预算可生成2700条1080P视频 或9700多条780P视频[20] Trae开发工具进展 - 内部超过80%工程师使用 月活用户超100万[14] - 采用自然语言编程方式 AI生成85%代码 开发者仅需优化不到5%[16] - 支持100+MCP Servers 支持代码重构 批量修改和交互式问答等复杂任务[16] 行业技术趋势 - 强化学习算力消耗快速攀升 预计2027年投入可能接近预训练规模[25] - 企业加速改造基础设施和云计算体系以适应AI发展需求[23] - 提示词工程正向价值随模型能力提升而增大 最终将由自动化系统解决[25] 商业化应用实践 - 与网易《逆水寒》合作测试玩家创作角色故事视频生成[22] - 豆包实时语音模型全量上线方舟平台 推出支持自然对话的播客模型[22] - 自建算力占比达30% 结合公有云资源平衡成本[11]
TypeScript“杀疯了”!60% 到 70%YC 创企用它构建 AI Agent,超越 Python 有戏了?
AI前线· 2025-06-10 18:05
TypeScript在AI Agent开发中的崛起 - 约60~70%的YC X25 Agent公司正在使用TypeScript构建AI Agent [1] - 早期AI框架如LangChain最初以Python为主 但TypeScript生态吸引了大量前端/全栈开发者 [2] - TypeScript的采用率从2017年的12%飙升至2024年的35% [6] TypeScript的技术优势 - 静态类型和IDE集成显著提升复杂逻辑迭代和LLM调用的开发效率 [3] - 支持全栈开发 允许开发者用同一种语言交付前后端代码 [3] - 异步编程模型和严格类型系统使AI应用能保持高性能和响应能力 [14] - 编译时错误捕获机制降低AI算法复杂场景下的生产环境风险 [14] 开发者生态与行业趋势 - JavaScript开发者群体规模至少与Python相当 推动AI工具向TypeScript适配 [12] - Vercel的AI SDK和Cloudflare等边缘计算平台强化了TypeScript的全栈能力 [15] - OpenAI近期在Agents SDK中新增TypeScript支持 扩展Nodejs开发者生态 [16] - LangChain等传统Python工具开始加大TypeScript支持力度 [17] 实际应用效果验证 - Airbnb案例显示TypeScript帮助避免38%的错误 [18] - 小团队开发效率提升显著 统一语言后开发速度可翻倍 [10] - 与TensorFlowjs等AI库的兼容性实现JavaScript生态无缝集成 [18] 与Python的竞争格局 - Python仍是AI训练和PyTorch等框架的核心语言 短期内不可替代 [12][23] - TypeScript在面向用户的AI应用开发中展现出更优的工程化特性 [21] - 开发者社区出现分化 部分同时使用两种语言的开发者更倾向TypeScript [24]
苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理
AI前线· 2025-06-10 18:05
苹果新一代基座模型发布 - 推出两大基座模型:3B参数的紧凑型设备端模型和服务器端混合专家模型,均针对苹果芯片优化,支持15种语言及多模态输入[1] - 设备端模型通过5:3深度比分割和KV缓存共享技术,降低38.5%内存占用并改善首token生成速度[6] - 服务器端采用PT-MoE架构,通过独立轨道处理token减少同步开销,实现高效扩展[7] 模型架构创新 - 引入交错注意力架构结合RoPE和NoPE,提升长上下文处理能力并减少键值缓存大小[8] - 视觉系统采用1B参数ViT-g服务器模型和300M参数ViTDet-L设备模型,新增寄存器窗口机制增强全局/局部特征捕捉[12] - 量化技术实现设备端2-bpw和服务端3.56-bpw压缩,嵌入表统一4-bit量化,通过适配器恢复质量损失[17][18] 性能表现 - 设备端模型在所有语言环境超越Qwen-2.5-3B,英语环境媲美Qwen-3-4B和Gemma-3-4B[8] - 服务器端模型优于Llama-4-Scout,但落后于Qwen-3-235B和GPT-4o[8] - 视觉任务评估显示设备端模型优于InternVL-2.5-4B和Qwen-2.5-VL-3B,与Gemma-3-4B相当[10] 训练优化 - 分阶段预训练:文本模态阶段采用蒸馏损失降低90%训练成本,视觉阶段联合训练编码器[14] - 持续预训练整合合成数据提升代码/数学能力,多模态自适应保持文本能力[16] - RLHF技术带来16:9的人类评估优势比例,显著超越SFT效果[16] 开发者生态 - 推出基座模型框架,支持Swift语言三行代码接入3B设备端模型,内置文本摘要/实体提取等功能[20] - 框架支持工具调用和引导式生成,Automattic等厂商已应用于日记类产品开发[21] - 测试版通过Apple Developer Program提供,公开测试版将于下月上线[22]