PyTorch

搜索文档
288亿,复旦女学霸3年干出一个独角兽
投中网· 2025-08-03 15:04
将投中网设为"星标⭐",第一时间收获最新推送 在这个"创新与机遇"的时代,华人正在创造奇迹。 作者丨陈美 来源丨 投中网 如果要说,最快诞生独角兽的地方,恐怕要数AI创业圈了。 近日,据外媒报道,Fireworks AI——一家新兴的云服务提供商,正在寻求以40亿美元(约合288亿元)估值(包含融资金额)进行新一轮融 资。 知名风险投资机构Lightspeed Venture Partners(美国光速)和Index Ventures等正就领投事宜,进行深入讨论。一旦融资成功,Fireworks AI 创始人将创造1年估值增长7年,3年干出一个288亿元独角兽的奇迹。 华人女性创业,年化营收突破2亿美元 这是一位华人女性在加州创业的故事。 2022年,Meta前高级工程总监乔琳(Lin Qiao)与6位联合创始人,一起在美国加州雷德伍德市成立了Fireworks AI。联合创始人兼首席执行 官的乔琳(Lin Qiao),本硕毕业于复旦大学计算机科学专业,之后在美国加州大学圣巴巴拉分校(UC Santa Barbara)获得计算机科学博 士学位。 在创业前,乔琳(Lin Qiao)拥有24年的行业经验,可谓是一 ...
速递| 一年估值涨7倍,华人AI初创Fireworks AI冲刺40亿美元估值,直面英伟达竞争
Z Potentials· 2025-07-29 18:11
公司估值与融资 - 公司正以40亿美元估值进行融资谈判 较一年前增长逾七倍 [1] - 光速创投与Index Ventures洽谈领投本轮融资 此前已通过红杉资本和Benchmark融资7700万美元 [2] - NVIDIA AMD Databricks Ventures和MongoDB Ventures也是公司投资者 [2] 财务表现与增长 - 年化收入突破2亿美元(月均1700万) 预计年底达3亿美元 [3][5] - 毛利率约为50% 与同业持平但低于订阅软件业务70%的水平 [3][5] - 计划通过GPU优化将毛利率提升至60% [5] 商业模式与竞争优势 - 通过API出租搭载NVIDIA/AMD芯片的服务器 提供开源AI模型访问 [4] - 帮助企业比传统云服务商更快更经济地运行开源模型 [3] - 客户包括Cursor和Perplexity等快速增长的公司 [3] 行业竞争格局 - 主要竞争对手包括Together AI(估值30亿/年收1.5亿)和Baseten [4] - NVIDIA收购Lepton后推出GPU云市场 形成直接竞争 [4] - 面临CoreWeave等头部服务商的价格竞争压力 [5] 技术与发展战略 - 由6位Meta前PyTorch开发者和1位Google AI前工程师创立 [2] - 专注于GPU资源使用效率优化 [5] - 提供工具帮助客户定制模型并提升推理质量 [5] 行业趋势 - 云GPU转售商可能成为大型云服务提供商的收购目标 [5] - 行业普遍面临服务器容量闲置和低价竞争挑战 [5]
开源CUDA项目起死回生,支持非英伟达芯片,濒临倒闭时神秘机构出手援助
量子位· 2025-07-08 08:40
项目背景与发展历程 - 开源项目ZLUDA旨在让非NVIDIA芯片运行CUDA程序,由前Intel开发者Andrzej Janik于2020年启动技术验证并实现可行性[4][5] - Intel曾接手ZLUDA作为内部试验项目,目标是为其GPU和oneAPI生态补充CUDA兼容性,但因触及NVIDIA商业生态链被终止[6][7][8][9] - 2022年AMD资助重启项目并支持其硬件,但2024年2月因NVIDIA发布CUDA 11.6禁止非NVIDIA平台逆向工程再次停摆[10][11][12] - 2024年10月项目获神秘机构资助恢复,重点转向机器学习框架支持(如llama.cpp、PyTorch),主线开发基于AMD GPU[13][15] 技术进展与当前状态 - 新增全职开发者Violet,一个月内推动大型语言模型(LLM)工作负载支持,通过llm.c测试项目实现44个CUDA API中16个的兼容性[17][20][23][25] - 首次尝试同时处理常规CUDA函数与cuBLAS等专用库,测试程序调用8,186次CUDA函数,为支持PyTorch等大型软件奠定基础[22][23] - 改进PTX指令集扫描测试,解决早期版本跳过指令修饰符的问题,提升非NVIDIA GPU运行CUDA程序的精确性(如cvt指令已完全精确)[26][27][28][30] - 日志系统升级后能跟踪更广泛的CUDA运行时行为(如cuBLAS与cuBLASLt的依赖关系),并修复ROCm/HIP 6.4版本ABI变更导致的动态编译错误[33][34][35][38] 社区贡献与未来目标 - 社区成员@Groowy启动32位PhysX支持工作,发现部分错误影响64位功能,修复已纳入官方路线图[19] - 团队计划2025年Q3完全恢复项目功能,目前专注于LLM支持、多GPU架构兼容及代码优化[15][16][18]
大佬面对面!斯坦福2025 CS336课程全公开:从零开始搓大模型~
自动驾驶之心· 2025-06-24 19:47
课程概述 - 斯坦福大学2025年春季CS336课程「从头开始创造语言模型」已全面上线网络 提供完整课程视频和主页链接[2][4] - 课程目标为引导学生从零开发语言模型 覆盖预训练数据收集 Transformer构建 模型训练及部署评测全流程[5] 师资团队 - 核心讲师Tatsunori Hashimoto为斯坦福计算机科学系助理教授 研究成果累计引用超3万次 研究方向聚焦机器学习模型性能权衡[3] - 联合讲师Percy Liang为斯坦福副教授兼基础模型研究中心主任 学术引用量超10万 主导多项AI领域研究项目[3] 课程模块 - 五大模块涵盖基础 系统 扩展 数据 对齐和推理强化学习 强调实践操作与深度技术掌握[7] - 实践要求包括Python编程能力 PyTorch熟练度 系统优化经验及数学基础(线性代数 概率统计等)[7] 实践作业 - 作业1要求实现BPE分词器 Transformer架构和Adam优化器 仅允许使用PyTorch原语进行模型训练[8] - 作业2聚焦GPU加速 需在Triton中实现Flash Attention 2及分布式并行优化[8] - 作业3涉及Scaling Law拟合 学生需在有限计算预算内通过训练API收集数据点[8] - 作业4侧重数据工程 要求完成Common Crawl数据清洗 去重及有害内容过滤[8] - 作业5要求实现监督微调 专家迭代等对齐技术 在Qwen 2 5 Math 1 5B模型上运行强化学习[8] 课程安排 - 18周课程包含16次讲座和2次嘉宾分享 内容覆盖分词 GPU并行 混合专家系统 推理优化等核心技术[9] - 作业周期与课程紧密衔接 例如第5周完成作业1提交后立即发布作业2 强化学习实践贯穿后期课程[9]
从开源共建到生态繁荣:昇思MindSpore支持Day0迁移、一键部署
财联社· 2025-06-12 18:59
大模型技术发展趋势 - 大模型参数规模从十亿级跃升至万亿级,模型结构从稠密到稀疏,应用范式走向多模态和Agent [1] - 昇腾开发者核心诉求是如何在昇腾上快速使能和体验多种模型与技术 [1] 昇思MindSpore的核心挑战与解决方案 迁移挑战 - 实现三方框架模型"零成本"迁移,避免重复造轮子,同时模型精度完全对齐 [1] - 通过MindSpeed/Megatron桥接层实现PyTorch模型零代码迁移,训练脚本可直接运行 [4] - 动态图能力重构让PyTorch开发者获得"原生体验",MSAdapter工具自动转换95%以上接口 [4] - 主流模型如DeepSeek、Pangu等迁移损耗逼近于零 [4] 性能优化 - 动态图编译优化:多级流水线+即时编译(JIT),单卡训练效率提升40% [4] - 分布式智能调优:自动负载均衡工具解决万卡训练"木桶效应",线性度突破96% [4] - 逐层精度对齐:在昇腾硬件上实现主流模型逐层0误差 [4] 推理部署优化 - 支持HuggingFace模型半小时部署上线,通过vLLM-MindSpore插件实现分钟级服务化 [6] - 支持业界主流模型开箱即用,DeepSeek、Pangu、Qwen等20+模型已上线 [6] - 权重加载耗时降低80%(百亿模型小于30秒),图编译时延压缩至毫秒级 [6] 开源生态建设 - 昇思MindSpore累计获得1200万次下载,开发者遍布130个国家和地区,覆盖2400座城市 [7] - 超过四万六千名开发者参与,11万+行代码合入请求,1700多篇学术成果 [7] - 提供免费算力平台(MindSpore大模型平台),20+技术SIG组覆盖AI前沿领域 [8] 未来展望 - AI软件基座将属于开源开放与极简高效共舞的时代 [8]
对话 PyTorch 掌门人 Matt White:AI 应用应该做到“润物细无声”
AI科技大本营· 2025-06-09 18:41
AI开源生态现状 - 开源AI形成自我加速的良性循环,但"开放"定义权争夺战已悄然打响[1] - 部分机构通过限制性许可证进行"Open-washing",享受开源声誉红利却不给予实际自由[3] - 传统软件许可证难以适应AI模型复杂性,需专门为开放模型/数据/权重设计的新型许可证[6][7] 行业标准化进程 - PyTorch基金会推出"模型开放框架"(MOF)分级标准和OpenMDW许可证,明确开放定义[4] - Linux基金会作为中立第三方推动协议标准化,降低厂商锁定风险[9][10] - 70%-80% PyTorch文档流量来自中国,反映其在该市场的广泛采用基础[6] 技术发展趋势 - 具身智能领域需机器人操作系统、行为模型等工具支持,PyTorch成为主流训练框架[10] - AI智能体架构创新加速,开源社区需建立通用接口协议构建技术底座[8][9] - 生成式AI工具需保持human-in-the-loop模式,避免完全自动化导致的幻觉问题[12] 企业战略动态 - Meta、谷歌、微软等竞争对手在PyTorch基金会实现开源协作,共同提升框架性能[8][9] - Adobe等公司通过隐形AI集成实现技术价值,降低用户学习成本[12] - 中国DeepSeek-R1与海外Llama 4等开源模型推动开放定义演进[6] 人才与教育 - AI时代教育者需率先掌握人机协作技能,平衡工具使用与核心能力培养[13] - PyTorch启动大使计划培育区域社区,通过20分钟短演讲展示多元创新项目[11] - 认证培训项目需应对氛围编码、智能体系统等新兴技能需求[13] 行业风险警示 - 数字内容真实性危机迫近,合成媒体以假乱真威胁信息生态[15] - 技术滥用导致假消息泛滥,需建立C2PA等数字水印验证机制[15] - 监管需平衡创新空间与风险防控,过度限制将阻碍行业发展[14]
GpuGeek如何成为AI基础设施市场的中坚力量
金投网· 2025-06-04 12:05
精准定位 - 目标用户精准定位于对高质量算力有迫切需求的算法工程师群体 [2] - 提供从RTX 4090到A800的全系列GPU资源,满足从入门级开发到大规模模型训练的全谱系算力需求 [2] - 支持最高8卡GPU协同工作,并根据AI算法特性优化硬件架构,提升计算效率和稳定性 [2] 创新服务模式 - 推出预装主流深度学习框架的开发环境,用户登录后半分钟即可开始编程实践 [3] - 商业模式突破传统云服务的单一计费模式,推出包天、包周、包月及竞价模式等多元化选择 [3] - 内置在线IDE工具,实现"随时随地"开发,并与主流代码仓库无缝集成 [3] 全球化布局 - 实施全球节点布局,包括香港、达拉斯、欧洲等海外节点,解决国际学术资源访问的技术障碍 [4] - 全球化布局为跨国研发团队提供高效协作的基础设施,增强服务稳定性和可靠性 [4] 开放生态建设 - 模型市场汇集阿里通义Qwen3、智谱GLM-Z1等前沿AI模型资源,提供便捷的模型调用和部署渠道 [5] - 积极支持开源社区建设,鼓励用户分享经验和技术成果,构建活跃的学习社区 [5] 核心竞争力与行业影响 - 通过精准市场定位、创新服务模式、全球化布局和开放生态建设构建核心竞争力 [6] - 致力于成为连接技术与应用的重要桥梁,推动算力资源的民主化和普惠化 [6] - 在AI大模型时代,算力基础设施的重要性日益凸显,有望在推动行业创新和生态繁荣中发挥重要作用 [6]
斯坦福意外用AI生成超强CUDA内核,性能比人类专家优化得还要好!翻倍碾压原生PyTorch,华人主创
量子位· 2025-05-31 11:34
AI生成内核性能超越人工优化 - 斯坦福研究发现AI意外生成的内核性能超越人类专家优化版本,在NVIDIA L40S GPU测试中最高提升400% [1][2] - 测试阶段生成的合成数据可直接产生高性能内核,无需专门训练生成模型 [4][40] - 具体性能提升:层归一化达PyTorch的484.4%,Conv2D+ReLU+MaxPool组合操作达PyTorch参考实现的290.1% [6] 创新优化方法 - 采用语言推理步骤增强搜索多样性,通过"思考"产生优化思路而非逐步修改 [9][10] - 使用多分支探索模式,每个想法衍生多个实现并选择性能最优者作为下一轮种子 [15][16] - 优化策略包括内存访问优化、异步操作、数据类型优化等6大类技术 [24] 技术实现细节 - 内核用纯CUDA-C编写,无需CUTLASS和Triton等库 [13] - 通过自然语言生成优化思想再转化为代码变体,避免陷入局部最优 [14] - 使用OpenAI o3和Gemini 2.5 Pro在KernelBench 1级任务测试,最佳结果多出现在第4-5轮 [18][19] 研究背景与团队 - 华人主创团队包括斯坦福博士生Anne Ouyang(前英伟达cuDNN团队)、助理教授Azalia Mirhoseini(前DeepMind/Google Brain)和Percy Liang教授 [29][30][32][35] - 研究初衷为生成训练数据,意外发现测试数据可直接产生优质内核 [39][40][41] - 搜索资源消耗仅300万token输入和400万token输出 [49] 行业影响与展望 - 与DeepMind AlphaEvolve等研究共同显示大模型能力达到新层级 [21][45] - 显示大规模再训练非必需,智能搜索策略可解决复杂问题 [44][45] - 当前局限:FP16 Matmul性能仅达torch.matmul的52%,Flash Attention仅9% [46] - Cognition公司已开源强化学习编写CUDA内核的Kevin-32B模型 [51][52]
开源AI开发生态大洗牌:低代码平台逆袭,传统LLM框架日渐式微
量子位· 2025-05-28 15:28
大模型开源生态全景分析 核心观点 - 大模型开发生态被描述为"现实世界的黑客松",呈现快速迭代和公开协作特征 [2][3][11] - 蚂蚁发布涵盖19个技术领域、135个项目的开源生态全景图,采用OpenRank指标筛选影响力项目(月均值>10)[5][6] - 当前生态存在三大主导赛道:模型训练框架、高效推理引擎、低代码应用开发框架 [10] 技术领域分布 - **模型训练层**:PyTorch以927 OpenRank位列所有项目第一,占据绝对统治地位 [8][14][31] - **推理服务层**:vLLM(OpenRank 615)和SGlang(269)增速显著,分别位列同比增长第一和第三 [14] - **应用框架层**:Dify(473 OpenRank)和RAGFlow(208)为代表的中国低代码平台崛起,替代传统框架LangChain [17][18] 关键数据指标 - Top 20项目数据: - PyTorch:89.6k Stars,2,143社区规模 [8] - vLLM:46.4k Stars,3,161开发者协作量 [8] - Dify:95.4k Stars,3,243社区规模(TypeScript技术栈)[8] - Ollama:139.3k Stars,创2023年6月后最快增长记录 [8] 生态演进七大趋势 1. **应用开发范式**:低代码工具(如Dify)通过可视化工作流降低门槛,取代传统Agent框架 [17][18][19] 2. **协议标准化**:MCP、A2A等协议争夺智能体通信标准主导权,头部企业通过协议层构建护城河 [22][24] 3. **技术扩散速度**:小团队3-5人可快速推出开源项目并出圈,项目周期显著缩短 [25][37] 4. **基础设施层**:向量存储技术回归理性,PyTorch持续垄断训练生态 [27][31] 5. **多模态融合**:大数据与AI生态整合尚未完成 [27] 6. **推理服务混战**:vLLM等新兴引擎挑战传统方案 [14][27] 7. **开发者策略**:从单点工具转向生态控制权,或深耕场景提升用户体验 [30][34][35] 行业影响 - 中国项目表现突出:Dify和RAGFlow在应用框架层进入全球第一梯队 [14][17] - 企业级需求驱动:安全管控和低代码成为应用框架成功关键要素 [18] - 竞争加剧:技术普及化导致开发者需通过差异化(如协议创新或体验优化)建立优势 [28][29] 研究价值 - 全景图量化分析135个项目,揭示技术扩散与生态位分布规律 [39][40] - 为开发者提供技术选型参考,特别是低代码平台和推理引擎领域 [41] - 反映底层规律:简化复杂性、提升效率始终是开发者核心价值导向 [38][43]
社交APP开发的技术框架
搜狐财经· 2025-05-28 14:49
社交APP技术架构 前端开发 - 移动端分为iOS和Android原生开发,iOS推荐Swift和SwiftUI框架,Android推荐Kotlin和Jetpack Compose框架,性能最佳但开发成本高 [6] - Web端采用React.js、Vue.js、Angular等框架构建单页应用(SPA),适用于社交APP的Web版本和后台管理系统 [5] - 跨平台开发方案包括React Native(JavaScript)、Flutter(Dart)、uni-app(Vue.js)和Taro(React/Vue),可降低多端开发成本,其中uni-app和Taro特别适合中国市场的小程序生态 [6] 后端开发 - Java(Spring Boot/Cloud)适合大型复杂社交APP,具备高并发处理能力 [9] - Python(Django/Flask)适合快速原型开发,语法简洁但高并发性能较弱 [9] - Node.js(Express/NestJS)适合实时聊天等I/O密集型场景,开发效率高 [9] - Go语言适合高并发核心服务,性能接近C/C++且内存占用低 [9] 数据库与存储 - 关系型数据库MySQL和PostgreSQL适合存储用户数据和好友关系 [9] - 非关系型数据库MongoDB适合动态/评论等非结构化数据,Redis用于缓存和实时计数 [9] - 图数据库Neo4j适合处理复杂社交关系网络 [9] - 对象存储(阿里云OSS/腾讯云COS)和CDN用于静态资源分发 [9] 第三方服务集成 - 即时通讯可选用融云/环信等国内SDK或自建WebSocket/MQTT系统 [9] - 音视频处理采用FFmpeg或云服务商(腾讯云TRTC/阿里云RTC) [9] - 内容审核需集成阿里云/腾讯云的内容安全API [8] 中国市场特殊考量 - 必须完成ICP备案和APP备案等合规要求 [8] - 优先选择阿里云/腾讯云等国内云服务商 [8] - 开发框架推荐支持多端发布的uni-app或Taro [8]