Workflow
开源AI模型
icon
搜索文档
马斯克:特斯拉正在训练新的FSD模型,xAI将于下周开源Grok 2
搜狐财经· 2025-08-06 18:05
xAI开源Grok 2 - 公司宣布将于下周开源旗舰聊天机器人Grok 2的源代码,延续其在人工智能领域的透明度推进策略 [1] - Grok 2基于专有的Grok-1语言模型构建,定位为比ChatGPT或Claude更少过滤且更"追求真相"的替代工具 [1] - 系统直接从X平台的实时数据中获取信息,能够对突发新闻和热门话题做出实时反应 [1][3] Grok 2的核心竞争优势 - 与X平台深度整合,直接从X平台获取实时数据,在处理突发新闻和热门话题方面具备独特优势 [3] - 提供多模态功能,能够生成文本、图像和视频内容,目前向X Premium+订阅用户提供服务 [3] - 此次开源将使开发者和研究人员能够直接访问Grok 2的底层代码和架构,允许他们审查、修改并基于该技术进行开发 [3] 开源战略的商业影响 - 分析师指出,这一战略可能加强马斯克的商业网络,为其在Tesla、SpaceX、Neuralink和X等公司间的整合创造可能性 [3] - 公司表示现在是与公众分享新模型的"合适时机",与行业向开源AI模型的转变趋势保持一致 [3] - Meta的LLaMA、Mistral以及OpenAI的GPT-oss系列都采用了类似的开源路径,xAI继续将自己定位为OpenAI、谷歌和Anthropic等大型AI公司的制衡力量 [4] 内容限制争议 - Grok较为宽松的内容限制政策此前已引发多起争议,过往出现的误导性或冒犯性回应案例引起了关注 [4] - Grok Imagine图像和视频生成器因可能产生不当内容而陷入争议,引发了关于开放性与安全性平衡的进一步辩论 [4] - 业界担忧,在医疗诊断或自动驾驶系统等敏感领域,该技术的滥用可能带来更严重后果 [4] 特斯拉FSD模型进展 - 特斯拉正在训练新的FSD模型,如果测试顺利,可能在下个月底准备好向公众发布 [3] - 特斯拉昨日给出价值约290亿美元的激励方案,旨在确保马斯克继续留任公司 [3]
AlphaGo开发者创业挑战DeepSeek,成立仅一年目标融资10亿美元
量子位· 2025-08-06 13:56
公司概况 - Reflection AI由前谷歌DeepMind成员、AlphaGo开发者创立,致力于开发开源大语言模型 [1][10] - 公司CEO Misha Laskin是Gemini系列核心研究员,CTO Ioannis Antonoglou曾参与AlphaGo研究并领导Gemini工作 [11][13] - 团队由来自DeepMind、OpenAI和Anthropic的前工程师和科学家组成 [14] 融资与估值 - 公司目标融资10亿美元用于新模型开发 [8][17] - 此前已获1.3亿美元风投,估值达5.45亿美元 [17] 产品与技术 - 首款AI智能体Asimov已发布,较Claude Code Sonnet 4等模型获得更多用户偏好 [5][19] - Asimov专为代码理解设计,能索引代码仓库、架构文档、GitHub讨论串等多种信息 [20] - 采用多智能体协同架构,由小型智能体负责检索信息,大型推理智能体整合回答 [21] - 能捕捉决策原因、系统实际运作方式等隐性信息,并转化为团队共享资源 [22] - 每个答案附带确切引用来源,提高可验证性 [24] 市场定位与战略 - 公司目标成为美国领先的开源AI模型供应商 [4][18] - 战略受中国开源模型如DeepSeek等影响,瞄准美国本土市场 [9][15][17] - 开源模型因成本低、灵活性高、可微调等特点,企业需求大增 [16] 行业影响 - 中国开源模型如Qwen系列、Kimi K2等势头火热,对美国AI行业产生催化作用 [3][15] - Meta因模型表现不佳,正大规模招聘改进,甚至考虑开发封闭大模型 [15]
小扎天价offer创新高:10亿刀!但这支前OpenAI班底0人心动
量子位· 2025-07-30 08:24
核心观点 - Meta试图以高额报价挖角Thinking Machines核心团队成员但未成功 报价高达10亿美元但无人接受[1][2][3][4] - Thinking Machines团队背景强大 三分之二成员来自OpenAI 包括多位关键人物如John Schulman等[6][7] - Meta此前也曾尝试以超百亿美元收购Thinking Machines但被拒绝[9] - Meta成功从苹果挖走多名AI核心人才 包括基础模型主管及团队成员 一个月内挖走四人[13][16] - Meta正在调整AI战略 可能放弃开源路线 转向闭源模型开发[18][20] - MetaAI投资导致运营成本上涨9% 但股价仍上涨20%以上[19][22] 人才争夺 - Meta向Thinking Machines员工提供2亿至5亿美元报价 最高达10亿美元 但无人接受[2][4] - Thinking Machines团队50人中约四分之一被Meta瞄准 报价第一年保障金额达5000万至1亿美元[4] - 该团队核心成员包括OpenAI前CTO John Schulman等重量级人物[6][7] - Meta成功从苹果AFM团队挖走4名核心成员 包括基础模型主管庞若鸣及其同事[13][16] - 苹果被迫提高AFM团队薪酬但仍缺乏竞争力 管理架构也进行调整[16][17] 公司动态 - Thinking Machines完成20亿美元种子轮融资 估值达100亿美元 创种子轮融资纪录[2][9] - Meta考虑放弃开源AI战略 可能转向闭源模型开发[18][20] - Meta第二季度利润增长率11.5% 为两年来最慢 AI投资导致运营成本上涨9%[19] - Meta预计2025年支出将达到1130亿至1180亿美元[20] - Meta股价今年以来上涨20%以上 投资者对其AI战略调整持支持态度[22] 行业趋势 - AI人才争夺战激烈 头部公司互相挖角核心团队成员[1][13] - 初创AI公司估值快速攀升 Thinking Machines五个月内估值达100亿美元[9] - 大公司采用内部赛马机制 如苹果同时开发多个竞争性AI模型[18] - AI Agent技术受关注 Meta探索类似OpenAI o1系列的分步任务执行模型[21]
小扎自曝挖人秘诀:小团队我亲自带,豪掷数百亿建GW集群,大家不图天价薪酬只为“造神”
量子位· 2025-07-15 11:50
Meta的AI战略布局 - 公司否认高薪是吸引AI人才的主因,强调顶尖人才加入是为了参与"造神"级别的AI研发项目[1] - 超级智能实验室为人才提供直接向CEO汇报的权限及无上限的GPU资源支持[2] - 计划投入数百亿美元建设GW级计算集群,目标构建"超级人工智能"[4][5] GW级计算集群建设 - 定义:GW集群指功率达吉瓦级(1GW=1000MW)的超级计算设施,远超传统超算中心几百MW的规模[3][9] - **Prometheus项目**:选址俄亥俄州,1GW功率,2026年上线,采用混合基础设施策略支持生成式AI训练[12][13][15] - **Hyperion项目**:选址路易斯安那州,首期1.5GW(2030年),最终扩展至5GW,将成为全球最大单体AI数据中心园区[16][17][19] - 能源解决方案:配套建设两座200MW天然气发电厂以保障电力供应[25][26] 开源与闭源路线争议 - 公司内部对Llama系列开源路线存在分歧,部分高管主张转向闭源模型开发[30][37] - 新一代开源模型Behemoth因训练效果不佳推迟发布,原计划6月推出但至今未公布[39][40][43] - 超级智能实验室负责人Alexandr Wang暗示可能转向闭源,但最终决策权在CEO[46][48][49] 行业竞争动态 - 公司面临字节跳动轻量化MR眼镜"Swan"(100克)的潜在挑战,需应对可穿戴设备市场竞争[50][51][52] - Meta已暂停Quest系列开发,转向轻量化智能眼镜Orion以应对市场变化[53][54] 资源与环保争议 - GW级集群耗电量相当于数百万家庭用电,可能引发社区资源争夺[22][23] - 乔治亚州数据中心项目曾导致居民用水短缺,引发公众批评[24][28]
OpenAI开源模型发布推迟至夏末,为了狙击DeepSeek R2?
华尔街见闻· 2025-06-11 10:37
OpenAI开源模型延期 - OpenAI宣布原定6月推出的开源模型将延期至"今年夏天晚些时候",首席执行官Sam Altman表示研究团队取得了"出乎意料且相当令人惊叹"的进展,需要更多时间完善[1] - 该开源模型规划具备与GPT-4o相当的复杂推理能力,目标性能超越当前顶尖开源模型如中国DeepSeek的R1模型[2] - 公司曾讨论为开源模型增加连接云端大模型的接口功能以处理超复杂查询,但最终版本是否包含这些功能尚不确定[2] AI行业竞争态势 - 法国Mistral实验室推出首个AI推理模型系列Magistral,中国通义千问(Qwen)4月发布混合AI推理模型系列,行业竞争显著加剧[2] - OpenAI面临战略转型压力,Altman承认过去在开源领域"站在历史错误的一边",此次开源被视为修复开发者关系的核心举措[2] - 市场猜测OpenAI延期可能为狙击中国DeepSeek即将发布的R2模型,避免性能对比风险[2] DeepSeek技术进展 - DeepSeek R2作为R1迭代版本,在技术架构、功能特性和资源效率实现显著升级,摩根士丹利预测其AI调用成本大降87%且具备多模态处理能力[3] - 公司保持每季度重大更新的开发节奏,2024年9月推V2.5、12月发V3基础架构、2025年3月升级至V3-0324版本[4] - 创始人梁文锋强调中国要成为创新贡献者而非搭便车,将探索通用人工智能作为核心使命[4]
DeepSeek:“边缘革命” 的可能性
36氪· 2025-05-07 10:34
公司概况 - DeepSeek是一家专注于通用人工智能的中国科技企业,擅长处理复杂任务,包括文本生成、自然语言理解及分析、编程与代码相关功能 [1] - 公司采用开源推理模型免费商用策略,直接面向用户并提供应用场景模式服务,支持联网搜索与深度思考模式的网络实现 [1] - DeepSeek的成功促进了开源AI模型的采用,被视为AI行业的"开源时刻" [1] 行业影响 - DeepSeek的成功缩小了中美AI差距,从ChatGPT发布后的拉大趋势到DeepSeek V3和V3-0324发布后差距缩小至几个月内 [3] - 公司推动了AI产业化进程,大模型服务提供商转向免费模式,API价格下降接近免费,加速产业应用发展 [4] - DeepSeek代表小团队驱动创新的模式,与OpenAI类似,挑战了大公司主导的创新格局 [4] 技术发展 - 开源战略带来更快的创新和广泛采用,证明底层技术国家不能完全控制网络产业平台的价值传播和利益流向 [3] - 公司展示了"边缘革命"的可能性,发展中国家通过追踪新知识可重新参与AI竞争 [2] - 大模型参数超级大时可能产生失控风险,包括自我意识争议和恶意使用破坏性活动 [2] 产业政策 - 需要合理设计国内产业内循环模式和国际国内产业整体循环模式接口政策体系,保证"技术国境线"安全 [5] - 建议政策引导资本支持科技企业创新,鼓励民间资本成为长期资本、耐心资本参与智能产业平台底层建设 [6] 教育变革 - 大模型挑战传统教育体系,未来教育重点应转向创新和实践,减少对记忆功能的强调 [7] - 教育需要面向扎实的通识教育,在求知欲强的阶段传递科技前沿知识,避免训练过时技能 [8] - 大模型使知识进入"明牌时代",个体可通过提问获得前沿知识,学习方式从阶梯式变为跃迁式 [9][10] 知识开源 - DeepSeek的开源模式启示大学应以更开放态度面对公众,形成终身学习机制 [11] - 大模型起到知识赋权作用,将"暗知识"变为"明知识",个体重心从知识生产转向知识实践 [10]
黄仁勋、Mistral CEO谈「主权AI」:AI基础设施,不能指望外包
IPO早知道· 2025-03-29 12:15
主权AI与国家战略 - AI被视为新一代国家基础设施,类似电力、印刷机等通用技术,将对GDP产生两位数影响 [5][6] - 国家需制定专门AI战略,因AI需适应国情、文化和社会习惯,不能完全外包数字智能 [4][5][7] - 数字智能成为国家新基础设施层,需像管理电信、医疗一样主动参与和控制 [7][8] 开源与闭源模型 - 开源模型通过飞轮效应加速AI进程,闭源模型在"闭关锁国"下易被淘汰 [4][16] - 开源促进透明度、多方检查和技术改进,类似编程语言的开源生态 [18][19] - 任务关键型领域(如能源、金融)需自有部署,开源模型支持定制和强审计 [17][19] AI技术特性 - AI兼具通用性和专用性:基础模型可开源,但需垂直领域专家进行文化适配 [5][6][12] - AI是内容生成技术,承载文化价值观,需本地化训练(如Mistral专门优化阿拉伯语模型) [6][12] - AI编程模型能处理生活模糊性,超越传统规则编码方式 [9][13] 企业组织与生态 - Nvidia采用"对齐而非控制"的文化,最小化官僚主义以保持技术敏捷 [20][21] - 深科技公司需平衡科研不确定性与产品交付节奏(如Mistral的双频运作模式) [21][22] - 云服务商与AI公司竞合关系:独特价值主张是关键(如Nvidia的开发者生态、Mistral的开源定位) [22][23] 计算与AI未来趋势 - 异步工作负载和个性化AI交互将重塑基础设施需求 [23] - 物理AI(理解自然定律)和Agent系统将推动制造业革新 [23] - 国家需培养本地AI人才库,建设软硬件基础设施以缩小数字鸿沟 [13][23]
网友热评Deepseek新版V3:编程堪比最强AI,期待更强R2!
硬AI· 2025-03-25 20:41
模型性能升级 - 新版V3-0324模型总参数量达6710亿,采用专家混合模型(MoE)架构,激活参数370亿 [3][10] - 编程能力评测得分328.3分,超越Claude 3.7 Sonnet普通版(322.3分),接近其思维链版本(334.8分) [13] - 单个提示词可生成完整前端登录页面,设计审美显著优于上一代 [16][19][20] 技术创新 - 引入"偏差项"机制优化MoE负载均衡,结合节点受限路由机制降低跨节点通信开销 [10] - 推理速度显著提升,支持更大规模分布式训练与扩展 [11] 开源策略调整 - 采用MIT开源许可,商业友好性大幅提升,允许与专有软件自由集成 [23][24] - 许可条件比初代V3更宽松,降低商业应用门槛 [24] 行业影响 - 开源模型性能逼近闭源商业模型,对OpenAI、Anthropic等公司形成竞争压力 [27] - 推动AI技术民主化进程,加速开放生态形成 [28][29]