AGI

搜索文档
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅APP· 2025-05-08 21:13
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕创立于2023年 核心团队包括首席科学家张祥雨和系统负责人朱亦博 形成技术研发与AI基础设施建设的铁三角架构 [5][7] - 公司员工规模达400余人 其中80%为技术研发人员 采用扁平化管理模式 员工可通过私信直接与CEO沟通 内部设有技术协同会和见闻分享群 [5][6] - 商业模式聚焦ToB服务和开发者API接口 2024年下半年多模态API调用量增长超45倍 2024年12月完成B轮数亿美元融资 [5][7] 技术战略 - 核心主张"理解生成一体化架构" 将原生成小组和理解小组整合为统一团队 认为这是实现多模态突破的关键路径 [2][3][4] - 建立Step系列通用大模型矩阵 覆盖语言模型和原生多模态模型 是国内少数坚持预训练路线的公司之一 [14][15] - 2025年1月发布推理模型Step R1-V-Mini 性能超越OpenAI早期版本 计划未来三个月推出满血版Step-R1 [17] 行业趋势判断 - 模型演进遵循三阶段路径:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) 与OpenAI的AGI五级划分逻辑一致 [9][12] - 当前竞争焦点转向"智能上限" OpenAI等五大厂商半年内发布超8款新品 国内月之暗面等公司同步发力 [7][9] - 多模态领域尚未出现"GPT-4时刻" 核心卡点在于缺乏可扩展的理解生成一体化架构 需突破predict next frame技术难题 [2][28] 产品应用 - 推出Step 1X-Edit图片编辑模型 实现初级理解生成一体化 对原图忠实度达90%以上 正在开发更先进版本 [31] - 布局智能终端Agent生态 与手机/汽车/机器人领域头部企业合作 提供云端Agent构建平台和运行环境 [36] - 落地巡店等商业场景 通过规则Prompt实现操作规范检测 准确率超90% 显著提升连锁门店管理效率 [19] 发展路线 - 短期聚焦强化学习在预训练模型的应用 提升长思维链推理能力 解决奖励函数定义等工业界难题 [17] - 中期突破视觉领域理解生成一体化 构建可扩展架构以处理高维连续空间 最终实现世界模型 [24][28] - 长期通过"超级模型+超级应用"双轮驱动 形成从云到端的Agent生态体系 重点布局智能硬件场景 [33][36]
开源AI引爆热潮!GOSIM AI Paris 2025首日直击:80+位技术大咖聊模型、拼算力、秀落地
AI科技大本营· 2025-05-07 22:02
开源AI生态发展 - 开源AI已实现爆发式增长,大模型技术从巨头垄断转向社区协作共享,覆盖基础架构、算法优化和推理部署等多个层面 [1] - GOSIM AI Paris 2025大会汇聚80余位来自阿里巴巴、Hugging Face、MetaGPT等企业的技术专家,围绕AI模型、基础设施等展开60多场技术分享 [2] - 开源模型如Qwen 3已实现对闭源旗舰模型的性能超越,开源生态呈现陡峭增长曲线 [4] 技术突破与架构演进 - AI架构正从中心化转向去中心化,OpenAI通过Responses API构建分布式智能体平台,吸引60万开发者参与 [5] - 智源研究院发布CCI 4.0语料库,其中CCI4.0-M2-CoT V1包含4250亿token的逆向合成数据,规模较Hugging Face的Cosmopedia提升20倍 [18] - MiniMax提出Lightning Attention机制,有望替代Transformer架构;智谱AI探索跳过分词的技术路径以提升模型效率 [15] 基础设施与工具创新 - 华为昇腾CANN架构支持PyTorch与vLLM生态,实现高效训练推理;北京大学SCOW和CraneSched软件已部署于数十家高校企业 [19] - Oxen.ai详解DeepSeek-R1式强化学习训练流程,包括数据集构建和本地训练代码生成 [19] - Dynamia.ai推出HAMi系统优化异构GPU资源管理,提升AI基础设施利用率 [31] 应用落地与行业实践 - 阿里巴巴通义灵码从Coding Copilot升级为Coding Agent;华为仓颉Magic框架提升HarmonyOS应用开发效率 [22] - Makepad利用氛围编码构建Rust UI新范式;博通Spring团队通过MCP实现AI与现有系统的高效集成 [23] - Cegid Pulse多智能体平台重塑商业流程,实现智能化企业决策 [23] 具身智能与前沿探索 - ZettaScale的Zenoh协议打通机器人感知、执行与认知壁垒;Dora项目实现分布式数据流 [26] - 智源研究院RoboBrain提升机器人操作智能化水平;Voyage Robotics利用开源VLA模型支持机器人应用 [27] - 中科大生成对抗性场景提升自动驾驶安全性;Menlo Research开发空间推理LLM增强机器人环境理解 [26][27] 全球协作与开源项目 - OpenWallet基金会推动《全球数字契约》项目,采用联合召集模式促进跨国界、跨行业协作 [8][9] - Bielik.ai发布1 5B至11B参数的开源语言模型及端到端工具链,降低大模型研发门槛 [29][30] - Eclipse Aidge项目支持边缘智能部署;LlamaEdge实现边缘设备轻量化GenAI推理 [29][31]
李想年薪6.39亿?官方澄清:实际为266万元;特斯拉4月份欧洲销量严重下滑丨汽车交通日报
创业邦· 2025-05-07 18:38
理想汽车高管薪酬争议 - 李想2024年实际薪酬为266万元 并非网传的6.39亿元 [1] - 6.39亿为美股会计准则下期权会计费用 需完成销量目标才能解锁1800万股期权奖励 [1] - 当前执行期权需支付29.26美元/ADS成本 按25.68美元市价计算将倒贴3200万美元(约2.3亿人民币) [1] 特斯拉欧洲市场表现 - 4月欧洲销量大幅下滑 瑞典同比降81% 德国降46% 英国销量为两年最低 [2] - 销量下滑原因包括消费者抵制马斯克政治立场及竞争加剧 [2] - 股价周二收跌1.75% 在美股七大科技巨头中表现最差 [2] Rivian交付预期调整 - 下调2025年底交付预期至4-4.6万辆 原预期为4.6-5.1万辆 [3] - 调整原因为特朗普关税政策及监管变化影响 尽管全部在美国生产 [3] 沃尔沃新技术发布 - 推出全新混动架构SMA 将与纯电架构SPA2并行发展 [4] - SMA架构覆盖中型至大型车 支持两驱/四驱动力组合 [4] - 首款车型XC70定位中大型SUV 纯电续航超200公里(CLTC) 预计9月上市 售价40-50万元 [4]
梁文锋和杨植麟再“撞车”
创业家· 2025-05-07 17:57
大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿参数提升近百倍,miniF2F测试通过率88.9%,解决普特南测试49道题 [3] - 月之暗面同期发布Kimina-Prover模型,开源1.5B和7B参数版本,miniF2F通过率80.7%,普特南测试解决10道题,性能低于DeepSeek-Prover-V2 [3] - 两家公司技术报告均强调强化学习应用,DeepSeek通过子目标分解优化数学推理,月之暗面聚焦形式推理模型架构 [4] 公司竞争格局 - DeepSeek面临阿里巴巴开源模型追赶,通义千问Qwen3参数量为R1的1/3但性能全面超越,阿里开源模型全球下载量超3亿次,衍生模型超10万个 [15] - 月之暗面Kimi用户增长受字节跳动豆包和腾讯元宝挤压,QuestMobile数据显示2025年2月AI应用月活排名为DeepSeek(1.94亿)、豆包(1.16亿)、腾讯元宝(4200万),Kimi跌出前三 [14] - 腾讯元宝通过微信引流和14亿元投流费用实现用户快速扩张,超越Kimi的1.5亿元营销投入 [14] 技术路径与产品迭代 - DeepSeek押注数学/代码、多模态、自然语言三大AGI路径,数学与代码被视为封闭可验证的智能试验场 [7] - Prover-V2基于DeepSeek-V3微调,采用子目标分解和思维链技术强化推理能力,与R2/V4版本无直接关联 [9] - 市场传闻R2模型可能采用华为昇腾芯片,但行业人士指出其生态系统和训练鲁棒性存在短板 [10][11] 行业动态与挑战 - 百度发布文心4.5 Turbo和X1 Turbo,成本更低且性能提升,计划6月开源文心大模型系列 [16] - 李彦宏公开批评DeepSeek存在处理单一文本、幻觉率高、响应速度慢等缺陷,但承认其行业影响力 [16] - 头部公司持续面临创新压力,DeepSeek需推出R2/V4巩固优势,月之暗面通过内测社区功能增强用户粘性 [5][14]
“最近看的AI项目,全是一个模子出来的”
投中网· 2025-05-07 14:26
将投中网设为"星标⭐",第一时间收获最新推送 1 个月前,我们在一间咖啡馆里,聊着彼此都是刚学到的知识点。 AI 是当下最大的投资共识,他所 在机构也把 AI 设为主要方向。以朱总为代表,盯着的是现实的商业化,考量的是项目能不能成为即 刻可用的提效工具,或者说,能不能赚钱。这当然是市场的主流。当我把同样的问题抛给 Leo ,他 的回答则让人意外。 Leo 读的是别人嘴里面没用的专业。比起有没有商业模式,他更关心的命题是,当 AI 越来越先进, 除了从纯商业的角度看能带来多少投资收益和效率提升外,是不是还应该同时考虑这种破坏性创新带 来的负面影响,以及这种成本是不是现阶段我们能承受的? 从更广阔的维度,他思考的是新科技和新产品对于生产关系的变革。基于此, Leo 分析了 Agent 大规模落地的挑战——因为人是社会性的动物,这导致 Agent 没有办法去实现更大的想象空间。他 对 AI 应用的投资悲观——因为现有的项目在他眼里都长得差不多,仅仅局限在优化现有流程的层 面。他还在等待一个奇点时刻,"当 AI 从本质上改变了生产关系,能创造出人与人之间、人与物之 间交互的全新模式,在这个模式里真得离开 AI 都玩不 ...
使命与扩张的平衡术:OpenAI平台级AI应用的进化路径
36氪· 2025-05-06 19:44
引言:OpenAI为何在收购与结构调整中双线推进? 2025年5月6日,OpenAI宣布放弃全面营利化重组方案,将营利性子公司转型为公益公司(PBC),由非营利组织继续持有控制权。这一结构调整背后, 实质上是对其快速商业化扩张节奏的制度性回应。过去两年,OpenAI持续通过收购和新业务布局,加速构建平台级AI应用生态,商业化步伐显著加快。 此时宣布结构调整,既是回应监管和社会对其"逐利化"倾向的质疑,也是为下一阶段收购与扩张创造治理前提。 尽管全面盈利化看似更有利于资本进入和商业操作,OpenAI却选择了保留非营利组织控制权的PBC结构。原因在于,PBC制度允许公司在追求利润的同时 将社会使命写入治理框架,而非营利母公司继续控股,则进一步确保公司战略不被短期财务回报所驱动。这一治理安排既回应了外部对其使命偏移的质 疑,也保留了资本融资、员工激励和并购操作所需的灵活性。可以说,OpenAI试图在"制度可信度"与"商业扩张性"之间建立一种长期可持续的平衡机 制。 换句话说,如果说一系列收购是OpenAI打通"从底座到入口"的平台化布局工具,那么组织架构的调整就是对其使命合法性与治理弹性的补强机制。两者 合力,使O ...
腾讯研究院AI速递 20250507
腾讯研究院· 2025-05-06 18:46
生成式AI - OpenAI放弃完全营利性转型,将由非营利组织继续控制,同时营利性机构转为公益公司(PBC)[1] - 公司架构调整后取消利润上限制度,采用常规股权结构,非营利组织将成为PBC主要股东[1] - 承诺继续专注AGI发展造福人类使命,并计划开源部分高性能模型[1] - 英伟达发布Llama-Nemotron开源模型家族,包含8B到253B三种规格,支持动态切换推理模式,遵循开放商业许可[1] - LN-Ultra运用Puzzle框架和FFN融合技术优化部署效率,在推理性能和吞吐量上超越DeepSeek-R1[1] - 通过Qwen和DeepSeek-R1教师模型支持,结合多阶段训练和强化学习,全面提升模型推理与通用对话能力[1] Grok PDF功能 - Grok新增PDF渲染功能,支持一句话指令快速生成格式化PDF文档,免费和付费用户均可使用[2] - 功能基于LaTeX代码实现,支持学术论文、简历、菜单等多种文档类型,可通过对话优化或直接修改代码[2] - 相比ChatGPT依赖第三方库的PDF生成功能,Grok在排版质量和用户体验上有明显优势[2] Suno音乐生成 - V4.5版本支持长达8分钟的音乐生成,并新增punk rock、jazz house等细分风格,支持跨界混搭创作[3] - 人声表现力全面升级,实现从耳语到高音的动态音域,并优化了颤音、呼吸控制等专业级细节[3] - 提升了音乐描述识别能力,可精准理解抽象表达,并支持乐器分层、环境音效等音乐元素的精细解构[3] 英伟达语音识别 - 英伟达开源的Parakeet TDT 0.6B语音识别模型创下纪录,能在1秒内转录60分钟音频,词错误率仅6.05%[3] - 模型采用FastConformer-TDT架构,可一次性处理24分钟音频片段,支持标点符号预测和时间戳[3] - 以CC-BY-4.0许可开源,参数量600M,支持商用,但目前仅支持英语识别[3] ACE-Step音乐生成 - ACE-Step结合深度压缩自编码器、扩散模型和线性Transformer,在A100上20秒可生成4分钟音乐,比基线快15倍[5] - 支持19种语言音乐生成,覆盖流行、摇滚等多种风格,并具备人声克隆、歌词编辑等高级控制功能[5] - 采用Apache License 2.0开源协议,已开放训练代码和LoRA模块,将陆续推出RapMachine、StemGen等专业功能[5] AI考古发现 - 2025年研究人员首次非侵入性读取到赫库兰尼姆古卷PHerc. 172的标题,内容为斐洛德谟的《论恶习》第一卷[5] - 该发现由两个团队同时完成,获奖团队Marcel Roth和Micha Nowak利用AI图像分割和墨迹检测技术,获得6万美元奖金[5] - 这些古卷源自公元79年维苏威火山爆发被掩埋的罗马贵族别墅,AI技术为解读这些碳化的古代智慧开创新途径[5] AI数学工具 - 陶哲轩在ChatGPT协助下,仅用4小时独立开发了一个验证数学估计的开源工具,可自动判断涉及正参数的不等式是否成立[6] - 他与ChatGPT的交互过程从基础类编写开始,逐步完善功能,显示了AI在复杂数学工具开发中的实用价值[6] - 作为早期接受AI的顶级数学家,陶哲轩认为到2026年AI将成为数学研究的可靠合作者,并建议数学家与程序员协作开发此类工具[6] AI版权问题 - 法律主要保护具体的"表达"而非抽象的"风格",单纯模仿吉卜力画风通常不构成侵权,但使用其具体角色和情节可能侵权[6] - AI训练数据未经授权存在法律风险,但传统"先授权后使用"模式已不适用,目前缺乏相关立法和豁免机制[6] - 面对AI挑战,艺术家的核心竞争力在于思想深度和时代洞察,应关注作品的独特视角而非技术层面的复制能力[6]
使命与扩张的平衡术:OpenAI平台级AI应用的进化路径
腾讯研究院· 2025-05-06 17:55
核心观点 - OpenAI宣布放弃全面营利化重组方案,将营利性子公司转型为公益公司(PBC),保留非营利组织控制权,以平衡商业扩张与社会使命[2][3] - 公司通过收购与结构调整双线推进,构建平台级AI应用生态,同时回应监管和社会对其"逐利化"的质疑[3][4] - 治理结构调整(PBC)为收购与扩张创造制度前提,确保战略不被短期财务回报驱动[3] - 公司战略聚焦从模型能力竞争转向应用生态与数据闭环构建,与Anthropic、Google DeepMind等巨头展开平台化竞争[4] OpenAI布局动态的阶段性特征 - 2023年应用爆发初期:收购Global Illumination(创意体验团队),加强C端产品体验,快速迭代用户界面[6][7] - 2024年ToB需求爆发前夜:收购Rockset(实时数据库公司),建立企业服务能力,补齐检索短板[6][7] - 2024年远程协作需求上升期:收购Multi(小型协作平台),打通ToB协同场景,提升应用黏性[6][7] - 2025年生态整合前夜:筹划以约30亿美元收购Windsurf(AI辅助编程),绑定流量入口,掌控数据闭环[6][7] - ChatGPT周活超5亿,成为全球第一超级原生AI应用,体现"产模一体"战略成效[7] 收购逻辑与时机选择 抢占时间窗口 - 2023年初收购Global Illumination(8人团队),快速补齐C端产品短板,缩短迭代周期[9] - 收购Rockset与Multi同样基于时机敏感,避免错过产业标准形成期[10] 构建长期壁垒 - 收购Rockset(实时数据库公司)强化基础设施,支持毫秒级数据索引与查询,适配企业级AI场景[11][12] - 探索自研AI芯片(如与Rain AI合作),降低对英伟达GPU依赖,模仿苹果硬件自主化路径[12] 绑定流量与数据闭环 - 2024年收购Chat.com顶级域名,抢占自然搜索流量,提升用户留存与转化率[13] - 布局AI社交平台,自建数据生产与分发体系,对抗Facebook等平台的数据垄断[17] 特别观察:收购之外的野心 - 传闻探索收购Chrome浏览器(日活25亿),反映控制信息流量入口的野心[15][16] - 与Jony Ive合作开发AI可穿戴设备,探索硬件入口[18][19] - 投资Harvey AI(法律)、Ambience Healthcare(医疗),扩展细分行业应用[18][19] 未来趋势推演 - 细分行业应用:法律、医疗、教育领域深化ToB/ToC场景[19] - 本地部署解决方案:轻量端推理、边缘计算平台应对云端算力瓶颈[19] - AI硬件设备:可穿戴设备、无屏设备构建多模态入口[19] - 国际化流量布局:新兴市场社交/教育平台扩展数据源[19] 结语 - PBC结构调整为商业化扩张提供"制度引擎",平衡资本需求与社会信任[21] - 收购与治理协同演化,构建技术、产品、数据、治理的超级结构[21]
梁文锋和杨植麟再“撞车”
华尔街见闻· 2025-05-05 20:26
大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿规模增长近百倍,在miniF2F测试通过率达88.9%,解决普特南测试49道题 [3] - 月之暗面同期推出形式化定理证明模型Kimina-Prover,开源1.5B和7B参数版本,miniF2F测试通过率80.7%,普特南测试解决10道题 [3] - 两家公司技术报告均采用强化学习方法,DeepSeek通过子目标分解推进数学推理,月之暗面基于强化学习技术构建形式推理模型 [4] - DeepSeek模型矩阵同步进化,Prover系列从2024年3月发布后历经三次升级,代码系列Coder从2024年4月起完成五次迭代至V3-0324版本 [10] 行业竞争格局 - DeepSeek面临阿里巴巴开源模型追赶,通义千问Qwen3参数量仅为R1的1/3但性能全面超越,阿里已开源200余个模型全球下载超3亿次 [19] - 百度发布文心4.5 Turbo和X1 Turbo,性能更强成本更低,计划6月开源文心大模型4.5系列 [19][21] - 月之暗面Kimi用户增长受挑战,腾讯元宝通过微信引流和14亿元投流费用超越Kimi成为月活第三的AI产品,Kimi月活2000万不及豆包5600万 [16] - 华为昇腾芯片被传用于DeepSeek R2模型研发,但行业人士指出其训练效果一般且生态系统不完善,更适合推理部署 [14] 技术发展路径 - DeepSeek押注数学/代码、多模态和自然语言三大AGI实现路径,认为数学和代码是封闭可验证系统,可能通过自我学习实现高智能 [9] - 推理大模型R1价格低廉且性能强劲,Prover-V2以DeepSeek-V3为基础模型进行微调,利用子目标分解和思维过程链强化推理能力 [12] - 算法专家指出R2可能侧重强化学习能力提升,研发周期较短,而V4将涉及预训练工程和方法变革,研发周期更长 [13] 市场动态 - 中国AI原生APP月活排名变化:DeepSeek以1.94亿居首,豆包1.16亿次之,腾讯元宝0.42亿超越Kimi成为第三 [16] - 行业观点认为中国需要2-3个世界领先大模型而非单一明星企业,应鼓励领域内竞争和创业 [19] - 百度指出DeepSeek存在处理单一文本、幻觉率高、响应速度慢和API价格高等局限性 [19][20]
国内最早的AI大模型公司已经开始亏损了
凤凰网财经· 2025-05-05 19:14
公司财务表现 - 2024年营收56.62亿元,同比增长15.2%,但净利润亏损15.95亿元,同比下跌226.8%,为上市十年首度亏损 [1] - 亏损主因包括研发费用增至15.4亿元(同比增59.5%)及金融资产价格波动导致投资损失8.2亿元 [4] - 公司长期储备至少10亿美元资金支持AGI和AIGC业务发展,并计划持续加大研发投入 [4] AI技术布局与成果 - 2025年密集发布多款大模型:1月推出天工大模型4.0,2月发布3D生成模型Matrix-Zero和短剧视频模型SkyReels-V1,3月开源工业界多模态模型Skywork R1V及音乐模型Mureka O1,4月升级Skywork-R1V 2.0 [3] - Mureka O1模型性能超越Suno,被称"音乐圈DeepSeek" [2] - 多模态推理模型Skywork-R1V 2.0因高考题目测试表现获"能考上985的AI"评价 [1] - 2023年4月发布千亿级大语言模型"天工",为国内首批入局"百模大战"企业 [3] 战略转型与行业定位 - 游戏业务营收占比从90%以上降至2024年的9.6%,全面转向AI赛道 [6] - 采用"红海找蓝海"策略,聚焦细分领域如AI短剧、音乐、3D生成,海外收入占比达88% [9] - 2022年ChatGPT热潮后加速AI布局,覆盖搜索、社交、游戏等全场景应用 [8][9] 行业竞争与挑战 - 国际科技巨头2025年AI投资计划:亚马逊1000亿美元、微软800亿美元、谷歌750亿美元、Meta 600-650亿美元 [11] - 国内阿里宣布未来三年AI投入超3800亿元,昆仑万维研发规模相对较小(2024年15.4亿元) [11] - AI Agent成为新竞争焦点,公司2024年推出通用计算机控制框架Cradle,但行业仍处生态建设早期 [14] 资本市场与人才动态 - 2023年5月股价从ChatGPT爆火前的14.13元最高飙升至70.61元 [10] - 机构投资者持股家数从414家降至不足百家,部分因技术高管颜水成卸任研究院院长 [18] - 当前估值逻辑更看重技术突破而非短期商业化,OpenAI 2024年收入仅37亿美元 [11][12]