Workflow
通用人工智能(AGI)
icon
搜索文档
专访昆仑万维方汉:AI不能画饼,“能挣钱这件事很重要”
新浪财经· 2025-04-30 18:23
公司战略与定位 - 昆仑万维选择AI作为第二增长曲线,重点布局音乐与视频AIGC赛道,避开与大厂在文本大模型的直接竞争[1][4][8] - 公司采用"小而美"策略深耕垂直领域,通过掌握细分行业数据和行为习惯构建护城河,目标是实现从"小而美"到"大而美"的泛化[6][25][26] - 商业模式分为两部分:探索通用人工智能(AGI)的长期价值与聚焦音乐/短剧AIGC的商业化落地[14][15] 产品与技术进展 - 音乐生成模型Mureka迭代至V6版本,其中O1模型加入MusiCoT技术,性能超越全球竞品Suno,生成时间从1分钟延长至2分钟但质量显著提升[4][9][11][12] - 视频生成平台SkyReels聚焦短剧垂直场景,支持40种表情与300种动作,模型下载量达3万次(Hugging Face),Github星数超千[5][17] - 技术路线强调SOTA(State-of-the-Art)表现,认为这是最佳营销方式与人才吸引手段[2][22] 商业化表现 - 2024年公司总收入56.6亿元(+15.2%),AI业务年化收入1.4亿美元,音乐ARR达1200万美元(月流水100万美元)[5] - AI音乐创作成本从传统10-100万元/首降至几十元/首,预计工具市场规模可达百亿美元,公司目标占据10-20亿美元份额[29][31][32] - 短剧市场年规模100亿元,视频生成商业化进度晚于音乐1-2年[38] 行业竞争与人才策略 - 通过差异化数据积累构建壁垒:音乐领域自建CoT训练数据,视频领域标注独家表演数据[13][18][19] - 人才招募采用主动上门沟通模式,核心团队包括Mureka和SkyReels主创,吸引力来自技术SOTA地位、决策链短及薪酬优势[1][22][23] - 认为模型厂商在Agent领域更具话语权,套壳应用易被底层技术迭代颠覆[39][40][42] 市场判断与未来展望 - AI行业进入生产力应用阶段,产品模式趋于接地气,模型能力已达可用水平[38][44] - 音乐与图像生成已具备商用条件,视频生成仍需突破[29][36] - 公司长期使命是实现AGI,短期聚焦音乐/短剧AIGC的商业化落地[44][45]
扎克伯格最新专访:AI 会在知识工作和编程领域,引发一场巨大的革命
搜狐财经· 2025-04-30 18:02
文章核心观点 Meta首席执行官马克·扎克伯格在接受媒体采访时,谈到了Meta对AI发展格局的看法,回应外界质疑,介绍Llama 4模型进展,探讨AI应用场景、开源、商业化等问题,认为AI将带来多方面变革,未来充满机遇和挑战 [1] 分组1:AI发展格局与模型能力 - Meta认为尽管DeepSeek在特定领域有进展,但Llama 4模型能提供更高效率和更广泛功能 [1] - 预计未来12到18个月,Llama研发工作大部分代码将由AI编写,且会增加人类工作需求 [1] - Meta AI每月用户接近10亿,今年将构建个性化循环,是下一个发展方向 [2] 分组2:Llama 4模型进展 - 已发布Llama 4的Scout和Maverick模型,性价比高、原生支持多模态、可单台主机运行,未来几个月将推出类似Llama 3 8B参数的'Little Llama' [4] - 即将推出参数超2万亿的Behemoth前沿模型,需构建大量基础设施进行后期训练 [4] - Llama 4推理版本将在未来发布,低延迟和高性价比对消费级产品设计重要 [7] 分组3:模型评估与基准测试 - 开源模型领域发展良好,今年有许多优秀开源模型涌现,'开源模型将普遍超越闭源模型'的预测正成为现实 [5] - 外部基准测试有局限性,Meta将模型评估锚定在Meta AI产品的'北极星'用户场景和用户反馈上 [8] - 需谨慎看待一些基准测试结果,Meta主要参考内部指标 [9] 分组4:不同实验室优化方向 - 不同团队针对不同方面优化,Anthropic专注编码及智能代理,OpenAI侧重推理能力,Meta关注快速自然交互和多模态能力 [12] - 实现闭环的软件工程师(AI)是抢先达到超级人工智能的关键,Meta投入编码工作,开发编码和AI研究代理 [15] 分组5:AI应用场景与发展 - AI将在知识工作、编程、搜索技术、娱乐等多方面引发革命,未来媒体消费将更具互动性 [23][25] - 人们会利用AI处理社交任务,AI社交不会完全取代现实连接,未来AI具身性将增强 [27][28] - 增强现实领域设计应不干扰视线,促进人际互动,将数字内容无缝融入其中 [30][31] 分组6:模型比较与许可证 - 与DeepSeek相比,Llama 4模型尺寸更小、效率更高,在多模态能力上领先 [35] - Meta认为Llama许可证合理,目的是与大型云服务商沟通合作,目前未遇公司因许可证拒绝使用 [37][39] 分组7:开源与模型选择 - Meta构建自己的大模型以满足特定需求,但不排斥在特定场景使用其他模型 [40][41] - Meta需警惕跟进者的开源行为,要保持推动行业开源的战略方向 [42][43] 分组8:模型价值观与提炼 - 模型内含价值观和世界观,不同模型存在根本性偏见,推理和编码领域需关注安全问题 [46][48][49] - 模型提炼是开源有趣的事,可结合不同模型优点,但要解决安全问题 [49][50][51] 分组9:AI商业化模式 - AI不同应用适合不同商业模式,广告模式对免费服务有效,也会有付费的高级服务 [52][53] 分组10:CEO角色与决策 - 马克·扎克伯格通过招募人才、跨团队协调、推动基础设施建设、把控产品质量等方式监督项目 [54][56] 分组11:其他问题回应 - 作为美国公司,Meta默认与任政府建立富有成效关系,在人工智能治理上要为决定承担责任 [60] - 难以预测关税对建设数据中心的影响,每周效率最高的事不固定 [64][65] 分组12:未来趋势与展望 - 技术发展将释放巨大创造力,未来人们会更多参与线上互动,技术或增加社会对劳动力的需求 [66][67][69]
OpenAI揭秘Deep Research实现始末
锦秋集· 2025-04-30 15:09
Deep Research的起源与目标 - OpenAI团队放弃交易型赛道如订汉堡、订花 转而攻克知识整合 认为这是AGI必备前置技能 且"纯读取"比"直接下单"更安全 [3] - 产品愿景是打造"Slack同事式"统一智能体 能自主判断工具调用 保持状态与记忆贯穿始终 [3] - 选择研究型任务而非交易型任务因三方面考量:知识工作需求大 符合AGI科学发现目标 只读任务安全性更可控 [5][6] 开发方法论与数据策略 - 数据质量优先于数量 采用"小而准"策略 邀请专家手工标注高价值样例 强化学习让模型自寻最优策略 [3] - 每新增工具必配套数据集 训练模型调用组合回溯能力 人类专业知识在数据创建中起关键作用 [8][11] - 开发过程经历多次迭代 初期演示版仅用提示工程 后续才引入模型训练与工具开发 团队获数月不受干扰的专注期 [7] 强化学习微调实践 - 强化学习微调(RFT)适用场景:提示工程无效时 或10-15%性能差距对业务至关重要时 [3][9] - 数学编码等专项训练能泛化到写作等领域 但针对性训练效果更优 基因测序等超分布任务需优先考虑RFT [9] - RL算法数据效率高 但高质量数据策划工程量大 需与强大预训练基座模型协同 [12] 智能体架构设计 - 当前工具集包括文本浏览器和Python分析工具 未来将扩展工具集 需同步创建训练数据集 [8] - 记忆功能对复杂任务至关重要 避免用户重复输入 未来需解决长任务上下文窗口耗尽问题 [15][17] - 初期需显式确认建立信任 后期可逐步开放自主操作 安全护栏设置与能力提升需同步 [16] 性能表现与用户场景 - 医学研究和代码搜索等专业领域表现获专家认可 数据分析能力继承自基础模型o3的强大多任务训练 [25][26] - 擅长处理多约束条件查询 如特定商品搜索 能生成超长全面报告 实时信息补充价值显著 [27] - 训练中展现智能规划行为 如自主选择搜索词 但也存在不可预测错误 改进空间大 [28][31] 行业趋势与未来展望 - AGI路径因强化学习复兴更清晰 但需解决工具调用评估 数据精度等挑战 [12] - 未来一年可能推出通用智能体 编码与旅行规划等多任务统一处理 改进速度将超预期 [22] - 终极目标是执行API操作 访问私有数据 形成基础模型与微调能力的正向循环 [23][24]
OpenAI与微软“蜜月期”终结?奥尔特曼与纳德拉的AI盟约出现裂痕
金十数据· 2025-04-30 11:46
过去六年里,微软向这家人工智能初创公司注入了数十亿美元的资金,为其快速增长提供了强劲动力, 助力OpenAI推出的ChatGPT获得了每周超过5亿用户。OpenAI则为微软提供了先进的生成式AI工具,也 推动了这家科技巨头股价翻了三倍。 但这段合作关系如今已出现裂痕。知情人士透露,两位CEO围绕微软为OpenAI提供的算力资源、微软 对OpenAI模型的访问权限,以及奥尔特曼领导下的AI系统是否即将实现类人智能等问题,分歧日益加 深。微软CEO纳德拉(Satya Nadella)已将推动ChatGPT竞争对手Copilot的销售和使用列为优先事项, 并在去年悄然聘请了奥尔特曼的一位竞争对手,着手组建团队开发微软自有的大模型,以减少对 OpenAI的依赖。 尽管两家公司正为未来可能的"分家"做准备,但在当下这场全球AI竞赛的关键时刻,彼此仍握有极大 的影响力。 据知情人士透露,微软有能力阻止OpenAI转型为独立的盈利性公司。如果这一转型在今年年底前无法 完成,OpenAI可能会损失数百亿美元。不过,有知情人士表示,截至目前,微软尚未威胁要采取此类 行动。与此同时,OpenAI的董事会也有权启动合同中的一项条款 ...
对话朱松纯:Agent喧嚣之上,“走心”才是AGI的未来?
AI科技大本营· 2025-04-30 11:02
Agent概念与现状 - 当前AI领域最热门的词是"Agent",被业界称为"智能体元年",但对其定义存在模糊性,有人认为只是RPA的升级版,有人视为无所不能的商业应用[1] - 真正的Agent应具备自主性、自我意识和内在诉求,能主动与环境互动并形成价值判断,而非被动响应指令的工具[4] - 目前多数系统缺乏物理世界互动能力和社会性,仅能完成特定任务,本质仍是工具而非智能体[4] 通通智能体的创新路径 - "通通"采用价值与因果驱动的终身学习模式,在虚拟环境中持续演化并发展个性,核心在于内在驱动力而非数据堆砌[4] - 该智能体已展现出类人行为如讨价还价、策略性撒谎等社会性特征,表明其价值体系正在形成[7] - 与主流Agent相比,"通通"强调"理"(推理能力)和"心"(价值体系)的构建,而非仅关注"技"(任务技能)[6] 多智能体协作挑战 - 社会智能需要模拟组织结构的动态演化,包括家庭、公司等V++集合体的目标形成与内部认知构建[7] - 当前多智能体系统缺乏共享价值体系和社会关系理解,难以实现鲁棒的群体智能[7] - 关键瓶颈在于对社会规则、契约及责权利等内隐知识的建模能力[7] AI发展范式批判 - 主流大模型路径被比作"鹦鹉范式",依赖海量数据但缺乏深层理解,表现出任务脆弱性[9][10] - 倡导转向"乌鸦范式",通过小数据解决大任务,强调内在需求驱动和因果推理的自主智能[12] - 千亿参数模型虽工程有效但科学上"丑陋",存在黑箱问题和泛化能力缺陷[9][13] AGI评估新框架 - 提出能力与价值双系统的评级方法,通过开放环境测试自主定义任务和适应变化的能力[14] - "通通"在测试中表现接近3-6岁儿童水平,验证了该框架可行性[14] - 批评"预测下一个token"模式缺乏多模态反馈闭环,导致知识组织混乱[14] 中国AI发展路径 - 主张跳出数据算力军备竞赛,结合实体经济需求发展具身智能[16] - 将儒家文化等传统价值融入AI设计,探索不同于西方的社会智能解决方案[16] - 强调哲学心理学等人文学科对构建AI价值体系的关键作用[16] 智能本质的哲学思考 - AGI发展应回归对智能本质的理解,构建具备内在价值和认知能力的智能体[18] - "为机器立心"是技术目标也是哲学宣言,关乎AI与人类社会的共生方式[18] - 指出通用人工智能的发展选择将深刻影响国家未来竞争力[18]
宇树科技董事王其鑫:AGI不是梦,具身智能技术路线要分三步走
每日经济新闻· 2025-04-30 00:15
数字中国建设峰会 - 第八届数字中国建设峰会开幕,数字经济分论坛由国家数据局主办,多家机构承办 [1] - 杭州宇树科技董事王其鑫发表主题演讲,提到2024年国内具身/人形项目融资突破100亿元 [1] 人形机器人发展前景 - 人形机器人未来将走进千家万户,技术路线分三步:建立具身认知系统、实现自主决策规划、完成精确运动交互 [1] - 国内具身智能领域产业链完善,2024年已有百亿元融资涌入初创企业 [6] - 人形机器人是具身智能的最佳形态之一,国内在该领域不弱于发达国家 [6] 宇树科技产品布局 - 产品分为消费级和工业级机器人:消费级用于取快递、背包等日常任务,工业级应用于电力巡检、消防救援等恶劣环境 [2] - 工业级机器人是主要销售来源,服务于有毒气、辐射等特殊场景 [2] AI发展阶段 - AI发展分为三阶段:弱AI(如AlphaGo)、强AI(具备学习能力)、AGI(通用人工智能) [2] - AGI实现途径之一是具身智能,需融合身体感知、环境交互和运动能力 [3] 具身智能应用案例 - 医疗机器人可缝合生鸡蛋,服务机器人在泰山清运垃圾,工业机器人用于汽车工厂机械臂 [3][4] - 自动驾驶汽车属于具身智能范畴,具备道路感知能力 [4] 具身智能技术路线 - 实现具身智能三步走:认知环境(基于实时遥控系统)、决策能力(如WoCoCo框架)、交互能力(模仿人类动作) [7] - 宇树科技通过人类行为视频和动作捕捉数据构建数据库,强化端到端运动控制技术 [7] 未来应用场景 - 具身智能将分阶段落地:先工业领域(特种行业、制造业),再商业领域(零售、康养),最终进入民用市场 [9]
阿里开源首个“混合推理模型”:集成“快思考”、“慢思考”能力
新浪财经· 2025-04-29 14:28
文章核心观点 阿里开源具备“快思考”与“慢思考”能力的混合推理大模型Qwen3,该模型部署成本低且采用“混合专家(MoE)架构”节省算力,国内科技公司纷纷推出低成本AI模型服务,阿里围绕Qwen系列构建AI战略版图,国际科技巨头也在加速模型优化布局 [1][3][4] 公司动态 - 4月29日凌晨阿里巴巴宣布开源新一代通义千问模型Qwen3,集成“快思考”与“慢思考”,部署成本较Deepseek等大模型显著降低 [1] - 百度发布新一代文心一言模型4.5和X1,多模态理解、文本和逻辑推理能力显著提升 [3] - 火山引擎正式发布豆包1.5深度思考模型,实现更低延迟 [3] - 科大讯飞全新升级深度推理大模型讯飞星火X1 [3] - 29日OpenAI发布ChatGPT多项功能更新,支持和优化购物功能,朝着超级消费级应用方向发展 [4] 模型特点 - Qwen3系列采用“混合专家(MoE)架构”,能模仿人类思考,节省算力,满足多样需求,其他开发者也采用该架构 [3] 行业趋势 - 近两个多月国内科技公司迅速推出低成本AI模型服务,加注国产模型升级浪潮 [3] 公司战略 - 今年2月阿里巴巴集团CEO吴泳铭称公司“首要目标”转向实现通用人工智能,未来三年投入超3800亿元建设云和AI硬件基础设施 [4] 开源成果 - 阿里云称阿里通义已开源200余个模型,全球下载量超3亿次,Qwen衍生模型数超10万个,超越美国Llama成全球第一开源模型 [4] 模型测试 - 展示了千问3旗舰版和32B版本在部分基准测试中的得分 [2]
阿里发布并开源千问3,称成本仅需DeepSeek-R1三分之一
第一财经· 2025-04-29 08:33
模型性能与架构 - 千问3是国内首个"混合推理模型",集成"快思考"与"慢思考"功能,参数量仅为DeepSeek-R1的1/3 [1] - 千问3采用混合专家(MoE)架构,总参数量235B,激活仅需22B,预训练数据量达36T [2] - 在ChatBot Arena等榜单中性能全面超越R1、OpenAI-o1等全球顶尖模型,登顶全球最强开源模型 [1] - 具体性能表现:ArenaHard 95.6、AIME'24 85.7、CodeForces Elo Rating 2056等指标领先竞品 [2] - 30B参数MoE模型实现10倍以上性能杠杆提升,仅激活3B就能实现上代Qwen2.5-32B模型性能 [3] 成本与部署优势 - 部署成本大幅下降,仅需4张H20即可部署千问3满血版,显存占用仅为DeepSeek-R1的三分之一 [1][3] - 所有千问3模型都是混合推理模型,API可按需设置"思考预算"灵活满足不同场景需求 [3] - 通过优化架构实现稳定且高效的"思考预算"控制能力,对简单需求可"秒回"答案 [2] 产品发布与开源 - 公司开源了2款30B、235B的MoE模型,以及6款密集模型(0.6B至32B) [3] - 用户可在魔搭社区、HuggingFace等平台下载商用,或通过阿里云百炼调用API服务 [4] - 个人用户可通过通义APP体验,夸克即将全线接入千问3 [4] 技术路线与发展规划 - 未来将通过优化架构和训练方法扩展数据规模、增加模型大小、延长上下文长度 [4] - 计划拓宽模态范围并利用环境反馈推进强化学习以进行长周期推理 [4] - 团队表示Qwen3是通往AGI和ASI旅程中的重要里程碑,正过渡到以训练Agent为中心的时代 [4]
最强开源模型!阿里发布并开源Qwen3,无缝集成思考模式、多语言、便于Agent调用
硬AI· 2025-04-29 08:18
阿里巴巴发布Qwen3系列模型 - 阿里巴巴开源通义千问3.0(Qwen3)系列模型,包括两个专家混合(MoE)模型和六个Dense模型,支持119种语言并降低部署成本 [3][6] - Qwen3系列集成两种思考模式("思考模式"和"非思考模式"),可根据任务复杂度灵活调整推理深度 [9][10][11] - 训练数据量达36万亿token,是Qwen2.5的两倍,分三阶段预训练以增强语言、知识和长上下文处理能力 [14][15][16] 性能表现与模型架构 - 旗舰模型Qwen3-235B-A22B在代码、数学等基准测试中媲美DeepSeek-R1、OpenAI o1等顶级模型 [6][7] - MoE模型Qwen3-30B-A3B激活参数仅为QwQ-32B的10%,性能更优;小模型Qwen3-4B可匹敌Qwen2.5-72B-Instruct [6] - 模型架构包括2350亿总参数(220亿激活)的Qwen3-235B-A22B和300亿总参数(30亿激活)的Qwen3-30B-A3B,均开源 [7][8] 成本优势与AGI目标 - Qwen3旗舰模型部署成本仅为DeepSeek-R1的25%-35%,节省65%-75% [20] - 混合推理模型支持"思考预算"控制,优化成本效益 [12][20] - 阿里巴巴将Qwen3视为实现通用人工智能(AGI)的关键里程碑,计划扩展数据规模、模型大小和模态范围 [22] 行业反响与开源影响 - 开源社区高度评价Qwen3性能,称其32B模型与Gemini 2.5 Pro相当 [26][27] - 阿里巴巴通过开源推动AI生态发展,用户可基于Qwen-Agent工具链高效调用模型能力 [17][18]
谷歌DeepMind CEO谈AGI愿景:十年内成为现实,因安全问题彻夜难眠
36氪· 2025-04-28 19:06
AGI发展前景与挑战 - 谷歌DeepMind CEO哈萨比斯预测通用人工智能(AGI)可能在未来十年内实现 其团队Gemini模型已具备订票、购物、操控机器人等现实世界行动能力 [1][3] - AGI若发展得当可帮助攻克疾病、能源危机等重大挑战 但存在被滥用为生物武器或脱离人类控制的风险 [1][5] - 哈萨比斯提出以"AI能否凭借爱因斯坦同等信息量提出广义相对论"作为AGI测试标准 强调解决数学问题与提出有价值猜想存在本质差异 [3][12] 技术实现路径 - 谷歌DeepMind重点投入多模态AI研发 认为真正的智能需建立在对时空世界的理解基础上 该方向可提升语言模型性能并支撑通用数字助理和机器人技术 [15][16] - 当前AI系统在编程辅助工具领域进展显著 但在科学假设提出和操作系统架构设计方面仍落后顶尖人类专家 预计需数年突破 [14] - 边缘计算和小型化模型将成为隐私保护的关键 公司正开发可单设备运行的模型以保障用户数据安全 [18] 行业竞争格局 - 行业对AGI实现时间存在分歧 OpenAI CEO阿尔特曼预测2026年 哈萨比斯认为定义差异导致判断偏差 部分机构为融资目的放宽标准 [3][12] - Anthropic公司聚焦编程辅助工具研发 而谷歌DeepMind更侧重科学领域研究 体现不同技术路线 [14] - 信号基金会批评AGI需以用户数据交换为代价 公司回应将建立加密和权限控制系统保障隐私 [16][18] 社会经济影响 - AGI可能引发劳动力市场重大变革 单调工作将被替代 同时催生智能体管理等新型岗位 需经济学家加强相关研究 [19][20] - 能源技术突破或带来"极度富足"社会 基础资源成本趋零将改变资本主义运行逻辑 但需配套政治哲学解决分配问题 [21][22][24] - 技术失控风险可能逆转AI应用场景 药物研发工具可能被改造为生化武器设计系统 凸显全球治理框架紧迫性 [7][10] 治理体系建设 - 需建立包含安全标准、伦理约束和跨国审查三位一体的全球治理框架 技术无国界特性要求国际合作 [7][10] - 建议采用"预测性治理"模式而非被动响应 在技术扩散前完成风险评估和预防性设计 [8][9] - 当前5-10年时间窗口期紧迫 部分预测模型显示技术奇点可能更快到来 社会准备度存疑 [10]