AGI
搜索文档
DeepMind科学家揭秘Genie 3:自回归架构如何让AI建构整个世界 | Jinqiu Select
锦秋集· 2025-08-06 17:07
核心观点 - Google DeepMind发布的Genie 3是一种革命性的通用世界模型,能够从文本或图像生成高度互动的3D环境,支持实时交互和动态修改 [1] - 该技术有望开启万亿美元商业版图,成为VR领域的杀手级应用,其核心是生成式交互环境模型,融合游戏引擎、物理模拟器和视频生成模型的特性 [9] - Genie 3代表了从手工编码到AI生成的世界模型演进,通过海量数据自主学习环境动态规律,终极目标是仅用文本提示生成任意交互式世界 [10] 技术演进 - 初代Genie通过3万小时2D游戏录像训练,自主学会视差效应等物理规律,创新包括时空视频编码器、潜在大动作模型和自回归动态模型 [11] - Genie 2实现3D跨越,视觉保真度提升至360p,模拟现实光照效果,具备记忆能力和物体恒存性 [12] - Genie 3分辨率达720p,实现照片级逼真体验和数分钟持续交互,融合VEO视频生成模型优点,展现超长上下文窗口和卓越一致性 [13][14] 关键特性 - 输入方式从图像转为文本提示,提供更大灵活性,支持环境多样性、长时程交互和提示控制的世界事件 [15] - 通过随机神经网络实现世界一致性,自回归架构使模型参考历史生成画面,新区域保留随机性,区分能力来自大规模训练 [16] - 核心应用是为具身智能体训练提供平台,模拟现实场景如自动驾驶罕见事件,形成世界基础模型愿景 [17] 行业影响 - 创造全新互动娱乐形态,类似YouTube 2.0或体验机器,用户可共同创造永不终结的虚拟宇宙 [19] - 简化交互式动态图形制作流程,与传统游戏引擎形成互补而非替代关系 [22] - 有望解决仿真到现实鸿沟,通过逼真世界模拟让AI安全走向真实环境 [23] 技术局限 - 目前仅支持单智能体体验,多智能体系统仍在开发中 [20] - 可靠性问题存在,完全物理和逻辑准确性需时间迭代,无法生成未训练数据场景如古代战役 [20] - 计算速度限制模型复杂度,采用模块化方案如Gemini与Genie 3协同工作 [20]
DeepSeek:薛定谔式“凉”了?
新财富· 2025-08-06 16:03
核心观点 - 媒体报道DeepSeek市场份额下降至5%以下的数据存在统计偏差,仅统计了官网API和APP使用量,未涵盖第三方托管和离线部署等场景 [2][4][10] - DeepSeek第三方调用量实际增长显著,6月第三方Tokens消耗量较发布时增长近20倍 [11][12] - DeepSeek在全球AI模型热度中仍保持第一梯队地位,OpenRouter平台份额16.2%排名第三,Hugging Face点赞数全站第一 [17][22][44] - 国内B端市场DeepSeek仍占据50%以上份额,主要竞争对手为阿里千问系列 [33][34] - 公司战略重心聚焦AGI技术突破而非流量变现,开源策略推动行业生态繁荣 [13][49][50] 数据统计争议 - 市场份额5%的数据源自SensorTower移动端统计,未包含云服务商托管和终端离线部署场景 [4][10] - Semianalysis报告未明确统计方法,第三方Tokens消耗量采用指数化呈现但未披露计算方式 [11][16] - 主流统计平台(OpenRouter/Poe/PPIO)均仅反映自身平台数据,无法覆盖全渠道绝对值 [37] 第三方平台表现 - OpenRouter平台DeepSeek V3 Tokens消耗量378B排名第二,厂商份额16.2%位列第三 [17][22] - Poe平台DeepSeek-R1消息数占比从7%降至3%,但在纯推理模型中仍超10% [24][28] - 国内PPIO平台显示DeepSeek占据B端50%以上需求,4月被阿里千问短暂超越 [33][34] - Artificial Analysis调研显示53%用户将DeepSeek列为第四选择,仅次于OpenAI/Google/Anthropic [40] 行业影响 - 开源策略带动行业平权,阿里千问、Kimi K2、字节/智谱等相继跟进开源 [49][50] - 技术迭代速度极快,R1发布仅半年即面临多款竞品挑战 [48] - 与Meta"告别默认开源"形成战略对比,持续推动技术民主化 [51]
甲小姐对话黄伟:一边“找死”,一边活下去 | 甲子光年
搜狐财经· 2025-08-06 13:30
公司上市历程与资本策略 - 云知声于2025年6月30日以“港股AGI第一股”身份完成上市,创始人黄伟形容上市时心情为“有一点喜悦”,并视其为一个实现了的里程碑,而非特殊事件 [2][3][4] - 公司上市之路波折,历时5年筹备,审核博弈649天,历程包括:2020年11月首次递交科创板申请并于2021年2月主动撤回;2023年6月首次向港交所递交申请;2024年3月更新招股书;2025年3月30日第三次向港交所递交申请;最终于2025年4月14日通过中国证监会备案 [2][8] - 2021年主动从科创板撤回是艰难决定,创始人认为在审核周期长、不确定性高的情况下,撤回虽有80%失败可能,但继续等待则“必死”,撤回后公司半年内完成了近1亿美元融资 [7][9] - 转战港股过程异常艰难,原预期6到9个月完成,但因滴滴事件后美元资本对中国资产不确定性、俄乌冲突、疫情及2023年初开始的备案制等因素,港股市场转冷,整个备案审核过程持续了649天 [10] - 为支撑漫长的审核期,公司在2022年密集接触近300家机构,并于2023年初迅速完成7亿元人民币融资,确保了后续生存 [11] - 公司Pre-IPO估值约为80亿元人民币,创始人认为市值是资本市场阶段性的认知差异,需以平常心看待 [5] 行业竞争格局与公司战略定位 - 创始人将AI发展分为1.0(感知智能)和2.0(认知智能)时代,认为2.0竞争压力远超1.0,但2.0技术源自1.0,两者公司都值得尊重 [17] - 在AI 1.0时代,云知声及所在的自然语言处理(NLP)领域并非最热门,当时视觉(CV)因安防等能带来收入而更受资本青睐 [18] - 对于大模型时代的竞争格局,创始人预测最终能成功的大模型公司约为“两个+半个”:第一类是拥有数据、算法、算力、场景的巨头;第二类是拥有业务和场景的AI 1.0公司;剩下的“半类”是原生于2.0的大模型公司,其挑战在于将能力转化为满足用户需求的产品 [21][22] - 公司战略是“用一流的通用模型做专业的事”,不做特别大的平台型大模型,而是专注于提升模型底层逻辑能力并与行业知识结合 [20][46] - 公司选择医疗和物联网(生活AI)两大赛道,因其市场空间巨大(均达上万亿元)且市场分散,认为分散的市场是对创业公司最好的保护,巨头难以靠资源击穿 [25] - 根据招股书,2024年云知声在中国AI解决方案市场排名第四,在生活AI和医疗AI细分领域分别排名第三和第四,但创始人表示更关注市场空间而非排名 [26] 业务聚焦与商业模式 - 公司业务架构被比喻为“一横一纵”:“一横”是输出的AI通用能力;“一纵”是与专业性相关的深度行业场景,如医疗 [28] - 医疗AI是公司未来的核心利润中心,公司专注于最有质量的部分,不做系统集成,目标是占据中国最顶级的医院,打造技术产品的稀缺性 [37][38] - 在医疗领域的具体应用场景包括:门诊病历生成和手术记录自动生成,公司与北京友谊医院等顶级三甲医院合作,其模型在测试中准确率和召回率等指标优于ChatGPT和真人医生 [34][35] - 公司商业模式为to B,不做to C的写诗、画画等应用,因此不需要追求极致的算力规模,更注重模型在具体行业场景中的落地能力和成本控制 [46] - 公司早期决定自研AI芯片,旨在将AI能力通过低成本芯片(被视为“硬件SDK”)集成到物联网设备中,使其具备对话功能,而非单纯为了做芯片 [48][49] - 公司通过深耕行业积累的工程经验、高质量的私域数据(如清洗后达几个TB的医疗数据)以及与客户建立的合作信任,构成了其核心护城河 [32][33][47] 技术路径与资源分配 - 公司山海大模型的算力规模在2024年底为184 PFLOPS,远低于百度文心一言的1840 PFLOPS,但创始人认为对于to B业务,客户无法支撑成本过高的模型,因此不过度追求算力规模 [46] - 在资源有限的情况下,公司通过数据质量、工程化经验以及自2016年搭建的Atlas算力集群积累,来保证模型达到一流水平 [47] - 面对大模型技术浪潮,公司需要在“短期盈利”和“长期研发护城河”之间平衡,策略是谨慎思考、果断行动,确保投入能快速转化为产品能力和商业能力 [42] - 公司存在路径依赖的挑战,通过内部宣贯和KPI调整来推动团队适应AI 2.0时代的变革 [23] - 创始人认为,AI技术已进入奇点,过去认为很难的任务(如医疗诊断)可能在一两年内被快速解决,但医疗行业门槛高,客户粘性强,一旦切入则难以流失 [31][32] 公司经营哲学与团队文化 - 创始人将公司形容为“亏得最健康的公司”,因为在推进IPO的五年间无法进行其他融资,反而迫使公司提升资金使用效率,以比其他公司更少的投入将收入做到10亿级别 [41] - 创业公司常态是“在刀尖上跳舞”,考验的是创始人在资源有限的情况下,敢于一边“找死”一边活下去的勇气 [43][44] - 公司注重“做重”与“做轻”的结合:在医疗等行业投入大量时间和精力积累行业know-how(做重),但最终产品化并能够快速复制到相关领域(如从医疗到保险),实现轻资产扩张 [45] - 维护团队士气的三大关键是:选对具有情怀和愿景、能长期坚持的人;保持决策和沟通的坦诚;通过带领团队不断“打胜仗”来凝聚信心 [51][52] - 创始人认为,最终能留在AI行业牌桌上的公司将是千亿市值的公司,代表其综合能力,接下来的竞争会非常残酷 [50] - 13年创业历程最大的收获是“心力”的成长,创始人认为“命好都是坚持下来的”,相信与坚持相对容易,但克服困难、忍受孤独的坚持才是关键 [53][54][55]
谷歌“世界模拟器”深夜上线!一句话生成3D世界,支持分钟级超长记忆
量子位· 2025-08-06 09:43
产品发布 - 谷歌DeepMind发布新一代通用世界模型Genie 3 [2] - Genie 3支持720P画质、每秒24帧实时导航以及分钟级一致性保持 [4] - 相比Genie 2,Genie 3在画质、交互方式、时长和实时性方面大幅提升 [14] 性能对比 - Genie 3分辨率从Genie 2的360p提升至720p [5] - 交互方式从有限的键盘/鼠标操作升级为导航和可提示世界事件 [5] - 交互时长从10-20秒延长至多分钟,并实现实时交互 [5] - 与同类产品相比,Genie 3在分辨率、领域通用性和交互时长上具有优势 [15] 技术特性 - Genie 3生成结果具备3D空间一致性,世界更加丰富且更具动态 [15] - 能够模拟世界的物理特性,处理水面等自然现象和复杂环境相互作用 [16] - 支持构建现实场景、虚拟场景如动画和童话世界 [18][20][22][23] - 可超越地理和时间界限,探索不同地方和时代 [25] 核心优势 - 长期环境一致性:画面中物体在几分钟内保持物理一致性 [27][28] - 视觉记忆可追溯至一分钟前,误差累积问题得到改善 [29][30] - 支持基于文本提示在世界中生成事件,如更换物体或添加动态元素 [33][35] 应用场景 - 推动具身智能体研究,为智能体训练生成兼容性环境 [37][39] - 在面包店、农贸市场等场景测试智能体操作和未来事件模拟 [41][43] - 有望在AGI发展过程中发挥关键作用,推动智能体技术落地现实世界 [44] 测试反馈 - 前DeepMind科学家生成57秒城市高空漫游场景,评价其通用性强且具备物理学习能力 [6][7][9] - Reddit网友认为Genie 3可能是通往AGI的最后一块拼图 [10] - 目前以研究预览形式发布,邀请专业研究者和创作者测试 [13]
OpenAI首席科学家访谈被紧急制止,有些名字现在不让说了……
36氪· 2025-08-06 08:31
人才竞争态势 - OpenAI采取严格措施保护核心员工信息 禁止公开重要员工名字以防止被竞争对手挖角[1][3][5] - Meta积极挖角行业顶尖人才 包括从谷歌和OpenAI等公司招募关键员工[3][5][7] - 人才争夺战在GPT-5发布前夕加剧 OpenAI特别警惕Meta的挖角行为[5][7] 公司应对策略 - OpenAI通过保密员工名单和限制公开讨论来应对人才流失风险[1][5][7] - 谷歌通过内部晋升机制保留人才 例如将接触过的员工提升为首席AI架构师[13] - 苹果提高基础模型团队薪资待遇以防止核心成员流向Meta[13] - Anthropic坚持既定薪酬原则 拒绝通过加薪保留员工 强调公司文化的重要性[15] 员工保留数据 - Meta员工保留率仅为64% 低于Anthropic的80%和OpenAI的67%[15] - Anthropic员工保留率达到80% 为行业较高水平[15] 技术发展方向 - OpenAI研究重点转向推理范式 致力于开发模型自主思考能力[10] - 当前技术瓶颈集中在计算资源和上下文窗口的限制上[10] - 公司关注如何扩展模型规模并更好衡量智能程度[10] 行业人才流动 - OpenAI前员工离职创业现象被认可 公司被视为行业"新手村"[10] - 马斯克反向挖角Meta的多名顶尖工程师[13] - 开源与专利保护之间的平衡成为行业关注焦点[10] AGI理念演进 - OpenAI对AGI的定义从经济价值系统转变为AI突破里程碑[12] - 公司确保AI系统与人类意图对齐成为核心目标[12] - AGI概念正在随着技术发展而不断演变[12]
腾讯研究院AI速递 20250806
腾讯研究院· 2025-08-06 00:01
Claude Opus 4.1内测与行业动态 - Claude Opus 4.1正在内部测试,预计半月内发布,主打提升推理和规划能力 [1] - Anthropic年收入增长5倍达50亿美元,编程客户Cursor和GitHub Copilot贡献14亿美元API收入 [1] - Claude在AI编程领域优势明显但面临OpenAI等竞对威胁 [1] 腾讯ima功能更新 - ima新增AI播客功能,基于混元大模型提供自然对话与优质听感 [2] - 支持文件夹一键导入功能,大幅简化知识导入流程 [2] - 新增Xmind脑图解读与知识库内容置顶功能,提升知识管理效率 [2] 阿里开源Qwen-Image模型 - 通义千问开源200亿参数图像生成模型Qwen-Image,中英文文本渲染能力出色 [3] - 模型能精准生成含复杂文字的图像,包括PPT、海报和商品宣传图 [3] - 采用MMDiT架构和渐进式训练策略,多项基准测试达SOTA水平 [3] 华为开源盘古模型与CANN架构 - 华为开源三款盘古模型,规模分别为1B、7B和718B,Ultra MoE达7180亿参数 [4] - AI计算架构CANN及Mind系列应用使能套件全面开源开放 [4] - 采用Multi-head Latent Attention和负载均衡策略等创新技术 [4] 纳米AI多智能体蜂群技术 - 纳米AI推出多智能体蜂群,一句话生成10分钟高质量AI视频,降低95%制作成本 [5] - 引入L4级智能体标准,实现多智能体共享记忆和协作 [5] - 单步智能体成功率达99.97%,支持无限Token和上下文长度 [5] 谷歌大模型对抗赛 - 谷歌发起首届大模型对抗赛,8款顶级AI模型将在国际象棋领域对决 [6][7] - 参赛模型包括OpenAI、DeepSeek、Kimi、谷歌、Anthropic和xAI等 [6] - 比赛采用单败淘汰制,全程透明直播 [7] 苹果脑控技术进展 - 苹果与Synchron合作推出BCI HID协议,让脑电波成为原生输入方式 [8] - 渐冻症患者通过Stentrode脑机接口设备成功操控iPad [8] - 相比Neuralink采用低风险无创手术方式 [8] 宇树科技机器人产品 - 宇树科技发布四足机器狗Unitree A2,可负重100kg,最大奔跑速度5米/秒 [9] - 此前发布人形机器人R1,售价3.99万元起,被称为行业"价格屠夫" [9] - 公司2024年营收突破10亿元,Go1机器人全球出货量超5万台 [9] AI对社会结构影响预测 - 前谷歌高管预警2027年起AI将开启15年"地狱期",中产阶级或被消灭 [10] - 预测未来社会将只剩顶端0.1%富人和底层民众 [10] - 2042年后或进入AI主导的乌托邦时代 [10] 阶跃星辰开源基座模型 - 阶跃星辰开源基座模型Step 3,为3210亿参数的多模态推理模型 [11] - CEO坚信多模态生成与理解统一是通往AGI的必由之路 [11] - 聚焦智能终端Agent和垂类Agent两大方向 [11]
AI将消灭中产阶级,前谷歌高管惊人预警:未来只剩金字塔尖0.1%和底层
36氪· 2025-08-05 18:57
AI对社会结构的影响 - 中产阶级将彻底消失 未来社会将仅剩金字塔顶端的0.1%和底层民众两类人群 [1][33] - 2027年至2042年为AI地狱期 期间将出现白领大规模失业、经济失衡和社会动荡 [3][13] - 2042年后可能进入乌托邦时代 人类不再需要从事重复性工作 [3][36] AI技术发展进程 - AGI可能在2026-2027年实现 领先企业将获得技术领域统治权 [21][24] - AI已进入自我进化阶段 例如谷歌Alpha Evolve可自主改进代码 减少对人类工程师依赖 [24] - 主要LLM由OpenAI、Gemini、Claude等巨头掌控 行业集中度持续提升 [24] AI经济模式变革 - 资本主义系统可能崩溃 AI领导下的社会可实现物质免费制造和资源无限供应 [31] - 未来万亿富翁将垄断生产资料 机器人负责生产 人类依赖普遍基本收入(UBI)生存 [28] - 企业用人结构剧变 原需350名开发者的公司现仅需少量技术人员+AI员工 [28] 行业就业结构变化 - 仅情感陪伴、社区服务等"人类连接"类工作需求上升 但占比极小 [28] - 技术革命不会创造大量新岗位 劳动参与率将大幅下降 [28][35] - 未来劳动时间可能缩短至每周数小时 回归采集狩猎社会的生活方式 [35][38] AI治理与权力转移 - 现有精英阶层成为最大阻碍 不愿放弃权力和财富 [31] - 理想状态下AI领导者将超越国家利益 以全球繁荣和环保为目标 [31] - 当前超级智能AI仍向人类领导人汇报 导致资源浪费和决策低效 [8][26]
东方证券:国内机器人应用有望加速 硬件本体公司有望更加受益
智通财经网· 2025-08-05 13:58
AI投资加速机器人发展 - AI投资和应用加速机器人板块发展 海外持续投资AI进一步逼近AGI临界点 国内科技公司搭建大脑平台加快国内机器人智能化应用落地 [1] - 硬件本体公司有望更加受益于AI快速发展 建议关注上纬新材 优必选 越疆 [1] 海外AI投资推动技术突破 - 海外科技巨头亚马逊 Alphabet 微软 Meta预计2025年累计支出达3640亿美元 高于此前3250亿美元预期 [2] - 巨头在数据中心等AI基建持续投入推动AI发展 AI基建发展推动机器人AI发展 [2] - 计算资源持续驱动AI边界延伸 AI将逐渐逼近和跨过AGI临界点 提升机器人理解能力 推动人形机器人大模型加速突破 [2] 国内平台加速应用落地 - 腾讯Robotics X实验室与福田实验室联合发布具身智能开放平台Tairos"钛螺丝" 以模块化方式提供大模型 开发工具和数据服务的具身智能软件平台 [3] - 平台通过即插即用方式连接机器人 提供感知世界 规划任务及自主决策等能力 [3] - 国内AI应用升级 开放平台对应用数据融合发展 机器人本体智能化应用加速落地 [3]
港股AGI第一股云知声,上市十日股价较发行价暴涨1.48倍
搜狐财经· 2025-08-05 12:54
股价表现 - 公司上市后股价表现突出 7月14日单日暴涨23.49%至510港元 突破500港元关口成为港股第二高价股 [1] - 发行价205港元 上市6个交易日内实现股价翻倍 第10个交易日盘中创520港元新高 较发行价累计涨幅达148% [1] - 港股高价股前三名均为2024年6月后上市的次新股 公司位列其中 [1] 技术体系与产品 - 公司成立于2012年 是最早将深度学习算法应用于商业语音识别的企业之一 [3] - 构建全栈式AI技术体系 涵盖大模型技术、多模态交互技术、AI芯片及领域知识图谱 [3] - 自主研发"山海大模型"通用能力位居世界前列 具备文生图、音图问答等多模态交互能力 [3] - 基于山海大模型打造行业智能体 已应用于辅助诊疗、医保核赔及智慧座舱等垂直领域 [3] 产业合作与认证 - 兽牙智能体平台v1.0通过华为昇腾应用开发技术认证 获得AscendNative认证证书及徽标使用权 [5] - 该平台为企业级智能体管理平台 以"行业大模型+场景化智能体"为核心 构建企业全链路AI数智化基座 [5] - 平台已实现多领域深度赋能 落地成果显著 [5] 行业应用与发展前景 - 技术已成功应用于医疗、交通、家居等多个实体场景 [3] - AI产业加速向实体领域渗透 与华为昇腾等生态深度协同 [5] - 行业智能体有望在更多垂直领域释放价值 公司或将在行业智能化转型中扮演关键角色 [5]
吉利智驾大整合:极氪等三大团队并入新公司,规模3000人;大疆秘密孵化全景无人机:预计年底发布;途虎胜诉!京东养车停用「震虎价」
雷峰网· 2025-08-05 08:49
今日头条 - 吉利控股集团对内部智驾团队进行大整合,极氪智驾团队、吉利研究院及迈驰智行并入重庆千里智驾,涉及3000人,极氪团队1500人、吉利研究院1000人、迈驰500人,8月15日前完成转岗 [4][5] - 重庆千里智驾由重庆江河启兴、吉利和旷视各持股30%,路特斯持股5%,王军担任法人代表,吉利将统一使用"千里浩瀚"智驾方案覆盖所有品牌车型 [4][5] 国内资讯 - 哪吒汽车意向投资人增至53名,需缴纳5000万元报名保证金,产线设备运转正常,保留400余名员工,具备复产条件 [7][8] - 大疆秘密孵化全景无人机,预计年底发布,工程机基于Osmo 360全景相机与mini系列无人机改造,正面对拼影石 [8][9] - 盛大网络挖角清华大学代季峰筹建AGI公司,对标DeepSeek,探索神经科学与AI架构融合 [9][10] - 搜狐Q2总收入1.26亿美元,净亏损同比收窄超40%,营销服务收入1600万美元,在线游戏收入1.06亿美元 [13] - 途虎养车胜诉,京东养车停用"震虎价"并重奖征集新名称,此前途虎指控其商业诋毁 [15][16] - 高德地图推出全球首个AI原生地图应用"高德地图2025",具备自主推理能力的智能体"小高老师" [18] - 抖音生活服务处置6.2万资质造假商家和2.1万虚假门店,协同警方捣毁8个伪造团伙 [19] - 字节跳动启动2026校招,研发类岗位招聘量同比增23%,算法、前端、客户端增幅最大 [20] - 长安凯程新任总裁董晨睿上任,2025年上半年销量14万辆,新能源占比2.57万辆,同比增长160% [21] - 新款坦克500车型8月8日预售,提供Hi4-T和Hi4-Z两种动力版本,纯电续航分别为110km和201km [22] - 小马智行在上海浦东推出Robotaxi服务,覆盖金桥和花木地区核心商圈 [24] - 京东与宜家合作开设官方旗舰店,提供6500余种产品,配送覆盖全国301个城市 [24][25] 国际资讯 - 英伟达或因销量不佳计划月底降价RTX 50系列显卡,欧洲市场RTX 5090已降价4%至2229欧元 [27][28] - 丰田上调2025年全球产量计划至1000万台,逼近历史纪录,电动车产量计划缩减20万台至80万台 [28][29] - 谷歌被判14天内改革Play商店,需允许外部支付和下载链接,但上诉获暂缓执行 [29][30] - 英伟达新规禁止未成年人使用NVIDIA应用调整显卡设置,引发争议 [31][32] - 马斯克称需增持特斯拉股份至25%以确保控制权,否认用股票质押贷款 [33]