Artificial Intelligence
搜索文档
红杉、高瓴等资本今年加码,大模型“六小虎”高管创业图谱来了
36氪· 2025-11-19 19:41
在最近的一年多时间里,中国"大模型六小虎"几乎无一不在经历着相似的阵痛: ·通用大模型底座的故事难以再吸引资本继续投入,融资节奏明显放缓; ·C端收费难,商业化压力较大,更多转型ToB和ToG; ·战略及业务几经调整,带来的高管动荡,人事变更频繁。 内外震荡之下,连"六小虎"这个称号都鲜有人再提及——大模型创业领域的风,像是一阵龙卷风,来得快,去得也快。 据媒体报道,仅在今年上半年,智谱、MiniMax、零一万物等5家大模型公司被曝出至少12位高管离职,包括智谱前首席运营官张帆、MiniMax商业化合 伙人兼副总裁魏伟等。 这些离职的独角兽高管,有的跳槽去了字节跳动等大厂,有的暂未披露就业动向,还有的选择了再次创业。 在这其中,离职的高管创业者往往受到业界的关注,基于IT桔子数据库和公开资料,我们做了以下盘点。 | 大樓型車 | 创业者 | FF / title | SUNNING | SINDE | 襄垣 | 有无公开融 | | --- | --- | --- | --- | --- | --- | --- | | 角兽公司 | 姓名 | | | | | 资&投资方 | | 智谱 Al | 张帆 | ...
Z Event|11.23虎嗅FM创新节,ZP团队现场对话明星AI硬件公司,嘉宾完整名单揭晓,我们未来与AI共生
Z Potentials· 2025-11-19 19:30
来F&M创新节 虎嘎 | 24 F&M | 新节 合作单位: Z Potentials Z Lives IRN TO AI 虎嗅FM创新节·ZP Hour 單件的A up AI记录·AI陪伴 11月23日 · 圆桌对话 主持人 Seki Yuca Sarea Z Potentials Z Potentials主理人 ZP Fellow 主理人 心流资本合伙人 前Kimi PM 11:10-11:50 圆桌嘉宾 记录的意义 一 AI从捕捉瞬间到重塑体验 获得限量免费赠票,打开 " 虎嗅 FM 创新节 " 小程序,输入兑换码 "ZP1123", 即兑换可入场 CES 商业在祛魅,技术在破界,而人的价值从来不是 被定义; 每个敢对旧我say no的人,都在为"重 构自我"寻找破局点 1 席嘎 | # 5 & M @ 新节 与一群保持beta的人相遇 用Al撕碎过去的标签 11.22-11.23 北京 798・751园区 79罐/第一车间/黑魔方 5000+ 现场观众 100+ 演讲嘉宾 200+ 合作企业 200+ KOL、虎嗅作者 ...
何恺明团队新作:扩散模型可能被用错了
36氪· 2025-11-19 19:22
何恺明又一次返璞归真。 最新论文直接推翻扩散模型的主流玩法——不让模型预测噪声,而是直接画干净图。 如果你熟悉何恺明的作品,会发现这正是他创新的典型路径,不提出更复杂的架构,而是把问题拆回最初的样子,让模型做它最擅长的那件事。 实际上,扩散模型火了这么多年,架构越做越复杂,比如预测噪声、预测速度、对齐latent、堆tokenizer、加VAE、加perceptual loss…… 但大家似乎忘了,扩散模型原本就是去噪模型。 现在这篇新论文把这件事重新摆上桌,既然叫denoising模型,那为什么不直接denoise? 于是,在ResNet、MAE等之后,何恺明团队又给出了一个"大道至简"的结论:扩散模型应该回到最初——直接预测图像。 扩散模型可能被用错了 当下的主流扩散模型,虽然设计思想以及名为"去噪",但在训练时,神经网络预测的目标往往并不是干净的图像,而是噪声, 或者是一个混合了图像与 噪声的速度场。 实际上,预测噪声和预测干净图差得很远。 根据流形假设,自然图像是分布在高维像素空间中的低维流形上的,是有规律可循的干净数据;而噪声则是均匀弥散在整个高维空间中的,不具备这种低 维结构。 简单理解就是,把高 ...
图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
36氪· 2025-11-19 19:19
核心观点 - 文章围绕Yann LeCun可能离开Meta以及其与Gary Marcus的学术争议展开,核心是AI领域关于技术路线(LLM vs 世界模型)和学术贡献(CNN发明权)的激烈辩论 [1][5][6][8] Yann LeCun的观点与立场 - Yann LeCun是图灵奖得主,Meta首席AI科学家,但公开反对大语言模型,认为LLM是死胡同,未来3到5年会被淘汰,其智商不如猫 [1][29][31] - 主张发展“世界模型”,该模型通过观察视觉信息来理解世界,类似于人类婴儿的学习方式 [31][32] - 在Meta内部被边缘化,其领导的FAIR实验室面临裁员和资源缩减,28岁的Alexandr Wang被提拔为其上司 [40][41][43][45] - 计划离开Meta并创立新公司,专注于开发“世界模型” [26][31][47] Gary Marcus的批评与指控 - Gary Marcus是认知科学家,深度学习的长期批判者,认为LLM存在幻觉问题,无法真正理解,且难以通向AGI [6][8] - 指控Yann LeCun的学术成就存在包装和剽窃,并非CNN的发明者 [5][9][10] - 指出CNN的基础工作由日本学者福岛邦彦在1979年完成,中国学者张伟等人在1988年早于LeCun将反向传播应用于CNN训练 [11][21][22][23] - 批评LeCun在LLM问题上的立场转变,指其在ChatGPT成功前曾赞扬LLM,之后才转变为反对者,是见风使舵 [23][24] - 认为“世界模型”概念并非创新,早在1950年代由赫伯特·西蒙等人提出,LeCun是旧概念新包装 [26][27] 学术争议背景 - Jürgen Schmidhuber是另一位长期指控深度学习巨头抄袭成果的研究者,并专门撰文质疑2018年图灵奖的颁发 [14][16][19] - Schmidhuber指出张伟等人于1988年以日文发表、1989年4月提交期刊的CNN研究,早于LeCun1989年7月发表的英文论文 [21][22][23] - 争议焦点在于LeCun通过英文论文在知名平台发表,但未充分引用前辈工作,被指责系统性抹杀同行贡献 [23][28]
“日本版OpenAI”创下估值新高!Transformer八子之一创办,老黄也投了
搜狐财经· 2025-11-19 18:43
刚刚,创下日本估值新高的AI初创公司诞生了! 一水 发自 凹非寺 量子位 | 公众号 QbitAI 它就是Sakana AI,由Transformer论文八子之一创办,老黄的英伟达也投了。 帮大家快速回忆一下,这家公司其实就是史上首位"AI科学家"背后的出品方—— 当时他们发布的The AI Scientist,一登场就一口气生成了十篇完整学术论文,而且每篇成本才15美元左右(约107.62元),一时吸引大量关注。 根据Sakana AI公告,最新B轮融资筹集了200亿日元(约合1.35亿美元、9亿多人民币),总估值来到约4000亿日元(约合26.35亿美元、184亿人民币), 创下日本非上市初创企业的估值纪录。 而且它的投资方阵容也堪称豪华——除英伟达(参与A轮)之外,还有一众美国顶级风投(如Khosla Ventures、NEA)和日本产业与金融巨头(如三菱日 联、四国电力)等。 所以,Sakana AI为什么能获得如此高估值? Transformer八子之一创办、要做基于自然启发的AI模型 Sakana AI成立于2023年7月,至今不过短短两年。 之所以一开始就受到巨大关注,毫无疑问离不开它的两位明星 ...
实测如何一分钟内用 Gemini 3.0 Pro 搭建一款网页/游戏
深思SenseAI· 2025-11-19 18:34
模型核心能力 - 正式发布Gemini 3.0 Pro,主打更强的推理与理解能力,能更好地捕捉语言深层含义与细微差别,使用户在无需精细提示词的情况下获得更高质量回答 [1] - 在权威基准测试中,事实准确性评测取得72.1%的当前最优成绩,数学测试以23.4%的得分达到同类模型领先水平,意味着在多学科场景下具备更高可靠性,能高效处理跨领域、跨步骤的复杂问题 [1] 基准测试表现 - 在Humanity's Last Exam学术推理测试中,无工具、带搜索和代码执行条件下分别达到37.5%和45.8%,显著高于对比模型 [2] - 在MathArena Apex挑战性数学竞赛问题测试中得分23.4%,远超Gemini 2.5 Pro的0.5%、Claude Sonnet 4.5的1.6%和GPT-5.1的1.0% [2] - 在ScreenSpot-Pro屏幕理解测试中得分72.7%,远高于对比模型,显示出卓越的界面理解能力 [2] - 在Vending-Bench 2长周期智能体任务中,平均净值达到$5,478.16,显著高于其他模型 [2] - 在LiveCodeBench Pro竞争性编程问题测试中,Elo评级达到2,439,高于GPT-5.1的2,243 [2] 实际应用与用户体验 - 通过Vibe Coding能力,仅依赖提示词即可生成产品界面,整体水准足以对标专业甚至顶级产品设计师的UI作品 [5] - 在相同提示词条件下生成YouTube首页,Gemini 3.0 Pro生成的网页在顶部导航栏、视频卡片网格等方面高度还原,布局与原版几乎一致,排版稳健、留白得当,字体层级与组件细节讲究 [6] - 相比GPT-5.1生成的页面,在贴近真实产品水准上更加领先,细节表现更优 [7] - 具备将静态图片转换为可交互小游戏的能力,例如上传炒菜照片后可生成炒菜小游戏,用户可进行加菜、加肉、倒酱油、控制翻炒等操作,系统会根据食材搭配和操作节奏给出反馈 [7] 开发效率与行业影响 - 能够根据详细提示词快速生成可运行的复杂应用,例如在不到两分钟内生成一个包含开始任务、发射子弹、移动飞船、碰撞检测和结算界面的3D太空射击游戏,全程无需手写代码 [8] - 标志着Vibe Coding进入新分水岭,模型不仅能稳定生成可运行代码,其UI审美也达到较高水准,可能是第一个真正意义上强到可以交付级UI的模型 [9] - 大幅降低了使用门槛,对提示词的依赖度更低,一旦与Lovable、Base44等平台完成打通,很可能引发新一轮应用爆发,使非专业开发者能直接调用模型能力完成产品从原型到前端实现的闭环 [9] - 系统性重构软件生产方式,从代码到设计、从数据分析到内容创作,边际试错成本被大幅拉低,使过去只停留在想象的产品形态具备快速验证和规模化落地的可能 [10] - 将成为业界新的研发标杆,在此更高起点上,应用开发效率可将原本需要数周甚至数月的人力工作压缩到几小时甚至几分钟完成 [9][10]
图像地理定位新突破,缅因大学/谷歌/OpenAI等提出LocDiff框架,实现无需网格与参考库的全球级精准定位
36氪· 2025-11-19 18:14
技术突破 - 联合团队提出“球面谐波狄里克函数”及集成框架LocDiff,通过构建适配球面几何的编码方式与扩散架构,实现了不依赖预设网格或外部图像库的精准定位 [1][2] - 该技术解决了传统方法因地理坐标位于嵌入式黎曼流形而非欧几里得空间所导致的投影畸变问题,以及原始坐标缺乏多尺度空间信息难以支撑复杂分布建模的挑战 [2] - LocDiff模型的核心是SHDD编码-解码框架与条件Siren-UNet架构,其设计的理想位置编码空间需具备单射性和满射性,并满足连续差异度量与稳定性的核心属性 [5][6] 模型性能 - 在Im2GPS3k数据集上,LocDiff在街道级、城市级、区域级、国家级和大陆级的定位准确率分别达到10.9%、34.0%、53.3%、72.5%和85.2% [15] - 在YFCC26k数据集上,LocDiff的对应准确率分别为9.6%、22.8%、37.5%、58.6%和76.8% [15] - 在GWS15k数据集上,LocDiff表现出更强的泛化能力,其大陆级准确率达85.0%,尤其在街道级准确率(2.1%)显著优于GeoCLIP(0.6%)等其他模型 [15] 方法创新 - SHDD编码方案将球面点转化为球面谐波狄拉克函数,再编码为球谐函数系数向量,通过设定最大阶数L可形成(L+1)²维的紧凑表征,为多尺度定位提供灵活支撑 [6] - 该编码空间天然具备密集特性,其差异度量通过反向KL散度量化,并与Wasserstein-2距离存在明确约束关系,从数学上保证了解码稳定性 [7] - 模态搜索解码器利用反向KL散度的模态搜索本质,通过寻找球面函数概率质量最集中的区域完成坐标反推,无需预设球面划分或外部参考图像库 [9] 实验设置 - 训练使用MP16数据集,包含472万张带有精确地理标注的图像 [3] - 测试选用三个全球尺度典型图像地理定位数据集:Im2GPS3k、YFCC26k和GWS15k [3] - 评估设定5个层级:街道级(1公里)、城市级(25公里)、区域级(200公里)、国家级(750公里)和大陆级(2,500公里) [4] 计算效率 - SHDD编码/解码作为确定性闭式操作,时间复杂度接近常数级,空间复杂度为线性 [19] - 训练时SHDD编码可预计算为嵌入查找表,解码通过高效的矩阵乘法和argmax操作实现 [19] - LocDiff在YFCC数据集上仅需约200万步即可收敛,而同类最佳模型需要1,000万步,显著加速了扩散过程收敛 [19] 产业应用 - Google Earth团队利用全球海量街景数据训练的生成模型,实现了图像引导下的精准位置预测,并使街景更新效率提升3倍,覆盖范围扩展至更多偏远地区 [22] - NASA创业者挑战赛获胜者PRISM Intelligence公司开发的地理空间智能平台,运用辐射场技术将二维遥感图像转化为高保真三维数字环境,结合AI驱动算法实现自然语言交互 [21]
从全民玩梗到带货爆单,谁吃到了Sora2的AI视频营销红利?
36氪· 2025-11-19 18:09
今年10月1日面世的Sora2,毫无疑问,又一次将AI视频的热度推到高峰。 其母公司OpenAI将2024年2月上线的初代Sora比作"视频的GPT-1时刻",Sora2则被认为"直接跳到了GPT-3.5时刻"。凭借对物理世界超强的模拟能力、音画 生成的同步性和多镜头的叙事能力,Sora2坐稳视频模型"顶流"的位置。 从说着"我爱妈妈"的AI小猫,到"毒液"模板、"吉卜力画风"、"AI宝宝播客",在Sora2之前,AI视频已经在海内外的社交平台上创造过一轮又一轮的全民 热点。而Sora2应用程序的"Cameo(客串)"功能(用户可以创建自己的数字分身并植入任何AI生成的场景中)功能,再次引爆了大众用AI玩梗的热情。 OpenAI CEO萨姆·奥特曼开放了个人肖像权,一时间,他说着中文带货、在商店偷GPU被抓包、与李小龙对打等各种短视频在网上疯传。 玩梗之外, AI视频的商业化进程也在加快。不少服务中国出海商家的数字营销企业已率先接入Sora2的API。多家服务商告诉亿邦动力,从模拟摄影棚拍 摄广告创意视频,到一键拆解爆款,生成数字人带货视频,甚至改变商家和达人的合作方式,Sora2给出海营销领域带来的影响已渗 ...
AI日报丨谷歌推出最新一代AI模型Gemini 3,摩根大通警告AI估值可能出现“调整”
美股研究社· 2025-11-19 18:08
AI行业估值与市场动态 - 摩根大通副董事长警告人工智能行业估值亟待重新评估,可能出现调整并引发股市连锁反应[5] - 华尔街高管日益担忧AI领域巨额投资热潮导致估值泡沫风险上升[5] 谷歌AI模型进展 - 谷歌推出最新一代AI模型Gemini 3,强调新功能将立即投入盈利产品如搜索引擎[6] - 高管宣称Gemini 3在多个行业性能排行榜处于领先地位,被CEO称为"最智能的模型"[6][7] 华为数据存储战略升级 - 华为提出AI时代数据存储将升级为AI Data Platform,集成推理加速与多模知识库功能[8] - 公司预告明年初发布AI Data Platform实体产品,改变传统存储范式[8] 特斯拉自动驾驶与估值展望 - 特斯拉在亚利桑那州获自动驾驶共享出行服务许可证,允许配备人工监控员运营车辆[10] - 马斯克称特斯拉估值重大变化需满足无监督自动驾驶大规模出现及擎天柱机器人量产条件[10] 科技巨头投资与合作 - 英伟达和微软向AI初创公司Anthropic合计投资最多150亿美元(英伟达100亿,微软50亿)[10] - Anthropic承诺购买300亿美元Azure计算容量,Claude模型将成为全球三大云服务中唯一可用前沿大语言模型[10]
The stock market is barrelling toward a ‘show me the money’ moment for AI—and a possible global crash
Yahoo Finance· 2025-11-19 18:00
The back-of-the-envelope math is harsh: AI capex coming from tech companies listed in the S&P 500 is $400 billion or more per year, going forward. The biggest AI company—OpenAI, the maker of ChatGPT—has disclosed revenues of just $13 billion for 2025. Altman recently said revenues were “well more” than that , hinting they may hit $100 billion in 2027. But that’s still nowhere near the level of capex it’s committing to.On one level, that’s normal: Most industries feature a collection of companies that do bus ...