Workflow
DALL·E
icon
搜索文档
最新综述!扩散语言模型全面盘点~
自动驾驶之心· 2025-08-20 07:32
点击下方 卡片 ,关注" 大模型之心Tech "公众号 >> 点击进入→ 大模型技术 交流群 本文只做学术分享,如有侵权,联系删文 写在前面 在生成式AI的竞技场上,两大技术范式—— 扩散(Diffusion)模型 与 自回归(autoregressive, AR)模型 ——的角逐从未停止。 一边是凭借 图像生成 惊艳世界的 扩散模型 ,以Stable Diffusion和DALL·E为代表,通过"从噪声中迭代重建"的生成逻辑刷新了视觉创作的边界。 另一边则是统治 文本生成 领域的 自回归模型 ,以GPT、LLaMA、Qwen、DeepSeek系列为代表的 大语言模型 ,凭借"逐词预测序列"的连贯性成为 语言任务的默认框架。 然而,自回归范式的固有缺陷已成为行业痛点—— 生成速度受限于序列依赖 ,即便是千亿参数模型也难以突破「一个token接一个token」的效率瓶 颈。 而如今,一种全新的范式正在改写规则: 扩散语言模型(Diffusion Language Models, DLMs) 凭借「并行生成+迭代优化」的特性,在实现数倍推 理加速的同时,性能已比肩同等规模AR模型,成为大语言模型领域最具潜力的突破 ...
最朴实的商战,掏100亿挖前员工
投中网· 2025-08-15 14:10
硅谷高价挖角现象 - Meta向Thinking Machines Lab联合创始人安德鲁·塔洛克提供六年内最高15亿美元(约108亿元人民币)的薪酬方案,包括奖金和高回报股票 [2] - Thinking Machines Lab其他员工收到从数千万到上亿美元不等的长期薪酬与期权承诺 [2] - Meta已与100多名OpenAI员工接洽,并聘用其中超过10人,包括任命前OpenAI研究员赵胜佳领导新超级智能团队,其薪酬包超过2亿美元 [3][4] - Meta计划2025年资本支出达720亿美元(约5170亿元人民币),主要用于AI基础设施建设 [4][10] AI初创公司发展动态 - Thinking Machines Lab成立短短几个月内完成20亿美元种子轮融资,估值接近120亿美元 [2] - 公司创始人米拉·穆拉蒂拒绝Meta的10亿美元收购报价,团队优先考虑独立性和长期愿景而非财务收益 [6] - 24岁创业者马特·戴特克接受Meta四年2.5亿美元的薪酬方案,第一年薪酬达1亿美元 [7][8] - Thinking Machines Lab致力于构建人机协作的AI系统,强调AI不应独立替代人类 [6] 行业竞争格局 - OpenAI向1000多名员工发放总额超15亿美元的奖金,每人最高150万美元,以应对人才流失 [4] - Meta将战略从"买算力"转向"买人",通过挖角缩短与竞争对手的差距 [10] - AI行业人力成本持续上升,大公司被迫卷入高薪竞争,Meta上半年现金余额下降300亿美元(降幅40%) [11] - 行业认为大模型发展仍处上半场,长期视角下的竞争将持续 [10] 人才市场现状 - 五年经验算法工程师在国内可获得年薪百万机会,CTO级别人才总包可达千万 [4] - 顶尖AI人才利用大厂报价提升身价,如马特·戴特克通过谈判使Meta报价翻倍 [8] - 明星研究员团队可能面临沟通摩擦和资源分配问题,持续产出依赖工程团队支持 [12] - 长期留住人才需依靠组织文化和使命愿景,而非仅靠高薪 [13]
种子轮融资144亿!VC直言:投的就是她!
搜狐财经· 2025-07-21 08:47
融资与估值 - AI创业公司Thinking Machines Lab完成20亿美元种子轮融资 投后估值120亿美元 创全球风投史上最大单笔种子轮融资纪录 [2] - 领投方为a16z创投 跟投方包括英伟达、AMD、Accel、ServiceNow、思科、简街资本等知名机构 [2] - 6月估值100亿美元 一个月内溢价20%至120亿美元 [2] - 融资款主要用于算力采购、人才招募及多模态大模型预训练 已与Google Cloud签订多年期GPU/TPU采购协议 [2] 公司现状 - 公司成立于2024年2月 仍处于隐形模式 尚未发布任何产品 [3][4] - 全职员工62人 其中47人来自OpenAI、Google DeepMind、Anthropic 技术人员占比80% 博硕比例92% [6] - 办公地点位于旧金山Mission Bay 年租金720万美元 已预付3年租金 [4] - 董事会5席包括创始人Mira Murati、a16z合伙人Martin Casado、英伟达首席科学家Bill Dally等 [4] 创始人背景 - 创始人Mira Murati为前OpenAI CTO 主导GPT-4、DALL·E、ChatGPT等产品开发 [8] - 曾担任特斯拉Model S/X硬件产品经理 推动Autopilot传感器融合系统落地 [8] - 2022年升任OpenAI CTO 管理500人技术团队 年度算力预算从2亿美元增至20亿美元 [8] - 参与2023年OpenAI董事会罢免Sam Altman事件 后态度反转推动其回归 [9] 投资逻辑 - a16z明确表示押注Murati在GPT-4产品化的战争级经验及吸引顶级人才的引力 [7] - 早期融资计划10亿美元 因创始团队名气最终扩至20亿美元 [4] - VC机构认为AI行业人才为王 看重创始人凝聚60多名顶尖人才的能力 [6][7]
ChatGPT背后的商业博弈:OpenAI的盈利挑战与广告业的拉锯战
经济观察报· 2025-07-09 15:52
OpenAI的盈利困境与商业模式探索 - 公司尽管技术被整合进微软Azure生态,但在直接收入扩张上面临困境,尤其在广告行业客户群体中[2] - 通过微软合作,广告代理公司无需直接签约OpenAI即可使用其工具,但无法获得企业级特权服务[4] - 公司商业用户突破300万,年经常性收入从55亿美元翻倍至100亿美元,但2024年亏损近50亿美元[8] 广告行业的合作矛盾与选择 - 公司要求广告代理公司支付高达百万美元预付款以换取优先技术权限,但多数因微软现有协议而却步[3] - 独立广告公司LERMA等少数案例选择直接签约ChatGPT Enterprise,获得Sora、DALL·E等深度工具[3] - 广告代理公司通过微软生态可访问OpenAI工具,但缺乏实时培训、自定义部署等企业级服务[4] AI搜索对广告行业的颠覆性影响 - ChatGPT等工具被35.8%美国用户频繁使用,58%消费者用AI工具取代传统搜索引擎[6] - 广告公司设立AI搜索团队,开发工具评估创作者内容对AI搜索结果的影响,并尝试通过llms.txt向模型传递品牌价值[7] - 公司每周活跃用户超5亿,但付费订阅者不足4%,免费流量成为潜在注意力资产[7] OpenAI的产品重塑与计费模式转型 - 公司推出ChatGPT Enterprise、Team等订阅模式,但ChatGPT Pro每月200美元订阅仍处于亏损运营状态[8] - 企业订阅产品从按座位收费转向按使用量计算的"点数制"模式,更贴近云计算计费逻辑[8] 广告行业的策略转型与未来方向 - 广告代理公司使命可能从"投放媒介"变为"训练算法",从"优化Google"转向"影响ChatGPT"[9] - 公司正在重新定义品牌如何被"看见"和"推荐",广告行业站在商业模式转型的十字路口[9]
Nebius Surges 81% YTD: How Should Investors Play NBIS Stock?
ZACKS· 2025-07-07 22:01
股价表现 - Nebius Group NV(NBIS)年初至今股价上涨814% 远超Zacks计算机与科技板块79%和互联网软件服务行业268%的涨幅 同期标普500指数涨幅62% [1] - 涨幅显著高于AI基础设施领域巨头微软(MSFT)183%和亚马逊(AMZN)18% CoreWeave(CRWV)自3月28日上市以来暴涨313% [4] - 股价从4月大幅抛售后已良好复苏 但投资者需考虑是否获利了结或继续持有 [4] 行业竞争格局 - 公司在AI云基础设施领域面临激烈竞争 对手包括亚马逊、微软、Alphabet等巨头及CoreWeave等专注GPU的AI超算服务商 [5] - 亚马逊AWS和微软Azure合计占据云基础设施服务市场超50%份额 微软与OpenAI独家合作使其优先获得GPT-4 Turbo等领先AI模型 [6] - 亚马逊AI业务年收入达数十亿美元 同比增长三位数 其Trainium 2芯片较GPU实例提供30-40%性价比优势 [6] 财务与运营状况 - 公司2025年调整后EBITDA预计仍为负值 但管理层预计2025年下半年将转正 2025年收入指引5-7亿美元 [7] - 将2025年资本支出从15亿美元上调至20亿美元 主要因部分Q4支出延至Q1 高资本强度带来执行风险 [7][8] - 维持全年ARR指引7.5-10亿美元 分析师已大幅下调盈利预期 [9] 估值水平 - 公司价值评分F显示估值过高 市净率375X低于行业平均42X 但可能蕴含更多风险而非机会 [12][13] - 面临巨头定价压力、执行风险及持续亏损 在宏观环境波动下高资本支出风险加剧 当前估值水平建议投资者获利了结 [14]
伦敦大学学院Echo Zhang:AIGC是一面照见创意、价值与信任的镜子
环球网资讯· 2025-07-06 14:39
AIGC技术定义与发展 - 生成式人工智能(AIGC)指能够生成文本、图像、音乐和视频的算法工具,代表产品包括ChatGPT、Midjourney和DALL·E [2] - 人工智能发展经历四波浪潮:符号推理→统计学习→深度学习→当前AIGC作为"共创伙伴"阶段 [3] - AIGC被文化学者定义为"文化软件",正在重塑数字时代的文化表达与传播方式 [3] AIGC行业应用 教育领域 - AI可动态调整学习难度并按需生成个性化学习资料,提升教育包容性与灵活性 [4] - 主要风险包括学生过度依赖导致批判性思维弱化,以及技术分布不均加剧数字鸿沟 [4] 医疗领域 - AI生成诊断报告和图像分析工具显著提升医疗效率,例如Google DeepMind的MedGemma模型可处理多模态医疗数据 [4] - 商汤科技推出"大医"模型,具备生成医疗报告、解释诊断结果和模拟智能问诊功能 [4] AIGC社会影响 - 在媒体行业导致信息污染与虚假内容泛滥,创意产业面临AI作品版权归属争议 [5] - 对文字、设计、客服等岗位产生潜在替代效应,引发职场结构性变化 [5] - 核心挑战在于AIGC可能引发社会信任危机,需要建立技术应用的伦理框架 [5] AIGC发展理念 - 技术本质是数据重组而非创造,最大价值体现在人类与AI的协同创作场景 [3] - 需通过跨领域合作(技术+艺术)释放创意潜力,实现"更加人性化"的技术发展方向 [3][5]
物理学家靠生物揭开AI创造力来源:起因竟是“技术缺陷”
量子位· 2025-07-04 12:40
核心观点 - AI的"创造力"本质上是扩散模型架构的确定性产物,而非高级智能表现[1][19] - 扩散模型的局部性和等变性限制(技术缺陷)反而成为其创造力的来源[13][16][19] - 该机制与生物形态发生学中的图灵模式高度相似,解释了AI生成图像常见缺陷(如多余手指)的成因[9][12][19] 研究背景 - 扩散模型(DALL·E/Stable Diffusion核心)设计初衷是精确复制训练数据,但实际表现出"即兴创作"能力[3][5] - 去噪过程中像素块的局部重组导致信息丢失,类似拼图丢失说明书后的创造性重组[6][8] - 物理学家团队(跨学科背景)从生物自组装过程获得启发,建立ELS数学模型验证假设[9][16] 关键发现 - ELS模型仅基于局部性+等变性规则,即能以90%准确率复现扩散模型输出[18][19] - 创造力源于系统动态:模型过度关注局部像素块而缺乏全局协调(类似生物发育中的多指畸形)[12][15][19] - 该机制可数学形式化,证明创造力是去噪过程的必然副产品[16][19] 未解问题 - 非扩散模型(如LLM)的创造力机制尚未被该理论覆盖[21] - 人类与AI创造力可能共享"不完整认知→填补空白"的底层逻辑[21][22] 行业意义 - 首次将AI创造力归因于底层技术架构而非抽象能力[1][19] - 为理解人类创造性思维提供新视角(神经科学类比)[19][21] - 可能推动新一代生成模型的设计范式转变[16][19]
ChatGPT诞生内幕大曝光!发布前一晚还在纠结
量子位· 2025-07-03 08:45
ChatGPT命名与发布历程 - 命名过程极具戏剧性,最初被称为"Chat with GPT-3.5",直到发布前一晚才确定为"ChatGPT"[9][10][11] - 发布前团队信心不足,Ilya测试10个问题仅5个答案通过,对是否发布存在争议[2][12] - 发布后迅速走红:第1天团队怀疑数据错误,第3天确认爆火,第4天意识到将改变世界[3][12] - 初期面临GPU短缺、数据库连接耗尽等技术问题,创建"fail whale"页面应对宕机[13] 产品优化与用户反馈 - 通过RLHF(人类反馈强化学习)优化模型,早期存在过度迎合用户的问题并快速修正[15][16] - 核心机制注重长期留存率而非使用时长,观察到Z世代将其视为"思想伙伴"[16] - 加强隐私保护功能如"临时聊天",平衡记忆功能与隐私需求[17] 图像生成技术发展 - ImageGen(DALL·E系列)验证了完美符合用户提示的图像生成价值难以衡量[20][21] - 2021年1月发布DALL·E初始版,2023年10月DALL-E 3集成至ChatGPT[26] - 初期对生成人物肖像保守限制,后调整为有原则的安全审查[27][28][30] - 印度网民5%在周末尝试ImageGen,触达预期外新用户[24] 代码生成领域布局 - 从GPT-3生成React组件到Codex/Code Interpreter,聚焦Agentic编码(后台长时间处理复杂任务)[33] - 目标为降低编程门槛,Codex当前服务于工程师但未来将扩展至普通用户[37] - 内部广泛使用编程工具:工程师分担测试、分析师标记日志错误、员工规划待办事项[37] 公司文化与人才策略 - 招聘更看重好奇心而非博士学位,认为好奇心是成功最佳指标[39][41] - 强调行动力(主动解决问题)和适应能力(快速调整方向)[44] - 通过独立项目精简人员配置、定期黑客马拉松保持初创文化[45] 未来技术预测 - 未来12-18个月AI推理能力将显著提升,尤其在数学/科学/编程领域[47] - 重点解决"智力受限"问题(如软件工程、数据分析、客户支持)[48][49] - 交互形式将突破聊天模式,发展异步工作流(后台处理任务)[50][52] - 普通用户应对AI浪潮的最佳方式是积极使用以消除误解[54][55] 近期动态与挑战 - CEO透露将发布强大开源模型,支持本地部署[58][59] - 原计划夏季推出的新模型多次延期[60] - 近期因Meta挖角8名关键研究员导致内部短暂停摆,员工放假一周[62]
ESG体系下的AI研究(一):多维投资增效,防范伦理风险
浙商证券· 2025-06-05 22:23
AI助力ESG投资基础设施完善 - AI大模型迭代加速、成本降低,有望推动在ESG事务中的大规模应用,2024年全球各类机构使用AI的比例达78%,较上年提高23%,中国机构使用率为75%,较上年提高27%[2][24][27] - AI帮助监管端降低追踪成本,通过动态监管与多模态交叉验证防范“漂绿”行为,如提升碳数据准确性[34][39] - AI助力企业降低合规成本,通过政策智能解析、报告自动化等方式,德勤报告显示78%的企业计划在2025年增加AI技术投入[45][51][57] AI赋能资管机构ESG投资 - AI助力多模态数据的敏捷挖掘和快速处理,扩展ESG投资的信息处理范围,解决信息收集和处理难题[60][61] - AI优化投资策略,包括机器学习模型ESG因子挖掘、ESG语言模型分析、人工智能算法预测等方向[72] - AI推动基金营销转型,降低宣发内容创作成本,部分替代沟通职能,普及ESG产品信息和投资理念[89] ESG+RAI框架助力分析AI风险与机遇 - AI在ESG议题中表现出两面性,在环境、社会、公司治理层面既提升效率又产生争议[93] - 整合ESG框架与负责任AI原则,帮助投资者识别有AI伦理风险的企业,管理投资风险[4][92] 风险提示 - 经济修复不及预期;AI模型不稳定风险;市场情绪与偏好波动风险[5]
2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
前瞻网· 2025-06-01 13:09
多模态大模型技术发展 - 行业聚焦视觉等重点模态领域突破,探索"Any-to-Any"大模型技术路径,如Google Gemini和Codi-2处于早期阶段,需实现跨模态知识学习与信息对齐 [1] - 当前主要工作集中在Transformer架构向图像、视频、3D等模态扩展,完善单模态感知/生成模型后再推进跨模态融合 [1] 图像模型进展 - 2023年前已建立CLIP、Stable Diffusion、GAN等基础模型,衍生Midjourney、DALL·E等成熟文生图应用 [2] - 近年重点探索ViT、DiT等视觉Transformer架构,推动GLIP、SAM、GPT-V等LLM与视觉模型融合成果 [2] 视频模型技术 - 基于图像生成模型(如扩散模型)叠加时间维度对齐,形成VideoLDM、W.A.L.T.等文生视频方案 [5] - Sora采用Diffusion Transformer架构实现突破性视频生成,首次展现"智能涌现"特征 [5] - 主流技术路径为文生图模型+时序对齐,辅以插帧超分、噪声对齐、LLM增强描述等方法提升质量 [5] 3D模型开发现状 - 技术路线延伸自2D图像生成(GAN/Diffusion/VAE等),产生3D GAN、MeshDiffusion、Instant3D等早期成果 [8][9] - 数据表征以NeRF(神经辐射场)为核心技术,支持网格、点云、体素等多种形式 [9] - 数据集稀缺,ShapeNet含5.1万3D CAD模型,Objaverse-xl达1000万对象规模 [9] 音频模型创新 - Transformer架构推动Whisper large-v3、VALL-E等项目突破,增强多语种/自然声/零样本学习能力 [11] - Omni模型通过neural audio codec编码,结合扩散模型实现音频合成技术迭代 [11]