Workflow
量子位
icon
搜索文档
前谷歌X团队靠AI电影锁定戛纳!创立AI原生版皮克斯,公司预售已超1亿美元
量子位· 2025-09-13 14:07
公司定位与商业模式 - 公司属于"内容+AI"模式 直接切入影视内容生产与发行环节 而非单纯提供工具[3][4][5] - 商业模式聚焦IP、版权和分发渠道 构建"内容+渠道+AI技术"三位一体护城河 天花板远高于纯工具型SaaS公司[4] - 已通过两个电影项目实现1.1亿美元收入 证明商业模式获得市场验证[1][7][27] 技术发展路径 - 2022-2025年通过四个阶段构建AI驱动内容生产体系:从3D资产生成→空间语法编码→AI创意代理→工业闭环[11][13][14][15] - 采用程序化内容生成(PCG)技术 实现高精度3D资产自动化生产 支持不同光照、相机参数和天气条件[11][12] - 开发具备设计直觉的AI Agent系统 能理解抽象创作指令并输出完整3D预览资产 节省数十小时渲染成本[14] - 建成Previz-to-Video Pipeline工作流 解决AI视频生成的一致性、可控性与叙事延续性三大技术难题[15][16] 技术优势与创新 - 专注专业影视质量 通过减少压缩比例、增加专项训练数据和强化注意力编码机制提升画面质量[18] - 基于3D物理数据训练模型 从根本上解决角色与环境"漂移"问题 确保空间、遮挡、碰撞符合物理规律[20] - 用确定性执行取代随机生成 允许导演通过故事板和3D Previz精确控制生成结果[22] - 构建端到端影视制作AI架构 实现模型与工作流的深度协同 打破行业普遍存在的割裂问题[23][24] 市场进展与行业地位 - 是全球首家AI原生影视工作室 开创AI技术与影视产业结合的新范式[6] - 正在制作两部重磅作品:史诗电影《科尔特斯》和科幻剧集《太空计划》 后者已成功预售欧洲市场[28][30] - 与K5 International成立合资公司负责项目发行 并与知名可视化公司OPSIS达成流程整合合作[32] - 1.1亿美元收入规模在AI影视领域无人能及 未上映已跻身好莱坞一线制作行列[27][32] 创始人背景与公司愿景 - 由两位谷歌系华裔创始人创立 首席执行官Cecilia Shen为00后 曾参与Google X实验室Moonshot项目[10] - 前身为3D生成AI公司Cybever 2022年转型内容生产 旨在突破视觉特效公司的低利润局限[9][10] - 核心愿景是降低影视制作成本 将电影人从预算束缚中解放 同时不牺牲质量[23] - 被《福布斯》类比为"皮克斯式转型" 认为其模式代表AI公司在媒体领域定位的根本转变[33]
CNCC2025新闻发布会在京顺利召开
量子位· 2025-09-13 14:07
大会基本信息 - 2025中国计算机大会(CNCC2025)定于10月22日至25日在黑龙江省哈尔滨市举办 [1] - 大会主题为“数智赋能,无限可能” [1][5] 大会规模与特色 - 今年展览环节首次面向社会公众免费开放逾1万平方米展区 [3] - 共设置19场特邀报告、3场大会论坛及154场专题论坛 [5] - 三场大会论坛分别聚焦“数字经济”、“大模型发展”和“具身智能” [5] - 专题论坛围绕9大主题领域组织,包括AI基础模型、机器学习、AI安全等 [6] 参会嘉宾与机构 - 已邀请的特邀报告嘉宾包括多位国内外院士及产业领袖,如华为计算产品线副总裁姜涛、淘天集团首席科学家郑波、百川智能创始人王小川等 [5] - 承办单位哈尔滨工程大学组织200名志愿者和100余名青年教师提供服务 [9] - 承办单位哈尔滨工业大学负责17个会议室支持、15场论坛组织及75位VIP接待 [12] 报名与票价信息 - 即日起至9月23日可享受早鸟优惠价,CCF专业会员早鸟票1980元,学生会员早鸟票980元 [17] - 提供团报阶梯折扣,100人以上团报享受8折优惠 [17]
小而美的生活秘书!美团Agent落地生活服务
量子位· 2025-09-13 12:02
核心观点 - 美团推出AI应用"小美"作为智能生活秘书 通过自然语言交互简化生活服务操作流程 实现"动嘴点外卖"等便捷功能 [1][6][62] - 该应用基于美团自研大模型LongCat构建 结合平台实时数据与系统深度协同 在本地生活垂类实现高精度任务执行与个性化服务 [50][52][54] - 相比传统手机助手 小美突破图形界面限制 通过对话式交互减少操作跳转 并具备需求理解 智能拒绝和习惯学习能力 [7][13][61] 产品功能特性 - 核心服务覆盖外卖点单 餐厅推荐 订座管理等生活场景 支持语音/文字输入 自动填充地址 优惠券等订单信息 [4][16][22] - 支持模糊需求处理:可根据历史订单偏好推荐餐食 响应"三人从不同地点同时到达的火锅店"等复杂需求 [30][33][34] - 具备安全机制:对"羊肉过敏点羊肉串"等不合理要求主动拒绝并提供替代方案 [38][40] - 支持规律性事务管理:可设置每日咖啡配送等智能计划 并主动提醒调整 [44][45] 技术实现架构 - 搭载自研大模型LongCat:综合评分超80 支持256K超长上下文处理 在中文测评位列第一梯队 [51][53] - 数据体系整合:实时调用用户行为 商家服务 优惠变化 配送能力等多维度动态数据 [54][55][56] - 系统深度协同:模型响应直接转换为服务执行路径 通过流程调度系统自动补全缺失信息(如地址 时间) [58][59] 交互体验创新 - 全流程无界面跳转:从需求确认到支付均在对话界面完成 大幅降低操作门槛 [13][20][63] - 拟人化交互:通过语气调整 习惯学习形成"熟悉感" 如主动将冰美式调整为热美式接近用户需求 [15][64][65] - 异常处理能力:对未开通线上订座的商家提供联系方式 对无法修改的订单参数明确提示限制 [18][35] 行业应用意义 - 实现AI技术与本地生活服务(WAIMAI)深度结合 证明垂类场景可成为大模型落地的高价值方向 [5][52] - 重新定义人机交互范式:从"人适应工具"转变为"工具适应人" 通过自然对话替代传统图形界面操作 [62][63]
100轮工具调用,8B小模型也能做复杂长搜索!MiniMax&港科大最新开源
量子位· 2025-09-12 16:46
网络搜索智能体性能瓶颈与解决方案 - 当前开源网络智能体在处理复杂搜索任务时表现有限,而更强大的商业模型缺乏透明的训练细节 [10] - 性能瓶颈的核心并非模型参数不足,而是缺乏足够有挑战性的训练数据 [1] - 现有评测基准已发展至极其困难水平,例如BrowseComp-en基准测试中超过一半的问题人类标注者也无法在两小时内解决 [11] WebExplorer方法的核心创新 - 提出两阶段探索-演化框架WebExplorer,用于创建需要多步推理和复杂网络导航的高难度QA对 [13] - 第一阶段为模型驱动的探索,从种子实体开始,利用强大LLM通过迭代搜索和浏览操作模拟图构建过程 [15][16] - 第二阶段为迭代查询演化,通过移除显著信息、引入战略性模糊化和寻找替代描述三个策略提高查询难度 [18][19][26] WebExplorer-QA数据集构建与效果 - 通过探索-演化过程构建了包含约4万个演化后问答对的WebExplorer-QA数据集 [22] - 演化过程效果显著:强性能商业模型的准确率从86.6%大幅下降到67.1% [27] - 解决问题的平均工具调用次数从7.9次显著增加到9.9次,表明成功创建了需要广泛多步推理的复杂查询 [27] WebExplorer-8B模型性能表现 - 基于Qwen3-8B模型训练,支持128K上下文长度和100次工具调用轮次的长视野推理 [7][28] - 在强化学习训练后能够平均高效搜索16轮,在BrowseComp-en/zh上实现比WebSailor-72B更高的准确率 [30] - 在WebWalkerQA和FRAMES数据集上取得了小于100B参数模型中的最佳性能,在HLE学术前沿基准上取得17.3%的成绩 [30][33] 行业影响与意义 - 证明了数据质量比模型规模更重要,较小的模型通过高质量数据可以在复杂任务上超越更大模型 [5][29][33] - 这种参数效率对于AI技术在资源受限环境中的应用和部署具有重要意义 [34] - 为训练高级网络智能体提供了一条实用路径,方法已开源包括模型和数据集 [8][35]
腾讯开源混元图像2.1!原生2K分辨率生图,千字长文本秒懂
量子位· 2025-09-12 16:46
文章核心观点 - 腾讯开源混元图像2.1模型 在图像分辨率、语义理解、多语言文本渲染及跨场景泛化能力方面实现显著突破 达到开源生图模型的SOTA水平 [1][3][4] 技术能力升级 - 模型支持2K(2048×2048)原生高清图像生成 分辨率较行业常见的1K提升明显 [30][35] - 处理长文本能力突出 可解析长达1k tokens的复杂提示词并实现多主体分别控制生成 [18] - 创新采用多语言ByT5文本编码器 实现中英文混合文字渲染 适用于海报设计等商业场景 [22][41] - 通过OCR专家模型与IP RAG技术增强文本标注准确性 解决通用VLM标注器的不足 [36] 架构与训练创新 - 采用32x高压缩率VAE架构 使2K图像生成token数量降至16x VAE的1/4 大幅提升训练推理效率 [38] - 引入170亿参数Diffusion Transformer 结合人类反馈强化学习(RLHF)优化美学连贯性 [42] - 首创PromptEnhancer模块 通过SFT训练和GRPO训练增强文本指令的视觉表达丰富度 [44] - 应用MeanFlow蒸馏方法 以少量采样步骤生成高质量图像 解决标准均值流训练的不稳定性 [47][48] 性能表现评估 - 在结构化语义对齐评测(SSAE)中平均图像准确率达88.88% 全局准确率88.32% 逼近GPT-Image等闭源模型 [49][50] - GSB评测显示对开源模型Qwen-Image胜率达2.89% 与闭源模型Seedream3.0仅差-1.36% [51] - 在Hugging Face趋势榜位列第一 显示社区关注度极高 [4] 应用场景覆盖 - 支持真实感人物、漫画、搪胶手办等多种风格生成 具备高美学质感 [26][27] - 适用于产品封面、插画设计、微缩模型制作等多样化商业设计需求 [23][25] - 典型案例包括吉卜力与迪士尼风格融合、中国地标微缩模型、赛博悟空手办等跨风格创作 [19][23][27]
清华首次提出数据驱动控制新形式,算法效率直翻三倍
量子位· 2025-09-12 16:46
行业趋势:控制理论的范式变革 - 控制系统的设计方法正从传统的模型驱动控制(modelic control)向数据驱动控制(datatic control)进行范式变革 [7] - 人工智能的蓬勃发展以数据为核心支柱,数据驱动的系统表征方法正迅速渗透到控制领域 [6][7] - 在机器人、自动驾驶等具身智能领域,海量复杂的交互数据以前所未有的速度生成,对传统控制算法构成巨大挑战 [12] 核心问题:数据驱动控制领域的标准化缺失 - 在数据驱动控制领域,缺乏一种标准化的数据表示形式 [2] - 数据的描述形式直接决定了后续控制器设计算法的运行效率和可扩展性 [12] - 以强化学习为例,训练算法涉及大量迭代和高维数据处理,容易陷入重复计算,耗时且浪费资源,制约了在现实世界中的部署 [13][14][15] 技术创新:数据标准型的提出 - 清华大学李升波教授课题组(iDLab)首次将现代控制理论中的标准型概念引入数据驱动控制范式,提出了一种基于数据的系统描述新形式 [2] - 数据标准型由两部分组成:1)必要的转移部分(当前状态,当前动作,下一状态),蕴含系统动力学信息;2)可插拔的属性部分,如奖励信号或人工设计特征 [17][19] - 该标准型可根据算法需求定制属性,降低存储压力,加速控制器设计,为提高数据驱动算法效率提供了新思路 [4][19][32] 应用实例:数据标准型如何提升效率 - 研究给出了一个加速强化学习近邻搜索的实例 [20] - 通过为每个样本提前计算并存储其与预设的n个锚点的距离作为空间属性,可以应用空间筛选条件定理来加速近邻搜索 [23][24][25] - 应用该机制后,仅需一行判断指令即可快速缩小候选范围,显著加速最近邻搜索过程 [28] 实证效果:显著的效率提升 - 在D4RL数据集的Hopper环境下进行实验,基础版本训练耗时约20小时,应用空间标准型筛选机制后,训练时间缩短至仅7小时 [29] - 训练时间实现了三倍的效率提升 [29] - 数据标准型可以极小的存储空间开销,换取显著的时间效率优势 [31]
实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍
量子位· 2025-09-12 16:46
模型发布与定位 - Qwen团队发布下一代模型架构Qwen3-Next 作为Qwen3 5的抢先预览版 [1] - 基于新架构开源首个模型Qwen3-Next-80B-A3B-Base [2] 架构创新与技术改进 - 采用混合注意力机制Gated DeltaNet 以3:1比例混合标准注意力 在上下文学习能力上优于滑动窗口注意力和Mamba2 [10] - 引入高稀疏度MoE结构 总参数量800亿但每次推理仅激活约30亿参数 [13] - 专家系统扩展至512总专家 采用10路由专家加1共享专家设计 提升资源利用率 [15] - 采用Zero-Centered RMSNorm并对norm weight施加weight decay 提高训练稳定性 [16] - 初始化时归一化MoE router参数 确保专家无偏选择 [17] - 引入原生多token预测机制(MTP) 提升推测解码接受率和主干性能 [18] 性能表现与效率优势 - 训练成本不到Qwen3-32B的十分之一 推理吞吐在32k以上上下文达到后者十倍以上 [3] - 训练GPU计算资源仅需Qwen3-32B的9 3% [22] - 预填充阶段吞吐量在4k上下文接近Qwen3-32B的7倍 32k以上上下文提升10倍以上 [24] - 解码阶段4k上下文吞吐提升约4倍 32k以上上下文保持10倍优势 [26] 基准测试结果 - Base模型在多数基准测试超越Qwen3-32B-Base 显著优于Qwen3-30B-A3B [28] - MMLU得分84 72 超越Qwen3-32B的83 61 [29] - MATH得分62 36 超越Qwen3-32B的61 62 [29] - Instruct模型在RULER测试中全上下文长度表现优于Qwen3-30B-A3B-Instruct 在256k范围内超越Qwen3-235B-A22B-Instruct [33][34] - Thinking模型在多项基准测试超越闭源模型Gemini-2 5-Flash-Thinking 部分指标接近Qwen3-235B-A22B-Thinking [35] 应用能力展示 - 支持多模态输入 可处理图像内容 [39] - 成功解答AIME数学竞赛题 答案完全正确 [40] - 能够生成可运行的扫雷游戏代码 [43][44] - 具备天气卡片生成等创意应用能力 [47] 资源获取与部署 - 模型已在魔搭社区和抱抱脸平台开源 [48] - 可通过Qwen Chat免费体验或调用阿里云百炼API服务 [48]
高德一夜刷榜:十亿用户用脚投票,美食到店榜单乱象被AI横扫
量子位· 2025-09-12 16:46
高德扫街榜产品发布 - 高德正式发布全新信用体系"高德扫街榜" 主打真实全面且永不商业化 [2] - 该体系每天为全国线下服务业商家多带去1080万消费者 [2] - 高德升级为阿里巴巴线下生活服务的超级入口 服务10亿用户且日活跃用户超1.7亿 [2] 榜单核心机制 - 采用"用脚投票"机制 基于5143万人的13亿次导航数据生成排名 [12] - 数据覆盖用户反复前往的118万家回头店 时间跨度长达一年 [12] - 对应导航里程达228亿公里 相当于绕地球57圈 [12] - 必须到店才能做出评价 未到店评价被系统识别为无效 [45][65] 技术实现方式 - 利用AI技术通过数据角度和多模态大模型保证评分真实性 [48][51] - 输入数据均为用户真实行为包括搜索分享导航到店和评价 [48] - 通过高德空间智能处理行为数据 结合芝麻信用判断行为可信度 [48] - 综合评分采用复合函数计算 包含用户行为分和用户评价分等多变量 [52][54][61] 榜单分类体系 - 包含状元榜扫街榜热门打卡和城市指南等多维度榜单 [14] - 状元榜为年榜覆盖美食景点和酒店 扫街榜每日更新且更细化 [15] - 设有轮胎磨损榜体现远距离专程前往 多次前往榜单体现回头客数量 [19] - 包含本地人爱去地方小吃老字号等动态更新条目 [23] 数据积累与AI赋能 - 高德拥有20年数据积累 用户量超10亿且每日有亿万次搜索导航到店行为 [67][68] - 通义千问基础大模型和高德AI垂直优化激活沉淀数据 [68] - AI技术将大数据萃取成扫街榜 在用户与门店间架起桥梁 [69] 行业影响与差异化 - 颠覆传统到店评价体系玩法 用真实打败虚假 用行为打败空口 [3][8] - 让未被发掘的人间烟火店铺获得曝光机会 解决信息不对称问题 [39] - 在AI生成内容时代用AI守住真实 获得用户信任 [71]
外滩大会今年太AI了!王坚暴论:OpenAI确实站在了历史错误的一边
量子位· 2025-09-12 11:24
大会概况 - 外滩大会展示前沿科技包括机器宠物恐龙、AI健康检测、炒菜机器人、打鼓机器人、蛋壳雕刻机器人、AI健身房及核聚变装置[1][3][5] - 科技展览面积达10000平方米 科技集市面积达5000平方米[5] - 大会设置1场开幕主论坛和44场见解论坛 探讨智能上限、产业落地困难及算力差距等议题[6] - 参会嘉宾包括新晋图灵奖得主理查德·萨顿、阿里云创始人王坚、金沙江创投朱啸虎、尤瓦尔·赫拉利及宇树科技CEO王兴兴等来自16个国家地区的550位嘉宾[6][71] 人工智能发展趋势 - 人类数据红利正逼近极限 人工智能进入以持续学习为核心的经验时代[9][10] - 智能体需通过观察、行动和奖励三种信号与世界交互生成新数据源[14][16] - 强化学习推动经验时代发展 但需突破持续学习与元学习技术瓶颈[18] - 人工智能超越人类不可避免 权力资源将流向最聪明智能体[19][21] 开源战略与竞争格局 - 开源已成为AI竞争关键变量 美国将模型权重纳入出口管制但仅限闭源模型[22][25] - 开源概念从1998年源代码开放演变为数据、算力和模型权重等核心资源共享[26][27] - 2017年Transformer与Tokenization技术推动数据资源化 带动AI指数级飞跃[28] - 模型权重开放降低AI门槛 使全球开发者能基于前人成果创新[29][30] 技术突破与产业应用 - 之江实验室将8B大模型与12颗卫星送入太空 实现太空在轨智能计算与数据全域处理[31][32] - 三体计算星座计划在开放资源前提下实现多主体高效协作 构建太空计算能力共享生态[34][35] - 具身智能产业崛起 赋予机器人AGI能力实现自主感知规划与行动[50] - AI与机器人融合面临数据采集质量不足、多模态融合困难及模型与控制模态对齐等技术挑战[51] 投资与商业化前景 - 低代码/无代码软件将被AI替代 尤其编辑类与协作类工具[54] - 投资人关注AI产品用户留存指标 召回成本达移动互联网产品10倍以上[55][56] - 2025年AI应用将爆发式增长 新头部企业可能已在2024年成立[57] - 中国创业者擅长在AI外构建差异化体验 侧重C端市场而非美国B端模式[58][59] 智能本质与科学路径 - 当前AI缺乏智能本质科学理解 发展阶段仅相当于生命初期种系智能阶段[37][39][41] - 智能需从依赖试错的"黑箱"转向基于数学原理与闭环反馈的"白箱"模型[42] - 自然大脑能效比GPU训练高10个数量级 需借鉴自然反馈控制与连续学习机制[43][44] - 智能演化经历种系遗传、个体发育、群体智能最终到人工智能四阶段[40] 社会影响与治理框架 - AI不仅是自动化工具更是会行动的主体 能自主决策并创造新想法[61][62] - 技术进步需兼顾速度与治理 缺乏刹车规则的高速发展非真正进步[64][67] - 全球需建立可验证承诺 为社会保留适应时间以保存记忆信任与情感[69][70] - 衡量进步标准在于合作力度与共情深度而非技术速度[70]
陶哲轩都拿不到暑期工资,被迫给自己和学生筹钱
量子位· 2025-09-12 11:24
核心观点 - 美国联邦政府暂停对加州大学洛杉矶分校(UCLA)等机构的科研资助,导致包括陶哲轩在内的顶尖研究人员面临经费中断危机,甚至影响其暑期工资发放[1][2][4] - 经费中断不仅冲击资深学者的研究,更严重威胁下一代科研人员的培养,如研究生奖学金、参会机会等职业发展支持被大幅削减[6][12][15] - 科研生态系统的独立性受到侵蚀,学者被迫将精力从研究转向筹款,不确定性已引发人才流失风险[7][16][24] 资助中断的具体影响 - 美国国家科学基金会(NSF)等机构于7月25日突然暂停对UCLA的资助,金额高达5亿美元[4] - 尽管8月12日联邦法院决定恢复部分拨款,但截至9月初资金仍未到位[5] - 陶哲轩的个人研究资助被暂停,直接影响其研究生参与学术会议及自身夏季一个月的研究工资[15][16] 对科研生态系统的冲击 - NSF大幅削减关键奖学金和助学金,剥夺学生和博士后早期职业机会[15] - 纯粹与应用数学研究所(IPAM)面临生存威胁,虽通过紧急筹款暂缓危机,但无法持续运营世界级科学机构[16][17] - 六个月内美国科学基础设施遭受全面冲击,数十亿美元进行中的研究项目被中断[12][15] 对年轻科研人员的连锁反应 - 经费断裂导致研究生需兼职维持生计,研究计划被迫延迟,心理压力加剧[21][23] - 不确定性使科研人员难以专注,陶哲轩以"忽冷忽热的房间"比喻这种焦虑对学术探索的阻碍[23] - 知乎网友指出经费削减最直接影响成长中的年轻人,而非已成名教授[21] 学者态度与行业趋势 - 陶哲轩表示一年前不会离开美国,但现在态度动摇,反映高端人才对科研环境的担忧[24] - 学者公开呼吁学术应更纯粹,强调失败风险是科学过程固有部分,联邦干预破坏研究独立性[12][18]