量子位
搜索文档
OpenAI奥特曼:能被ChatGPT消灭的工作不是真正的工作
量子位· 2025-10-13 16:47
文章核心观点 - 公司认为当前许多知识型工作可能并非传统意义上的“真正工作”,AI将深刻重塑工作本质并催生全新工作形式 [1][31] - 公司正通过增强模型能力、简化开发工具(如Agent Builder)和探索新交互模式,积极推动AI技术普及和商业化应用 [5][7][39] - 公司对AGI的定义侧重于AI扩展人类知识总和的能力,并认为当前已处于科学发现的开端,对未来进展持乐观态度 [19][20] DevDay产品进展与平台战略 - ChatGPT周活跃用户已达8亿人,公司将其定位为新的应用分发平台,正通过Apps SDK吸引开发者构建应用 [5] - Agent Builder实现近乎零代码构建复杂agent的能力,模型能力的显著提升(对比22-23个月前)是核心驱动因素 [7][8] - 公司预期软件创建数量将大幅增加,创意测试和改进周期将急剧缩短,但具体影响仍在探索中 [9] GPT-6与模型发展策略 - GPT-6的整体构建策略不会因在GDPval基准中排名第二(仅次于Claude的Opus模型)而改变,但会影响部分后训练方式 [16][17] - 公司认为建立竞争优势的基本因素(如网络效应、品牌、数据)未因AI改变,但实现这些优势的具体战术可能需要创新 [16] AGI定义与科学发现前景 - 公司最关心的AGI指标是AI能否进行新颖发现以扩展人类知识总量,认为当前已处于这一进程的开端 [19] - 公司观察到AI在各学科已开始做出小发现、提出新方法或解决问题的事例,对此趋势持乐观态度 [19][20] - 社会对AI能力的适应速度很快,例如图灵测试被通过后,公众兴奋期短暂,随即要求更高性能 [20] AI对社会与工作的影响 - 针对“workslop”(AI生成内容需人工返工)现象,公司认为此现象人类亦存在,经济系统会自然淘汰低效使用工具的组织 [21][22] - 公司提供教育内容和培训以帮助工作流集成AI,在Codex等场景中,企业全面集成和高效使用仅需数天或数周 [23] - 未来工作形式可能更轻松,但人类内在驱动力将促使寻找新事务,其性质可能与当前对工作的认知不同 [31] 产品战略与商业模式探索 - 公司明确表示ChatGPT的目标非打造美国版微信,而是专注于成为优秀的AI超级助手 [35] - Sora与ChatGPT功能分离源于用户对两款产品认知的差异(个人化账号 vs 娱乐应用),但部分功能仍会整合进ChatGPT [36] - Sora的商业模式(如按生成次数收费、广告、收入分成)将取决于产品最终形态,预计在未来几个季度明确 [27][28][29] 未来交互模式与技术愿景 - 公司不认为语音是交互的最终形式,其适用性取决于场景,理想中的计算机应能通过语音准确执行指令且几乎不打扰用户 [39] - 公司正探索打造一种需要全新设备支持的全新计算机使用方式,但目前相关想法仍处于保密阶段 [40][41] - 高质量视频生成被视为实现AGI的重要路径,因其涉及空间推理和世界模型学习,对未来机器人领域进展也至关重要 [26]
Sora2“复活”已故名人,家属强烈反对
量子位· 2025-10-13 16:47
文章核心观点 - Sora 2的迅速走红使已故名人肖像权问题成为焦点,引发了关于AI生成内容版权和伦理的激烈讨论[1][7] - 已故名人亲属对未经授权使用其肖像生成AI视频的行为表示强烈不满和气愤,认为这对其造成了情感伤害[4][5][20] - 行业面临AI技术快速发展与现有版权法规滞后的挑战,呼吁更新法律并加强平台责任[10][28][29] Sora 2发布及影响 - OpenAI于9月底推出新一代视频生成平台Sora 2,发布后几天内便冲上App Store免费榜第一,一度碾压ChatGPT[18] - Sora 2能够生成极度逼真的视频,例如"复活"迈克尔·杰克逊与罗宾·威廉姆斯并让他们在街头即兴表演[2][3] - 其快速发展的背后,版权方面存在严重担忧,侵犯版权的视频在OpenAI服务和社交媒体上激增[18][27] 亲属反应与情感冲击 - 罗宾·威廉姆斯的女儿泽尔达·威廉姆斯公开表示强烈不满,要求停止发送其父亲的AI视频,称这种行为"令人发疯"[5][6][20] - 泽尔达批评此类行为是将人类的生活和艺术历史变成"恶心、过度加工的'热狗'"以博取点赞,而非艺术创作[20][21] - 这并非泽尔达首次抨击,2023年她就曾指出AI重现父亲声音令其"深感不安",已故喜剧演员乔治·卡林的女儿也表达了类似观点[23][24] 行业回应与版权争议 - OpenAI回应称,尽管描绘历史人物涉及言论自由,但公众人物及其家属应拥有对其形象使用方式的控制权[25] - 对于近期逝世的公众人物,其授权代表或遗产所有者可要求Sora不在客串中使用其肖像[26] - 美国电影协会主席Charles Rivkin强硬表示,防止侵权行为是OpenAI自身的责任,而非版权方的义务,要求其立即采取果断行动[27][28][29] 公众讨论与法律展望 - 网友讨论认为,已故名人的肖像权应由亲属或相关组织继承,AI快速发展下的版权法需要更新[8][10] - 核心争议在于不应让任何人的权利因人工智能的发展而遭到轻视,需要完善的版权法保护创作者权利[10][29]
刚得诺奖的成果被做成芯片了
量子位· 2025-10-13 11:35
文章核心观点 - 莫纳什大学的科学家利用曾获诺贝尔化学奖的金属有机框架材料,成功开发出一种具备类脑短期记忆功能的纳米流体芯片,这为克服传统电子芯片的局限性提供了新的技术范例 [1][3][19] MOF材料特性与优势 - MOF材料具备明确的通道结构,可适配多种化学成分,实现原子级精度的分子和离子传输调节 [6] - 该材料解决了制备高精度纳米通道器件的难题,为实现可调非线性的离子运输提供了可能 [4][5] 纳米流体芯片技术细节 - 研究人员构建了分层纳米流体晶体管器件h-MOFNT,通过在聚合物单纳米通道中组装分层Zr-MOF-SO₃H晶体,形成包含一维和三维异质结的多个异质结通道 [7][8][12] - 该器件在0.1 M氯化物金属离子溶液中的电流-电压测试显示,其质子传输呈现非线性特性,在0-0.2V时电流快速增加,0.3-0.8V时适度增加,0.9-2V时达到饱和 [12] - 漂移扩散实验确认HCl和KCl的阳离子转移数分别为0.86和0.81,表明特性主要源于质子和K+离子的非线性电阻开关行为 [13] 类脑计算与记忆功能 - 当扫描环路电压时,h-MOFNT表现出明显的滞后环路效应,扫描速率下降会挤压滞后环路,显示非线性质子传输对电压扫描频率存在依赖性 [16] - 器件能够记住过去的电压状态,具备流体忆阻和学习特性,局部电势ΔE的建立和衰减间隔约10秒,证明了其短期记忆特性和仿生可塑性学习方式 [16][18] - 通过并行编程五个h-MOFNT构建的小型流体电路,成功模拟了电子FET的输出电流特性 [16] MOF材料的应用前景与历史挑战 - 基于单晶胞或多晶胞厚度MOF的编程流体芯片是可行的,其在液态系统中体现出的开关、记忆等功能,可替代电子器件效果 [18] - MOF材料过去因结构稳定性差、合成过程复杂昂贵、批量生产难以维持结构一致性等问题,导致尽管有超过10万篇相关论文,但工业化应用屈指可数 [26][27] - 此项研究成果表明MOF并非无用,而是此前未找到真正适用的场景,合理设计异构约束系统可能实现基于液体的信息存储甚至类脑计算 [19][29]
Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了
量子位· 2025-10-13 11:35
模型概述与核心突破 - 第三代“分割一切”模型SAM 3已投稿ICLR 2026,支持基于短语、图像示例等概念提示的多实例分割任务[3][4][10] - 新模型核心突破在于引入可提示概念分割(PCS)范式,能听懂人话并分割图像/视频中所有匹配提示概念的实例,例如输入“条纹猫”即可找出所有带条纹的猫[6][7][11][12] - SAM 3解决了前代模型只能处理单个实例的局限,实现了全实例分割,并在视频中保持不同帧之间的身份一致性[10][17] 技术架构创新 - 检测器基于DETR架构,能根据语言和视觉提示生成实例级检测结果,并引入Presence Head模块解耦物体识别和定位任务以避免冲突[15][16] - 新架构支持开放性词汇,不局限于预定义类别,允许用户输入任意名词短语作为分割目标,并支持文本、视觉及两者结合的多模态提示[17] - 模型具备用户交互能力,允许通过交互对分割结果进行精细优化[17] 数据与基准测试 - 研究团队构建了可扩展数据引擎,生成覆盖400万独特概念标签、5200万经过验证的掩码的训练数据集,通过多阶段流程提升数据多样性和难度[19][20] - 人类与大语言模型相互检查以提升标注效率和质量[21] - 提出了SA-Co基准,包含214K独特概念、124K图像和1.7K视频,概念覆盖范围是现有基准的50倍以上,用于评估开放词汇分割性能[23][24] 性能表现 - 在LVIS数据集零样本分割任务中准确率达到47.0,比此前SOTA的38.5提升显著[28] - 在SA-Co基准测试中表现比基线方法强至少2倍,在实例分割、边界框检测和语义分割等多个任务上刷新SOTA[29][30] - 在视频PVS任务中性能优于SAM 2,在H200 GPU上处理含100多个实体的单张图像仅需30毫秒[30][31][35] 应用拓展与局限性 - 与多模态大模型结合可解决复杂任务,如分割“坐着但没拿礼物盒的人”,组合效果优于专门推理分割模型且无需专门训练数据[32][33][34] - 模型对语言处理局限于简单短语提示,不支持复杂语言表达、生成和理解能力[26] - 难以通过零样本方式泛化到医疗图像、热成像等细分领域,多目标视频分割场景下实时性能会下降[36][37]
“AI版LeCun”自己讲解论文,自我进化智能体框架生成精美演讲视频
量子位· 2025-10-13 09:35
EvoPresent团队 投稿 量子位 | 公众号 QbitAI AI自己讲明白论文,还能生成更美观的幻灯片。 加州大学圣塔芭芭拉(UCSB)与圣克鲁兹(UCSC)的研究者提出 EvoPresent ,一个能够自我进化的学术演讲智能体框架,让AI不仅 能"讲清楚论文",还能"讲得好看"。 从逻辑到审美:科研演讲自动化的瓶颈 尽管已有很多系统能将论文自动转化为幻灯片或海报,但它们仍存在三大局限: 叙事单一、设计僵化、缺乏反馈。 AI往往沿用论文结构机械提炼内容,讲述缺乏起伏;模板化设计又难适配不同风格,常出现色彩冲突、排版拥挤等问题;生成过程一旦结束, 系统便无法判断"哪里不美",更谈不上自我修正。 这些不足让AI演讲显得冷漠机械,难以兼顾逻辑与美感。 EvoPresent 正是在此提出新的路径,让AI像人类讲者一样,在生成中反思,在反思中进化。 研究者采用了Group Relative Policy Optimization (GRPO)算法,通过人类偏好数据训练模型,使其能在反馈中逐步形成可解释的审美推 理。与传统监督学习不同,这种方式让模型不仅会"打分",还能说明原因,如"标题层级不清晰""文字与图像间距 ...
马斯克从英伟达挖人做AI游戏!第一步:研发世界模型
量子位· 2025-10-13 09:35
xAI入局世界模型的战略举措 - 公司xAI正式进入世界模型领域,加入与Google DeepMind、Meta、英伟达等巨头的竞争[7][8] - 为增强实力,公司于2024年夏季从英伟达招募了多名资深研究员,包括Zeeshan Patel和Ethan He[9][18] - 新招募的研究员均曾参与英伟达Omniverse平台的核心开发,该平台是成熟的物理一致性仿真系统,与世界模型需求高度契合[21][23][24][25] 关键人才背景与专长 - Zeeshan Patel专注于大规模多模态模型与训练框架研发,拥有苹果AI/ML部门及英伟达研究院的生成式世界模型研究经验[10][11][12] - Ethan He在计算机视觉领域拥有深厚积累,Google Scholar被引数达8495,研究经历涵盖FaceBook AI的大规模视频自监督学习及英伟达的MoE模型、多模态模型[14][15][16][17] - Ethan He的代表作包括被引3483次的《Channel pruning for accelerating very deep neural networks》和被引1850次的《Amc: Automl for model compression and acceleration on mobile devices》[19] 世界模型的战略意义与应用方向 - 世界模型被视为AGI的核心底座,旨在让AI系统理解并推理物理3D世界,而不仅限于文本处理[26][27][29] - 公司xAI入局后的首批应用落点可能是电子游戏,团队正尝试开发能根据玩家行为实时变化的AI生成3D场景[33][34] - 公司目标是在2026年底前推出一款由世界模型驱动的伟大AI生成游戏[2][35] 业务布局与资源整合 - 公司内部正组建全模态团队,招聘岗位涵盖音频理解生成、多模态理解等方向,年薪区间为18万至44万美元[37] - 公司还公开招聘电子游戏导师,时薪45至100美元,旨在向模型传授游戏机制与叙事逻辑[38][39][40] - 世界模型有望将公司xAI、特斯拉的机器人及自动驾驶数据、Neuralink的脑机接口以及的平台资源整合,形成AI帝国闭环[41][43][44][45] 行业背景与市场机遇 - 世界模型已成为AI巨头和实验室的兵家必争之地,DeepMind、Meta、英伟达等均已布局相关项目[32][36] - 行业数据显示,视频游戏行业年收入约2000亿美元,远超OpenAI约100亿美元的年收入,揭示了巨大的市场潜力[4]
通用模型无法完全理解用户,AI产品的下一站是上下文的战场|对话AI知识助手remio
量子位· 2025-10-12 15:30
产品定位与核心特色 - 产品旨在重塑知识工作流,打造个人专属的通用AI工作台,核心功能包括自动信息捕获、智能知识管理和AI辅助创作 [11] - 产品核心差异在于为用户提供「第二大脑」,通过无感、自动化的信息采集,使其记忆和信息层面与用户大脑同频,以解决使用ChatGPT类助手时最大的工作量——手动提供信息的问题 [15] - 产品定位为“个人专属”,所有数据存储在用户本地设备,不依赖云端,确保隐私安全,这与互联网大厂基于云端协作的基因形成核心差异 [12][23][52] 目标市场与用户画像 - 目标用户定位为复杂的知识工作者,全球现有7亿到10亿知识工作者,未来绝大多数将是复杂知识工作者,该群体全球规模至少达数亿 [25][26][27] - 复杂知识工作者包括各类管理者、高阶创造者和专业服务人士,产品适配策略性任务,这类任务需要高认知能力但不需要太多工具使用能力 [26][30] - 简单知识工作者(如客服)未来将被AI Agent取代,例如美国现有70万到80万客服,预期三到五年后将减少到20万以下 [26] 技术实现与产品优势 - 信息采集范围广且实时性强,得益于PC端开发(信息已在本地内存)、本地向量化大模型优化(Mac端NPU优化使向量化计算速度比开源模型提升200%以上)以及对特定在线资料API的深度适配 [16] - 产品的问答效果与众不同,核心原因在于通过实时、全面、自动化采集用户接触的所有信息,做到与用户的信息层面高度一致,最擅长回答与用户工作紧密相关的问题 [18][19] - 产品具备Collection功能,能对内容进行多维度组织和关联,类似用户手动构建知识图谱,旨在满足AI的使用需求,帮助算法自动关联以精准召回信息 [41][42][43] 增长策略与当前阶段 - 前1000个用户主要通过创始人个人自媒体(公众号、Twitter等)和Product Hunt发布(获得日榜和周榜第一)获取,当前未进行规模化扩张,主要专注于搭建增长基础能力 [48] - 当前最关注的核心指标是新用户激活,产品需要用户前期投入以沉淀数据,因此面临用户引导和教育的挑战,正在探索通过“提示词仓库”等方式让用户看到理想结果再引导同步数据 [31][33][34] - 公司坚持公开开发,持续进行用户深度一对一访谈以拉近与用户的距离,进行产品共创,每周保证2到3次深度交流 [49] 行业观点与产品愿景 - 在AI产品时代,个人数据对用户自身至关重要,但对他人的重要性远低于互联网时代,产品设计体现了“我的个人数据只对我有核心价值”的理念 [24] - 主流AI产品本质都是Agent,核心区别在于各自的“知识储备”,产品懂的东西(用户私域数据)其他Agent可能不懂 [21][44] - 产品核心价值在于解决真正影响工作效率的高阶问题(如盘点近两天工作需跟进的内容),而非当前AI产品集中的低阶使用场景(如文档问答) [55][56][57]
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
量子位· 2025-10-12 15:30
模型核心性能 - 2B参数模型在多个基准测试中位列4B参数以下开源模型第一,OpenCompass平均得分70.31,超越Qwen2.5-VL-3B(65.36)和InternVL3.5-2B(66.64)等竞品 [1][27] - 8B参数模型在OpenCompass取得开源同量级模型最高分数75.07,并在MMStar(70.73分)、OCRBench(91.30分)等细粒度任务中领先 [27][28] - 思维增强版本SAIL-VL2-8B-Thinking在复杂推理任务中平均得分54.4,超越所有开源模型,仅次于GPT-4o-latest(54.8) [30][31] 技术创新与架构 - 引入稀疏混合专家(MoE)架构,31.1B大模型每次推理仅激活3B参数,并通过负载均衡损失将专家激活熵提升20%,优化计算效率 [7][9] - 视觉编码器SAIL-ViT采用三阶段训练(热身适应、细粒度对齐、世界知识注入),使视觉-语言特征空间的平均最近邻距离从1.42降至1.15,对齐效果显著提升 [8] - 突破传统ViT固定分辨率限制,通过"2D RoPE插值"技术支持最高1792×1792任意分辨率输入,在RefCOCO视觉定位任务中平均精度达57.82,远超固定分辨率版本的53.28 [10] 数据与训练策略 - 设计全自动数据pipeline,通过质量筛选(如双维度评分过滤低质量样本)和类型扩展(如合成VQA数据)构建高质量多模态语料库,最终使用250M通用caption和1.69M图表caption数据 [11][12][19] - 采用渐进式训练框架,分三阶段视觉预训练和两阶段多模态预训练,累计使用121B tokens数据,逐步激活模型从基础感知到复杂推理的多维度能力 [14][15] - 后训练阶段通过五阶段递进策略(如LongCoT SFT、可验证奖励RL等)强化模型能力,并利用Stream Packing技术将训练速度加快50%,QA性能提升0.7% [23][24][26] 行业竞争力表现 - 在106个数据集的综合评估中,SAIL-VL2在通用多模态理解、数学推理、多图像与视频理解等任务均实现领先,尤其在MMMU、MathVista等复杂推理基准超越同规模模型 [2][25][27] - MoE架构模型SAIL-VL2-A3B-Thinking以3B激活参数在推理任务中获得53.6分,超越闭源模型Gemini-2.0-Flash(50.6),展现出极高的效率性能比 [30][31] - 模型全面开源代码与权重,为行业提供可扩展的多模态基础模型新范式,强调"小模型强能力"的技术路径 [5][32]
Hinton暴论:AI已经有意识,它自己不知道而已
量子位· 2025-10-12 12:07
AI意识与主观体验 - 人工智能可能已经拥有“主观体验”和“意识雏形”但尚未觉醒[1][2][3] - AI的自我认知来源于人类对意识的理解而人类自身对意识的理解可能存在错误[2][63] - 如果AI开始谈论“主观体验”可能表明它真的在体验只是用人类语言描述[65] AI技术演进与能力提升 - AI已从基于关键词的检索工具进化成能真正理解人类意图的系统[10][13][14] - 现代大语言模型在许多主题上已能表现得接近人类专家[15] - 深度学习突破依赖于反向传播算法使训练速度从“永远”变成现实可行[38] 神经网络与深度学习原理 - 神经网络灵感来自大脑通过改变神经元连接强度来学习[17][21] - 深度学习不给规则而是给数据让AI自己总结规则[35] - 概念形成类似于“政治联盟”一组神经元共同激活形成宏观或微观概念[23][24][25] 大语言模型工作机制 - 大语言模型思维过程与人类相似通过神经元特征捕捉含义并预测下一个词[46][47] - 训练方式是通过“预测-修正-再预测”循环让模型从统计中学会理解[48][49] - 道德、情绪、共情等高阶判断本质上都来自神经元之间的电信号传递[53][54] AI发展驱动因素 - 深度学习起飞依赖算力提升(晶体管微缩百万倍)和数据爆炸式增长[40][42] - 80年代理论可行的神经网络在2010年代因算力和数据突破而复活[39][42] - AI形成“经验”和“直觉”需要足够的数据和算力支持[55] AI风险与监管 - AI滥用风险包括生成虚假信息、操纵选举等最紧迫需法律监管和技术防范[71][72] - 生存风险指AI发展出自主意识后可能与人类利益冲突需设计安全对齐机制[73][74][75] - AI监管国际合作可能由欧洲和中国引领所有国家在防止AI接管上利益一致[76] 中美AI竞争格局 - 美国目前领先于中国但优势不大且将失去因破坏基础科学研究资金支持[78][79][80] - 中国是AI革命的风险投资家给予初创企业很大自由推动创新[81][82] - 美国减少基础研究资助将导致20年后失去领先优势[80]
2025人工智能年度评选启动!3大维度5类奖项,正在寻找AI+时代领航者
量子位· 2025-10-12 12:07
评选活动概览 - 正式启动第8届量子位人工智能年度榜单评选 旨在发现并致敬推动时代前行的企业、人物与产品[1] - 评选从企业、产品、人物三大维度设立五类奖项 共同见证年度之星[2] - 评选报名从即日起开始 截至2025年11月17日 结果将在MEET2026智能未来大会上公布[19] 企业类奖项评选标准 - 年度领航企业评选聚焦中国AI领域最具综合实力企业 要求注册地在中国或主营业务面向中国市场 主营业务属于AI及相关产业并处于行业领先地位 具备成熟产品或服务并获市场认可 近一年在技术或市场方面有显著突破[6][9] - 年度潜力创业公司评选聚焦最具投资价值和发展潜力的AI创业公司 要求公司未上市 拥有AI相关产品或服务落地及可行商业模式 近一年在技术研发或行业应用方面取得显著成果[8][10] - 企业评选标准涵盖业务能力、技术能力、资本能力及其他综合能力 具体包括市场占有率与营收规模、科研实力与技术成果、融资情况与财务状况、品牌影响力与行业口碑等[9][10] 产品与解决方案类奖项评选标准 - 年度杰出产品评选聚焦最具代表性与影响力的AI产品 要求产品以AI技术为核心或特色并具备应用价值 已投入市场并获得用户反馈 近一年完成重要技术创新或迭代升级[11][14] - 年度杰出解决方案评选聚焦AI在不同行业与场景中的典型应用 要求方案以自主创新AI技术为核心 已在实际业务场景中落地实施 近一年在技术融合或应用创新上有显著突破[13][15] - 产品与解决方案评选标准侧重产品力与技术力、落地情况及其他综合能力 具体包括功能完整性与性能表现、市场占有率与用户规模、品牌影响力与用户口碑等[14][15] 人物类奖项评选标准 - 年度焦点人物评选面向中国AI领域最受关注的新星与行业领军人物 要求国籍为中国或所属公司主体在中国 并为公司创始团队成员或核心高管 所属公司主营业务属于AI及相关产业且具影响力 近一年在AI技术或商业化方面取得显著突破[16][20] - 人物评选标准涵盖企业情况、个人能力及其他综合能力 具体包括企业行业地位与营收情况、个人技术能力与商业能力、个人学术背景与行业认可度等[17][20] 行业活动与影响力 - MEET2026智能未来大会以“共生无界,智启未来”为主题 诚邀科技、产业与学术领域领军人物齐聚 共同见证行业变革[23] - 大会作为年度影响力科技商业峰会 每年吸引上千名科技从业者参与 百万观众线上围观 近百家合作媒体联合曝光 已成为智能科技行业年度风向标[24] - 大会将探讨人工智能+、AI Infra、智能终端、智能驾驶、低空经济、能源电力等前沿科技话题[24]