量子位
搜索文档
实测新版LiblibAI:终于把模型、生图、工作流塞进一个碗了
量子位· 2025-10-15 09:08
核心观点 - LiblibAI 2.0版本完成重要战略升级,从一个“找模型”的网站转变为可直接进行“AIGC流水线”创作的平台[11][36] - 平台通过集成多种主流图像和视频模型,并新增特效等实用功能,旨在打造创作者的“AI全家桶”[15][17][19][33][45] - 尽管功能升级带来想象空间,但在用户体验层面仍存在出图速度、模型同质化及页面卡顿等问题[37][38] 产品功能升级 - 平台界面风格从“极客社区范”转变为类似“ChatGPT+Canva”的合体,兼具模型调用和设计功能[12] - 新增视频生成页面的“添加特效”功能,用户可直接在生成板块为视频添加如“一飞冲天”等特效[19][21][23] - 提供视频的“首帧/尾帧”功能,适用于短剧封面和BGM剪辑片段制作[30][31] - 整合了全球最大图片风格开源模型库,覆盖插画、摄影、电商等多类视觉风格,将模型选型流程视觉化[33][34] 模型能力整合 - 图像模型方面,集成了Qwen-Image、Seedream 4.0、Nano-Banana等热门模型,并接入了Midjourney家族当前最强的V7模型[15][16] - 视频模型方面,集成了海螺2.0、通义万相2.5、可灵2.5、Vidu Q1等主流模型[17] - 使用模板生成视频时,提示词为锁死状态,不支持编辑,此举提升了效率但牺牲了画面可控性[28][29] 用户体验与反馈 - 实测生成效果获得认可,例如城堡图片添加特效后变为火箭发射,动作衔接尚可[21][23][25] - 存在稳定性问题,例如特效视频中猫的瞳孔颜色会突然变化,镜头会对不准人脸导致画面跑偏[25][27] - 用户反馈问题包括:付费后出图速度未见提升,尤其是一次性生成四张图时;模型选项虽多但同质化严重,惊喜感弱;部分用户遇到页面卡顿[37][38] 公司背景与战略 - LiblibAI是一家“非典型”公司,擅长内容产品打法,曾一年内完成四轮融资,创下当时国内AI应用赛道的融资速度纪录[38][39] - 公司海外子公司打造的AI设计产品Lovart为全球首个设计Agent,内测上线5天排队体验人数突破10万[40][41] - 创始人陈冕曾为剪映、CapCut的商业化负责人,也是字节跳动当年最年轻的产品4-1(对标阿里P9)之一,擅长构建“用户-内容-流量”闭环[42][43] - 公司战略路径清晰,从“模型开源社区”向“创作者的AI全家桶”转型,致力于构建创作闭环[44][45]
谢赛宁新作:VAE退役,RAE当立
量子位· 2025-10-14 16:16
文章核心观点 - 谢赛宁团队提出表征自编码器RAE将取代变分自动编码器VAE,标志着VAE时代的结束[1][4] - RAE采用预训练表征编码器与轻量级解码器配对,在扩散Transformer模型中实现更高质量重建和更快收敛速度[3][9][19] - 该方法在ImageNet图像生成任务中取得FID 1.51(无引导)和1.13(有引导)的优异表现[6] RAE技术原理与优势 - RAE核心设计是用预训练表征编码器(DINO、SigLIP、MAE等)与训练后的轻量级解码器配对[3] - 无需额外表示对齐损失或辅助损失函数,架构简洁但重建质量超越SD-VAE[9][10] - 提供语义丰富的潜空间,支持可扩展的基于变换器的架构[4] 传统VAE的局限性 - SD-VAE需要约450 GFLOPs运算量,而简易ViT-B编码器仅需22 GFLOPs,架构过于复杂[7] - VAE潜空间过度压缩(只有4个通道),信息容量严重受限[7] - VAE表征能力薄弱,线性探测精度约8%,特征质量低下拖慢收敛速度并损害生成质量[7][11] RAE性能表现 - 在重建质量指标rFID上:DINOv2-B为0.49,SigLIP2-B为0.53,MAE-B为0.16,均优于SD-VAE的0.62[11] - 在表征质量指标Top-1准确率上:DINOv2-B达84.5%,SigLIP2-B达79.1%,MAE-B达68.0%,远高于SD-VAE的8.0%[11] - 收敛速度比基于SD-VAE的REPA快达16倍[19] DiT架构适配与优化 - 采用宽DiT设计,要求变换器宽度至少等于潜表征维度[14] - 调整噪声调度使扩散模型适应增加的输入通道维度[17] - 在解码器训练中注入微量噪声,提升对潜空间扩散误差的鲁棒性[17] - 引入极宽但极浅的扩散头部设计,提升DiT在RAE框架内的可扩展性[21][22]
不用跟AI客气了!新研究:语气越粗鲁回答正确率越高
量子位· 2025-10-14 16:16
研究核心发现 - 宾夕法尼亚州立大学研究显示,对大型语言模型的提问语气越粗鲁,其回答正确率反而越高[2] - 使用粗鲁语气时GPT-4o正确率达84.8%,而特别客气时正确率仅为80.8%,存在显著差异[3][10] - 不同语气导致的正确率差异经过统计检验确认并非偶然,具有统计学意义[12] 研究方法与设计 - 研究构建包含50道涵盖数学、科学、历史的中等难度选择题的题库[6] - 为每道题目设计5种不同语气版本,从非常客气到非常粗鲁[7] - 语气等级分为非常礼貌、礼貌、中性、粗鲁、非常粗鲁五个级别,共生成250个测试问题[8] - 测试前对GPT-4o进行标准化提示,要求其忘记之前对话并仅输出答案选项字母以确保回答一致性[9] 现象原因分析 - 礼貌表达中包含大量与题目无关的“多余”话语,这些内容可能对AI读题造成干扰[12] - 粗鲁的命令式表达更为直接,能帮助AI更精准地抓住“答题”核心任务,从而提高正确率[13] - 网友反馈证实指令越明确,AI生成的结果越好[14] 模型差异比较 - GPT-4o对粗鲁语气表现出更高的适应性,而GPT-3.5和Llama2-70B等老模型在粗鲁语气下表现更差[16] - 新模型可能因训练数据中语气相关数据更复杂,或优化了过滤无关信息的能力,故表现不同[17] 实践应用启示 - 使用AI工具时清晰表达诉求能有效提高效率[18] - 尽管研究显示粗鲁语气效果更好,但实践中仍需注意基本礼仪[19]
OpenAI自研芯片内幕曝光!18个月前开始用AI优化芯片设计,比人类工程师更快
量子位· 2025-10-14 13:39
合作核心内容 - OpenAI与博通达成战略合作,共同部署由OpenAI设计的10GW规模的AI加速器 [5] - 博通将从2026年下半年开始部署配备AI加速器和网络系统的机架,并于2029年底前完成全部部署 [5] - OpenAI负责芯片与系统设计,博通负责合作开发与投入部署 [6] - 10GW电力规模相当于10000兆瓦,足以同时点亮约1亿个100瓦灯泡 [10][11] 合作战略意义 - 通过自研芯片实现垂直整合,将前沿模型开发经验直接嵌入硬件以解锁新能力与智能水平 [7][20][21] - 定制加速器旨在满足现有芯片无法覆盖的特定计算任务或工作负载 [20][21] - 合作凸显定制加速器重要性及以太网作为AI数据中心纵向与横向扩展网络核心技术的战略地位 [13] - 有助于OpenAI缓解算力紧张问题,其ChatGPT每周有近8亿活跃用户 [14][15] 自研芯片动因 - 对AI工作负载的深刻理解以及实现公司使命需要进行垂直整合 [18][22][23] - 在2017年发现规模扩展对AI系统的巨大作用,自研芯片是实现算力扩展的重要举措 [28][29][30] - 与外部芯片公司合作时,关于模型发展方向与形状的反馈未被采纳,缺乏话语权 [30][31] - 公司CEO转变观点,认为垂直整合是实现使命的必要途径,并以iPhone的成功为例 [22][23][24] 预期效益与技术应用 - 通过优化整个技术堆栈,预计能从每瓦特中榨取更多智能,实现巨大的效率提升 [31] - 效率提升将直接转化为更好的模型性能、更快的模型训练速度以及更低的模型成本 [31] - 已在利用AI模型优化芯片设计,其优化速度比人类工程师更快 [32][33] - AI模型提出的优化方案通常是人类专家清单上的项目,但能显著缩短实现时间 [34] 整体战略布局 - 公司采取“自研+合作”路线突破算力瓶颈,除博通外也与英伟达、AMD等厂商合作 [36][37][40][41] - 与英伟达的合作规模同样为10GW,预计使用数百万块GPU,并获得高达1000亿美元投资 [37][38] - 自研芯片布局已持续约18个月,并在o1模型开启推理浪潮后开始专门设计推理芯片 [18][43]
量子位「MEET2026智能未来大会」启动!年度榜单征集中
量子位· 2025-10-14 13:39
技术发展趋势 - 人工智能正从工具演变为深度理解人类需求的智能伙伴,跨越软件、硬件、机器人等形态 [2] - 多模态、AR/VR、空间计算等技术融合,推动数字世界与物理世界的界限模糊并融合 [4] - 智能技术跨越产业、学科和场景边界,催生全新生态和机遇,成为驱动社会演进的核心动能 [3][14] 行业生态与影响 - 企业、技术与社会之间的连接与共生成为推动发展的核心动力,技术贯通产业链并催生新业态 [5][14] - 人工智能逐步成为基础设施,重塑人类未来的工作、生活和社会运作模式 [7] - 数字智慧开始重塑物理世界,提升全社会福祉和效率 [14] MEET2026智能未来大会 - 大会主题为“共生无界,智启未来”,聚焦人工智能+、AI Infra、智能终端、智能驾驶、低空经济、能源电力等前沿话题 [13][14] - 会议拟于2025年12月在北京举办,汇聚科技、产业、学术领域领军人物,包括李开复、张亚勤、多位院士及百度、阿里、腾讯、华为等公司代表 [7][9][24] - 大会作为年度科技商业峰会,过往吸引上千名科技从业者现场参与,百万观众线上围观,近百家合作媒体联合曝光 [12] 年度评选与报告 - 将发布“2025人工智能年度榜单”,从公司、产品、人物三大维度评选领航企业、潜力创业公司、杰出产品、杰出解决方案、焦点人物五类奖项 [16][17][18][19] - 量子位智库拟在大会上发布《2025年度AI十大趋势报告》,提名释放巨大潜力的十大AI趋势并进行深入分析 [22]
0人工参与实现梯度更新!MIT新框架让AI自动生成微调数据,权重自主升级
量子位· 2025-10-14 12:08
文章核心观点 - MIT提出名为SEAL的新型强化学习框架,使大模型能够自主生成微调数据和自我更新指令,实现在权重层面的自我更新[1][4][6] - 该框架采用内外两层嵌套学习机制,无需人工参与即可自动进行梯度更新,使模型具备自主学习新知识和适应新任务的能力[2][5][25] - SEAL首次在权重层面赋予大模型自我驱动的更新能力,突破了完全依赖外部监督数据的局限[6] 技术框架与工作机制 - SEAL框架由强化学习驱动的外部循环和执行参数更新的内部循环构成[26] - 外部循环中,模型针对新输入上下文生成自然语言组成的"self-edit"指令,自主设计训练流程包括提取信息、生成训练样本和设定训练参数[28][29] - 内部循环中,模型按照指令执行微调,构造合成训练数据并进行权重更新,随后立即评估新模型在任务上的表现[30][31][32] - 采用ReSTEM强化学习方法,通过行为克隆+过滤采样优化self-edit生成策略,训练更稳定且适用于大模型生成行为学习[33][35][37] 知识注入实验成果 - 使用Qwen2 5-7B模型和SQuAD数据集进行知识注入测试,SEAL微调后准确率达47 0%,优于原始模型32 7%和使用GPT-4 1合成数据46 3%的表现[14][15] - 在200段落设置下准确率达到58 2%,证明框架可泛化至更大规模数据整理任务[16] - 实验对比方案包括仅用原始段落微调33 5%准确率,凸显SEAL较强知识整合能力[13][14][15] 小样本学习实验成果 - 使用LLaMA-3 2-1B-Instruct模型和ARC-AGI数据集子集进行小样本学习测试[17][18] - SEAL训练出的策略使任务成功率达到72 5%,远高于固定few-shot提示0%和随机采样策略20%的表现[22] - 虽然不及人工设定最优策略100%的成功率,但作为模型自主摸索的学习路径已体现较强任务适应能力[22] 技术优势与应用前景 - SEAL框架实现"学会如何让自己学得更好",使模型能主动设计训练方式、构造训练数据并优化自学习策略[38] - 最终表现为具备自我编辑与持续进化能力的语言模型结构,为模型自主学习提供新范式[38]
2025人工智能年度评选启动!3大维度5类奖项,正在寻找AI+时代领航者
量子位· 2025-10-14 12:08
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 这是量子位人工智能年度榜单的 第8年 。八年来,我们见证了技术的突破与落地,产业的融合与重塑,也见证了一批又一批推动时代前行的 企业、人物与产品。 在人工智能重新定义一切的时代里,智能技术已不再是单一工具,而是产业与社会协同进化的驱动力。我们期待通过这场年度评选,去发现并 致敬那些真正引领变革、开拓边界的探索者与实践者。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 评选标准 : 企业榜 产品榜 人物榜 2025 人工智能年度潜力创业公司 聚焦于中国人 ...
别Claude Code了,一个国产免费命令行就够了
量子位· 2025-10-14 12:08
产品定位与核心优势 - 阿里心流研究团队推出的终端AI智能体iFlow CLI,定位为Claude Code的国产平替,专为国内开发者设计 [1][2] - 产品面向个人用户永久免费且无限流,支持零成本调用Qwen3 MAX、Kimi K2、DeepSeek V3.2、GLM4.6等最新尖端模型 [2][7] - 团队更新迭代迅速,例如在DeepSeekV3.2和GLM4.6发布后立即适配,国庆前后就发布了3个版本 [9] 性能表现与技术特点 - 在四项基准测试(GAIA、SWE-bench、Terminal-Bench、BrowseComp-ZH)中,使用Qwen3-Coder模型时,iFlow CLI相较于Claude Code和Codex表现出更优的综合性能 [2] - 针对国内开发者优化模型集成和自动化能力,在使用DeepSeek-V3.1-Terminus、Kimi-K2-0905和GLM-4.5等国内Top开源模型的评测中优势明显 [4][6] - 产品通过Context Engineering和Pipeline等方面的优化,使基于国产模型的问题解决能力趋近于海外闭源模型水平 [49] 功能特性对比 - 相比Claude Code和Gemini CLI,iFlow CLI具备更全面的功能支持,包括ToDo规划、SubAgent、自定义Command、Plan模式、Task工具等 [10] - 支持搜索海内外最新资讯,内置多模态理解能力可识别图片,并为国内用户量身打造本土化体验,如中文显示切换、中文社区等 [10][11] - 提供VS Code插件和JetBrain插件,支持对话恢复、内置开放市场、Memory自动压缩等功能 [10] 实际应用场景 - 在数据整理和分析场景中,能够自动安装数据分析和可视化库,完成多维度专业销售分析并以图表形式展现 [16][17][18][21] - 作为项目开发助手,可结合LangChain、streamlit等工具创建基于RAG的大模型问答系统,具备智能搜索、文档获取、制定计划、自主测试、持续优化等完整工作流程 [23][24][26][27] - 支持CodeReview场景,通过代码审查专家subagent自动生成详细的代码审查报告,涵盖变更摘要、良好实践、需要关注的问题等 [29][30][32] 平台生态与扩展能力 - 心流开放平台上线工作流管理系统,支持将不同AI能力组合成完整workflow,实现从代码分析、开发、测试到部署的全流程自动化 [32][33] - 平台预置常用工作流,如小红书发文、深度研究、PPT制作、画流程图等,以及GitHub spec、BMAD等开发者工作流 [33] - 开放Agent SDK,支持安卓SDK、Node.js、Java、Python,让业务快速集成CLI并具备AI能力 [11] 行业影响与发展趋势 - 产品标志着国产AI生态的崛起,在Claude等海外工具调整对国内用户使用策略的背景下具有重要意义 [55][56] - 通过自然语言对话降低命令行使用门槛,改变原有工作流,使AI能力从专业编程人员扩展到数据科学、项目管理、产品设计等领域 [51][52][53] - 配套的开放平台和开发者交流论坛为国内开发者和AI应用普及提供了良好生态基础 [58]
将科研脏活累活真·丢给AI!上海AI Lab推出深度科研智能体FlowSearch
量子位· 2025-10-14 12:08
产品核心特点 - FlowSearch是一个由动态结构化知识流驱动的深度科研智能体,通过构建科研任务的多层依赖图实现任务的并行探索和自适应优化[6][7] - 系统采用有向无环图将科研任务和知识关系可视化,每个节点携带任务类型和知识上下文,节点间的边定义信息流向,实现非线性的多路径探索[12][13] - 具备自组织、自纠错、自优化能力,能够根据新信息动态调整节点和依赖关系,确保知识流持续进化[19][24] 技术架构 - 由三大核心模块组成:Knowledge Flow Planner负责规划研究路线并拆解问题,Knowledge Collector执行任务并收集信息,Knowledge Flow Refiner反思和优化整个研究流程[8][9] - Planner模块采用递归扩展策略,从总问题出发逐层细化子任务,InternPlanner模型经过结构化科研任务数据微调,能够学习专家的拆解方式[16] - 多智能体框架下实现任务并行执行,Collector填充节点内容的同时Refiner动态调整流程,形成类似科研团队的协作机制[10] 性能表现 - 在GAIA基准测试中,FlowSearch(o4-mini)在Level 1达到90.56%,Level 2达到76.74%,Level 3达到50.00%,平均分为76.96%,显著优于其他方法[23] - 在GPQA-diamond基准上,生物领域84.21%,化学领域79.57%,物理领域96.51%,平均达到87.37%[23] - 在HLE基准的text only模式下达到31.60%,All模式下达到30.80%[23] - 专业基准TRQA测试中,FlowSearch依托通用工具链超越了多个领域专用模型[23] 技术验证 - 模块有效性验证显示,完整系统在GAIA基准平均分达76.96%,而去除动态知识流建模或反思模块会导致性能显著下降[26][27] - InternPlanner-32B相比基础模型Qwen-3-32B在GAIA基准上提升约6个百分点,从64.81%提升至70.91%,验证了结构化训练的有效性[28][29] - 与OWL对比案例显示,FlowSearch通过显式依赖建模与中间结果整合,有效避免证据丢失与逻辑链断裂[30] 应用价值 - 标志着科研智能体从"任务执行"向"知识驱动推理"的关键转变,为可解释科研智能体与自演化科学发现系统奠定基础[41][42] - 能够适配科学调研与报告生成任务,产出完整、全面且逻辑清晰的科学调研成果[32] - 对科研新人可构建完整知识探索路径,对跨学科研究者提供知识流整合能力,对资深学者可作为智能研究助手提升效率[43]
混元3D开源端到端全景深度估计器,代码+精选全景数据已上线,在线可玩
量子位· 2025-10-14 12:08
文章核心观点 - 腾讯混元3D团队提出了一种名为DA的全景深度估计器,该模型具备高精度、强大的零样本泛化能力以及完全端到端的特性 [2] - 该技术旨在解决全景深度估计领域因数据稀缺和球面畸变导致的泛化能力差和效率低下的核心挑战 [1][10] - 通过创新的数据扩充引擎和SphereViT模型架构,DA在多个基准测试中实现了最先进的性能,其关键指标AbsRel比最强的零样本方法平均提升38% [23][24] 背景与挑战 - 全景图提供360°×180°的沉浸式视角,是AR/VR和沉浸式图像生成等应用的关键视觉表示 [5][6] - 高质量的全景深度信息对于3D场景重建、物理模拟和世界模型等高级应用至关重要 [6] - 行业面临的主要挑战包括全景深度数据稀缺导致模型零样本泛化能力有限,以及全景图固有的球面畸变使得许多现有方法效率不理想 [1][10] 核心贡献:数据扩充 - 公司开发了一个数据管理引擎,将透视样本转换为高质量的全景数据,以扩展数据规模 [11] - 该引擎通过透视到等距矩形投影和全景外推技术,生成“完整”的全景图,解决了模型因缺乏全局背景和球面畸变差异而性能不佳的问题 [12] - 此引擎创造了约543,000个全景样本,将总样本数从约63,000扩展到约607,000,实现了约10倍的数据扩充,显著提升了模型的零样本性能 [14] 核心贡献:模型架构与训练 - 公司提出了SphereViT模型架构,通过计算球面角并生成球面嵌入,使图像特征能明确关注全景图的球面几何形状,从而有效减轻球面畸变影响 [16][17] - 与标准ViT不同,SphereViT采用交叉注意力机制,将图像特征作为查询,球面嵌入作为键和值,产生可感知畸变的表示 [17] - 模型的训练结合了距离损失和法线损失,前者约束全局精确的距离值,后者促进局部平滑且锐利的几何表面 [18] 实验结果 - 在斯坦福2D3D、Matterport3D和PanoSUNCG等多个数据集上的基准测试表明,DA实现了最先进的性能 [19][23] - 具体而言,DA在关键评估指标上表现优异,例如在斯坦福2D3D数据集上,其AbsRel为7.23,RMSE为14.00,δ1为95.45 [21] - 定性比较显示,由于训练数据量是UniK3D的约21倍,DA展现出更精确的几何预测,并且优于受多视角不一致性限制的MoGev2等方法 [27] 应用场景 - 该技术能有效支持广泛的3D重建相关应用,例如全景多视图重建 [28] - 模型能够根据房屋不同房间的全景图像,重建出全局对齐的3D点云,确保多个全景视图之间的空间一致性 [29]