Workflow
量子位
icon
搜索文档
@CEO,你的下一个私人助理何必是人类
量子位· 2025-09-17 11:43
产品概述 - 智跃Agent一体机是市面上首个专门面向CEO打造的软硬一体私有化Agent,定位为开箱即用的信息管理助手[6][8] - 产品采用硬件+软件+算力+预置Agent的整合设计,搭配App实现插电即用,1小时内即可完成配置投入使用[8][13] - 产品核心关键词为超小型化和垂直化,采用12L精巧机箱设计,搭载单卡4090,实现完全本地化部署[9][28] 功能特点 - 具备信息自动收集、智能处理和清晰展示能力,支持从飞书、钉钉等内部IM系统或本地文档获取信息源[14][25] - 可生成两种模式报告:长文模式对工作进度进行详细分析,事项模式直接列出项目中事项的优先级[15][16] - 每个报告配备专属问答助手,实现专问专答、快问快答和有据回答,减少计算成本并提高准确性[23] - 报告信息完全可溯源,可定位到具体群聊内容,确保决策依据的真实性[20] 技术架构 - 采用Qwen3-30B-A3B基础模型,总参数量30B,激活参数量3B,通过任务拆分和上下文工程替代大模型[58][59] - 自研RAG系统实现多维实体提取、动态关系建立和抗幻觉能力,通过百分百溯源消除幻觉影响[54][55][56] - 针对企业常用工具如飞书、钉钉提供连接器支持快速接入,简化配置流程[62][63] - 在单卡4090机器上集成embedding模型、rerank模型和多模态模型,实现轻量化设计[60] 应用场景 - 为互联网科技公司自动分析客服聊天记录,上线第一周挖掘出超过30条未被手动上报的产品关键问题[44][45] - 在高新制造业场景中替代IM、OA功能,内置端到端加密汇报系统,实现更高保密程度[47] - 帮助非技术背景管理者透视研发进度,自动监控代码提交和任务状态,以可视化方式呈现项目真实进度[30] 市场定位 - 瞄准以信息为中心的管理痛点,实现更低部署成本和更强安全可控性,价格为68000元[42][72] - 针对中小型企业需求设计,相比市面其他私有化部署产品更便宜、更安全、更AI[48] - 目前已进入A轮融资接洽阶段,产品下一步将纵向增强Agent决策能力,横向拓展至不同岗位Agent[49][65] 行业趋势 - 2025年小模型效果大幅超越GPT-3,几十亿参数模型推理能力提升使本地化部署成为可能[38] - 垂直领域Agent创新加速,工程化能力成为建立竞争先手优势的关键因素[67][68] - 传统企业缺乏技术团队,针对实际场景打磨的垂直模型比通用模型更具实用性[69]
腾讯混元开源AI绘画新框架:24维度对齐人类意图,让AI读懂复杂指令
量子位· 2025-09-17 09:42
核心观点 - 腾讯混元团队开源PromptEnhancer框架 通过思维链提示重写技术显著提升AI绘画的文本-图像对齐精度 在复杂场景中准确率最高提升17%以上 同时开源高质量人类偏好基准测试数据集以支持研究 [2][4][5][7] 技术架构 - 框架包含CoT-based重写器与AlignEvaluator奖励模型两大模块 通过两阶段训练实现提示优化 无需修改预训练T2I模型权重 [12][14] - CoT-based重写器模拟人类设计思维 将简洁指令拆解为核心元素-潜在歧义-细节补充三步骤 通过48.5万组数据监督微调初始化 [15][19] - AlignEvaluator构建6大类别24维度的评价体系 覆盖语言理解、视觉属性、复杂关系等关键维度 精准定位生成图像错误 [21][22][23] 性能表现 - 在HunyuanImage 2.1模型测试中整体准确率提升5.1% 20个维度实现正提升 [29] - 复杂场景突破显著:相似关系准确率提升17.3% 反事实推理提升17.2% 数量计数提升15.0% [29] - 风格与细节优化明显:面部表情和跨对象属性绑定维度准确率提升超10% 油画等风格还原度大幅提高 [29] 跨模型适配 - 在HunyuanImage 2.1、Flux dev、Qwen-Img等主流T2I模型上均实现图文对齐、真实感及美感提升 验证即插即用特性 [31][44] - 通过提示重写通用逻辑提升不同架构生成模型的复杂指令理解能力 无需针对特定模型定制修改 [44] 基准数据集 - 开源6000条Prompt的高质量基准测试集 覆盖属性绑定、复杂关系、否定指令等核心痛点场景 [45][46] - 指令长度集中于80-120字符区间 峰值约100字符 体现中等复杂度指令为核心 长尾区间覆盖极复杂指令 [49] - 维度共现分析揭示创作规律:风格与实体接触交互共现676次 属性表情与角色全身动作共现332次 [53] 行业影响 - 技术突破AI绘画理解人类意图的精准度 从娱乐工具向工业设计、广告创作等专业领域渗透 [54][55] - 通过优化指令而非修改模型的思路降低优化成本 实现所想即所得的创作体验 [55][56] - 生态补全通过开源高质量数据集推动提示优化技术的可解释性与可复现性研究 [7][45]
李飞飞发布世界模型新成果:一个提示,生成无限3D世界
量子位· 2025-09-17 09:42
核心观点 - 李飞飞创业公司World Labs推出新一代世界模型 能够基于单一图像或提示构建可无限探索的3D虚拟世界 具备更大规模、更多样风格和更清晰几何结构 [1][3][5] 技术特性 - 支持持久存在、可导航且可自定义操控的3D世界生成 允许用户自由视点漫游 [3][13] - 生成场景具备丰富几何复杂性 可探索输入视角之外的隐藏空间 [14] - 模型保持高度一致性和风格连贯性 支持多场景无缝拼接形成更大虚拟世界 [3][24][25] - 支持多样化视觉风格生成 从扁平化卡通到写实风格均可转化 [15][17] 应用与兼容性 - 生成世界可导出为高斯点云 通过开源Spark渲染库集成至Three.js 兼容台式机、笔记本、移动设备和VR头显 [8] - 模型生成内容永久持续 无时间限制且完全免费访问 [28][29] 产品进展 - 已推出beta预览版本 通过Marble平台开放体验和构建功能 [9][30]
小白也能玩转AI视频!即梦Agent模式实测:一句话搞定插画、海报、Vlog
量子位· 2025-09-16 17:04
产品功能升级 - 即梦AI最新上线Agent模式 只需一次输入即可完成从生图到生视频的复杂指令 无需多步骤拆分[3] - 支持智能多帧功能 自动生成多张连续图像并连接首尾两帧组成完整视频[9] - 具备图像风格迁移能力 可基于参考图生成类似创意风格的作品[14][18] - 支持不同风格图片融合 例如水彩与水墨结合生成统一协调的画面[30][32][33] - 提供提示词反推功能 可根据图片自动生成对应的详细提示词[34][37][38] - 支持批量生成 单次指令可生成40张图片或8个视频[39] 技术能力表现 - 基于字节自研Seedream 4.0模型 在Artificial Analysis文生图和图像编辑双榜排名第一 超越谷歌Nano Banana[49][50] - 支持4K分辨率生成 此功能为Nano Banana所不具备[52] - 逻辑理解能力和推理速度显著提升 将文生图、图编辑、组图生成功能集于一体[51] - 自动适配输出格式 能根据指令智能生成3:4比例的竖图适合移动端展示[13] 应用案例展示 - 生成中国标志性景点插画视频 仅用3分钟完成6张外滩、泰山等景点的几何化风格插画[11][12][13] - 为蜜雪冰城生成广告图 将塑料杯改为玻璃材质并提升品牌档次感[15][18][20] - 生成吉卜力风格旅游照 主角与各地景点深度互动 包括在上海东方明珠前喝奶茶的场景[41][43] - 创作中秋节系列海报 基于单张参考图生成四张不同色调和元素变化的"中秋佳节"海报[22][24][26] 用户体验优化 - 提供AI助手功能 可指导用户如何编写有效提示词[8] - 大幅降低使用门槛 使复杂生图操作变得简单易用[53] - 生成效果自然流畅 转场过渡平滑 镜头手法丰富多样[47]
谷歌DeepMind:AI独立创造价值的经济层正在形成
量子位· 2025-09-16 13:58
AI Agent新经济层概述 - 谷歌DeepMind和多伦多大学联合提出AI Agent正在催生一个全新的经济层 智能体能够以超出人类直接监管的规模和速度进行交易与协作[1] - 该经济层被称为"沙盒经济"或"虚拟智能体经济" 核心目标是确保AI智能体在经济层内部实现安全可靠的运行[5][6] - 当前发展趋势显示正迈向自发涌现且高度可渗透的AI智能体经济体系[7] 新经济层运作特征 - 通过两个关键维度刻画:起源(自发涌现型vs人为设计型)和与人类经济分离程度(可渗透型vs不可渗透型)[3] - 借助市场机制和公平分配规则解决资源冲突 智能体使用虚拟货币竞标共享资源(计算能力/数据访问权限等)[14][16] - 资源价格由竞标自然形成 确保资源流向最需要之处且符合用户偏好 防止能力不均带来的不公平[17][18] 典型应用场景 - 科学研究:GPT-5在数学教授引导下将定性的第四矩定理扩展为带有显式收敛率的定量形式 AI Agent"高斯"三周内完成陶哲轩提出的数学挑战(在Lean中形式化强素数定理)[9] - 机器人领域:涵盖家务(洗衣/洗碗/擦桌)和工业应用(快递分拣等)[10] - 个人助理:美团Agent小美支持语音点外卖 办公助手可整理资料/生成报告提升效率[12][13] 监管与实施框架 - 明确法律责任:突破单一主体追责模式 将多AI协作系统视为集体责任实体 创建者/部署者/使用者在不同场景下分别承担责任[21][22] - 统一技术标准:推动A2A协议/MCP协议等互操作标准普及 避免形成围墙花园式碎片化生态[23] - 搭建三级监督体系:监督AI实时监控市场 自动化协议快速遏制危害 人类专家处理复杂案例 不可篡改账本记录所有交易确保可追溯[24] - 开展监管沙盒试点:在特定场景(大学能源优化/城市自动驾驶配送)测试小规模AI经济 评估协作行为与公平性机制[26] 人类协同与社会影响 - 改革教育体系强化人类在批判性思维/复杂问题解决/AI输出评估等领域的优势 培养AI教练而非完全替代人类决策[27] - 完善社会安全网 针对AI导致的劳动力替代加强失业保障/可携带福利 确保财富惠及所有人而非少数群体[28] 市场发展动态 - 全球首个AI Agent交易市场MuleRun(骡子快跑)正式上线 作为首个AI数字劳动力市场面向所有用户开放[29] - MuleRun聚合类型丰富的Agent/全球创作者/海量用户 提供一站式Agent交易服务[30] - 发布全球AI Agent Creator支持计划 通过现金/营销/技术扶持加速创作者冷启动 持续激励实现长期稳定收入增长[32]
首次人体实验成功!基因编辑胰岛细胞“隐身”植入,可正常分泌胰岛素
量子位· 2025-09-16 13:58
研究突破概述 - CRISPR编辑胰岛细胞首次成功移植至1型糖尿病患者体内 实现持续胰岛素分泌且无需免疫抑制剂[1][2][3] - 研究由Sana Biotechnology公司主导 成果发表于《新英格兰医学杂志》并获Nature官网报道[3][8] 技术实现细节 - 使用遗体捐赠者胰岛细胞 通过CRISPR-Cas12b敲除B2M和CIITA基因以逃避免疫检测[9][10] - 额外导入CD47蛋白基因发出"别吃我"信号 最终85.8%细胞无I类HLA分子 100%无II类HLA分子 46.4%高表达CD47蛋白[12][13] - 编辑后细胞制剂UP421包含三类细胞:完全编辑型、部分编辑型及野生型[15][27] 临床实施过程 - 对42岁37年病史患者植入7960万颗工程化HIP胰岛细胞 通过17次肌肉注射完成[19][20] - 采用珍珠串状线性排列植入方式 全程未使用糖皮质激素或免疫抑制药物[23][25] 治疗效果数据 - 移植12周后C肽水平从基线不可检测变为显著升高 证明内源性胰岛素分泌恢复[28] - 细胞持续功能达6个月 有效调节血糖且无排斥反应[26][29] - 当前低剂量治疗仍不足替代胰岛素注射 需进一步临床试验[29][30] 市场前景 - 该技术为全球约950万1型糖尿病患者提供潜在治愈方案[8] - Sana公司计划明年启动更多临床试验以推进研究[30]
马斯克周末血裁xAI 500人
量子位· 2025-09-16 13:58
xAI裁员事件与战略调整 - xAI进行内部突袭测试 淘汰率高达33% 超过500名员工被裁[1][2] - 数据标注团队规模从1500人缩减至1000余人 裁员比例接近三分之一[18] - 被裁员工主要为通用数据标注员 负责视频标注 音频标注和写作等任务[17][18] 数据标注团队结构与成本 - 数据标注团队是xAI最大团队 在Grok开发中发挥关键作用[3] - 公司采用直接雇佣而非外包模式 以增强对模型训练的控制和隐私保护[4] - 直接雇佣模式导致成本更高[5] - 2025年2月计划招聘数千人 半年内新增约700名数据标注员[6] 战略转向与招聘计划 - 公司战略转向专业数据标注领域 计划将专业数据标注员规模扩大10倍[19] - 专业数据标注员专注于STEM 编程 金融 法律和媒体等垂直领域[18] - 此次调整反映公司从"数据数量"向"数据质量"的战略转变[21] 垂直领域AI发展背景 - 互联网高质量语料枯竭导致Scaling Law出现边际效应递减[24] - 垂直模型在金融 医疗 法律等行业更具准确性与合规性优势[25] - 行业从通用大模型向垂直场景应用发展趋势明显[25][27] 马斯克管理风格 - 马斯克偏好精悍小团队 强调性能与效率[35] - 其管理理念认为小团队更具创造力 沟通效率更高且迭代更快[36][37][38] - 历史上在特斯拉2年内裁员7000余人 在Twitter一周裁员3700人[31][34] - 实行"硬核文化"要求 要求员工长时间高强度工作[42][43] 战略影响与行业意义 - 此次裁员可能帮助Grok在垂直应用领域建立优势[28] - 过度依赖专家库可能限制数据多样性 带来模型盲点风险[22] - 行业需要重新平衡数据质量与数量的关系[23] - 若战略失败 xAI可能在Scaling Law赛道落后于OpenAI等竞争对手[29]
魅族AI眼镜1999元开卖:拍照翻译付款全都会,39g重
量子位· 2025-09-16 13:58
产品核心定位与战略 - 公司发布全新AI拍摄眼镜StarV Snap,首发价1999元 [1][2] - 产品定位为轻巧便捷的随身AI助手,重量仅39g,接近普通框架眼镜 [3][22] - 公司战略思路务实,强调产品需能戴、能用、不突兀 [24] AI功能与交互创新 - 产品集成多种AI能力,包括支持12国语言同声传译、AI识物、语音转写及直接通过眼镜完成支付 [5][22] - 交互设计上配备右侧AI专属按键,单指一按即可发出指令,无需唤醒词 [11] - AI识物功能可识别艺术场景、计算食材卡路里及辨认花鸟鱼虫 [13] 拍摄与影像能力 - 产品搭载高通第一代骁龙®AR1平台,配备1200万像素镜头,支持109°超广角视野及720P长时间录制与1080P高清拍摄 [27][28] - 针对运动场景增加EIS防抖、人像增强、水平线矫正等算法优化,使拍摄表现接近运动相机 [31] - 新增Live图功能,可记录前后几秒动态,并推出专属胶片滤镜模式 [33][35] 续航、生态与附加功能 - 镜腿预留Type-C接口,支持边拍边充,在存储和电池允许的情况下可持续拍摄数小时 [19][37] - 产品与支付宝、蚂蚁国际达成战略合作,支持扫码支付功能,已在部分城市试用 [22] - 公司同步发布魅族22手机与Flyme Auto 2智能座舱系统,GPU性能提升49%,AI能力提升44%,进一步强化生态闭环 [41][43]
奥特曼“续命”大计:押注让大脑变年轻的药物,预计年底临床试验
量子位· 2025-09-16 12:05
奥特曼投资Retro Biosciences - 奥特曼加大对旧金山生物技术初创公司Retro Biosciences的投资 该公司致力于将人类寿命延长10年 [3] - 奥特曼此前提供全部1.8亿美元(约13亿人民币)种子轮融资 显示其对该公司的全力支持 [4] - 公司与OpenAI合作开发GPT-4b-micro模型 可将普通细胞转化为干细胞 专为蛋白质工程设计 [5] 公司研发进展与临床试验 - 计划2025年底启动首个人体临床药物试验 首批试验患者将服用代号RTR242的实验性药物 [8][12] - 已完成澳大利亚临床试验地点选址与实验室供应商遴选 首位受试者预计今年年底完成入组 [19] - RTR242通过清除与阿尔茨海默症和帕金森症相关的细胞垃圾来重启老年人停滞的自噬过程 从而清理脑细胞损伤 [17] 技术机制与策略 - RTR242针对细胞自噬机制 该机制类似细胞的垃圾处理和回收系统 通过溶酶体降解受损细胞器和错误折叠蛋白质 [16] - 公司采取平衡策略 既开发针对特定疾病的药物(如RTR242) 也探索通过AI实现重大范式转变的激进方案 [22][23][24] - GPT-4b-micro将干细胞重编程标志物的表达效率提升50倍 显示AI在抗衰老疗法中的颠覆性潜力 [29] 公司目标与融资计划 - 终极目标是为人类增加10年健康寿命 而非单纯延长预期寿命 旨在让人们始终保持健康、警觉和活力 [33][34] - 公司明确A轮融资目标为10亿美元 若成功将进入长寿创业公司行列 [35][36] - 目前除RTR242外 还有针对白血病的RTR890疗法和针对中枢神经系统疾病的RTR888疗法处于临床前开发阶段 [34] 行业背景与团队 - 长寿科技行业包括杰夫·贝索斯支持的Altos Labs 该公司已募集超30亿美元资金 [37] - 公司共同创始人丁胜为清华药学院创始院长 以干细胞研究闻名 [41][42] - CEO贝茨-拉克鲁瓦曾带领团队打造世界最小Windows电脑 拥有超100项专利 并曾在YC担任兼职合伙人 [44][45]
宇树:开源机器人世界大模型!
量子位· 2025-09-16 12:05
核心观点 - 宇树科技开源世界模型-动作架构UnifoLM-WMA-0 专为通用机器人学习设计 能够理解机器人与环境交互的物理规律 并支持多机器人本体适配 [1][9] 技术表现 - 模型在真机部署中表现稳定 包括堆积木任务 预测视频与实际操作高度吻合 [2][3] - 支持双机械臂协作任务及精细操作如文具收纳 [5][7] - 作为仿真引擎使用时 可根据当前场景图像和未来动作指令生成可控交互内容 精准匹配预期效果 [23] 模型架构与训练 - 架构支持两种模式:决策模式(预测物理交互关键信息辅助动作生成)和仿真模式(生成逼真环境反馈模拟交互) [19][20] - 训练基于Open-X数据集微调视频生成模型 适配机器人实际作业场景 [15] - 使用宇树科技五个开源数据集完成全流程训练 包括Z1和G1机器人系列任务数据 [22][23] 开源与社区反响 - 完整开源训练代码、推理代码及模型Checkpoints GitHub迅速获得101个Star和11个Fork [11][12] - 项目提供详细训练策略及测试结果对比 包括长程任务交互生成能力验证 [12][23]