量子位

搜索文档
卡帕西预言成真!华人团队开源全AI操作系统:神经网络模拟Windows,预测下一帧屏幕图像
量子位· 2025-07-15 14:28
核心观点 - 由神经网络驱动的操作系统NeuralOS实现实时预测和渲染图形界面,模拟Windows操作系统的行为 [1][2][6] - 该系统基于RNN和渲染器两大模块,能够跟踪计算机状态变化并生成对应的屏幕画面 [7][8] - 未来GUI可能演变为个性化、动态生成的2D交互画布,颠覆传统固定界面模式 [4][37] 技术实现 - **核心架构**:RNN负责状态跟踪,渲染器根据状态和操作生成画面,形成闭环系统 [7][8] - **训练数据**:使用Ubuntu XFCE系统的操作录像,包括随机交互和AI Agent模拟的真实操作 [10][11] - **训练流程**:分阶段进行RNN预训练、联合训练、计划采样和上下文序列扩展,最终实现帧预测能力 [11] 性能表现 - **优势**:画面逼真度接近真实系统,鼠标响应精准,状态转换稳定(如应用启动、窗口切换) [15] - **局限**:键盘输入处理不足,快速打字时可能出现延迟或字母顺序错乱 [14] - **测试结果**:模型预测准确性较高(主对角线高亮),但存在少量状态混淆 [14] 团队与背景 - **主要成员**:5人团队中4位为华人学者,包括滑铁卢大学和加拿大国家研究委员会的研究人员 [17][19][21][23][27][29] - **学术背景**:成员研究方向覆盖NLP、机器学习、深度学习应用,部分成员在顶会发表论文且引用量达5000+ [22][25][27][30] - **行业合作**:团队成员与英伟达、Google Deepmind等企业有合作或兼职关系 [28][29] 应用与展望 - **当前形态**:提供在线演示版本,需H100显卡支持运行,用户操作过多导致系统负载较高 [32][35] - **开源优化**:代码开源后有望提升性能,未来或实现更高效的动态界面生成 [36] - **潜在方向**:探索生成式神经接口在下一代人机交互系统中的落地场景 [6][37]
开放世界任务成功率82%!美的攻克机器人泛化控制难题
量子位· 2025-07-15 14:28
模型概述 - 美的AI研究院与华东师范大学联合推出ChatVLA-2模型,具备开放世界具身推理能力,结合视觉-语言-动作(VLA)功能 [1] - 采用动态混合专家架构和双阶段训练流程,保留多模态认知能力并实现推理到动作的转化 [1] 核心能力 - 在数学推理、空间理解和泛化操作能力上表现优异,开放世界任务成功率达82% [4] - 通过数学匹配游戏评估数学推理能力,通过玩具摆放任务测试空间推理能力 [6] 模型架构 - 引入混合专家模型(MoE),动态选择专家模块以平衡任务特征与共享特征,优化计算资源分配 [7] - 在模型深层使用推理令牌替换观测嵌入,生成调控动作参数,增强决策精准度 [8] 训练策略 - 采用双阶段训练:第一阶段协同训练图文数据与机器人数据,激活开放世界理解能力 [13] - 第二阶段冻结视觉语言模型,专注训练动作专家,强化对未知推理场景的响应能力 [14] 实验效果 数学推理 - 在开放世界测试中,OCR得分3.58/4,数学推理得分1.73/2,操控成功率82.7% [19] - 对比其他模型(如DexVLA成功率10/52),ChatVLA-2显著领先(43/52) [19] 空间推理 - 目标识别得分0.94,操控成功率81.4%,优于同类方法 [21] - 能识别训练中未出现的物体并理解空间关系,完成精准摆放 [20][21] 行业意义 - 为通用机器人控制提供新思路,推动复杂场景与多模态交互研究 [21]
国产Deep Research杀出一匹「裸奔」黑马:免费开放,过程透明,网页报告一键即出
量子位· 2025-07-15 14:28
秘塔AI搜索深度研究功能发布 - 国产AI搜索平台秘塔AI推出对标Deep Research的深度研究功能,完全免费开放使用,无需申请或会员资格 [1] - 功能可展示完整思考链和证据链,研究步骤全程可视化,最终生成结构化研究报告 [1][2] - 支持将报告一键转换为互动网页,自动排版并标注信息来源 [4][32][33] 技术能力与评测表现 - 在BrowseComp和xbench-DeepSearch评测集上表现最优,中英文能力均领先 [8] - 超越通义开源的WebSailor模型最新测试成绩 [10] - 研究过程采用多色标注系统:绿色为确定结论,紫色为待完善结论,红色为信息缺失部分 [23][24] 核心功能特点 - 支持复杂问题拆解,如分析AMD与英伟达AI芯片竞争时,会从CoWoS封装技术分配比例预测出货量 [18][22] - 参考资料库包含400+篇中英文文献,每个知识点均标注来源 [29][31] - 支持全网+文库+学术+图片+视频+播客+私域的全范围搜索 [14] 应用场景展示 - 商业调研:自动生成数据可视化图表(柱状图/折线图) [39] - 日常生活:提供科学现象深度解释 [41] - 非常规问题:能处理"企鹅偷石头"等奇特查询 [44] 行业定位与竞争优势 - 深度研究功能成为AI能力新风口,国内外巨头(OpenAI/Perplexity/谷歌)纷纷布局 [47][48] - 国内同类产品多设付费墙或试用限制,秘塔直接免费开放形成差异化 [48][49][50] - 技术优势来自"AI+搜索"双基因组合,兼具大模型逻辑能力和搜索引擎信息抓取能力 [51]
零代码开发,从与AI对话开始|聊聊百度秒哒
量子位· 2025-07-15 11:50
百度秒哒产品介绍 - 百度秒哒是一款零代码对话式开发平台 用户通过对话提出需求即可完成网页开发 无需编写代码[1][2] - 平台通过AI扮演架构师 研发工程师等角色 调用智能体和工具实现全流程开发 全程无代码介入[3] - 目前平台开放免费试用 网址为miaoda.baidu.com 支持用户从想法到产品上线的全流程开发[3] 产品开发流程与商业化 - 用户可通过对话式交互完成产品开发 具体操作流程将在直播中详细展示[8] - 生成的产品已具备投入真实使用的可行性 部分案例显示可实现商业化盈利[8] 技术能力与行业影响 - 平台后端能力涉及智能体调度 工具调用等核心技术 具体架构细节未公开[8] - 零代码开发降低产品实现门槛 推动AI技术向非技术人群渗透 改变传统软件开发模式[1][3] 行业活动与嘉宾背景 - 7月17日将举办专题直播 由百度秒哒产品部总经理朱广翔讲解零代码开发实践[3][7] - 朱广翔为清华大学交叉信息研究院博士 在NeurIPS ICLR等顶会发表14篇论文 21年加入百度后主导多个AI产品线[4][5] - 直播属于"365行AI落地方案"系列活动 聚焦AI技术在各行业的实际应用案例[7]
小扎自曝挖人秘诀:小团队我亲自带,豪掷数百亿建GW集群,大家不图天价薪酬只为“造神”
量子位· 2025-07-15 11:50
Meta的AI战略布局 - 公司否认高薪是吸引AI人才的主因,强调顶尖人才加入是为了参与"造神"级别的AI研发项目[1] - 超级智能实验室为人才提供直接向CEO汇报的权限及无上限的GPU资源支持[2] - 计划投入数百亿美元建设GW级计算集群,目标构建"超级人工智能"[4][5] GW级计算集群建设 - 定义:GW集群指功率达吉瓦级(1GW=1000MW)的超级计算设施,远超传统超算中心几百MW的规模[3][9] - **Prometheus项目**:选址俄亥俄州,1GW功率,2026年上线,采用混合基础设施策略支持生成式AI训练[12][13][15] - **Hyperion项目**:选址路易斯安那州,首期1.5GW(2030年),最终扩展至5GW,将成为全球最大单体AI数据中心园区[16][17][19] - 能源解决方案:配套建设两座200MW天然气发电厂以保障电力供应[25][26] 开源与闭源路线争议 - 公司内部对Llama系列开源路线存在分歧,部分高管主张转向闭源模型开发[30][37] - 新一代开源模型Behemoth因训练效果不佳推迟发布,原计划6月推出但至今未公布[39][40][43] - 超级智能实验室负责人Alexandr Wang暗示可能转向闭源,但最终决策权在CEO[46][48][49] 行业竞争动态 - 公司面临字节跳动轻量化MR眼镜"Swan"(100克)的潜在挑战,需应对可穿戴设备市场竞争[50][51][52] - Meta已暂停Quest系列开发,转向轻量化智能眼镜Orion以应对市场变化[53][54] 资源与环保争议 - GW级集群耗电量相当于数百万家庭用电,可能引发社区资源争夺[22][23] - 乔治亚州数据中心项目曾导致居民用水短缺,引发公众批评[24][28]
Windsurf打工人被谷歌做局24小时后获收购!华人AI编程明星出手,接收250名员工
量子位· 2025-07-15 08:34
AI编程赛道收购事件 - 谷歌以24亿美元挖走Windsurf创始团队及核心研发人员,并入Google DeepMind团队 [1][2] - 谷歌采用"人才收购"模式,仅获得部分技术非独家授权,未取得公司控制权 [3][11][12] - Windsurf剩余资产和团队在72小时内被AI编程智能体Devin开发商Cognition收购 [1][13] 交易细节 - Cognition收购内容包括Windsurf全部知识产权、产品线、品牌及剩余250多名员工 [15] - Windsurf年经常性收入(ARR)达8200万美元,企业客户ARR环比翻番,拥有350多家企业客户 [15] - Cognition与Anthropic达成协议,恢复Windsurf对Claude AI模型的完全访问权限 [17] 员工待遇对比 - 谷歌收购导致Windsurf剩余员工股权期权面临归零风险 [3] - Cognition承诺100%员工可获得经济收益,免除股权归属悬崖期,加速全部股权归属 [16] 行业竞争格局 - AI编程赛道竞争激烈:Cursor年化收入5亿美元估值100亿美元,GitHub Copilot年收入超3亿美元 [20] - 巨头战略意图:OpenAI欲抗衡微软GitHub,谷歌强化Gemini生态,Anthropic推出Claude Code [20] - 创业公司面临"站队或被收购"困境,微软和谷歌此前均有类似拆解创业公司案例 [21] Cognition发展现状 - Cognition成立于2023年,其AI软件工程师Devin为全球首个同类产品 [25] - 公司3月曾洽谈40亿美元估值融资,近期拿下高盛作为重要客户 [28] - 计划整合Windsurf的IDE与Devin技术,打造更强大AI编程工具 [19][24] 交易时间线 - OpenAI曾计划30亿美元收购Windsurf,被Anthropic切断Claude API支持阻挠 [7][8] - Cognition从首次接触(周五下午)到签署协议(周一早上)仅用不到72小时 [14]
刘璐也被Meta挖走了!华南理工校友,创造了4o吉卜力爆款
量子位· 2025-07-15 08:34
核心观点 - Meta近期从OpenAI挖角多名核心研发人员,包括GPT-4o图像生成功能的主要开发者刘璐和Allan Jabri,加速其AI人才布局 [1][5][6][30] - 刘璐作为GPT-4o"吉卜力风"的创造者,技术背景深厚,曾在谷歌参与Gemini研发并拥有多项学术突破 [2][8][16][21][23] - Meta的挖角策略聚焦OpenAI华人技术骨干,其"超级智能实验室"已吸纳至少10名华人专家,其中8人来自OpenAI [34][35][36] 人才流动 - 刘璐从OpenAI转投Meta仅入职一年,此前在谷歌DeepMind参与Gemini图像感知模块开发,并主导了GPT-4o的吉卜力风格图像生成功能 [2][21][23] - 同期被挖的Allan Jabri为GPT-4o核心架构师,曾在Meta旗下FAIR工作两年,此次属于回归老东家 [30][31][32] - Meta近期还挖走OpenAI苏黎世办公室ViT核心作者团队,持续扩大AI人才储备 [36] 技术成就 - 刘璐开发的GPT-4o吉卜力功能上线10天即吸引1.3亿用户,生成超7亿张图像,成为现象级产品 [26] - 其学术贡献包括:参与谷歌Gemini模型(论文引用5030次)、开发NAS算法评估基准NATS-Bench(引用1093次) [16] - 研究领域涵盖元学习、少样本学习及图神经网络,在NeurIPS/AAAI/IEEE TKDE等顶刊发表多篇论文 [13][17] 教育背景 - 刘璐本科以3.84 GPA毕业于华南理工大学电子科学与技术专业,曾获全国信息学奥赛省级一等奖 [8][9] - 在悉尼科技大学获机器学习博士学位,导师为AAII研究所龙国栋教授,研究隐私保护AI及设备端智能 [10][12][18] 行业影响 - Meta通过开源策略吸引OpenAI技术骨干,可能加速实现GPT级别模型的开源化 [7] - OpenAI仍保留部分顶尖华人研究员,如ICLR 2025获奖者漆翔宇、DALL-E 3贡献者Li Jing等 [41] - 人才争夺反映AI行业竞争白热化,Meta近半年已从谷歌/苹果/OpenAI等多方吸纳专家 [35][36][41]
B站下场自研AI配音!纯正美音版甄嬛传流出,再不用看小红书学英语了(Doge)
量子位· 2025-07-14 17:08
AI配音技术发展 - B站发布的IndexTTS2模型实现音色、情感与唇形同步的AI配音,支持时长精确控制和自动生成两种模式[3][11][12] - 模型在LibriSpeech-test-clean等测试集中多数达到SOTA水平,情感测试WER仅1.883%[22][24] - 时长控制误差小于0.02%,支持独立调节音频与情绪表达[19][25] 技术实现架构 - 首创自回归零样本TTS模型,结合精确时长控制与自然生成[33] - 三大核心模块:文本到语义(T2S)、语义到语音(S2M)、BigVGANv2声码器[36][38] - 创新采用情感适配器与梯度反转层分离情感与说话者属性[41][42] 性能验证 - 消融实验显示GPT潜在表征提升发音清晰度,S2M模块显著改善合成质量[26][28] - 在AIShell-1测试中SS指标仅落后真实语音0.004,WER误差0.038%[23] - 情感测试SMOST达4.24±0.19,显著优于MaskGCT等对比模型[25] 应用场景拓展 - 模型适用于视频配音等需音视频同步的领域[32] - 可能整合进B站"代号H"AI创作工具,支持视频播客战略[47][49] - 社区反馈显示潜在娱乐应用价值,如搞笑视频制作[9]
腾讯混元A13B用130亿参数达到千亿级效果,Flash Attention作者点赞
量子位· 2025-07-14 17:08
Hunyuan-A13B团队 投稿 量子位 | 公众号 QbitAI 腾讯混元,在开源社区打出名气了。 最新的 Hunyuan-A13B 模型仅凭借130亿激活参数,能和千亿级大模型掰手腕,引发全球开发者热议。 Flash Attention作者、普林斯顿大学计算机系教授 Tri Dao 都来赞叹它的性能和效率优势。 ArtificialAnlysis 团队还提供了具体性能数据,指出混元A13在其评测基准中领先于Qwen3 8B和14B,但落后于更大模型。能在单H200 GPU上以FP8精度运行。 模型API已经在腾讯云上线,输入价格每百万Tokens仅需0.5元,输出价格为每百万Tokens 2元。 精准卡位"甜蜜点",一张中端GPU就能跑 当前大模型圈有个让人纠结的现象:想要效果好就得用满血版大模型,但一看推理费用直接劝退一大批业务。 腾讯混元这次推出的Hunyuan-A13B,瞄准的就是这个痛点。 这款模型采用了细粒度MoE(混合专家)架构,总参数规模达到800亿,但每次推理只需激活130亿参数。这种设计让它在保持强大智能的同 时,推理吞吐量比同类前沿模型提升超过100%。 再加上原生支持的256K超长 ...
Kimi K2里找到了DeepSeek V3架构
量子位· 2025-07-14 15:01
Kimi K2模型表现 - Kimi K2模型在多个benchmark上取得SOTA成绩,被评价为自Claude 3.5 Sonnet以来首个能用于生产力级别任务的模型[1] - 模型总参数1T,激活参数32B,在代码、Agent、数学推理任务表现突出[35] - 实测显示K2生成的前端代码量是初始模型的2.6倍(10.7KB vs 4KB),游戏功能更丰富[49][51] - 工具调用能力强大,可生成包含实时购票链接的完整旅游攻略[66][67][68] - 创意写作测试中能生成富有哲理的"宇宙告别信"[74] 开源策略分析 - 选择开源路线主要基于三点:获取市场关注度、借助社区力量完善生态、倒逼模型技术进步[12][14][18] - 开源版本包括基础预训练模型Kimi-K2-Base和指令微调版Kimi-K2-Instruct[15][16] - 采用修改版MIT协议,仅对月活超1亿或月收入超2000万美元的产品要求标注来源[36] - 开源24小时内社区即出现MLX实现和4bit量化等衍生成果[14] 公司战略调整 - 年初停止所有营销投放,转向依靠模型硬实力获取市场认可[20][22] - 集中资源研发基础算法,放弃K1系列更新全力投入K2开发[23] - 坚持基础模型研发路线,未跟随行业转向Agent产品热潮[24][25] - 实施产品范式转型,从chat-first转向artifact-first交互模式[31] 行业竞争动态 - OpenAI开源模型因"安全考量"无限期推迟,引发是否受K2影响的猜测[2][3][76] - 传闻OpenAI模型参数远小于K2(<<1T)但性能强大,因技术问题需重新训练[79][81] - 模型架构被指借鉴DeepSeek V3,公司回应为合理技术参考[5][85]