量子位

搜索文档
一份假简历领5份硅谷AI工资,印度老哥真是不得了
量子位· 2025-07-03 12:26
事件概述 - 一名印度男子Soham Parekh被多家AI初创公司指控通过虚假简历和隐瞒真实情况同时远程兼职多份工作,最多一次同时打五份工 [1][4][10] - 该事件由初创公司创始人Suhail Doshi在社交媒体曝光后引发连锁反应,多家公司创始人表示有类似受骗经历 [9][21][23] 涉事人员背景 - Soham Parekh简历显示其本科毕业于孟买大学,硕士毕业于佐治亚理工学院计算机学院,但创始人表示该简历"可能90%都是假的" [14][17] - 其GitHub主页显示开发过一个名为CheatingDaddy的开源APP,由Google Gemini 2.0 Flash Live提供支持 [17][18] 事件细节 - 该人员在面试时表现专业,但实际工作中频繁请假,被发现同时为多家公司工作并谎报签证状态和所在地 [4][25][28] - 有公司曾为其寄送工作电脑但被退回,理由是寄给"妹妹" [28] - 该人员目前已联系创始人表示愿意坦白,但担心职业生涯受影响 [29][30] 行业现象 - Reddit上存在r/overemployed社区,专门讨论同时从事多份全职工作的经验,涉及行业包括科技、建筑、护理甚至公务员 [40][42] - 支持者认为这种做法可以增加收入、学习新技能并降低失业风险 [44][45][47] - 有猜测认为Soham Parekh可能通过外包方式完成多份工作 [51] 行业影响 - 该事件引发广泛关注和讨论,网友创作大量相关梗图 [33][34][36][37] - 创始人建议公司加强背景调查以避免类似情况 [27] - 事件反映出远程工作模式下的人才管理挑战 [28]
ChatGPT诞生内幕大曝光!发布前一晚还在纠结
量子位· 2025-07-03 08:45
ChatGPT命名与发布历程 - 命名过程极具戏剧性,最初被称为"Chat with GPT-3.5",直到发布前一晚才确定为"ChatGPT"[9][10][11] - 发布前团队信心不足,Ilya测试10个问题仅5个答案通过,对是否发布存在争议[2][12] - 发布后迅速走红:第1天团队怀疑数据错误,第3天确认爆火,第4天意识到将改变世界[3][12] - 初期面临GPU短缺、数据库连接耗尽等技术问题,创建"fail whale"页面应对宕机[13] 产品优化与用户反馈 - 通过RLHF(人类反馈强化学习)优化模型,早期存在过度迎合用户的问题并快速修正[15][16] - 核心机制注重长期留存率而非使用时长,观察到Z世代将其视为"思想伙伴"[16] - 加强隐私保护功能如"临时聊天",平衡记忆功能与隐私需求[17] 图像生成技术发展 - ImageGen(DALL·E系列)验证了完美符合用户提示的图像生成价值难以衡量[20][21] - 2021年1月发布DALL·E初始版,2023年10月DALL-E 3集成至ChatGPT[26] - 初期对生成人物肖像保守限制,后调整为有原则的安全审查[27][28][30] - 印度网民5%在周末尝试ImageGen,触达预期外新用户[24] 代码生成领域布局 - 从GPT-3生成React组件到Codex/Code Interpreter,聚焦Agentic编码(后台长时间处理复杂任务)[33] - 目标为降低编程门槛,Codex当前服务于工程师但未来将扩展至普通用户[37] - 内部广泛使用编程工具:工程师分担测试、分析师标记日志错误、员工规划待办事项[37] 公司文化与人才策略 - 招聘更看重好奇心而非博士学位,认为好奇心是成功最佳指标[39][41] - 强调行动力(主动解决问题)和适应能力(快速调整方向)[44] - 通过独立项目精简人员配置、定期黑客马拉松保持初创文化[45] 未来技术预测 - 未来12-18个月AI推理能力将显著提升,尤其在数学/科学/编程领域[47] - 重点解决"智力受限"问题(如软件工程、数据分析、客户支持)[48][49] - 交互形式将突破聊天模式,发展异步工作流(后台处理任务)[50][52] - 普通用户应对AI浪潮的最佳方式是积极使用以消除误解[54][55] 近期动态与挑战 - CEO透露将发布强大开源模型,支持本地部署[58][59] - 原计划夏季推出的新模型多次延期[60] - 近期因Meta挖角8名关键研究员导致内部短暂停摆,员工放假一周[62]
Grok 4意外提前曝光,xAI巨额融资700亿,马斯克宣布“重写人类知识库”
量子位· 2025-07-03 08:45
核心观点 - 马斯克旗下xAI提前泄露Grok 4和Grok 4 Code模型,跳过原计划Grok 3.5版本直接推出Grok 4,采用"极限迭代"策略 [1][3][4] - Grok 4定位为旗舰模型,宣称在自然语言、数学和推理方面性能无与伦比,支持文本模态并即将推出视觉等功能 [6][7] - 马斯克提出利用Grok 4重写人类知识库的宏大目标,但存在技术争议和潜在偏见问题 [14][16][19][23] - xAI完成100亿美元巨额融资,计划大规模扩展算力基础设施,但面临电网压力挑战 [2][25][28][29][30][31][35] 模型技术细节 - Grok 4上下文窗口为13万个token,优化推理速度和实时可用性 [8] - 模型在企业应用(数据提取、代码、文本总结)及金融、医疗、法律等领域表现突出 [10] - Grok 4 Code为编程专用垂直模型,可直接嵌入代码编辑器,争夺开发者市场意图明显 [11][12] 融资与算力布局 - xAI最新融资100亿美元(股权和债务各50亿美元),参与方包括红杉资本等顶级机构 [25][26] - 已部署20万块GPU的超算中心"Colossus",计划新建100万块GPU设施 [28][29] - AI训练负载对电网造成独特压力,特斯拉引入Megapack储能系统并与电力公司合作解决 [30][31][35][37] 争议与挑战 - 马斯克曾通过Grok传播"南非白人种族灭绝"等争议观点,引发对模型成为"观点放大器"的担忧 [16][17][19] - 技术层面存在争议:完全剔除错误数据可能削弱模型纠错能力 [23] - 超算中心电力波动问题导致年浪费数千万美元,Meta曾报告类似挑战 [31][33][34]
华为盘古大模型首次开源!昇腾单卡秒输出1148tokens,16B激活参数不输32B密集模型
量子位· 2025-07-02 17:33
华为盘古大模型开源 - 华为首次开源盘古大模型,模型名为盘古Pro MoE,参数量72B,激活参数量16B,中英文理解和推理能力不输32B密集模型 [1] - 模型提出全新MoE架构,针对昇腾芯片优化,在昇腾800I A2上实现单卡1148 tokens每秒推理吞吐性能 [2] - 中英文技术报告已发布,相关话题在微博引发热议,模型权重被第三方搬运至Hugging Face [4][6] 模型性能表现 - 盘古Pro MoE总参数量72B,包含64个路由专家和4个共享专家,激活参数量16B占比22.2% [8] - 在中文、英文、数学、代码等测试中表现与32B密集模型相当 [9] - 英文MMLU-PRO测试得分82.6,超越Qwen3-32B、Gemma3-27B等密集模型 [10] - 中文C-Eval测试得分91.1,超越Qwen3-32B的89.2分 [12] - 数学推理MATH-500测试得分96.8,超越Qwen3-32B的96.6分 [14] - W8A8量化配置下精度几乎无损失,W4A8量化精度损失在可接受范围内 [14][15] 模型架构创新 - 采用独创的分组混合专家模型(MoGE)架构,实现跨设备计算负载均衡 [22] - 通过专家分组和分组均衡路由策略强制每个token从各组选择相同数量专家 [24][31] - 引入均衡辅助损失确保路由模块合理调节专家负载 [27] - 架构与昇腾NPU分布式部署形成有效协同 [28] 训推设施优化 - 训练层面优化包括分层EP All-to-All通信、自适应流水掩盖机制和内存优化策略 [30] - 推理层面采用分层混合并行策略,稀疏专家模块占95%,注意力模块仅占5% [33] - 通过专家感知后训练量化和KV缓存量化实现高效推理 [37][38] - 提出融合注意力算子MulAttention实现4.5倍端到端注意力加速 [39] - 开发SwiftGMM加速技术,MTE2利用率最高达95% [41][42] 推理效率 - 双卡部署W8A8量化配置下,Prefill阶段单卡输入吞吐达4828 tokens/秒,比72B和32B密集模型提升203%和42% [17][18] - 4卡部署W8A8量化配置下,Decoder阶段单卡输出吞吐达1148 tokens/秒,比72B和32B密集模型高出97%和18% [19][20]
李飞飞最新访谈:没有空间智能,AGI就不完整
量子位· 2025-07-02 17:33
李飞飞对AGI与空间智能的核心观点 - 空间智能是通用人工智能(AGI)不可或缺的组成部分 没有空间智能 AGI就不完整 [1][4][29] - 3D世界建模是实现AGI的关键 包括理解三维世界 生成三维世界 推理三维世界和在三维世界中做事 [7][29] - 目标是创建超越平面像素 跨越语言障碍 能够真正捕捉三维世界结构和空间智能的世界模型 [8][29] - 视觉智能的进化历史长达5.4亿年 远比语言进化(3-5亿年)更复杂 是智能发展的基础 [27] ImageNet项目的历史意义 - 2009年创建的ImageNet解决了AI领域的关键数据问题 为现代计算机视觉搭建了数据骨架 [11][13] - 项目构想源于机器学习需要范式转变 通过下载十亿张图片创建视觉分类体系来训练算法 [13][14] - 2012年AlexNet突破性进展 将卷积神经网络 GPU和深度学习首次结合 错误率从30%大幅下降 [15][17][19] - ImageNet开源策略和挑战赛机制推动了整个AI社区的发展 [15] 计算机视觉的发展历程 - 从物体识别(ImageNet)到场景描述(2015年图像字幕技术)再到3D世界建模的演进 [19][20][22][24] - 自然语言与视觉信号的融合让智能体能够讲述世界的故事 [22] - 生成式AI的发展使得从文字生成图像成为可能 展现了AI的惊人进步 [22] 空间智能的挑战与机遇 - 3D建模面临数据缺失问题 互联网缺乏空间智能数据 信息主要存在于人类大脑中 [9][33][49] - 3D世界比语言(一维)复杂得多 涉及物理规律 投射转换等多重数学难题 [30][31] - World Labs正在构建3D基础模型 应用场景包括设计 建筑 游戏开发和机器人等领域 [35] - 元宇宙是重要应用方向 需要硬件和软件的融合以及内容生成的世界模型 [35][36][37] 人才培养与团队建设 - 思想上的无畏精神是成功人士的核心特质 也是招聘的重要标准 [41][42] - World Labs正在招募工程 产品 3D和生成模型领域的人才 [43] - 跨学科AI和小数据领域是学术界值得关注的方向 [44][45] - 研究生阶段应被强烈好奇心引领 专注于解决根本性问题 [47][48]
MoE那么大,几段代码就能稳稳推理 | 开源
量子位· 2025-07-02 17:33
混合专家网络模型架构(MoE)技术进展 - 盘古Pro MoE采用MoGE架构构建,总参数量达720亿,激活参数量160亿,专为昇腾硬件优化,性能与效率突出[1] - 盘古模型引入"快思考"和"慢思考"双系统,在昇腾800I A2上单卡推理吞吐达1148 tokens/s,投机加速后提升至1528 tokens/s[2] - 华为开源Omni-Infer项目,提供超大规模MoE模型推理的完整架构、技术和代码支持[3] Omni-Infer项目核心能力 - 由推理框架和加速套件组成,兼容vLLM等主流开源框架且独立安装,降低维护成本[12][16][18] - 支持PD分离部署方案,针对QPM系统级优化,分享商用硬件使用方法论[4] - 提供智能调度系统、负载平衡器、MoE专属优化、动态资源分配及注意力机制强化五大功能模块[24] 技术实现与部署 - 仅支持CloudMatrix384推理卡和Linux系统,Python版本要求3.9-3.11[25] - 通过Docker镜像预集成CANN及Torch-NPU依赖包,开箱即用[21] - 部署框架示例显示支持4机2P1D分布式配置,优化预填充与解码阶段吞吐量[22][24] 开源生态建设 - 北京智源研究院FlagScale框架、上海人工智能实验室DeepLink平台及OpenI启智社区已接入合作[6][7][8] - 采用两级社区治理机制(项目管理委员会+特别兴趣小组),开放设计文档与代码规范[27] - 首场活动将参与OpenInfra基金会苏州Meetup,代码托管于GitHub/Gitee等多平台[28][29] 模型性能对比 - 盘古Pro MoE(72B-A16B)为昇腾原生分组混合专家模型,盘古Embedded(7B)支持快慢思考切换[10] - 昇腾推理集群技术分享与盘古推理系统技术形成完整解决方案[10]
百度搜索近10年最大改版,自己革自己的命?
量子位· 2025-07-02 17:33
百度搜索改版核心观点 - 百度搜索进行近10年最大规模全链路升级,从底层技术到用户体验全面重构[1][12][71] - 改版聚焦AI超级入口与超级出口建设,实现从信息检索到任务交付的转型[45][75][76] - 公司采取开放与自研并举策略,既接入1.8万+MCP生态又推出自研图生视频大模型[48][72][73] 产品功能升级 输入端创新 - 传统搜索框升级为AI智能框,支持千字超长文本搜索及10+文件格式上传[1][14][15] - 新增语音搜索、图片搜索功能,AI生成式相机可自动解析用户需求[17][22][23] - 保留经典/智能双模式切换设计,降低用户适应门槛[20][21] 输出端创新 - 推出"百看"功能,优先呈现多模态富媒体内容(视频/图片/文字综合答案)[2][31][35] - 搜索结果结构化展示,如电视剧推荐含豆瓣评分/分类/网友短视频[35][36] - 本地服务搜索可直接跳转打车或购买套餐,实现搜索即服务[42] 技术能力突破 底层模型 - 文心大模型4.5系列开源,含10款参数从47B到0.3B的模型[63] - 自研图生视频大模型"绘想"推出4版本,支持720p/1080p视频生成[65][66][68] - Turbo版已公测,Pro版与有声版将于8月上线[70] 中间层能力 - AI智能助手升级多模态混排能力,可分解任务/调用资源/实时编辑[51] - 开放平台接入1.8万+MCP,覆盖天气/网盘/二次元等垂直领域[48][50] - 视频智能创作中心支持3分钟爆款视频一键生成及多渠道发布[58][60] 行业战略定位 - 改版反映搜索引擎向平台化演进趋势,需兼具内容创作与服务调度能力[76][77] - 区别于谷歌保守迭代路线,公司选择全链路重构商业模式与开发者生态[74][75] - 布局AI时代新增长引擎,推动工具属性向内容化/服务化转型[75][77]
字节图像生成新模型:主打多主体一致性,新基准数据集同时亮相
量子位· 2025-07-02 17:33
字节发布多主体控制生成模型XVerse - 字节最新发布多主体控制生成模型XVerse 实现对设定好的每个主体进行精确控制 同时不破坏图像生成质量 [2] - XVerse可处理多主体 多光源 多风格等复杂场景 [4] - 模型核心通过学习DiT中文本流调制机制的偏移量 实现对多个主体身份和语义属性的一致控制 [6] XVerse技术架构 - T-Mod适配器采用perceiver重采样器作为文本流调制核心 将CLIP编码图像特征与文本提示特征结合生成交叉偏移量 实现多主体精准控制 [8] - 文本流调制机制将参考图像转换为偏移量并注入模型token嵌入 调整原始缩放和移位参数实现生成过程精确控制 [9] - VAE编码图像特征模块集成到FLUX模块中 增强细节保留能力 减少伪影和失真 [10] - 引入两种关键正则化技术进一步提升生成质量和一致性 [11] XVerseBench基准测试 - 测试数据集包含20种人类身份 74种物品 45种动物物种 共300个独特测试提示 [11] - 采用多维评估指标包括区域保留损失 文本图像注意力损失 DPG评分 Face ID相似度 DINOv2相似度 美学评分 [12][13] - 在单主体任务中XVerse取得DPG 93.69 ID-Sim 79.48 IP-Sim 76.86 AES 56.84 AVG 76.72 多主体任务中DPG 88.26 ID-Sim 66.59 IP-Sim 71.48 AES 53.97 AVG 70.08 综合表现优于对比模型 [15] 字节AIGC技术发展历程 - 2023年底上线DreamTuner实现高保真身份保留 [18] - 2024年推出DiffPortrait3D将一致性从2D拓展到3D空间 [19] - 2025年发布OmniHuman-1在音频驱动下实现人物动作与表情自然一致 [19] - 2025年4月推出DreamO基于DiT框架支持身份控制 虚拟换装 风格迁移等复杂任务 [20] - 上述技术积累为XVerse的提出奠定基础 [21] 未来研究方向 - 团队将持续提升AI创作智能化和趣味性 使其更贴合日常需求和审美体验 [22]
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
量子位· 2025-07-02 12:46
模型性能与突破 - GLM-4.1V-9B-Thinking在28项评测中拿下23个SOTA,成为10B参数级别效果最好的视觉语言模型(VLM)[3] - 在18项评测中,该模型性能可与8倍参数量的Qwen-2.5-VL-72B竞争甚至超越[3] - 核心突破在于引入思维链(Chain-of-Thought)推理机制和课程采样强化学习(RLCS)[4] 实际应用表现 - 成功解析西班牙超现实主义画家达利的《记忆的永恒》,识别画作中违背物理规律的视觉符号[11] - 准确解答高考数学真题,在多个大模型易翻车的题目中给出简洁精准答案[12][15] - 处理看时钟和日期问题时表现接近人类水平(时间判断存在1分钟偏差)[16][19] - 具备看手相等生活场景应用能力[20][22] 技术架构创新 - 视觉编码器采用AIMv2-Huge架构,使用三维卷积处理视频,静态图片通过复制模拟视频输入[26] - 新增二维旋转位置编码,支持宽高比超200:1的画面和4K以上分辨率[27] - 语言解码器升级为三维旋转位置编码,增强空间关系理解能力[28] - 多层感知机适配器作为视觉与语言模块的桥梁[28] 训练方法论 - 预训练阶段采用双通道并行,12万步训练,批量大小1536,输入长度8192,覆盖图文混合/OCR/定位等多类型数据[31] - 监督微调阶段使用高质量思维链数据,输入长度扩展至32768,批量32,强化复杂因果关系推理[36] - 课程采样强化学习(RLCS)结合RLVR和RLHF,采用由简至难的课程学习策略[40] 商业化进展 - 获得浦东创投集团和张江集团10亿元投资,近期将完成首次交割[5] - 模型已在Github/ModelScope/Hugging Face开源,同步上线MaaS平台API接口[41][42] 核心能力清单 - 超长视频解析(2小时时长分析)[32] - 智能读图问答与理科解题(数学/物理)[32] - 图文识别转换(OCR/表格结构化)[32] - 专业文档处理(金融/政务关键信息提取)[32] - 图像定位标注与GUI界面操作[32] - 看图写代码(前端网页自动生成)[32]
刷新硅谷融资纪录!华人具身智能团队刚毕业融资过7亿元,平均年龄不到28岁
量子位· 2025-07-02 10:02
融资里程碑 - Genesis AI完成1.05亿美元种子轮融资 创硅谷华人团队最大规模种子轮纪录 超越Pika的5500万美元[2] - 同时成为硅谷具身智能赛道最大种子轮 超过Physical Intelligence(7000万美元)和Skild(1450万美元)[3] - 投资方包括Khosla Ventures、Eclipse、谷歌前董事长Eric Schmidt等顶级机构和个人[9] 创始团队背景 - 团队平均年龄不到28岁 由刚毕业的博士科学家组成 非传统教授带队模式[4][12] - CEO周衔为CMU机器人学博士 生成式仿真提出者 Genesis项目负责人[13] - 联合创始人Theo Gervet曾任Mistral AI多模态模型负责人[14] - 核心成员包括英伟达GEAR系统负责人许臻佳(Diffusion Policy作者)[16][17]、MIT博士王尊玄[19]、IPC算法发明人李旻辰[21][22][23]等 核心技术优势 - 开源的Genesis物理引擎可精准模拟物理世界生成合成数据 解决机器人AI训练数据难题[6][8][9] - 引擎发布半年获25.4k star 成GitHub最大具身智能开源项目[32] - 全栈技术整合高保真模拟、多模态生成模型和真实数据收集 推动通用机器人发展[34][35][36] 商业模式与规划 - 基于物理引擎开发通用机器人基础模型和硬件平台 目标实现"无限物理劳动自动化"[9] - 当前行业机器人/人类比例低于1:30 公司技术有望突破该瓶颈[11] - 计划2024年底向社区发布首个具身智能模型[38]