Workflow
量子位
icon
搜索文档
大模型公司挖墙脚哪家强?报告:Anthropic人才吸引力是OpenAI的8倍,留存率达80%
量子位· 2025-06-05 13:00
人才留存与流动 - Anthropic的顶尖AI人才留存率达到80%,显著高于行业平均水平 [1][10] - 工程师从OpenAI跳槽到Anthropic的可能性是反向跳槽的8倍 [1][20] - DeepMind人才流向Anthropic与反向流动比例接近11:1 [20] 人才来源与竞争 - Anthropic主要从OpenAI和DeepMind精准挖角 [16] - 谷歌、Meta、微软、亚马逊等科技巨头也是Anthropic重要人才来源 [2][3][24] - 从谷歌、Meta、微软、亚马逊跳槽到新兴AI实验室的员工占比分别为5.4%、4.3%、3.2%、2.7% [25] 企业文化与吸引力 - Anthropic企业文化强调包容非传统思维者,给予员工高度自主权 [21] - 公司提供灵活工作选择,无强制管理晋升路径 [21] - Claude产品成为开发者心头好,影响工程师职业选择 [22] 行业人才动态 - AI领域人才争夺进入白热化阶段 [29] - Anthropic由前OpenAI员工联合组建,包括多名OpenAI核心成员 [30][31][33] - 新兴AI实验室Thinking Machines Lab种子轮融资达20亿美元,估值超100亿美元 [34][35] 公司扩张与职位需求 - Anthropic职业页面列出超200个职位,OpenAI列出近330个 [38] - 行业更看重"人才密度"而非"人才规模" [40]
大神Karpathy炮轰复杂UI应用没有未来,Adobe首当其冲,网友:不提供文本交互,就是在阻挡AI浪潮
量子位· 2025-06-05 13:00
应用软件未来发展趋势 - 核心观点:在AI协同时代,仅依赖复杂UI界面的应用将被淘汰,文本交互能力成为关键竞争力[1][2] - Adobe和CAD等专业软件因缺乏文本交互功能被列为高风险淘汰对象[2][13] - 软件需满足"氛围式编程"需求,即实现UI操作与文本指令的双向转换机制[3][4][12] 应用软件风险等级划分 - Karpathy根据UI/文本含量将应用划分为四个风险等级,但未披露具体标准[5][6] - 纯UI界面软件被判定为"没有未来",因其阻碍AI集成[8] - 开发者需主动改造UI架构而非等待AI技术进步[7] 行业争议焦点 - 支持方认为专业软件(如Photoshop、CAD)需打破UI壁垒以适配AI[13][14] - 反对方主张专业软件的特殊性,认为AI应适应人类操作习惯而非相反[16] - 折中方案提出UI应构建在文本底层上,形成可转换的混合交互模式[12][18] AI编程范式变革 - 当前LLM编程存在"重生成轻判别"缺陷,代码验证仍是人工瓶颈[27][29] - 编程本质是代码验证而非编写,需降低验证负担才能提升整体效率[28][29] - 新型AI编程工具探索二维可视化代码库等创新验证方式[33] 技术基础设施需求 - 行业呼吁建立AI规范语言(ASL)以统一开发标准[19] - 不同媒介的验证难度排序:图像<文本<音频[25] - "验证差距"成为AI应用核心瓶颈,需加强判别阶段研究[20][21][23]
曝苹果AirPods推出睡眠检测等5大新功能,iOS系统也有12年来首次界面设计大改
量子位· 2025-06-05 13:00
AirPods新功能 - AirPods即将在WWDC25大会上迎来五大新功能 主要围绕用AirPods直接控制iPhone展开[1][2] - 五大新功能包括:用AirPods控制iPhone相机 睡眠自动暂停 支持通过头部动作控制AirPods 新增"录音室品质"麦克风模式 简化教室场景中AirPods连接iPad的方式[5] - 用AirPods控制iPhone相机功能允许用户通过点击耳机柄远程触发iPhone或iPad相机[7][9] - 睡眠自动暂停功能将解决用户戴着AirPods入睡时音乐持续播放的问题 可能独立推出或与Apple Watch搭配使用[10][12] - 头部动作控制功能新增对话感知音量调节 通过头部动作实现目前需要操作耳机柄才能完成的功能[13] - "录音室品质"麦克风模式将AirPods打造成专业级领夹式麦克风 提供三种语音选项:In-frame Studio和Cinematic模式[15][17][18] - 教室场景优化功能将简化多台AirPods连接同一iPad的流程 减少手动操作步骤[19][20] iOS系统更新 - WWDC25将推出自iOS 7以来最大规模的操作系统重新设计[22] - 新系统iOS 19(可能命名为iOS 26)将引入物理质感设计 UI元素具备立体感和动态光线响应 模仿现实物体的物理特性[23][25][26] - 视觉设计更新包括:动态玻璃效果 升级版动态岛 Siri动画拟态为"发光气体" 图标重绘 标签栏改为半透明浮动面板[33] - 新功能包括:自动翻译 信息中增加聊天投票 锁屏全屏动态专辑封面 备忘录支持Markdown导出[29] - 本次更新重点在于设计革新和用户长期期待的功能 而非AI领域[30]
上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下
量子位· 2025-06-05 13:00
核心观点 - 上海人工智能实验室联合多家单位提出全新通用具身智能大脑框架VeBrain,集成视觉感知、空间推理和机器人控制能力,实现多模态大模型对物理实体的直接操控[1] - VeBrain在视觉感知、空间推理和机器人控制能力上同时取得最先进性能,相比现有框架平均提升31.5%[4][17] - 模型通过统一语言建模范式、机器人适配器模块和高质量数据集VeBrain-600k实现三大能力协同[2][9][10] 技术架构创新 - 将机器人控制重构为关键点检测和技能识别两个通用MLLM子任务,实现统一输入输出空间[5][6][7] - 机器人适配器模块由点追踪器、运动控制器、策略执行器和动态接管组成,实现文本到动作的闭环控制[9][13] - 提出多模态链式思维标注方法,提升模型组合推理能力[2][10] 数据集构建 - 构建VeBrain-600k数据集,包含60万条指令数据,覆盖多模态理解(20万条)、空间推理(31.2万条)和机器人控制(8.8万条)三类任务[10][14] - 数据采用GPT-4o与Gemini自动生成推理过程并经专家复核,提升任务复杂度[10] 性能表现 多模态能力 - 在13个多模态benchmark上平均得分77.1,超越GPT-4o(76.5)和Qwen2.5-VL(76.9)[19] - 在MMVet(+5.6%)、DocVQA(94.4分)等任务表现突出[19] 空间推理能力 - 在ScanQA(CIDEr 101.5)和ScanRefer(Acc@0.25 66.4%)刷新纪录,超越专业模型GPT4Scene-HDM[20][21] - VSI基准测试平均得分86.4,比Qwen2.5-VL高出44.3%[22] 机器人控制 - 在复杂寻找任务成功率80%,相比现有MLLM提升70%[16] - 四足机器人长程任务成功率提升50%,机械臂任务表现显著优于π0模型[24]
突破视频时长限制!Manus上架视频生成功能,网友:比Sora更好
量子位· 2025-06-04 17:14
一水 发自 凹非寺 量子位 | 公众号 QbitAI Manus疯狂更新,视频生成也来了! △ 源自:Manus官方账号 和大多数视频生成AI不同,Manus这次 可以通过连续拼接突破视频时长限制 。 举个栗子,虽然Manus"自述"目前只能通过文本/参考图像生成5s视频,但面对用户提出的15s视频请求,它能根据主题单独生成3个5s视频, 并最终自动合成一个完整故事。 △ 源自:@いしたにまさき 按照官方的说法,仅需一个提示: Manus就能规划每个场景、制作视觉效果,并将您的愿景生动地呈现。 在这种颇具 "智能体style" 的全新视频生成方式中,视频生成开始与Manus平台的其他功能组合发挥作用。 比如根据上图中的提示词,生成《山海经》中的神话形象,并且还需要创建一个类似TikTok的短视频平台来展示。 最终效果be like: 不过 目前该功能仅限Manus会员使用 ,普通用户还要再等等。 第一波网友测试repo 与此同时,第一波氪金选手的测试也新鲜出炉了。 分享更多例子之前,我们先来康康 Manus生成视频需要经历几个步骤 。 比如最终结果是下面这个视频: △ 源自:@いしたにまさき 制作一部日式风格 ...
清华推出AI数学家!独立完成数学理论难题,自动调用基本定理、构建证明思路
量子位· 2025-06-04 17:14
清华AIM团队 投稿 量子位 | 公众号 QbitAI AI数学家 来了!清华团队出品—— 他们推出 AI Mathematician(AIM)框架 ,推理模型也能求解前沿理论研究,并且证明完成度很高。 比如一道吸收边界条件问题。这是分析中涉及方程的经典理论问题,通过构造人工边界得到较为精确的近似解。 AIM部分求解过程如下: AIM给出了方程的能量估计,这是求解这个问题的关键的中间结论。它不仅正确推导了这个结论,在后续证明中加以运用。 这是AIM对于方程的近似解的构造和存在唯一性的证明过程。尽管部分运算细节并没有展示出来,但是这里的证明思路和定理运用都是正确 的,也得到了整个问题中的关键结论。 本次成果的作者包括刘远航、黄砚星、王彦桥、李鹏、刘洋,其中刘远航、黄砚星、王彦桥为论文共同第一作者。 AIM数学家智能体 传统大语言模型在数学领域的突破长期局限于竞赛级问题,LRMs快速发展的数学推理能力也让人类数学工作者期待可以使用大模型进行前沿 数学研究。 当前数学理论的研究主要有以下两大挑战: 数学研究的证明内容需要经过严格验证和精确的分析,而自然语言证明的评估一直缺乏有效方法。 基于此,AIM框架首次将LRM ...
陶哲轩转发!华人数学博士后反超DeepMind AI,停滞18年数学问题1个月内3次突破
量子位· 2025-06-04 17:14
DeepMind于5月14日宣布 AlphaEvolve ,不仅改进了矩阵乘法算法,还取得一系列成果,打破 集合和差问题 (Sums and differences of sets problem)自2007年来的纪录也是其中之一。 这一次,人类方法使用测度集中性来计算渐近值, 只需要少量的计算机辅助 。 不到一个月时间,这个 停滞18年 的问题在人类与AI共同努力下3 次取得突破 。 陶哲轩转发评价道: 对我来说,这生动展示了处理数学问题时,大量计算机辅助、适度计算机辅助和传统"纸笔"方法未来的相互作用,这些模式各有优缺 点。 例如当前的AlphaEvolve很难处理后续论文中使用的渐近构造。 但另一方面,如果不先进行类似AlphaEvolve的半自动化搜索,人类方法也很难找到这些改进的机会。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 数学家出手反击AI!对AlphaEvolve在"集合和差问题"上的成果进一步改进。 最新成果来自西班牙数学科学研究所ICMAT的博士后 Fan Zheng , 这次他通过构造一系列特殊的集合U,在极限情况下将集合和差问题θ的下界提升至1.173077。 集合和差问 ...
奥特曼:假如给我一千倍算力,我会这样做
量子位· 2025-06-04 15:04
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 完美的人工智能是"一个拥有超人推理能力、1万亿个上下文标记并可以使用你能想到的所有工具的微型模型"。 这是 奥特曼 在最新的访谈中对下一代模型的展望。 他表示,理想中的AGI不需要包含知识——只需要思考、搜索、模拟和解决任何问题的能力。 它应该成为一个能够 自主发现新科学 ,或者成为人类强大工具,使全球科学发现速度提升数倍的系统。 也许到那时,我们可能要 反过来问问AI我们应该怎么做 。 此话一出,有网友表示,奥特曼对AGI的理想倒是始终没有变过:系统能自主探索新的科学发现。 在主持人问到对AGI的定义时,奥特曼表示,不同的人在不同的时期都会对此有不一样的理解。 但也有网友对此表示怀疑,"询问AI该怎么做"就好像把我们手中的钥匙交了出去,令人不安。 访谈中,奥特曼还对一个 一千倍算力 的假设性问题给出了极具概念性的回答。 一起来看看具体内容。 平稳、快速的进步更重要 AGI的定义其实并不重要,重要的是平稳地快速进步。 可能在2020年,人工智能领域的发展还不像如今这样繁荣的时候,如果出现ChatGPT,大多数人可能会认为这就是AGI。 就像这位网友说的,自 ...
图灵奖得主Bengio再创业:启动资金就筹集了3000万美元
量子位· 2025-06-04 15:04
西风 发自 凹非寺 量子位 | 公众号 QbitAI 目前LawZero已通过多家慈善捐赠方筹集到了 3000万美元启动资金 。 具体来说,LawZero要做" 设计 即安 全 (safe-by-design)"的AI系统,要"将安全性置于商业利益之上"。 所要做的AI系统非Agent形态,而可以监督Agent: 它 以理解学习世 界为核心目标, 而非在世界中采取行动 ,通过透明化外部推理,对问题提供可验证的真实答案,"可用于加速科学发现、为 Agent型AI系统提供监督,并深化大家对AI风险及其规避方法的理解"。 Bengio表示,当前AI系统已显现出自我保护和欺骗行为的迹象,随着其能力和自主性的提升,这种趋势只会加速,LawZero是他们针对这些 挑战所给出的建设性回应。 经常有人问我,对AI的未来是乐观还是悲观?我的回答始终是:It doesn't matter (无关紧要) 。 唯一重要的是,我们每个人都能采取行动,推动AI向更好的方向发展。 刚刚,深度学习三巨头之一、图灵奖得主 Yoshua Bengio 官宣再次创业 —— 成立 非营利组织LawZero ,要构建下一代AI系统,而且 明确不做Ag ...
AI还不会独自问诊,o3准确率仅为51.12%,上交大×SII开源高难度复杂疾病诊断测评集
量子位· 2025-06-04 15:04
Pengfei Liu 投稿 量子位 | 公众号 QbitAI AI能够 独自完成 医疗场景下的诊断任务吗? 在真实的临床环境中,医生需要 综合分析 大量的患者信息——包括主诉症状、既往病史、体格检查以及各类辅助检查结果,才能 逐步构建出对病情的全面认知。 这一过程不仅要求强大的信息整合能力,更涉及复杂的推理判断。随着大语言模型在复杂推理能力上的不断突破,AI在应对各种 科学挑战的前景也愈发广阔。那么, 在高度依赖专业知识与临床经验的医疗领域 ,AI是否也能胜任"诊断"这一关键任务? 为系统评估AI在临床诊断任务中的实际表现,来自上海交通大学的SPIRAL Lab与GAIR Lab共同构建了 DiagnosisArena —— 一个用于严格评估AI在专业医学诊断中能力水平的基准测试。 研究团队在DiagnosisArena上对现有多个大语言模型进行测试。 测试结果显示: 即使是o3,在此项高挑战性诊断任务中也只达到了51.12%的准确率 ,而其他开源模型甚至难以取得25%的准确 率。此项结果反映出当前模型在复杂医疗推理任务中仍面临诸多瓶颈。 构造过程:如何打造一个考验医学诊断推理能力的基准? 研究团队设计了一 ...