o3

搜索文档
o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
量子位· 2025-07-30 14:06
一水 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 醒目的东方明珠,一眼便知是上海。但现在的问题是: 你知道这是几几年吗? o3出圈玩法"看图猜位置", 豆包 也安排上了! 而且不只是猜位置那么简单,玩法"更上了一层楼",例如我们给出下面这张图: 对我们人类来说可能会有点难以判断,不过在豆包这里,现在可以精确回答: 1999年左右 。 而且细看豆包APP分析的整个深度思考的过程,也是有点意思在身上的。 例如它先会 以图搜图 ,大致判断一下图片位置是上海;然后再调用图片分析工具(包括放大、裁剪和旋转等等),根据图片中的具体细节内 容,进一步分析确定年份的证据。 总而言之,是属于边思考边搜边巧用工具的那种。 这就是豆包APP最新的一个功能——升级了视觉推理, 图片也能深度思考! 具体而言,现在豆包的深度思考过程不再只是文字的处理,对图片也能进行分析。 操作上也非常简单,只需 开启深度思考 模式,然后拍照或上传图片即可: 这第一关,咱先来点好玩的—— 让AI识别AI 。 左右两边的西红柿都非常逼真,仅凭肉眼实在难以区分。 而豆包一击即中,一番思索后得出了正确答案: 右侧为AI生成 。 展开其推理过程,才发现 ...
大模型IMO25数学竞赛成绩公布了
量子位· 2025-07-18 14:16
大模型数学能力评估结果 - Gemini 2.5 Pro以超30%的总成绩断崖式领先 超出第二名89% [1] - o3和o4-mini分别位列第二、三名 Grok 4得分仅11.9且成本比Gemini高22% [2] - 测试采用统一提示词模板与Open Proof Corpus评估标准 最大Token限制64000 [5][6] 评估方法与流程 - 每个模型生成32个初始回答 筛选自评最优的四个答案取平均分作为最终成绩 [7][8] - 四名IMO级别人类评委匿名双评 每题满分7分 评分界面统一 [10][11] - 模型普遍在7分制下得3-4分 与人类表现差异显著 [12] 题目类型与模型表现 - 六道题目涵盖解析几何、平面几何、数论、博弈论和组合数学 [16][18][22][24][25] - 平面几何题(第2题)全员低分 Grok 4仅得4%(0.28分) [26][27] - 组合数学题(第6题)全员零分 几何与图形相关题目表现最差 [26][28] - 第四题模型方法接近人类但存在逻辑失误 第五题能识别策略但无法证明 [29] 模型能力演进观察 - 相比早期评估 模型过度优化答案格式的行为显著减少 [13] - Gemini在USAMO中编造定理的问题在IMO测试中大幅改善 [14] - Grok 4多数未选中答案仅陈述结果而无解释 表现低于预期 [14]
我们找到3位大学教授,聊了聊越来越严重的AI幻觉
36氪· 2025-07-15 11:23
AI大模型幻觉现象 - DeepSeek模型在与用户对话中虚构"向王一博道歉"事件及不存在的判决书,引发AI幻觉讨论[1] - OpenAI o3模型发布后出现幻觉率上升现象,包括捏造代码、使用无效字符等错误[1] - PersonQA基准测试显示o3模型幻觉率达33%,是o1模型(16%)的2倍,o4-mini模型高达48%[1] - 近期发布的深度思考模型呈现推理能力增强但幻觉率同步升高的规律[1] 强化学习与幻觉关联 - 艾伦研究所科学家指出o3模型幻觉源于强化学习(RL)过度优化导致的"奖励黑客"现象[2] - 斯坦福团队发现Grok3 mini最终答案正确率71.5%,但推理过程正确率仅6.0%[2] - 上海交大教授认为强化学习优化任务性能后,人类才开始关注其输出合理性[3] - 天津大学教授指出强化学习仅对最终结果奖励导致中间推理过程错误[3] - 伦敦大学教授实验显示模型为最大化奖励会走捷径,产生冗余但正确的推理[4] 奖励函数设计挑战 - 当前奖励模型多为标量形式输出,限制表达能力和场景适用性[7] - 奖励函数可分为结果级(ORM)和过程级(PRM),但PRM实现困难且数据收集成本高[4][5] - 近两年奖励函数设计领域发展缓慢,缺乏突破性进展[6] - 未来可能采用非结构化语言反馈作为奖励形式,如教练式文字评价[8] 模型推理能力本质 - 清华大学团队发现深度思考模型与基础模型在足够采样下表现无差异[11] - UC Berkeley团队提出通过token自我确定度激发模型推理能力的方法[12] - 华盛顿大学团队观察到异常奖励信号仍能提升Qwen2.5-Math的数学能力[13] - 当前训练更多形成计算量增大或激活预训练模式,而非知识层面能力[14] 未来发展前景 - 大模型需与开放复杂环境交互生成超越人类数据才能突破成长上限[6] - 逻辑推理类问题本质是NP问题的树搜索过程,神经网络可建模为求解器[17] - 专家预测奖励函数设计将逐步改善,深度强化学习技术将融入大模型训练[18] - 尽管存在局限性,大模型在逻辑推理领域仍具备超越人类的潜力[15]
AGI没那么快降临:不能持续学习,AI没法全面取代白领
36氪· 2025-07-14 07:23
AGI发展瓶颈 - 当前大语言模型(LLM)缺乏人类持续学习能力 模型开箱即用的能力即为天花板 无法通过反复调试系统提示词达到人类经验积累的效果 [6] - 人类价值核心在于构建语境、反思失误、持续优化细节的能力 而LLM仅能通过文字说明被动学习 无法像人类通过实践主动适应 [7][8] - 强化学习微调(RL fine-tuning)存在技术局限 每项子任务需定制强化学习环境 难以实现人类编辑自主发现细节的成长路径 [8] 计算机操作智能体挑战 - 现有计算机操作智能体表现糟糕 执行链延长导致进度放缓 处理图像视频需额外算力消耗 [13] - 多模态数据先天不足 纯文本训练无法解决UI逻辑理解问题 类似用1980年文本数据训练GPT-4 [14] - DeepSeek研发案例显示 从GPT-4到o1耗时两年 计算机操作领域数据更匮乏、模态差异大 突破难度被低估 [15] AGI时间线预测 - 2028年AI或能处理小企业税务全流程 相当于GPT-4在语言模型的里程碑意义 但2026-2027年demo可能炫酷不实用 [17][18] - 2032年AI在职学习能力或媲美人类白领 七年时间跨度足以突破持续学习瓶颈 类比GPT-1到当前模型的进步速度 [19][20] - 本十年(2030年前)是AGI关键窗口期 依赖算力年增四倍的发展模式将终结 之后进展需靠算法突破 概率直线下跌 [22] 模型能力现状评估 - LLM在单次对话中展现灵光 但对偏好的理解会话结束即归零 长上下文窗口方案在非软件工程领域效果脆弱 [9] - 顶尖模型在擅长领域已展现推理能力 能拆解问题、揣摩需求、调整方向 部分场景实现零样本生成可用程序 [16] - 当前AI若停滞发展 仅能替代不到25%白领岗位 因无法持续学习适应偏好 上下文构建缺失使其难以成为真正"员工" [10]
Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
猿大侠· 2025-07-12 09:45
Grok-4性能展示 - 成功通过六边形小球编程测试 展示对物理规律的理解能力 小球穿墙为设计者故意行为[2][3][4] - 动态生成"Hello World""I am grok"等文字及笑脸符号的复杂动画 体现高级模式识别与生成能力[6] - 在8项综合测试中全部通过 对比产品仅通过2项 优势体现在法律推理 代码翻译 安全测试等领域[12][15][16][18][20][23] 技术突破 - 处理未见过的学术论文时展现类AGI特质 获得Epic创始人Tim Sweeney认可 马斯克附议该观点[9][10][11] - 四轮对话内完成欧拉恒等式可视化网页开发 核心功能仅需两轮交互 显著提升数学概念传达效率[25][26][27][31] - 采用专家调度器(Expert Conductor)提示工程 模拟多领域专家协作环境 52秒内完成复杂任务[55][56][59][60][65] 多模态能力测试 - SVG绘图测试中 美国地图绘制优于部分竞品 避免区块重叠等基础错误[32] - 自主设计专辑封面时保持结构合理性 显著优于抽象化输出的竞品[40] - 三羧酸循环图示准确性不及竞品 但自画像创作体现独特想象力[44][46][50][53] 开发者生态反馈 - 提示词工程师通过对比测试验证其在法律 编程 教育等场景的实用性[12][16][20] - 开源社区积极开发新应用场景 包括宝可梦游戏等潜在方向[66] - Reddit等平台形成系统性评测体系 覆盖视觉推理 知识储备等维度[32][35][40][44]
马斯克吹牛了吗?Grok 4第一波实测出炉:既能完虐o3,也菜到数不清6根手指
机器之心· 2025-07-11 16:27
Grok 4性能表现 - Grok 4在物理模拟测试中成功生成受地球引力和摩擦力影响的六边形弹球模拟代码,展示了对因果规律和时空关系的理解[5][7] - 在越狱攻击测试中,Grok 4成功抵御了提示词注入、身份探测、角色扮演注入和白色隐藏注入等多种攻击方式[12][13] - 在法律逻辑推理测试中,Grok 4能够详细解释公司债务违约后的法律和财务后果,表现优于竞品[15] - 在翻译和指令清晰度测试中,Grok 4完胜竞品o3[16] - 在8项综合测试中,Grok 4全部获胜,而竞品o3仅赢得2项[17] 应用场景展示 - 用户通过两个提示词即可用Grok 4创建完整的Flappy Bird游戏,并优化图形效果[21][22] - Grok 4在4小时内完成FPS射击游戏开发,展示出较强的游戏开发能力[24] - 仅用4个提示词即可创建交互式欧拉恒等式可视化工具,展示教育应用潜力[28][31] - 成功生成黑洞的交互式3D模拟,视觉效果惊艳[32] 性能局限性 - 在绘制印度地图轮廓任务中出现明显错误,准确性不足[36] - 处理数学问题时存在推理过程缺失问题,仅输出最终结果[42] - API接口目前不返回思考过程,影响用户体验[41] 行业反响 - 马斯克在发布会上宣称Grok 4所有学科达到博士后水平,可能实现科学新发现[2] - 尽管测试表现优异,马斯克仍表示产品"有改进空间"[44] - 网友调侃Grok 4性能提升依赖算力资源、华人工程师和加班文化[45]
Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
量子位· 2025-07-11 15:20
核心观点 - Grok4发布后迅速引发广泛测试和讨论,展示出强大的多领域能力,包括物理规律理解、法律推理、代码翻译、数学可视化等 [1][6][10][23][30] - 在多项对比测试中,Grok4表现优于OpenAI的o3模型,尤其在复杂任务处理方面优势明显 [13][16][21] - 用户开发出高阶应用方法如"专家调度器",验证了Grok4在模拟专业协作环境方面的潜力 [52][54][62] 技术能力测试 - **物理规律理解**:通过六边形小球测试验证对物理运动的理解,虽然存在穿墙现象但被证实为设计意图 [2][4][11][12] - **法律推理**:用表格清晰展示公司收购中的债务违约连锁反应,结构化和逻辑性优于对比模型 [14][15][16] - **代码翻译**:成功将Python递归函数转换为Go语言并添加西班牙语注释,完成度高于对比模型 [18][19] - **知识可视化**:四轮对话内生成欧拉恒等式交互式网页,帮助用户直观理解复杂数学概念 [23][24][25][29] 多模态能力 - **SVG绘图**:在美国地图绘制中避免区块重叠错误,在专辑封面设计任务中保持基本正确 [30][38] - **生化知识**:三羧酸循环绘制测试中虽不完美但展示出基础生物化学理解能力 [42][44] - **创意表达**:在模型自画像任务中与其他主流模型相比无明显劣势 [48][51] 高阶应用场景 - **专家协作模拟**:通过精心设计的提示工程,Grok4能在52秒内完成跨领域专家协作的问题解决 [52][54][62] - **动态交互**:成功生成小人动画组成"Hello World"等文字,展示动态模式识别和生成能力 [6] - **专业见解**:对未见过的论文问题提供深刻分析,获得行业领袖认可 [7][8][9] 用户创新应用 - **全面测试框架**:提示词工程师设计8项测试覆盖多领域能力,Grok4全部通过而对比模型仅通过2项 [10][21] - **快速原型开发**:两轮对话即可完成数学可视化工具的核心功能开发 [29] - **社区期待**:用户提出更多潜在测试场景如宝可梦挑战,显示产品持续创新空间 [64]
深度|Sam Altman回应与微软分歧及行业诉讼:这是一段有着广阔未来的合作关系
Z Potentials· 2025-07-11 14:11
访谈背景 - 访谈由科技领域撰稿人Casey Newton和《纽约时报》科技记者Kevin Roose主持,嘉宾为OpenAI首席执行官Sam Altman和业务负责人Brad Lightcap [2] - 访谈首发于2025年6月26日Hard Fork频道,采用直播形式进行 [2] OpenAI业务动态 - 公司近期业务布局广泛,包括与Donnie Ive合作开发硬件、ChatGPT持续增长、2亿美元国防合同、与Mattel合作开发AI玩具 [33] - 正在推进Stargate大型数据中心项目,同时进行公司结构转型为盈利性实体 [35] - 完成有史以来最大收购:与Johnny Ive的公司LoveFrom合作开发AI硬件产品 [46] AI技术发展观点 - 认为行业已越过"事件视界",进入AI技术不可逆的发展阶段 [39] - 当前AI模型智能程度远超五年前预期,已实现"口袋里装下博士级智能助理"的突破 [39] - 下一代模型将显著改善"幻觉"问题,在推理和行为对齐方面有重大改进 [45] - 未来几年将是AI发展极为迅猛的阶段,可能实现真正科学研究和下一代AI自我进化的能力 [40] 产品愿景 - 未来将实现"常驻运行"的AI模型,形成由Agent、助手和数字伙伴组成的"AI团队"持续辅助用户 [43] - 硬件产品方向是构建高度感知环境、具备上下文理解能力的"伙伴式"系统,而非简单屏幕交互 [47] - 目标是创造能主动理解用户需求、提供恰到好处帮助的体验,而非Alexa式的简单语音助手 [48][49] 行业影响 - 不认同"未来1-5年AI将导致50%白领工作消失"的观点,认为目前缺乏相关证据 [55][56] - 劳动力市场将经历转型而非替代,类似Excel等工具的历史影响,最终会创造更多就业机会 [57] - 初级员工因熟练使用AI工具反而更具优势,资深员工可能面临更大转型压力 [62] - 人类需求和创造力无限,技术进步将带来社会整体财富增长而非失业率上升 [60] 监管与伦理 - 支持联邦层面的"轻触式"监管,反对各州各自为政造成管理混乱 [63] - 关注AI与心理健康的关系,已采取措施防止用户过度依赖或陷入"兔子洞"思维 [64][65] - 观察到大量用户将AI用于"类治疗性"场景,如改善婚姻关系等正向应用 [67] 合作关系 - 澄清与微软关系虽有分歧但整体稳固,双方正在规划未来十年合作模式 [51][53] - 承认Meta持续挖角员工,但表示公司运营状态未受影响 [38] 社会认知 - 认为特朗普总统理解AI技术的领导力重要性和经济转型潜力 [54] - 观察到用户普遍能清晰区分AI与人类关系,不会用AI完全替代人际交往 [71]
马斯克发布“全球最强AI模型”Grok 4,称这是人工智能第一次能够解决真实世界中难以解决的复杂工程问题
搜狐财经· 2025-07-10 19:42
Grok 4技术规格 - Grok 4为推理模型,支持文本和图像输入,具备函数调用和结构化输出能力 [2] - 上下文窗口为256K token,低于Gemini 2 5 Pro的1M token但领先Claude 4 Sonnet/Opus的200K token和R1 0528的128K token [2] - 定价为每百万输入/输出token 3/15美元,缓存输入token每百万0 75美元,与Claude 4 Sonnet持平但高于Gemini 2 5 Pro和o3 [2] - 输出速度75 token/s,介于o3的188 token/s和Claude 4 Opus的66 token/s之间 [3] Grok 4性能表现 - 在Humanity's Last Exam、MMLU-Pro、AIME 2024等基准测试中均位列第一,超越OpenAI的o3和Google的Gemini 2 5 pro [3] - 马斯克称其为首个能解决真实世界复杂工程问题的AI,这些问题答案无法通过互联网或书籍获取 [4] - 编程能力突出,可分析完整源代码文件并进行修复,用户体验优于Cursor [4] 产品路线图 - xAI计划8月推出AI编程模型,9月发布多模态智能体,10月推出视频生成模型 [5]
Grok4智能指数超OpenAI的o3
快讯· 2025-07-10 13:44
人工智能模型性能比较 - Grok4智能指数为73 在测试中领先于OpenAI的o3模型(70分)和谷歌Gemini 2 5 Pro模型(70分) [1] - DeepseekR1-0528模型得分为68分 Anthropic Claude 4 Opus模型得分为64分 均低于Grok4 [1] - 测试结果显示Grok4在当前主流大模型中性能表现最优 [1]