Workflow
AI科技大本营
icon
搜索文档
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 18:41
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...
Claude Code 首席工程师揭秘 AI 如何重塑开发日常!
AI科技大本营· 2025-06-07 17:42
AI 正在颠覆软件开发! 原文链接:https://www.youtube.com/watch?v=Yf_1w00qIKc 责编 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) AI 正在颠覆软件开发! 近日,Anthropic 发布了其技术专家 Boris Cherny(Claude Code 首席工程师)与 对外沟通负责人 Alex Albert 的深度对话,揭秘了 AI 编程工具 Claude Code 的诞生、核心能力、使用技巧以及未来展望。从终端的普适性到新模型的强大赋能,再到 Claude.md 文件的妙用,一个由 AI 辅助甚至 主导的编程新时代正加 速到来。 在 Boris 与 Alex 的对谈中,他们围绕 Claude Code 的产品定位、差异化能力和使用体验进行了深入交流。 对话精彩摘要: 超 3 0 0 0 人的「AI 产品及应用交流」社群,不错过 AI 产品风云!诚邀所有 AI 产品 及应用从业者、产品经理、开发者和 创业 者,扫码加群: 进群后,您将有机会得到: · 最新、最值得关注的 AI 产品资讯及大咖洞见 这源于我们 Anthropic 工程师和研究员们平时用 ...
对话智源王仲远:具身智能“小组赛”才刚刚开打,机器人需要“安卓”而非 iOS
AI科技大本营· 2025-06-07 17:42
悟道 1.0 发布时,学术界对" 大模型是通往 AGI 的技术路线 "尚未得出统一结论。 现在的具身智能,也处于这个阶段。 作者 | 王启隆 出品丨AI 科技大本营(ID:rgznai100) 大模型的热潮之下,一种微妙的瓶颈感,正成为行业共识。 "过往所说的 '百模大战',更多是大语言模型的竞争," 智源大会前夕, 智源研究院院长王仲远 在 与 CSDN 的对话中,开门见山地指出了问题的核 心,"而大语言模型受限于互联网数据的使用,性能虽然还在提升,但速度已大不如前。" 出路何在?在王仲远看来,AI 要突破天花板,就必须在"读万卷书"(互联网数据)后,去"行万里路"(物理世界)。 这并非孤立的判断。今年三月, 英伟达 CEO 黄仁勋就在 GTC 大会上为 AI 的下半场指明了方向 :打造"AI 工厂",迎接"物理 AI"时代,让 AI 走出屏 幕,与现实世 界交互。 思考趋于一致,行动便接踵而至。6 月 6 日,CSDN 在北京智源大会现场,见证了王仲远在他的主题演讲中给出的答案。如果说 2021 年的"悟道"系列 代表着对技术路径的探索(" 道 "),那么他所揭晓的全新"悟界"系列,则亮明了新的野心——用 ...
强化学习之父Richard Sutton:人类数据耗尽,AI正在进入“经验时代”!
AI科技大本营· 2025-06-06 18:18
文 | 郑丽媛 出品丨AI 科技大本营(ID:rgznai100) 过去这一年,AI 世界风云再起。 从 DeepSeek R1 、OpenAI o3 的激烈竞逐,到 AI 智能体频频登上技术热榜;从"推理能力"成为衡量大模型的新标准,到人形机器人、具身智能 (Embodied Intelligence)被寄予厚望……我们正站在 AI 技术快速演进的关键时刻。 然而,在这些热闹表象的背后,一场更深层的技术讨论也正在 悄然发生: 我们真的了解智能吗?我们构建的 AI 真的在"学习"吗? 在这样一个值得深思的节点, 加拿大阿尔伯塔大学计算科学系教授、图灵奖得主 Richard Sutton 在 6 月 6 日举行的北京智源大会上,带来了一场名为 《 欢迎来到经验时代 (Welcome to the Era of Experience) 》的 主题演讲。 在 整场演讲中, Richard Sutton 没有谈模型架构、参数量,没有讲热门的大语言模型, 也没有 讨论 多模态系统的未来路线图——他选择回到 AI 的第 一性原理, 提出了一个颠覆直觉、却极具穿透力的主张: 真正的智能,应该来源于经验,而不是人类预设的数据 ...
“AGI 五年内或将实现”:AI 教父 Bengio 呼吁中美达成共识,警惕 AI 沦为人类武器
AI科技大本营· 2025-06-06 18:18
【编者按】作为深度学习三巨头之一,图灵奖得主、AI 教父 Yoshua Bengio 在 2025 北京智源大会上,他表示: AI 能完成的任务时长,每七个月就翻一 番,大约五年后,AI 就将达到人类水平, 通用人工智能(AGI)或将在五年内到来,而人类社会却尚未在规则、立法乃至全球治理层面达成一致。 整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 自从 ChatGPT 横空出世,AI 进入了加速进化的轨道。从最初能写代码、生成文案,到如今能上网查资料、远程操控家电,它早就不再是那个只会聊天 解闷的"电子嘴替"。它开始自己"思考"任务,能在多个软件之间协同操作,甚至具备控制电脑、读写数据库的能力。AI 从幕后算法,变成了贴身助 手,再逐步演化成能自主执行复杂操作的"智能体"——从"听话"走向"行动",它正成为一个真正能"做事"的多面选手。 他呼吁,我们正处在一个关键的时间窗口,必须尽快建立可验证、安全、负责任的控制机制。 演讲伊始,Bengio 教授便分享了一段深刻的个人心路历程。他坦言,在亲身体验 ChatGPT 并目睹 AI 飞速进化后,深感此前对 AI 失控风险的认知不 足。而一个 ...
图灵奖得主 Bengio 官宣创业:要在 AGI 到来前守住 AI 最后一公里
AI科技大本营· 2025-06-05 10:22
"坐在我身边的是我的孩子,我的孙辈,我的学生,还有许多其他人。那你呢?是谁坐在你的副驾驶座?"——图灵奖得主 Yoshua Bengio 在 TED 演讲中发 出灵魂提问,沉甸甸地指向 AI 时代的人类命运共同体。 当「AGI」正以令人眩目的速度逼近,谁在为"安全"这道防线筑基? 整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 图灵奖得主、深度学习奠基人、全球被引用次数最多的 AI 科学家 Yoshua Bengio 官宣创业。成立一家名为 LawZero 非营利 AI 安全研究机构,以"安 全优先"原则回应人工智能可能带来的系统性风险。 LawZero 是一家以研究和技术开发为核心使命的非营利组织,旨在构建"设计即安全"的 AI 系统,并组建一支由世界顶尖研究者组成的技术团队。 "当前的 AI 系统已展现出自我保护和欺骗行为迹象,而随着其能力和自主性的增强,这种趋势只会加速。"Bengio 在博文中列出了多个案例: 以上这些 AI 行为所展现出来的是 AI 系统在缺乏安全约束机制下,可能发展出不受控制的目标偏差与策略选择。 深度学习三巨头纷纷发出 AI 安全警告 作为 AI 领域的殿堂 ...
Cursor 1.0 正式发布:AI 代码编辑器进入“自动审查 + 记忆”时代!
AI科技大本营· 2025-06-05 10:22
责编 | 梦依丹 【编者按】Cursor 1.0 正式发布,这款 AI 驱动的代码编辑器正在从"辅助工具"进化为具备审查、记忆与协作能力的智能编程平台,AI 开发工作流迎来新阶 段。 出品丨AI 科技大本营(ID:rgznai100) 智能代码编辑器 Cursor 正式发布 1.0 版本,该版本带来了多项重磅功能,包括自动代码审查助手 BugBo t、Jupyter Notebook 原生支持、项目级 AI 记忆(Memories)、Background Agent 全面开放,以及一键部署 MCP 和更丰富的聊天界面体验等。 自动代码审查 BugBot PR 检查进入自动化时代 该版本的一大亮点便是 BugBot,它可以自动审查 GitHub 上的 Pull Request,识别潜在的 Bug 与问题。当发现问题时,BugBot 会自动在 PR 中发表 评论,开发者可点击 "Fix in Cursor" 一键跳回编辑器,由 AI 预填修改建议。 目前 BugBot 需通过官方文档指引手动启用,并且可以享受 7 天免费试用,该 功能适合希望提升代码质量和协作效率的开发团队。 具体设置文档:https://doc ...
辛顿、杨立昆等 AI 先驱都源自信号处理——对话 IEEE 首位华人主席、美国双院院士刘国瑞 | 万有引力
AI科技大本营· 2025-06-04 13:42
以下文章来源于CSDN ,作者唐小引 CSDN . 成就一亿技术人 作者 | 唐小引 出品 | CSDN(ID:CSDNnews) "继续努力,直到他们不能忽视你。" 这是 IEEE 首位华人主席(2022 年)、美国国家工程院院士、美国国家发明家科学院院士、Origin Wireless 公司创始人&董事长、马里兰大学杰出教 授刘国瑞( K. J. Ray Liu )的来时路。 1961 年的初春,刘国瑞出生于中国台湾嘉南平原的一个小镇,在玩耍、运动和读书中度过了非常调皮、好玩的童年时光。会的语言非常多,客家话、 闽南话、普通话、英语等等,还能写文言文匿名信把做了不公平事的补课老师大骂一通。在台湾大学大二从造船系转到电机系的刘国瑞,喜欢上了通信 和信息信号处理,而后这成了他一辈子的专业。到毕业时,他在纪念册留言中写下了数十年不变的"尽结天下贤士豪侠,常做江上烟客主人",时至今 日,这句话既一直在他的个人主页上,也写进了他的新书《本心:科学与人生》的楔子里。 1983 年,刘国瑞从台湾大学本科毕业 台大毕业后在服兵役中咬牙备考留美考试的刘国瑞长期睡眠不足,能在考试时当场睡觉,尽管多年后他用"差强人意"来形容, ...
智能体时代,人类与AI如何分工?
AI科技大本营· 2025-06-04 13:42
当谷歌的AI实习生独立编写代码、特斯拉的人形机器人Optimus开始自主规划仓库路径,一个尖锐的问题正浮出水面:人类在智能体狂潮中的角色, 究竟是被取代的"旧劳动力",还是进化为更高维的"规则缔造者"? 福布斯中国AI影响力人物、中国人工智能领军科学家刘志毅在其新著《智能体时代》一书揭开了这场分工革命的底层逻辑:智能体技术的崛起正在对工 作的时间和空间维度进行一场彻底的重构。信息时代延续了这一模式,尽管工作内容从体力劳动转向了脑力劳动。然而,智能体时代正在彻底打破这种 时空耦合,使工作从固定的物理空间和规定的时间段中解放出来。 信息时代延续了这一模式,尽管工作内容从体力劳动转向了脑力劳动。然而,智能体时代正在彻底打破这种时空耦合,使工作从固定的物理空间和规定 的时间段中解放出来。 2023 年,OpenAI的GPT-4 模型问世后,知识工作的本质开始发生转变。最初,人们将这些工具视为高级文本生成器,但随着垂直领域专用智能体的 崛起,它们逐渐演变为真正的"知识合作伙伴"。纵观历史,每一次重大技术革命都会重塑工作的基本构成。工业革命将农业劳动者转变为工厂工人,互 联网革命创造了大量数字工作岗位。而智能体革命则是对 ...
Anthropic CEO发出警告:“未来五年,半数入门级白领工作或被AI吞噬,失业率恐飙升至20%!”
AI科技大本营· 2025-06-03 19:00
整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 近日 , Anthropic 的首席执行官 Dario Amodei ,这位身处 AI 技术风暴核心的人物,发出了振聋 发聩的警告: 未来五年,半数初级白领岗位或被 AI 吞噬,失业率恐飙升至 20%。 这不是他第一次发出 AI 冲击社会结构的预警。但这一次,他带来了比以往更具体、更直接的说法 ——数百万新毕业生、实习生、初级岗位从业者,将成为下一波被 AI "吞噬"的对象。 Dario Amodei 在接受 采访时直言: " 我们这些技术的生产者,有责任坦率告诉公众:未来正在发 生改变 。 但大多数人并没有真正意识到。 " "被低估的风险":五年内,失业率或激增至 20% 在本周的一次开发者大会后,Amodei 接受外媒 Axios 采访时,罕见地从开发者视角切换到社会观 察者角色。他指出,当前的大型语言模型(LLMs)进展飞速,已经能够在多项任务中达到甚至超越 人类初级员工的水平 , 且无需休息、加班费或职业培训。 而被替代的,不是制造工人,不是服务员,而是办公室里最基础的一批白领岗位——财务助理、法律 助理、市场专员、初级程序员、数据分析实 ...