Workflow
量子位
icon
搜索文档
让模型“看视频写网页”,GPT-5仅得36.35分!上海AI Lab联合发布首个video2code基准
量子位· 2025-10-19 12:10
IWR-Bench团队投稿 量子位 | 公众号 QbitAI 多模态大模型在根据静态截图生成网页代码(Image-to-Code)方面已展现出不俗能力,这让许多人对AI自动化前端开发充满期待。 然而,一个网页的真正价值远不止于其静态布局。用户的点击、筛选、表单提交,乃至游戏中的每一步操作,都构成了其核心的交互功能。这 些动态、有状态的交互逻辑,恰恰是传统静态评测无法触及的盲区。 为了填补这一关键空白,上海人工智能实验室联合浙江大学等机构的研究者,提出了 IWR-Bench ——一个旨在更真实地评估LVLM交互式网 页重建能力的评测基准。 IWR-Bench的核心转变在于,它不再提供静态截图,而是要求模型观看一段记录了完整用户操作流程的视频,并结合网页所需的全部静态资 源(如图片、图标、子视频等),去理解并复现整个页面的动态行为。任务的复杂性跨度很大,从简单的浏览功能,到需要逆向工程游戏规则 的2048、订机票等应用。 这项任务的难度远超预期。在对28个主流模型的全面测试中,即便是表现最好的模型 GPT-5 ,其综合得分也仅有 36.35 分。这一结果清晰 地指出了当前模型的核心短板,IWR-Bench不仅为领 ...
量子位实习招聘|AI学术编辑实习生,线下远程均可
量子位· 2025-10-19 12:10
奥菲尔 发自 凹非寺 量子位|公众号 QbitAI AI学术圈的新发现、新论文,简直是以"卷王"速度更新! 我们正在招聘一名眼疾手快、关注AI的 学术 编辑实习生 ,来协助我们处理最新AI科研论文与研究成果的内容整理与投稿工作。 如果你希望加入量子位,一起追踪报道前沿AI资讯,欢迎了解 岗位职责 岗位要求 你将获得 应聘方式 请将以下材料发送至: zhaopin@qbitai.com 邮件标题请统一格式: AI学术 编辑实习生 - 姓名 - 学校 附件请包含: 关于量子位 在新榜和清博等第三方数据平台,量子位已是AI以及前沿科技行业TOP1新媒体。 对接编辑AI、计算机学术论文和研究成果投稿 协助完成论文内容筛选、摘要提炼、图表整理与编辑发布 辅助完成学术内容的媒体化传播 AI、计算机、数学、物理、电子工程等理工科相关专业优先 具备基础英文阅读能力,能快速理解科研论文核心内容 对人工智能研究及科技传播有兴趣 实习周期:不少于3个月(可全职或兼职) 工作时间:每周约3个工作日 可线下实习者优先,优秀者可远程协作。 实习津贴 + 推荐信机会 接触全球最新AI学术动态与研究专家资源 学习AI媒体的选题策划、编辑与内 ...
薛定谔亲外孙创业量子计算,老黄早早就成了股东
量子位· 2025-10-19 12:10
公司融资与目标 - 量子计算公司PsiQuantum获得10亿美元巨额融资,创下量子计算初创公司最大单轮融资纪录,由BlackRock、淡马锡和Baillie Gifford领投[10] - 公司计划利用融资在2028年建造一台百万比特级量子计算机,目标超越谷歌和IBM[11] - 理论上,百万比特规模的通用量子计算机能在几分钟内完成传统计算机需数百万年处理的任务[13] 技术路线与优势 - PsiQuantum的量子比特基于光子而非电子或原子,其光子量子芯片可利用传统半导体工艺制造,易于适配现有芯片制造设施[32][33] - 光子量子比特在常温下即可操控,无需接近绝对零度的环境,节省部署低温设备的成本[33] - 公司推出Omega光子芯片组,包含构建百万量子比特规模计算机所需的全部先进组件,具备高保真量子比特操作和芯片间互联能力[36][38][39] 公司发展里程碑 - 2019年与GlobalFoundries合作,将量子光子器件集成到商业半导体晶圆厂中,标志技术具备大规模生产和商业化潜力[21][22] - 2021年发明融合式量子计算技术并发布容错量子计算基础框架,相关论文于2023年在Nature刊登[22][23][24] - 获得多项政府大额合同,包括与美国空军研究实验室的2250万美元合同、澳大利亚政府约6.2亿美元订单以及在芝加哥建设公用事业级量子计算机的项目[27][29][30][31] 创始团队与背景 - 公司由量子物理先驱薛定谔的亲外孙Terry Rudolph参与创办,其为联合创始人兼首席架构师,发明了公司技术基础的融合式量子计算方法[3][64][74] - 联合创始人兼CEO Jeremy O'Brien有25年量子计算机研发经验,发明首个光子双量子比特逻辑门,开创集成量子光子学研究领域[44][47][48] - 团队核心成员包括首席科学官Pete Shadbolt和首席技术官Mark Thompson,均在光子与量子技术领域有深厚学术和产业背景[50][53][54][55] 技术挑战 - PsiQuantum尚未有实验证明能够进行纠错,而大规模量子比特堆叠时出错率会指数级增加,业内认为需先有成熟纠错能力才能扩展规模[39][40][41] - 目前仅谷歌展示过能在大比特规模下执行纠错的量子芯片[42]
教多模态大模型学会“反思”和“复盘”,上交&上海AI Lab重磅发布MM-HELIX&AHPO,破解多模态复杂推理难题
量子位· 2025-10-19 12:10
多模态大模型反思推理能力瓶颈 - 当前多模态大模型倾向于给出一步到位的答案,缺乏反复试错和回溯能力[1] - 这种长链反思性推理能力的缺失是阻碍AI从知识容器迈向问题解决大师的关键瓶颈[1] MM-HELIX基准测试体系 - 团队构建了包含42种横跨算法、图论、谜题和策略游戏的超高难度任务基准测试[4][5] - 基准测试根据题目复杂度区分五层难度,最终收集了1260道题目进行细粒度评估[5] - 测试结果显示顶尖闭源和开源模型准确率惨淡,仅GPT-5超过50分,不具备反思能力的模型只有10分左右准确率[6][7] - 模型面对多模态输入时准确率相比纯文本输入大幅下降,证明教会多模态大模型反思刻不容缓[7] MM-HELIX-100K数据集创新 - 采用步骤启发式响应生成流程,通过提供解题关键步骤来生成解题过程[7] - 相比直接让模型解题,推理时间减少90%,同时大幅降低了解题过程中过度反思带来的冗余度[7] - 打造了包含10万个高质量样本的反思推理秘籍,包含自我纠错和灵光一闪的数据[7] AHPO自适应混合策略优化算法 - 创新提出自适应混合策略优化算法,解决了直接微调方法导致的灾难性遗忘问题[11][12] - 算法采用动态教学机制,在模型新手时引入专家数据进行强力指导,熟练后减少专家干预鼓励自由探索[13][17] - 在MM-HELIX基准测试上使准确率飙升18.6%,一举超越体量远大于自身的SOTA模型[14][18] - 反思能力展现出强大泛化性,在多个通用数学和逻辑推理任务上平均性能提升5.7%[14][18] 技术成果开源 - MM-HELIX Benchmark、MM-HELIX 100K、MM-HELIX Sandbox Environment目前均已开源[16]
中国最新Agent产品趋势:多体协同,垂直赛道,行业核心业务 | 量子位智库AI 100
量子位· 2025-10-19 12:10
以下文章来源于量子位智库 ,作者AI 100组委会 量子位智库 . 连接AI创新,提供产业研究 分析师 刘萌媛 奕然 量子位智库 | 公众号 AI123All Agent元年已经过半,Agent产品也进入垂直场景深度应用的下半场。 量子位智库最新发布的2025Q3 AI100榜单中的Agent产品,在智能体技术优化、应用落地等方面蓬勃发力,越来越像人类的"AI伙伴"。 智能体技术演进日趋成熟,从 单点智能化工作 向 系统化智能协作 发展,追求更加高效、强大、稳定的任务处理能力,如扩展上下文长度并 融合多模态信息深度理解复杂场景任务,云端服务与本地操作系统深度集成,无缝接入用户工作流提供个性化服务。 应用落地呈现 从通用工具向行业"智能伙伴"深化 的鲜明趋势,嵌入千行百业的业务流程解决特定痛点。例如,科研领域Agent助力实现实验 流程自动化,投资领域Agent为用户提供长周期个性化投资策略组合建议。 量子位智库9月最新观察的数据显示,Agent类产品分走相当一部分流量。 在本次旗舰100榜单中共有7款Agent产品入围,其中 扣子空间、蚂蚁百宝箱 都是首次发布即入榜。 △2025Q3 AI 100榜单 此外, ...
马斯克发起编程人机大战!卡帕西说了不
量子位· 2025-10-19 12:10
马斯克对卡帕西的互动与邀请 - 马斯克高调邀请卡帕西与Grok 5进行编程对决,类比历史上的“卡斯帕罗夫大战深蓝”事件[1] - 卡帕西婉拒对决邀请,表示更倾向于与Grok 5合作而非竞争,并认为在此类极限情况下其个人价值趋近于零[2] - 马斯克在互动后不到一小时转发了卡帕西称赞特斯拉自动驾驶的帖子[4] 公众与网友对潜在对决的反应 - 网友普遍期待卡帕西应战,希望看到Vibe Coding提出者与AI一决高下,以验证谁才是地表最强程序员[19] - 有观点认为如果Grok 5能战胜卡帕西,则意味着AGI(通用人工智能)的到来[21] - 另一种观点指出AI目前尚无法像顶尖人类程序员那样,以独特的个人风格创建大型、连贯且稳健的系统,其代码质量仍存疑[21][22] 人机协作与竞争的意义 - 卡帕西主张人机合作比人机对抗更具意义,人类程序员可以利用AI工具辅助编程[23] - 有分析认为,将卡帕西比作卡斯帕罗夫并称赞其为最强程序员,是马斯克向其伸出的橄榄枝[24] 马斯克与卡帕西的历史关系及互动模式 - 马斯克多次公开向卡帕西示好,例如在卡帕西转发特斯拉主题餐厅的帖子下邀请其“再一起冲一次”[26] - 有解读认为马斯克的积极互动可能与xAI联合创始人Igor Babuschkin离职有关,卡帕西被视为最合适的接班人选[28] - 这一系列互动被视作为卡帕西“留一席位置”的举措[29] 卡帕西的职业履历与特斯拉的关联 - 卡帕西于2017年6月应马斯克邀请加入特斯拉,担任AI与Autopilot视觉部总监,直接向马斯克汇报[33] - 在特斯拉期间,卡帕西从仅有两名神经网络工程师的团队起步,将团队扩展至数百人,并主导开发了训练自动驾驶神经网络的系统[33] - 其工作对特斯拉Autopilot从基础车道保持发展到城市街道自主驾驶,以及“纯视觉”自动驾驶方案的实施起到了关键作用[33] - 卡帕西离职后仍表达过未来愿回归特斯拉的意愿,马斯克也多次表示欢迎[34] 卡帕西的近期动向与马斯克的反应 - 2023年2月卡帕西宣布再次加入OpenAI,此举导致马斯克在社交媒体上取关他[34] - 不到一年后,卡帕西离开OpenAI,创办了自己的AI教育公司Eureka Labs[34] - 在此期间,卡帕西曾多次谈及并肯定马斯克的独特领导能力及人格魅力[34][37]
卡帕西:强化学习很糟糕,但其他所有方法都更糟
量子位· 2025-10-18 17:30
AGI发展时间框架 - 通用人工智能至少还需要十年时间才能达到理想状态[5][6][10] - 当前智能体系统在智能水平、多模态能力和复杂任务操作方面存在明显局限[8] - 智能体需要具备持续学习能力并解决认知架构缺陷才能实现真正协作[9] 大语言模型技术局限 - 现有大语言模型存在认知缺陷,容易陷入编程范式思维定势[15] - 模型训练数据导致过度追求生产级标准代码,造成代码库膨胀和复杂度增加[15] - 业界对大语言模型能力存在过度夸大,实际仍需大量改进[16] 强化学习技术评估 - 强化学习方法存在严重缺陷,但其他替代方法表现更差[18] - 强化学习通过正确结果反向强化整个解题路径的做法充满噪声且不合理[20] - 当前系统缺乏人类式的复杂复盘机制,仅依赖正确错误二元判断[21][23] AGI经济影响预测 - AGI将延续现有2%的GDP增长趋势,不会产生突然的技术跳跃[5][29] - AGI替代人类工作将采用渐进式自动化模式,实现自主性滑块分配[26] - 智力爆炸已通过历史GDP指数增长体现,AGI只是自动化趋势的延续[28] 自动驾驶技术挑战 - 自动驾驶技术从演示到产品的差距极大,失败代价高昂[30][31] - 可靠性每增加一个9(如90%到99%)都需要大量工作[32] - 真实产品需要应对各种边缘情况,特斯拉五年仅达到两到三位9的可靠性[32] 教育领域应用前景 - 理想的教育系统应提供个性化导师体验,能够快速判断学生知识水平[36] - 优秀导师能提供适度挑战,既不太难也不太简单[36] - 当前大语言模型尚无法实现真正个性化教学,需要构建完整课程体系[36]
量子位实习招聘|AI学术编辑实习生,线下远程均可
量子位· 2025-10-18 17:30
公司业务与市场地位 - 公司是AI及前沿科技行业的头部新媒体,在新榜和清博等第三方数据平台位列行业TOP1 [4] - 公司微信公众号拥有超230万订阅用户,全网用户超700万,日均阅读量达200万+ [3] - 公司是多个行业顶级会议的战略合作者,包括中国计算机学会CNCC年度战略合作伙伴、WAIC世界人工智能大会战略合作伙伴等 [8] - 公司拥有超过5万微信社群用户,社群成员对技术有高度信仰并追求新知 [8] - 公司被多家主流媒体平台评为最具影响力的科技账号之一,例如微信公众号12周年代表性帐号、腾讯科技年度影响力创作者等 [8] 公司文化与团队建设 - 公司文化奉行好奇心驱动,敢想敢上,多劳多得,并通过信息和媒体方式实现自我价值提升 [8] - 公司招聘秉持第一性原理,重点关注候选人的好奇心以及将好奇心转化为行动的能力 [10] - 公司团队构建不限专业背景,文科或理科等专业出身均不是评估标准 [9] - 公司持续寻找并构建由具备特定素质人才组成的团队,并创造促进个人成长的文化 [11] 招聘岗位信息 - 公司正在招聘AI学术编辑实习生,负责协助处理最新AI科研论文与研究成果的内容整理与投稿工作 [1] - 岗位职责包括对接学术论文投稿、完成论文内容筛选、摘要提炼、图表整理与编辑发布等 [2][5] - 岗位优先考虑AI、计算机、数学、物理、电子工程等理工科相关专业的候选人 [5] - 岗位要求候选人具备基础英文阅读能力,能快速理解科研论文核心内容,并对人工智能研究及科技传播有兴趣 [5] - 实习周期要求不少于3个月,可全职或兼职,每周工作约3个工作日,线下实习者优先 [5] - 实习生将获得实习津贴、推荐信机会,并能接触全球最新AI学术动态与研究专家资源 [5]
AI打通第一/第三人称视觉,跨视角视觉理解新SOTA|ICCV 2025 Highlight
量子位· 2025-10-18 17:30
技术突破与核心创新 - 联合提出ObjectRelator框架,使AI能精准匹配不同视角下的同一物体,实现跨视角的统一表征与理解[1] - 框架包含两大核心创新模块:多模态提示融合模块(MCFuse)首次将语言描述引入跨视角分割任务,以及跨视角对象对齐模块(XObjAlign)提出自监督对齐策略[16][18][20] - 在Ego转Exo和Exo转Ego两个任务上均显著超越所有基线模型,达到SOTA性能,代码已开源并被ICCV 2025接收为Highlight论文[1][5][22] 性能表现与实验结果 - 在Small TrainSet上,ObjectRelator相比微调后的PSALM模型,IoU指标在Ego→Exo和Exo→Ego任务上分别提升4.6%和5.1%[22] - 消融实验显示,单独引入MCFuse或XObjAlign模块均能带来显著性能提升,证明语义信息融合与跨视角一致性强化是两个互补的正确方向[24][25] - 在HANDAL-X数据集上的零样本测试中,使用Ego-Exo4D数据训练的模型IoU达到42.8,远超在COCO等传统数据集上训练的模型(如PSALM为14.2),显示出强大的泛化能力[26][27] 行业背景与技术挑战 - 第一人称视角与第三人称视角在机器人学习、VR交互等关键领域各有优劣,但实现跨视角的物体级视觉对应与语义关联是当前亟待解决的核心问题[7][8] - 现有高性能图像分割模型普遍受限于单一视角,难以驾驭跨视角分割问题,面临复杂的背景干扰和显著的视觉变换两大核心挑战[11][12][13][14]
首创“AI+真人”双保障模式!刚刚,百度健康推出7x24小时「能聊、有料、会管」AI管家
量子位· 2025-10-18 15:33
产品核心功能与定位 - 百度健康推出主打“能聊、有料、会管”的7x24小时AI管家,提供全链路健康服务 [3][9] - 产品最大特点是首创“AI+真人”双认证健康咨询模式,AI生成内容由真人医生二次实时核验,提升安全性与可信度 [6][26] - 产品集成于百度APP内,无需单独下载应用,提供从科普、问诊、就医到健康档案管理的全流程服务 [11][12][39] “能聊”:智能咨询与诊断能力 - AI支持多轮对话,并能精准识别用户上传的医学图片,如骨折影像 [13][15][16] - 对医疗文档(检验报告、就诊病历、影像学报告)的解读准确率高达98% [21] - 支持127种皮肤问题的初步判断,并提供典型病例图片供用户参考比对 [22][24] “有料”:医疗资源整合与调度 - 整合超过30万名优质医生资源及权威医院榜单信息,提供科室推荐、医生筛选到号源预约的完整辅助就医服务 [29] - 提供“免费问医生”服务,并已吸引超1万名三甲医院医生开通AI助理分身,提供7x24小时服务 [31][35] - AI能智能调度资源,在AI分导诊、真人医生介入、AI分身服务间无缝切换 [41] “会管”:健康数据管理 - 用户可一键上传个人及家人的病历、检查报告等医疗单据,系统自动解析并构建家庭医疗数据图谱 [37][39] - 医疗文档抽取分类准确率达95%以上,并计划通过智能算法对健康趋势与病情演变进行动态追踪和可视化 [39] 技术架构与数据能力 - 技术体系由36万医生实时参与标注和校验支撑,包含数据层、模型层、应用层三层架构 [40][42] - 数据层通过“高质量数据闭环+真人专家深度介入”体系处理海量医疗数据,构建核心数据壁垒 [46][51] - 模型层采用“多模态+领域增强+Online-RL进化”技术主线,具备自主学习和持续优化能力 [53][57] 行业影响与战略愿景 - 该产品标志着医疗AI从“辅助性工具”向“智能健康伙伴”的关键跃迁,重塑求医问诊体验 [66][68][71] - 公司旨在打造中国百姓首选的健康内容和决策平台,通过日均服务1.3亿用户、整合6亿健康内容、连接36万医疗专家来扩大生态 [73][75] - 公司通过自研Agent+行业MCP生态,联动产业链上下游伙伴,为技术落地提供强大产业支撑 [64][74]