量子位

搜索文档
北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”
量子位· 2025-06-26 22:11
大语言模型学术检索能力评估 核心观点 - 北京大学DS-Lab发布首个评估大语言模型学术检索能力的数据集ScholarSearch,包含223道高难度学术问题,顶尖纯推理模型(如GPT-4.1、DeepSeek-R1)准确率普遍低于9% [1][15] - 具备搜索功能的模型比无搜索版本性能显著提升(如GPT-4o-mini准确率提升超4倍),但最先进的搜索增强型模型(GPT-4o-search-preview)准确率仅18.83% [2][3][15] - 当前模型在深度学术研究场景存在明显局限,需开发更强大的Deep Research模型 [4][16] 数据集构建方法 - 问题筛选采用双重负向标准:需同时无法被Grok 3 Thinking模式解答,且Grok 3 DeepSearch或Gemini 2.5 Pro Deep Research至少一个失败 [6] - 审核机制确保答案唯一性、来源可访问性和学术正确性,未达标问题需迭代修订 [7][8] - 问题来源于真实学术场景,覆盖15个细分学科(科学与工程+社会科学与人文学科) [11][12] 评估结果分析 - 纯推理模型无法应对学术查询复杂性,证明静态知识库存在局限性 [15] - 搜索能力使模型在科学与工程(18.2%准确率)与社会科学(19.5%准确率)领域表现趋于平衡 [15] - 现有模型在深度多源推理、专业知识整合方面存在技术差距,需突破复杂语境理解与批判性验证能力 [16]
小米AI眼镜1999元起售!雷军:眼镜+相机+耳机+小爱,就是你的随身AI入口
量子位· 2025-06-26 22:11
小米AI眼镜发布 - 小米发布AI眼镜新品 定位为"面向下一个时代的个人智能设备 随身的AI入口" [3][4] - 产品功能集成眼镜+第一人称相机+耳机+随身AI助手 支持线上线下配镜 重量40g(普通眼镜2倍) [5][6][12] - 核心AI能力由超级小爱实现 支持多模态交互/跨设备执行/个性化记忆 可完成拍照/支付/选衣等场景化指令 [22][24][26][27] 产品技术参数 - 采用骁龙AR1+低功耗处理芯片双芯方案 比竞品多一颗低功耗芯片 实现能耗优化与复杂功能平衡 [21] - 配置航空级钛合金转轴/1200万像素超广角镜头/4Mic+骨传导Mic等硬件 [19] - 典型续航8.6小时(竞品2倍) 充电时间45分钟(竞品75分钟) 支持Type-C边用边充 [20] 市场竞争策略 - 基础版定价1999元 直接对标Ray-Ban Meta AI眼镜(2146元) [12][14] - 突出更轻重量/更长续航/超级小爱配置等差异化优势 发布会现场直接展示对比图 [15][16] - 另推出2699元和2999元电致变色版本 拓展高端产品线 [29] 公司战略动态 - 2024年Q1营收1113亿元 同比增长47%创历史最佳财报 [31] - 宣布未来5年(2026-2030)将投入2000亿元用于核心技术研发 强化技术高端化路线 [34] - 技术布局涵盖汽车/3纳米芯片等多领域 形成"人车家全生态"协同效应 [2][33]
Nature报道:谷歌新模型1秒读懂DNA变异!首次统一基因组全任务,性能碾压现有模型
量子位· 2025-06-26 22:11
核心观点 - 谷歌DeepMind推出突破性生物模型AlphaGenome,能够从1兆碱基的DNA序列中预测数千种功能基因组特征,并以单碱基分辨率评估变异效应[3][4] - AlphaGenome在基因表达、剪接、染色质可及性等任务上性能全面超越现有模型,为解析基因组调控代码提供强大工具[5][7] - 该模型是首个统一基因组任务的单一模型,将多模态预测、长序列背景和碱基对分辨率统一于单一框架[10][11] - AlphaGenome在临床上有潜力帮助理解疾病原因、发现治疗靶点,例如在T细胞急性淋巴细胞白血病研究中解析致癌变异[29] 模型架构与技术细节 - 模型架构受U-Net启发,处理1兆碱基DNA输入序列,生成一维和二维嵌入,分辨率分别为1bp/128bp和2048bp[13] - 内部结合卷积层和Transformer块,通过8个张量处理单元实现完整碱基对分辨率训练,最终输出11种模态,涵盖5930条人类或1128条小鼠基因组轨道[13] - 采用预训练和蒸馏两阶段训练,在NVIDIA H100 GPU上推理时间可达1秒以内[15][17] 性能表现 - 在24项基因组轨道评估中,AlphaGenome在22项保持领先,例如在细胞类型特异性LFC预测上相对改进+17.4%[16][19] - 在26个变异效应预测基准中,24项达到或超越现有最强模型,例如表达QTL方向预测提升25.5%,可及性QTL提升8%[19][21] - 在剪接模态方面首次实现全方位预测,在7项基准测试中的6项实现最先进水平,auPRC达0.54[25][27][28] 应用与未来发展 - 可帮助研究人员更精准理解疾病潜在原因,例如解析T-ALL中TAL1基因附近的致癌变异[29] - 未来可通过扩展数据提升预测精度并涵盖更广泛物种,科学家只需微调即可快速生成和测试假设[29] - 目前提供预览版并计划正式发布,代码已开源[30]
国产大模型高考出分了:裸分683,选清华还是北大?
量子位· 2025-06-26 14:25
大模型高考评测表现 - 核心观点:字节跳动Seed团队发布的大模型高考评测结果显示,Gemini和豆包在理科和文科总分分别位列第一,展现领先的学科能力 [2] - 理科总分排名:Gemini以655分居首,豆包648分次之;文科总分豆包683分第一 [2] - 细分科目优势:豆包在语文(128)、英语(144)、物理(90)、地理(92)、历史(92)、政治(84)6科中排名第一,数学(141)仅次于Deepseek(145) [3] - 国际模型短板:国外模型在文综科目(政治/历史)表现较弱,对中国知识点理解不足 [24] 评测方法与标准 - 试卷构成:主科采用全国一卷(语数英),副科采用山东卷,总分750分 [9] - 评分机制:选择题机评+人工质检,开放题实行双评制由高中教师阅卷 [10] - 测试环境:API测试不联网,未使用提示词优化技巧确保公平性 [11] 学科能力深度分析 - 数学进步:模型均达140分水平,较去年显著提升(此前多数不及格) [13] - 视觉短板:全国一卷第6题因图表识别问题全军覆没(正解A,模型多选C) [16][17] - 语文写作:得分率高但存在刻板化、字数不达标、立意偏差等问题 [20] - 英语表现:接近完美,仅写作存在用词和句式单调等细微缺陷 [21] - 理综挑战:图像题仍是难点,豆包与Gemini相对优势明显 [22][23] 技术能力突破 - 多模态融合:Seed1.6通过三阶段训练(文本预训练/多模态混合/长上下文)实现256K上下文支持,提升阅读理解准确率 [33][34][35] - 深度思考优化:采用RFT+RL迭代方法,引入parallel decoding技术,数学高难度测试集成绩提升8分 [36][37][38] - 动态思考机制:AutoCoT技术解决过度思考问题,复杂任务中思维链触发率达100% [39][40][44] 国际考试对比 - JEE Advanced表现:豆包与Gemini进入全印度前10,Gemini物理化学突出,豆包数学5次采样全对 [27][28] - 多模态潜力:使用清晰图片重新测试后,豆包理科总分提升30分至676分,验证图文结合输入的效能 [42][43]
OceanBase全面拥抱AI新进展:OB Cloud支持十亿级多类型向量数据,数十家企业实现AI应用落地
量子位· 2025-06-26 11:43
大模型与AI落地现状 - 大模型热潮席卷全球,但企业面临AI融入核心业务、解决实际问题的关键鸿沟[1] - 模型易得但落地难行成为企业智能化转型的普遍困境[2] - ChatGPT等AI应用取得显著成绩:17个月用户突破8亿、年搜索量是谷歌的5.5倍[7] - AI正成为移动互联网之后的新一代基础设施[9] - AI普及速度超越历史任何技术创新,从工具升级为平台级基础设施[10] 企业AI落地的挑战 - 企业AI建设分为三个阶段:工具体验、业务融合、流程创新[11] - 技术与场景适配难题:非结构化数据处理复杂,需兼顾实时与分析场景[14] - 成本与性能平衡:海量数据推高存储成本,实时查询需求增加权衡难度[15] - 数据底座成为企业AI落地的核心瓶颈[16] - 企业优势与挑战均在于数据,需跨业务跨模态打通数据[17] OB Cloud的AI落地实践 - OceanBase推出OB Cloud,实现AI能力开发部署及生态集成[3] - 已服务电商零售、互联网服务、物流运输等数十家头部企业[4] - 支持搜索推荐、智能问答、企业级Agent等场景,将AI转化为现实生产力[5] - 典型案例:伯俊科技基于OB Cloud构建AI知识库,实现秒级查询响应[19] - in银泰商业利用OB Cloud向量检索能力打造智能问数平台[19] - 携程、三维家等实现"以图搜图"搜索及个性化推荐场景[19] OB Cloud的核心优势 - 多云原生:覆盖全球50+区域、170+地区,支持跨云容灾与分钟级故障切换[20][22] - 一体化架构:支持事务处理、实时分析与AI工作负载,无需额外技术栈[25][27] - 性能表现:VectorDBBench测试中达到开源向量数据库最优水平[28] - 多模向量一体化:原生支持文本、结构化数据、JSON和向量数据的统一管理[30][31] - PowerRAG工具:开箱即用的一站式平台,优化文档解析精度与召回率[33][34] 云数据库与AI融合趋势 - 云数据库与AI融合是企业智能化转型的必然路径[36] - 云数据库从"存储工具"升级为"智能引擎",释放数据价值[38] - 一体化架构是未来趋势,可闭环解决多模态数据处理与智能计算需求[41][42] - OB Cloud代表云数据库未来形态,成为企业AI落地的理想选择[45][46]
一张小卡片敢卖999?原来是智能体AI硬件
量子位· 2025-06-26 11:43
产品发布与定位 - 出门问问发布全球首款智能体AI硬件TicNote,定位为"随身AI思考伙伴",集成录音转写、翻译、总结、问答及对话功能[1][5] - 产品海外版于4月上市后获好评,国内版近期上线,售价999元起含硬件及3个月Pro会员服务[2][3] - 硬件形态为卡片式设计,尺寸与标准银行卡相当,厚度3mm,重量不足30g,配备磁吸保护套可贴附手机背面[10][18][20] 核心功能与技术 - 支持"现场"与"通话"双录音模式,分别针对开放空间远距声源和封闭环境听筒声音,录音可通过蓝牙/WiFi传输至手机端AI处理[6][11] - AI语音识别系统覆盖上百种外语及24种中文方言,转写精准度达98%,支持智能断句、自动排版及多人对话识别[6] - 搭载Shadow AI代理,接入DeepSeek实现实时对话、逻辑推理、知识整合,可提炼录音内容生成摘要、待办事项及行动建议[7][8] - 独创"顿悟时刻"功能,从录音中捕捉灵感并生成可视化思维导图,支持播客自动生成及深度研究方案设计[9][13][16] 目标用户与应用场景 - 文字工作者可通过模板化总结、追问细节及项目管理功能提升效率,支持本地文档整合构建专属知识库[23][25][35] - 教师与科研人员(如遥感领域张教授案例)可借助专业级分析能力减少资料整理时间,聚焦核心研究[42][48] - 职场家长、学生及会议频繁人士适用,解决多任务并行时的信息管理痛点[52] 公司战略与行业视角 - 出门问问采取软硬结合路径,以硬件为上下文收集工具,强调软件服务优先,避免盲目追求硬件噱头[54][55][57] - TicNote差异化优势在于专业级收音质量、续航(20天待机/20+小时录音)及抗干扰性(470mAh电池+64GB存储),对比手机更专注垂直场景[21][22][61] - 公司瞄准"物理AI"趋势,计划将Shadow AI扩展至手表、耳机等穿戴设备,呼应英伟达提出的50万亿美元市场潜力[62][63]
AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI
量子位· 2025-06-26 11:43
核心观点 - 美国法院首次裁定AI公司可在未经作者许可情况下使用合法购买的已出版书籍训练AI 依据合理使用原则认定AI训练属于转化性使用 未取代原作市场且有利于技术创新[2][3][17] - 法院明确区分数据来源合法性 盗版书籍训练不构成合理使用 需承担侵权责任 但合法采购书籍的扫描副本可用于训练[15][16][33] - 裁决显著降低AI行业训练数据的版权风险 为LLMs发展提供法律支持 可能影响OpenAI和Meta等同类案件审理[3][32][34] 案件背景 - Anthropic被指控在2021-2022年通过盗版网站LibGen等非法下载超700万份受版权保护书籍建立数字图书馆 2023年使用子集训练Claude模型[7][8][10] - 2024年转向合法采购 雇佣前Google图书扫描项目负责人Turvey采购数百万本纸质书 但未持续跟进出版商授权沟通[11][12] - 2024年8月三位作家起诉其非法复制作品训练AI 法院最终支持合法来源数据的使用权[6][13] 法律依据 - 援引美国版权法"合理使用"原则 认定AI训练具有高度转化性 输出内容未侵犯原作且未形成市场替代[2][14] - 参考历史判例:2015年Google Books案确立数字化检索属合理使用 2022年GitHub Copilot案确认代码训练转化性[24][25][29] - 法院强调技术中立性 类比人类阅读学习过程 认为AI消化书籍信息应获同等权利[4][18] 行业影响 - 加速AI公司数据获取合规化进程 Anthropic等企业需建立正版采购渠道 避免盗版资源[11][15] - 技术解决方案受推动 GitHub Copilot已部署代码来源标注功能 防范许可证冲突[29][30] - 创作者权益保护机制待完善 需探索新型授权模式应对AI训练需求[19] 争议焦点 - 法律界对"转化性使用"标准存在分歧 部分观点认为AI大规模复制不同于人类学习[19] - 开源社区担忧商业公司滥用合理使用条款 将免费资源转化为付费服务[28][29] - 出版商面临正版采购与盗版监控的双重成本压力[12][31]
全模态RAG突破文本局限,港大构建跨模态一体化系统
量子位· 2025-06-26 11:43
技术突破 - 突破传统RAG技术局限,实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解[1] - 香港大学黄超教授团队开源多模态智能处理系统RAG-Anything,将碎片化信息转化为结构化知识网络[1] - 系统整合多模态文档解析、语义理解、知识建模和智能问答等核心能力,构建从原始文档到智能交互的完整自动化流程[2] 技术痛点与需求 - 传统RAG系统主要针对纯文本设计,无法有效处理图表、表格、公式等非文本内容[6] - 现有系统存在检索效果不理想、语义关联缺失、工作流复杂等问题[6] - 各行业迫切需要AI系统具备跨模态综合理解能力,能够同时解析文字、图像、表格和数学表达式[4] 系统架构与功能 - 采用端到端技术栈,包含文档解析、内容理解、知识构建和智能问答等关键功能[10] - 支持PDF、Office文档、图像等10多种主流文档格式[12] - 实现跨模态统一知识表示和检索方法,提供标准化API接口和灵活配置选项[10] 技术亮点 - 一站式多模态处理流程,实现从文档解析到智能问答的全流程自动化[11] - 全方位内容理解能力,包括视觉分析、语言理解和结构化数据处理[13] - 语义关联网络构建,自动识别文档中不同类型内容之间的关联关系[14] - 开放式组件生态架构,支持功能模块灵活调整和添加[15] 多模态理解能力 - 视觉内容分析:集成视觉大模型,自动生成图像描述,提取图表数据关系和视觉要素[19] - 表格智能解析:理解表格层次结构,识别表头关系和数据逻辑联系[20] - 数学公式理解:识别LaTeX格式表达式,分析变量含义和适用场景[20] - 扩展模态支持:支持流程图、代码片段、地理信息等专业内容识别[20] 知识图谱构建 - 将多模态内容统一建模为结构化知识图谱,突破信息孤岛问题[23] - 实体化建模:将异构内容统一抽象为知识实体,保留完整信息[24] - 智能关系构建:自动识别段落间逻辑关系和图文间说明关系[24] - 高效存储索引:建立图谱数据库和向量数据库双重存储机制[24] 检索机制 - 采用双层次检索问答机制,结合图谱检索和向量检索优势[26] - 分层提取细粒度关键词和概念级关键词,精准理解复杂问题[27] - 混合检索方式,通过图谱结构快速找到相关实体节点[27] 部署与应用 - 提供PyPI和源码两种安装方式,支持快速部署[29] - 模块化架构设计,支持一键式端到端处理和精细化手动构建两种使用方式[30] - 全流程自动化,从文档上传到智能问答无需人工干预[34] - 支持精确控制处理流程和定制化功能扩展[35] 未来方向 - 改进系统推理能力,处理跨模态信息深层关联[37] - 探索学术论文图表解析、财务报表数据提取、工程图纸识别等应用场景[37] - 作为构建智能Agent的基础技术,为AI应用提供多模态处理能力[37]
北大腾讯突破奖励模型瓶颈!让AI理解人类偏好,泛化能力比肩GPT-4.1
量子位· 2025-06-26 10:11
核心观点 - RewardAnything通过自然语言描述的评判原则实现奖励模型从"死记硬背"到"融会贯通"的范式跃迁 [1] - 该方法突破传统奖励模型需收集偏好数据训练的高成本瓶颈 直接利用自然语言作为RLHF标准 [2] - 在RABench基准测试中展示出与GPT-4 1相媲美的原则跟随能力与泛化能力 [2][28] 技术突破 传统奖励模型缺陷 - 当前最先进奖励模型在抵抗格式偏见测试中准确率仅46 6% 低于随机猜测水平 [4] - 存在"长回答=好回答"和"好格式=好答案"等虚假关联 学习相关性而非因果性 [6][8] - 评估过程单一价值观导向 难以衡量对多样化原则的理解能力 [9] RewardAnything创新 - 采用"原则跟随"范式 通过自然语言直接定义评判标准 [10][12] - 列表式评分技术单次调用可完成10个候选回答评估 计算效率较传统两两比较提升45倍 [14] - 引入GRPO算法训练 强化模型对原则遵守情况的相对质量辨别能力 [16] 性能表现 基准测试结果 - 在RM-Bench"困难"设置中总体得分86 4% 显著超越GPT-4 1(77 4%)和Gemini 2 5 Pro(57 9%) [19] - 在安全领域测试中保持高拒绝率(84 4%)的同时提升建设性回复比例 [19][33] - RABench测试包含1002个验证排序列表 相当于31 806个传统偏好对 覆盖5大文本质量维度 [27] 应用案例 - 仅用2000个未标注prompt和自然语言原则即实现Qwen3-8B模型安全对齐 [30] - 对齐后模型在XSTest中错误拒绝率降低 MT-Bench文本质量评分显著提升 [33] - 验证了"原则驱动"对齐范式相比传统"数据驱动"方法的效率优势 [34]
谷歌太壕了!编程Agent大招至简:开源且免费,百万上下文、多模态、MCP全支持
量子位· 2025-06-26 10:11
谷歌推出Gemini CLI - 公司推出开源免费的Gemini CLI工具,允许用户在终端直接访问Gemini模型,提供业界最高免费限额:100万上下文窗口的Gemini 2.5 Pro,每分钟60次请求,每天上限1000次 [2] - 工具不仅限于编程,还支持多模态功能,如通过命令行生成视频(调用Veo和Imagen)和图像 [3][4] - 发布后GitHub仓库标星一夜飙升至10.8k,引发广泛讨论,网友认为其免费策略对竞品(如Cursor、Claude Code、OpenAI Codex CLI)形成冲击 [4][5] Gemini CLI核心功能 - 能力覆盖代码理解、文件操作、命令执行和动态故障排除,支持自然语言指挥模型写代码和Debug [8][9] - 编码功能包括:支持100万上下文窗口查询编辑大型代码库、集成GitHub自动执行任务(如管理pull requests和分支)、根据PDF或草图生成App [11] - 多模态支持:调用Imagen、Veo、Lyria生成图像视频,并整合谷歌搜索功能 [11] 技术细节与安装 - 工具与谷歌AI编程助手Gemini Code Assist技术共享,采用Apache 2.0开源协议 [13][14] - 安装需Node.js 18+环境,通过npx或npm命令部署,登录谷歌账号即可获取免费额度,更高用量需申请API密钥 [15][16][17] - 官方提供prompt示例,如自动化生成幻灯片展示近期git历史,更多用例可在GitHub仓库查看 [18][19][20]