Workflow
量子位
icon
搜索文档
AI100访谈:「Get笔记」方法论 |量子位智库
量子位· 2025-11-08 10:25
公司产品表现与市场定位 - Get笔记是得到团队推出的AI驱动智能笔记工具,上线一年用户数量突破150万,其中超过一半(约73.5万)为纯新用户,未使用过罗辑思维或得到APP [5][10][22][24] - 产品连续登上量子位智库2025年上半年和第三季度的“旗舰AI 100”榜单,在红海的AI知识管理赛道中表现突出 [3][4][5] - 核心功能包括AI多模态记录(语音、链接、图片、文字速记)、知识库管理(个人/团队库、自动归档)和智能问答与搜索(自然语言检索、笔记补写) [9][11] 用户获取与增长策略 - 前期通过自然增长获取用户,小程序阶段采用“病毒化小限制”策略,用户转发好友并生产笔记后可解锁更长录音时长(从3分钟升级至10分钟),推动口碑传播 [58][59] - 建立超过100个用户群收集反馈,但更注重用户投票机制,通过产品内需求池由用户对功能优先级投票(如投票数144的需求优先开发),替代产品经理决策 [50][51][52][57] - 用户群体包括泛创业者、企业AI推动者、高知识密度职业者(律师、医生、教师),部分场景如学校用其录制课程供学生回放,医院用于记录巡房和手术复盘 [32][33][34] 产品差异化与核心理念 - 聚焦“好记、好找、好用”三个核心环节,明确边界,暂不开发脑图、PPT生成等非核心功能,避免功能泛滥影响主赛道 [63][65][66][67][69][70] - 在看似同质化的功能(如语音转文字)上追求深度差异化,通过资深内容团队调教AI润色效果,使输出内容更接近“优美白话文”而非机械风格 [36][37][38][44][45] - 强调用户共创,产品经理未预见的场景(如体制内领导优化语音消息、家长辅助孩子语音日记)由用户自发挖掘,形成真实使用场景 [34][108] 技术生态与数据沉淀 - 通过“智能拍书”等功能构建知识库生态,用户拍摄书籍页面可自动识别并聚合电子书划线、语音笔记等多元内容,支持基于多本书及笔记的对话(当前上限10本) [39][41][79][81] - 注重数据沉淀价值,用户长期使用(如积累100场会议记录)可提升AI个性化输出质量,而非频繁更换平台 [47][48] - 与得到资源协同潜力大,但优先攻克通用场景,未来计划融合得到版权书籍(如专业期刊《中国油气》)盘活存量资源 [61][83][84] 行业认知与AI应用观 - 认为AI知识管理赛道远未到泡沫阶段,用户需求碎片化且细分空间大,例如十几万人员工的企业存在将培训材料AI化的真实需求 [16][19][20][21] - 主张多智能体工作流(如写作场景中分工调研、审稿的AI助手)将颠覆行业,但反对“一句话生成内容”的完全托管模式,强调人类主导调教 [15][88] - 产品开发需基于未来三个月AI迭代水平规划,而非当前缺陷,底层大模型进步(如从40分到50分)结合企业独有的20分专业能力(如牛仔裤公司卖家秀数据)可形成护城河 [15][90][91][92] 组织管理与开发模式 - AI工具改变了传统产品开发流程,团队不再依赖PRD文档,改为成员提前用AI生成原型(如5人会议讨论20套AI方案),实现实时共创迭代 [99][100] - 岗位职责模糊化,90分开发者可借助AI覆盖产品、设计部分工作,产品经理需重新定位价值(如无需充当需求“翻译者”) [98][100][101] - 关注用户真实行为指标(如7天内使用两次笔记的用户数),而非日活等可能含“虚假泡沫”的数据 [76][77][78]
两周复刻DeepSeek-OCR!两人小团队还原低token高压缩核心,换完解码器更实用
量子位· 2025-11-07 13:32
技术突破与核心优势 - 提出“视觉压缩一切”的设计思想,通过将文字渲染成图片,用视觉模态作为压缩媒介,解决大模型处理长文本时的算力爆炸难题[4] - 实现7-20倍的压缩比,在10倍压缩下准确率仍能保持97%,仅需约250个视觉tokens即可承载原本需要3949个文本tokens的内容[7][22] - 复刻版DeepOCR严格遵循原版三阶段串联结构(局部处理-压缩-全局理解),采用SAM-base处理图像、16×卷积压缩器削减token数量、CLIP-large抓取文档语义,有效控制内存占用[10] 技术实现与架构 - 编码器采用“局部处理-压缩-全局理解”三阶段设计:第一步用SAM-base将1024×1024图像切成16×16补丁生成4096个初始token;第二步用卷积压缩器将token从4096个削减至256个;第三步由CLIP-large处理压缩后的tokens进行全局理解[10] - 模型将CLIP的补丁特征和展平后的SAM特征拼接,输出2048维的融合特征[11] - 使用Qwen2-7B-Instruct作为大语言模型替代原版选择,因与VILA训练框架兼容性更好且完全开源,在保持核心能力的同时降低了落地门槛[16][17] 训练效率与资源需求 - 采用两阶段训练流程并全程冻结DeepEncoder,大幅降低显存需求:第一阶段仅训练多模态投影仪,采用512全局batch size和1e-3学习率;第二阶段进行全模型预训练,batch size降至32,学习率调整为5e-5[20] - 整套训练方案可在2张H200 GPU上完成,体现出显著的低算力友好特性,适配中小团队资源条件[19][21] 性能表现与基准测试 - 在基础任务中表现突出,英文文本识别和表格解析能力优秀,表格解析甚至优于原版,得益于对原版2D空间编码的精准还原[24] - 在olmOCR基准测试中,简单文档的基础OCR能力扎实,与原版表现接近[26] - 与现有模型对比,DeepOCR在关键指标上展现出竞争力,如在特定任务中超越部分基线模型[26][27] 团队背景与项目进展 - 开发团队由两名成员组成:Ming Liu(北京大学物理硕士,爱荷华州立大学计算机博士在读,曾任亚马逊应用科学家实习生)和刘世隆(清华大学博士,普林斯顿大学博士后,曾任字节Seed团队科研人员)[29][31][32] - 项目完全开源,代码和项目主页已公开,当前版本与原版的差距主要源于训练数据限制而非架构问题[27][33] - 团队计划通过补充公式、多语言、旧扫描件等训练数据,并应用动态温度缩放、RLVR等技术进一步缩小复杂任务上的性能差距[28]
陶哲轩力推AlphaEvolve:解决67个不同数学问题,多个难题中超越人类最优解
量子位· 2025-11-07 13:32
核心观点 - AlphaEvolve被数学家陶哲轩称为数学发现的有力新工具,展示了AI在数学研究领域的强大能力 [1][2] 测试范围与成果 - 系统在67个数学问题上进行了测试,涵盖组合数学、几何、数学分析与数论等多个领域 [4] - 系统不仅复现了众多已知最优解,更关键的是能够自主发现新颖的数学构造,并在部分问题上超越人类已有的最优结果 [5][6][7] 自主发现与人机协作 - 在处理Nikodym集问题时,系统生成的构造为人类研究者提供了极好的直觉跳板,研究人员通过人工简化最终找到了更优构造,改进了已知上界,相关成果将作为独立数学论文发表 [8] - 在算术Kakeya猜想中,系统将一个已知的下界从1.61226提升至1.668,其构造的解(形态上类似于离散高斯分布)还启发人类数学家建立了新的渐近关系,相关成果也即将发表 [12] 系统特性优势 - 系统在可扩展性、鲁棒性、可解释性方面均优于传统工具 [9] - 系统生成的是结构清晰的程序代码,而非难以理解的黑盒结果,使得人类专家可以方便地分析、归纳其发现的模式 [12] - 在积木堆叠问题中,系统自主将递归程序重构为更简洁高效的显式程序,清晰揭示了最优解与谐波数之间的数学关系,与人类已知理论公式一致 [13][17] 鲁棒性与泛化能力 - 系统能够有效处理高维度参数空间、复杂的几何约束以及基于蒙特卡洛模拟的近似评分函数 [21] - 在最小三角形密度问题中,系统能适应从朴素评分函数切换到基于利普希茨连续性的更复杂连续评分函数,并迅速收敛到正确的理论最优解 [24][25] - 在IMO 2025第6题测试中,系统仅在输入n为完全平方数时被评分,这种信息限制迫使其寻找稀疏实例背后的共同结构模式,最终成功发现并在所有完全平方数n上均达到最优的通用构造,展现了归纳能力 [26][27][29] 效率与工作模式 - 系统效率极高,仅需少量高质量提示即可驱动,且对人类专家的输入具有高度敏感性,支持并行化架构以同时运行多个问题探索 [31] - 系统主要在两种模式下运行:"搜索模式"演化的是用于搜索构造的"搜索启发式算法"程序,解决了LLM调用缓慢与局部搜索快速之间的差异 [33][34][35] - "泛化模式"更具挑战性,目标是让系统编写能解决任意参数n问题的通用程序,期望其通过观察小规模n的最优解来自主发现并归纳出通用公式或算法 [37]
硅谷祛眼袋,海淀求嫩肤:中外科技老哥都在偷偷卷颜值
量子位· 2025-11-07 12:10
医美需求趋势 - 过去五年,科技行业男性进行医美的人数增加了五倍,其中大厂中年男性程序员占很大比例[1][2] - 科技行业男性进行面部拉皮手术的人数上涨约25%,眼睑提升术的人数飙升了50%[4] - 医美手术受众呈现年轻化趋势,过去六七十岁才考虑的拉皮手术,如今四五十岁的客户已主动上门[5] 医美项目偏好 - 眼睑提升术因创伤小、恢复快且效果显著,在科技行业男性中非常受欢迎[7][8] - 除轻医美外,科技从业者对下颌线拉皮、颈部拉皮、局部吸脂等需动刀或麻醉的硬核项目需求增加[16] - 国内科技公司男性员工的医美需求以光子嫩肤和肉毒杆菌注射等轻医美项目为主,光子嫩肤价格约为1680元/次或5999元/6次疗程[62][63][66][67] 行业年龄焦虑 - 在46至49岁的科技从业者中,有80%担心年龄会影响职业发展[20] - 硅谷科技公司员工平均年龄在30岁左右,行业存在隐性的年龄歧视文化[26][27][35] - 工龄超过一定阈值的员工被视为降本增效的首批候选人,经验和积累在快速技术迭代中可能失去价值[36][40][53] 行业工作环境 - AI实验室的顶尖研究员和高管平均每周工时高达80到100小时,部分公司招聘时明确要求候选人能接受每周工作70小时[49][50] - AI的普及降低了创业门槛,年轻创始人更倾向于招聘同龄人,加剧了资深员工的竞争压力[56][57] - Z世代员工更愿意加班,进一步加剧了行业内的竞争压力[52]
会写剧本、能凹人设,还顺带站上领奖台,这数字人包“会”的
量子位· 2025-11-07 12:10
文章核心观点 - 百度“剧本驱动多模协同”高拟真数字人技术通过整合语言、动作、表情与反应,显著提升了数字人的拟人化程度和商业应用价值 [6] - 该技术已从演示阶段进入大规模商业应用,在电商、教育、政务等多个行业实现降本增效,并成为百度电商生态的重要基础设施 [22][28][34] - 技术核心在于使数字人具备自主生成剧本、实时互动决策及保持长时间一致性的能力,从而在直播等场景中达到甚至超越真人主播的效果 [8][13][20] 技术原理与创新 - 技术体系包含剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成五项创新 [4] - 基于文心大模型,数字人能自主生成包含说话内容、语气、动作及互动节点的全流程直播剧本,例如在罗永浩直播中调用知识库超1.3万次,生成9.7万字内容 [8][12] - 通过文本自控语音合成大模型和上下文编码器,数字人可实现带情绪语调的语音输出及自然对话衔接,使交互更具“人味” [15][16] 应用成效与数据 - 已孵化超10万个数字人,应用于电商、教育、法律、政务等几十个行业,助力商家开播成本降低80%,转化率提升31% [22][24] - 在罗永浩6小时直播中,数字人吸引观众超1300万,GMV达5500万+;知识博主艾弥儿数字人将用户停留时长提升101%;蒙牛悠瑞数字人转化率提高33% [12][25] - 在山东夏津县,数字人“慧播星”助农直播1个月卖出3.3万斤农产品,总销售超15万元,账号订单量近万单 [25] 行业影响与趋势 - 数字人技术提供了一种更稳定、可控的内容生产力路径,实现24小时不间断直播,显著提升商品曝光和转化机会 [29][35] - 技术推动“绿色降本逻辑”,通过算法驱动减少碳排和资源投入,并带动产业链协同创新 [26] - 数字人正从实验室演示转变为能“拉业绩、带节奏、撬增长”的商业工具,成为内容产业的新型基础设施 [32][34]
量子位2025年度榜单申报倒计时!企业/产品/人物三大维度5类奖项即将截止
量子位· 2025-11-07 12:10
评选活动概览 - 正式启动2025人工智能年度榜单评选 旨在让从业者感受智能浪潮跃迁并给予同行鼓舞[1] - 评选从企业、产品、人物三大维度设立五类奖项[1][3] - 评选报名从即日起开始 截至2025年11月17日 结果将在MEET2026智能未来大会上公布[19] 企业类奖项评选标准 - 年度领航企业面向中国AI领域最具综合实力企业 参选需注册地在中国或主营业务主要面向中国市场且属于AI及相关产业[4][5] - 年度潜力创业公司聚焦创新创业力量 参选需公司未上市且拥有人工智能相关产品或服务落地[8][11] - 企业评选标准涵盖业务能力、技术能力、资本能力及其他综合能力 包括市场占有率、营收规模、科研实力、融资情况等[10][11] 产品与解决方案类奖项评选标准 - 年度杰出产品聚焦最具代表性AI产品 参选需产品以AI技术为核心已投入市场并完成重要技术创新[12][14] - 年度杰出解决方案聚焦AI在不同行业典型应用 参选需方案以自主创新AI技术为核心已在实际场景落地[13][15] - 产品与解决方案评选标准侧重产品力、技术力、落地情况及创新性 包括功能完整性、市场占有率、技术融合能力等[14][15] 人物类奖项评选标准 - 年度焦点人物评选最受关注行业新星与领军人物 参选需国籍为中国或所属公司主体在中国且为创始团队成员或核心高管[16][21] - 人物评选标准涵盖企业情况、个人能力及其他综合能力 包括企业行业地位、个人技术商业能力、行业认可度等[21] 行业大会信息 - MEET2026智能未来大会以"共生无界 智启未来"为主题 邀请科技产业学术领域领军人物齐聚[23] - 大会每年吸引上千名科技从业者参与 百万观众线上围观 近百家合作媒体联合曝光 成为智能科技行业年度风向标[24] - 大会将探讨人工智能+、AI Infra、智能驾驶、低空经济、能源电力等前沿科技话题[24][25]
Kimi K2 Thinking突袭!智能体&推理能力超GPT-5,网友:再次缩小开源闭源差距
量子位· 2025-11-07 09:09
模型核心能力与定位 - 模型定位为“模型即Agent”,是迄今能力最强的开源思考模型,具备边思考边使用工具的能力,无需人工干预即可执行200-300次连续工具调用 [1] - 作为今年最受关注的开源模型系列之一,其发布被认为再次缩小了开源模型与闭源模型的差距 [3] - 模型代码和权重遵循最为宽松的MIT协议,已上线官方网站和手机应用,API可通过开放平台访问 [10] 技术架构与性能 - 模型采用1TB参数,激活参数为32B,使用INT4量化而非FP8,拥有256K上下文窗口 [5] - 通过测试时扩展技术,同时扩展思考Token和工具调用轮次,实现了更强的Agent和推理性能 [11] - 采用INT4纯权重量化,支持原生INT4推理,将生成速度提升了约2倍,且对国产加速计算芯片更友好 [30][31][32] 基准测试表现 - 在人类最后的考试中,允许使用工具的情况下取得了44.9%的SOTA成绩 [12] - 在智能体工具使用基准²-Bench Telecom中,性能从73%提升至93%,达到SOTA水平 [14][15] - 在测试自主网络浏览能力的BrowseComp基准上,以60.2%的成绩成为新的SOTA模型,远超人类平均智能29.2%的分数 [18] 自主搜索与复杂任务处理 - 模型具备长程规划和自主搜索能力,可借助上百轮的“思考→搜索→浏览→编程”动态循环,持续提出并完善假设、验证证据和进行推理 [20] - 能够将模糊且开放式的问题分解为清晰、可执行的子任务 [21] - 在第三方测试中,通过23次推理和工具调用成功解决了博士级别数学问题 [14] 编程与开发能力 - 在SWE-Multilingual、SWE-bench验证集和LiveCodeBench等编程基准测试中,能与GPT-5、Claude Sonnet 4.5等最强闭源模型竞争 [22] - 在处理HTML、React及组件丰富的前端任务时性能有明显提升,能将创意转变为功能齐全、响应式的产品 [24] - 在Agentic Coding场景中,能调用各种工具同时进行思考,灵活融入software agents处理复杂、多步骤的开发工作流,例如复刻真实可用的Word文字编辑器或创造voxel art作品 [24][25][27] 通用基础能力升级 - 创意写作能力显著提升,能将粗略灵感转化为清晰、动人且意图明确的叙述,驾驭微妙文风差异并在长篇中保持风格连贯性 [28] - 学术与研究能力增强,在分析深度、信息准确性和逻辑结构方面有显著提升,擅长处理学术论文、技术摘要和长篇报告 [28] - 回应个人或情感类问题时更富同理心,能提供细致入微的观点和切实可行的建议 [28]
马斯克1万亿美元薪酬方案获批!
量子位· 2025-11-07 09:09
文章核心观点 - 特斯拉股东大会通过马斯克价值1万亿美元的薪酬方案,该方案以超过75%的票数获得批准[1][3] - 薪酬方案与一系列极具挑战性的绩效目标挂钩,分12期解锁,目标包括将公司市值提升至8.5万亿美元、利润达到4000亿美元等[9][10][11] - 特斯拉未来战略重点将扩展至机器人和人工智能,董事会已初步表态支持投资马斯克旗下的xAI公司[6] 薪酬方案细节 - 薪酬方案总额价值1万亿美元,若全部解锁,马斯克在特斯拉的持股比例将从13%增至约25%[1][13] - 绩效目标分为市值、利润和产品三大类:市值最高需达到8.5万亿美元(约60.6万亿元),约为当前水平的近8倍;利润最高需达到4000亿美元(约2.85万亿元),比2024年提高近24倍;产品目标包括累计交付2000万辆特斯拉汽车、100万台特斯拉机器人等[11] - 据路透社估计,按当前趋势,马斯克至少能获得价值200亿至400亿美元(约711亿至1423亿元人民币)的薪酬[14] 未来战略方向 - 特斯拉董事会关于投资xAI的提案虽无最终定论,但赞成派已占优势,表明公司战略重点将向机器人和AI倾斜[6] - 马斯克称机器人行业将“比智能手机更大,比任何事都大”,并设定了交付100万台特斯拉机器人的目标[6][18] - 实现机器人量产面临三大挑战:前臂和手部的精密工程、在真实世界运行的AI、以及大规模制造,据称特斯拉是唯一同时拥有这三项能力的公司[19] 马斯克持股现状 - 马斯克目前持有的特斯拉股份包括:无争议的4.14亿股;来自2018年激励计划、尚在诉讼中的3.04亿股(其中9600万股为法院暂判);以及新提议的2025薪酬方案中最多4.24亿股,将分12批解锁[21]
连肝12小时!一轮狂刷1500篇论文,写4.2万行代码,AI科学家卷疯科研圈
量子位· 2025-11-06 21:22
Kosmos AI科学家的核心能力 - 全程无需人类干预,可自主完成文献查阅、代码编写、报告和论文撰写等科研全流程 [2] - 单次研究可持续工作12小时,平均处理1500篇论文并生成4.2万行分析代码 [2] - 研究结果具有高度可复现性,79%的发现能被人类科学家成功复现 [2] - 研究过程全程可追溯,确保数据来源可靠,杜绝数据编造 [2] 跨学科研究与应用成果 - 已在代谢组学、神经科学、材料科学等多个领域取得7项真实科学发现 [4] - 成功复现一项未公开的神经保护代谢组学研究,分析结果与人类研究数据高度吻合(R²=0.998) [6][13][15] - 在钙钛矿太阳能电池领域发现效率衰减的关键环境因素(退火湿度),在心肌纤维化研究中识别出保护蛋白SOD2 [26] - 开发出新的科研分析方法(分段回归法)用于定位阿尔茨海默病的蛋白变化临界点 [26] 技术架构与工作模式 - 采用结构化世界模型作为核心技术,为数据分析和文献检索AI模块提供共享信息大脑 [20] - 工作流程基于循环迭代和信息共享机制,最多可运行200多轮迭代 [21] - 仅需输入研究目标和数据集即可启动全自动研究流程,实现数据分析与文献检索的双轨并行 [21] - 20轮迭代的研究成果相当于人类团队6个月的工作量,且研究轮次与有价值发现呈正相关 [24] 行业竞争优势 - 相较于聚焦AI模型领域的Sakana AI,具备跨学科研究能力 [17][18] - 相比专注于药物研发的Robin系统,代码生成量提升10倍(4.2万行 vs 4000行),且解决了上下文衔接问题 [18][20] 研发团队背景 - 项目由Edison Scientific公司开发,该公司从非盈利组织FutureHouse拆分成立 [30] - 技术负责人Ludovico Mitchener拥有帝国理工学院人工智能硕士学位,入选福布斯科学领域30岁以下精英榜 [27][28] - 联合负责人Michaela Hinks获斯坦福大学生物工程博士,开发过蛋白质-DNA相互作用检测技术 [29] - 公司CEO Sam Rodriques为物理学家和生物工程师,拥有多项生物技术发明 [30] - 技术负责人Andrew White在LLMs、化学等领域发表超50篇论文,担任美国国家科学院化学科学圆桌会议成员 [32][33]
北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型
量子位· 2025-11-06 21:22
研究核心突破 - 北京大学团队推出了全球首个面向古希腊陶罐的3D视觉问答数据集VaseVQA-3D,并配套开发了专用视觉语言模型VaseVLM [1] - 该研究标志着AI正从通用“识图机器”向专业的“文化考古Agent”演进 [2] - 传统视觉语言模型在文化遗产领域存在明显不足,而新方案通过构建高质量、结构化的专业数据解决了这一问题 [3][4][5] 数据集构建方法 - 团队从现有资源中收集了3万多张古希腊陶器2D照片,经过多道筛选后保留了3880张高质量图像 [7][9][12] - 利用TripoSG技术将2D图像转换为664个高保真的GLB格式3D模型 [11] - 通过GPT-4o生成并增强了4460组“问题-答案”对,并为每个3D模型撰写了详细说明 [11] - 为确保3D模型质量,选取了24个高质量3D陶器作为标准样板进行检验 [14] 专用模型训练 - 以Qwen2.5-VL为基底,训练了专用模型VaseVLM [15] - 训练分为两个阶段:第一阶段为SFT监督微调,使用360度旋转视频和考古描述训练基础识别能力 [16][18] - 第二阶段为RLVR强化学习,将考古知识拆分为六个语义维度,模型根据每个维度的回答获得奖励 [16][18][19] - 该模型涵盖陶罐的六大核心属性:材质、工艺、形制、年代、装饰、归属 [17] 性能表现评估 - 在多项Vase-3D视觉问答任务上,VaseVLM的表现大幅超越现有基线模型 [20] - 相比最强基线模型,VaseVLM在R@1准确率上提升了12.8%,词汇相似度提升了6.6% [20] - 在专家人工评分中,VaseVLM-7B-RL模型获得了10位考古专家平均4.57分(满分5分)的高评价 [20][22] - VaseVLM生成的描述在自然度和学术准确性上显著优于通用大模型 [21] 未来应用与影响 - 该项目计划未来拓展到更多文化遗产领域,并建立更完善的数字遗产展示形式 [22] - 该研究为数字考古提供了全新的技术路径 [22] - 相关论文、官方网站、代码及数据集均已公开 [23]