Workflow
深度思考
icon
搜索文档
国产大模型高考出分了:裸分683,选清华还是北大?
量子位· 2025-06-26 14:25
大模型高考评测表现 - 核心观点:字节跳动Seed团队发布的大模型高考评测结果显示,Gemini和豆包在理科和文科总分分别位列第一,展现领先的学科能力 [2] - 理科总分排名:Gemini以655分居首,豆包648分次之;文科总分豆包683分第一 [2] - 细分科目优势:豆包在语文(128)、英语(144)、物理(90)、地理(92)、历史(92)、政治(84)6科中排名第一,数学(141)仅次于Deepseek(145) [3] - 国际模型短板:国外模型在文综科目(政治/历史)表现较弱,对中国知识点理解不足 [24] 评测方法与标准 - 试卷构成:主科采用全国一卷(语数英),副科采用山东卷,总分750分 [9] - 评分机制:选择题机评+人工质检,开放题实行双评制由高中教师阅卷 [10] - 测试环境:API测试不联网,未使用提示词优化技巧确保公平性 [11] 学科能力深度分析 - 数学进步:模型均达140分水平,较去年显著提升(此前多数不及格) [13] - 视觉短板:全国一卷第6题因图表识别问题全军覆没(正解A,模型多选C) [16][17] - 语文写作:得分率高但存在刻板化、字数不达标、立意偏差等问题 [20] - 英语表现:接近完美,仅写作存在用词和句式单调等细微缺陷 [21] - 理综挑战:图像题仍是难点,豆包与Gemini相对优势明显 [22][23] 技术能力突破 - 多模态融合:Seed1.6通过三阶段训练(文本预训练/多模态混合/长上下文)实现256K上下文支持,提升阅读理解准确率 [33][34][35] - 深度思考优化:采用RFT+RL迭代方法,引入parallel decoding技术,数学高难度测试集成绩提升8分 [36][37][38] - 动态思考机制:AutoCoT技术解决过度思考问题,复杂任务中思维链触发率达100% [39][40][44] 国际考试对比 - JEE Advanced表现:豆包与Gemini进入全印度前10,Gemini物理化学突出,豆包数学5次采样全对 [27][28] - 多模态潜力:使用清晰图片重新测试后,豆包理科总分提升30分至676分,验证图文结合输入的效能 [42][43]
习惯问“为什么”和“怎么做”的人,差距到底有多大?
洞见· 2025-06-24 18:06
核心观点 - 习惯性追问"为什么"的人能够通过深度思考找到问题本质并提出创新解决方案 [3][6][64] - 仅关注"怎么做"的人容易陷入表面化思维导致低效或无效行动 [4][5][83] - 通过连续追问5次"为什么"可以系统性地挖掘问题根源 [68][70][81] 商业案例解析 生产优化案例 - 肥皂生产线空盒问题通过风扇解决 成本从专家方案的几百万降至200元 [8][11][15] - 解决方案源于对重量差异的本质思考而非外观检测 [16][17][18] 教育创新案例 - 游戏化课堂设计源于对"学生为什么逃课"的追问 使课程受欢迎度显著提升 [24][26][27] - 传统批评教育方式效果有限 创新方法带来课堂参与度质变 [22][23][28] 创业实践案例 - 斯坦福学生团队通过重新定义资源价值 将5美元初始资金转化为650美元收益 [31][36][38] - 传统商业思维局限在初始资金使用 创新思维聚焦更高价值的课堂时间资源 [33][35][39] 销售策略案例 - 水果腐烂问题通过促销缩短销售周期解决 优于简单退换方案 [43][46][49] - 深度追问销售周期长的价格因素 使区域经理半年内获得晋升 [47][50][51] 方法论体系 - "5 Why"分析法通过连续追问揭示问题根源 如博物馆外墙腐蚀最终通过安装窗帘解决 [68][71][78] - 数学教育强调无限追问形成系统思考路径 [66] - 商业顾问案例显示火箭直径设计可追溯至马车轮距的历史沿革 [56][59][60] 思维模式对比 - 表象思维导致治标不治本 如清洁剂刷墙无法解决虫害光源问题 [72][73][83] - 本质思维创造非常规解决方案 如风扇筛选肥皂盒和促销解决水果腐烂 [15][49][62] - 查理·芒格指出持续追问"为什么"是进化关键 [85]
长脑子最快的方式,是去做这6件事
洞见· 2025-06-16 18:19
核心观点 - 牛津大学2024年度词汇"脑腐"指长期接受低密度信息导致认知能力退化,对抗方式是深度思考和有内涵的知识输入[3][6] - 通过纪录片、TED演讲、电影、辩论赛、传记、公开课六种形式获取多元化知识可提升认知能力[9][21][29][40][56][70] - 大脑具有"用进废退"特性,25岁后开始结构性衰退,需持续学习以保持竞争力[78][80] 知识获取方式 纪录片 - 10部高分纪录片涵盖人性弱点、世界多样性,如豆瓣9.5分《미以跟着云你家吗?》记录陌生人生活百态[14],9.4分《和陌生人说话》呈现真实对话[15],9.0分《为什么贫穷?》分析全球贫困现象[16] - 认知类纪录片如8.9分《心智斗争》揭示思维局限[17],8.9分BBC《人类心智》解析大脑决策机制[18] TED演讲 - 技术/娱乐/设计领域顶尖精英分享,如苏珊·凯恩《内向者的力量》挖掘内向者优势[27],蒂姆·尔班《拖延症大师的内心世界》提供拖延解决方案[27] - 实用主题包括劳拉·范德卡姆《如何掌控自由时间》颠覆时间管理认知[27],马修·沃克《睡眠是你的超能力》揭示睡眠科学[27] 高分电影 - 9.6分《霸王别姬》展现艺术执念[38],9.6分《美丽人生》演绎父爱谎言[38],9.5分《阿甘正传》诠释坚持改变命运[38] - 动画类如9.4分《千与千寻》探讨成长主题[38],社会类如9.3分《触不可及》刻画跨阶级友谊[38] 辩论赛 - 10场高水准辩论涵盖AI艺术定义[50]、内卷真伪问题[53]、焦虑应对策略[53]等前沿议题 - 经典辩题包括"钱是否万恶之源"中会磊四连攻辩[51],"西天取经与自我认知"结合神话解构[52] 名人传记 - 商业领袖类如《滚雪球:巴菲特传》解析价值投资哲学[66],《硅谷钢铁侠》记录马斯克科技冒险[66] - 文学思想类包括《马尔克斯传》展露魔幻现实主义[65],《王阳明大传》解读心学体系[68] 名校公开课 - 斯坦福《人类行为生物学》从生物角度分析社会关系[77],MIT《贫穷的本质》由诺奖得主讲授贫困问题[77] - 人文类如哈佛《中国历史》哲学视角解读文化[77],牛津《人类的未来》探讨AI与基因技术[77]
守护孩子的记忆力(纵横)
人民日报· 2025-06-12 06:11
青少年记忆力减退现象 - 青少年群体出现记忆力减退现象,表现为提笔忘字、转身忘事等,这与传统认知中衰老导致的记忆力减退不同 [1] - 青少年大脑处于发育阶段,具有高度可塑性,易受外部环境影响,"数字失忆"现象是数字场景深度嵌入社会生活、现代生活节奏加快及不良生活方式共同作用的结果 [1] 记忆力减退的原因 - 信息过载与碎片化阅读是第一诱因,短时间内应对海量网络信息导致"注意力轰炸",使青少年陷入"浅阅读、浅思考"的困境 [1] - 不良生活习惯是重要原因,包括睡眠不足、不均衡膳食、缺乏体育锻炼和户外活动,这些因素从生理基础层面削弱大脑记忆功能 [1] - 对技术工具的过度依赖导致大脑缺乏反复调用和刺激,影响其强度和效率,青少年过度依赖技术工具替代心智劳动易误入认知荒原 [1] 改善记忆力的方法 - 重塑信息驾驭力,加强媒介素养教育,培养青少年辨别信息真伪与价值的能力,减少无效信息干扰,倡导深度阅读和系统学习 [2] - 科学管理数字生活,智慧驾驭科技工具使其成为认知能力的"助推器",在日常生活中多创造"健脑"机会 [2] - 夯实健康生活基石,通过高质量睡眠、均衡膳食、规律体育锻炼增强记忆力,鼓励青少年走向户外、拥抱自然以激发大脑潜能 [2] 社会意义 - 守护青少年记忆力是守护其探索未知、锐意创新的能力,这不仅是对孩子负责,更是对未来的责任 [2]
读书是一种被高估的美德
虎嗅· 2025-06-10 13:57
读书的社会认知 - 读书被视为一种近乎神圣的美德,常与"有教养""有深度"划等号,书架的厚度被等同于思想的深度 [1] - 读书行为被用作身份象征,土豪用书墙装点门面,明星通过掉书袋塑造文化人设 [2] - 现行文化默认读书是正向特质,甚至将其与道德挂钩,但忽略其低门槛特性 [7] 读书的本质与局限性 - 读书本质上是一种普通的认知活动,不天然高尚也不必然带来智慧,更多是被动接收而非主动创造 [3] - 神经科学研究显示阅读时大脑语言区活跃,但批判性思维的前额叶皮层处于抑制状态,类似观点"下载" [4] - 输入式阅读具有休闲性,与写作等输出行为相比几乎不需调动认知资源,这是其被高估的根源 [6] 读书的异化现象 - 读书被异化为道德优越感的表征,但历史表明读书与人品无必然联系(如秦桧、希特勒案例) [7] - 畅销书本质是社会流行趋势的投射,读者共鸣源于集体心理而非独立思考(如治愈系、成功学书籍) [8] - 当读书沦为数量竞赛或打卡游戏时,其消遣属性暴露无遗,与刷短视频无本质区别 [8] 读书的价值重构 - 读书的真正价值在于知识内化,需通过批判性思考和输出重构转化为思想建筑材料 [8] - 应警惕"输入即正义"幻觉,保持思想主体性,避免陷入认知茧房 [9] - 输出比输入更重要,主动输出(如写作)能倒逼深度思考,这是人类区别于AI的核心能力 [10][12] 技术时代的读书意义 - 若仅将读书视为知识搬运,人类在速度与准确性上已完败于AI的文本处理能力 [11] - 不可替代的是人类对知识的重构能力,包括批判、联想、创造等深度思考过程 [12]
别让AI替你做判断
虎嗅APP· 2025-06-06 07:46
AI对认知方式的重构 - AI正在改变信息处理流程,从"人先看内容再做判断"转变为"AI先建议再确认方向",重构了决策路径[1] - AI通过智能推荐、一键总结等功能优先筛选信息价值,引导用户关注特定内容[1] - 行业普遍采用"降低认知负担"的AI产品设计逻辑,鼓励减少主动思考[2] 认知外包的依赖效应 - 用户行为显著变化:从自主筛选信息转向依赖AI预处理,注意力分散且思考动力下降[3] - 大脑偏好省力路径,AI提供的"低能耗"认知方式导致自主分析信心下降[4] - 公司系统性推动AI嵌入工作流程(如AI客服、AI做PPT),可能弱化员工批判性思维能力[6] AI对专业能力的潜在影响 - 学术领域出现双向AI依赖:学生用AI分析资料,教师用AI检查论文质量[7] - 创意行业呈现同质化趋势,品牌推广从头脑风暴转向AI生成方案,导致创新想法减少[13] - 经验积累方式改变:从内化沉淀转为外部存储,可能影响直觉判断等核心能力[17][18] 数据与研究的争议性 - 部分AI工具引用虚假研究数据(如大脑活跃度下降30%、海马体缩小8%),缺乏可靠出处[9][11] - 行业需警惕AI输出内容的可信度,避免形成"看似合理"的认知偏差[12] 人机协作的边界探索 - 欧盟提出"AI无权回答为什么",强调人类需保留终极判断权[23] - 未来角色可能从AI使用者演变为"个人AI助理守护者",需保持自主创造力[25][26] - 工具理性时代需平衡效率与慢思考,保留质疑空间以对抗认知惯性[20][24]
赚钱第一步,学会深度思考
洞见· 2025-05-30 02:21
核心观点 - 现代社会中赚钱的决定性因素并非单纯努力而是深度思考[3][9][36] - 低维勤奋不如高维思考 通过差异化经营、发现隐藏商机、解决根源问题等方式实现财富积累[10][12][15][31] - 思考深度决定商业结果 需通过连续追问和日记复盘等方法提升思考维度[40][45][49][56] 差异化经营案例 - 余姚电热毯商户谷文杰砍掉全品类业务专注单一品类 通过差异化策略集中订单并研发全品类电热毯 一年内成为当地龙头[7][8][10] - 差异化经营使客户选择倾向明确 避免同质化竞争带来的随机性订单分配[6][9] 隐藏商机挖掘 - 房产销售曹志远发现售楼部新业主数据价值 通过免费提供《业主手册》承载广告赚取第一桶金[12][13] - 商业机会存在于被忽略的环节 如装修公司对购房者数据的精准投放需求[12] 问题根源解决 - 机修工徐振通过发现液封槽漏液问题提升生产线良品率 从基层晋升至分公司总经理 年薪百万[15] - 技术问题的深度探究能带来超出岗位层级的价值 从而获得职业突破[15][34] 全球化布局 - 惠州小家电商末总将20年前中国模式复制到越南 首月收益达国内一年水平[20][25][26][29] - 新兴市场存在早期红利 成熟经验跨区域复制可快速打开增量空间[25][27] 深度思考方法论 - **连续追问法**:机械配件厂文刀通过五层追问(资金链断裂→库存积压→客户采购下滑→疫情成本增加)制定优惠方案清库存[40][42][45] - **日记复盘法**:销售专家李霖通过每日记录客户互动话术与反馈 提炼高转化率销售模型[49][51][52] 思考与收益关系 - 思考积累触发收益指数增长 底层逻辑认知决定财富获取效率[37][48] - 牛津"灰人理论"指出重复浅层劳动难以创造显著价值 深度决策才是财富源头[57][60][62]
一场对话,我们细扒了下文心大模型背后的技术
量子位· 2025-05-22 20:34
大模型技术发展 - OpenAI CEO指出行业已进入复杂推理模型的新范式阶段[1] - 推理模型成为继基础模型后厂商竞争的新焦点[1] - 中国信通院评估显示文心X1 Turbo在24项能力中16项获满分5分,综合评级达最高"4+"级,为国内唯一通过该测评的大模型[1] 文心大模型技术突破 - 文心4.5 Turbo和X1 Turbo分别聚焦多模态与深度思考两大方向[6] - 多模态混合训练技术实现文本/图像/视频统一建模,训练效率提升2倍,理解能力提高30%[7][8] - 自反馈增强技术框架构建"训练-生成-反馈-增强"闭环,显著降低模型幻觉并提升复杂任务处理能力[10][12][13] - 融合偏好学习的强化学习技术使模型理解/生成/逻辑/记忆能力全面提升[14][16] - X1 Turbo突破线性思维链,构建复合型思维链实现"边思考边行动"等人类式策略,复杂任务效果提升22%[18][19][21][23] 基础设施与性能优化 - 飞桨框架3.0支持使文心4.5 Turbo训练吞吐达前代5.4倍,推理吞吐提升8倍[31][32] - 算力-框架-模型三位一体协同优化路径成效显著[34] - 文心4.5 Turbo在14个数据集平均成绩80分超越GPT-4.5和DeepSeek-V3[35] - X1 Turbo各项数据集表现均优于DeepSeek-R1[37] 实际应用场景 - 教育领域:X1 Turbo可模拟人类思维解析物理题目[42] - 代码场景:AI生成代码占比超40%,累计服务760万开发者[44] - 数字人技术:支持10万主播,直播转化率31%且成本降低80%[47][48] - 行业规模:2029年全球K-12在线教育预计达8991.59亿元,2024年数字人核心市场480.6亿元将带动6402.7亿元关联产业[49] 长期技术战略 - 6年迭代9大版本形成全栈技术能力[52] - 坚持知识增强技术强化事实性/时效性/知识性[56] - 通过智能体技术结合工具使用解决现实复杂问题[56] - 视大模型为新一轮科技革命周期,注重技术长期价值与层层扩散效应[57][58] - 底层飞桨框架到上层应用的完整技术栈构成核心竞争力[61]
ICML 2025 | 大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题
机器之心· 2025-05-15 14:04
核心观点 - 提出新型深度思考范式PENCIL,通过交替执行「生成-擦除」机制显著提升大模型复杂推理能力 [1][3] - PENCIL在理论上实现图灵完备性,能以最优空间O(S)和时间O(T)复杂度解决所有可计算问题,传统CoT需O(T)空间导致指数爆炸 [23][24] - 实验显示PENCIL在3-SAT、QBF等NP完全问题上准确率保持≥99%,Einstein's Puzzle任务中25M小模型准确率达97%远超CoT的25% [15][21][22] 交替生成-擦除范式 - 动态擦除机制:引入[CALL][SEP][RETURN]特殊标记,按规则丢弃无用中间结果,上下文长度从数万token压缩至千级 [5][8][9] - 支持递归结构:擦除后的上下文可包含其他特殊标记,实现类似函数调用的多层嵌套 [9] - 三大应用模式:任务分解(子问题处理)、搜索回溯(无效路径清理)、摘要总结(冗长思考压缩) [13] 性能优势 - **准确率**:在n=10的SAT任务中PENCIL准确率99% vs CoT 50%,QBF任务100% vs 73% [15][16] - **计算效率**:相同FLOPs下PENCIL训练收敛速度更快,上下文长度控制在问题规模n的线性增长(O(n))而非CoT的指数级(O(exp(n))) [12][17] - **资源节省**:KV缓存复用机制使自注意力计算量减少,25M参数模型在Einstein's Puzzle上准确率提升3.88倍 [21][22] 理论突破 - 空间最优性:将图灵机模拟的上下文长度从O(T)降至O(S),尤其适合S<<T的NP完全问题(如旅行商问题) [24][25] - 实现路径:通过FASP编程语言构造「思考-总结」循环,证明固定大小Transformer可达成最优复杂度 [28] - 本质差异:传统CoT需保留完整计算历史,PENCIL通过状态摘要实现内存回收 [27]
为什么你的工作运总是不顺?
36氪· 2025-04-24 17:10
核心观点 - 解决问题的关键在于识别并解决根本性的大命题,而非纠缠于表象的小命题 [2][4] - 在竞争环境中,应采用商业和市场营销的思路,通过提升自身价值排名来赢得竞争 [9] - 面对市场乱象,普通人的务实策略是顺应趋势并坚守个人道德底线,而非试图改变游戏规则 [18][21] 问题识别与解决策略 - 许多具体问题如老板压榨、市场行情差、同事关系恶劣等,均是大命题下的表象小命题 [2] - 执着于解决表象问题如同救火,永远处于被动,应致力于从根源上杜绝问题 [2][3] - 深度思考是通过搜集信息、抽丝剥茧,找到问题的根本原因 [22] - 养成深度思考习惯可将人生中百来个问题归纳为5-6个大命题,掌握其解法即可一通百通 [23] 竞争环境下的价值排名 - 获得高薪好工作的根本在于个人在就业市场价值排名的靠前程度 [4] - 价值排名高则稀缺性高,如同搜索引擎第一页的结果价值最高 [5][6] - 华为天才少年年薪几百万的案例体现了极端稀缺人才的价值 [8] - 竞争策略可退而求其次,在特定城市、分公司、部门或小组内做到排名前几 [9] 市场行为与信息差 - 市场上存在通过人为制造信息差来提升价值排名的现象,即使实际技术一般 [11] - 草台班子现象普遍,其特点是外表光鲜但内在水平一塌糊涂 [13] - 草台班子大行其道的原因是专业班子太少,导致劣币驱逐良币 [14] - 市场行为不分对错,会自行调节不合理现象,个人难以插手改变 [15][16] 个人应对策略 - 面对公司内部同流合污的困境,应反思个人人生目标是否能在当前环境下实现 [19] - 若以赚钱为目标,则应继续留在游戏中并努力提升自身价值排名,向利益中心靠拢 [19] - 若清高更重要,则应寻找新游戏并适应其规则,而非试图全盘改变 [20] - 普通人的务实出路是在乱象中坚守小道德,努力做到不作恶并保全自己 [18]