Workflow
过拟合
icon
搜索文档
字节跳动张一鸣隐退4年首次露面,不聊抖音不聊豆包,这次讲了啥?
搜狐财经· 2025-10-12 11:40
文 / 汪淼 美编 / 顾青青 出品 / 网界 这场沉寂四年后的公开亮相,看似低调,却悄悄透露出互联网行业从"抢流量"转向"育人才"的新信号。 01 四年低调后,张一鸣为何选择为这家机构站台? 很多人好奇,过去四年很少露面的张一鸣,为什么会亲自为上海徐汇知春创新中心的开业站台? 答案要 从这家机构的由来和张一鸣长期的关注方向里找。 知春创新中心不是突然成立的。早在2016年,张一鸣就注意到字节里不少表现突出的算法工程师,都毕 业于上海交大的ACM班。那时候他还专程去上海交大,拜访了ACM班创始人俞勇教授,还有班级顾 问、图灵奖得主John Hopcroft。 10月9日,上海徐汇知春创新中心的开业仪式上,字节跳动创始人张一鸣近年来首次公开亮相。这是他 自2021年5月卸任字节跳动CEO后,四年多来第一次出现在国内公开活动现场。 过去四年,张一鸣几乎淡出了公众视野,很少公开露面,也从未对字节的业务和发展公开发声。这次他 不再以企业管理者的身份站在台前,而是以创新中心发起人的角色,和上海交通大学ACM班创始人俞 勇教授一起,为一家民办非营利性机构揭牌。 现场没有高调的仪式,反而摆着学生们做的敦煌风格AI游戏、火箭 ...
张一鸣多年来首次露面,站台上海创新中心并发言
搜狐财经· 2025-10-12 01:19
他强调,创新中心要找的不是"死读书"的人,而是思维活跃、敢于实践、愿意独立思考的人。他还说,创新路上要敢于试错,保持平常心,别怕失败。 值得一提的是,根据《福布斯富豪榜》最新数据,截止2025年3月,张一鸣的财富估值达655亿美元(约2902亿令吉),其身家已超越腾讯创办人马化腾及 农夫山泉创办人钟睒睒,成为中国首富,在全球富豪榜中排名第23位。 而同为创始人的余勇教授,是上海交通大学特聘教授、博士生导师,首批入选"国家高层次人才特殊支持计划"领军人物——教学名师,ACM班创始人。 近日,字节跳动创始人张一鸣突然现身上海徐汇知春创新中心开业现场,这是他近年罕见的公开亮相。 张一鸣这次回归是因为上海徐汇知春创新中心正式开业,该创新中心由字节跳动创始人张一鸣、上海交通大学ACM班创始人俞勇教授共同发起。作为民 办非营利性机构,中心计划招聘对泛计算机和人工智能感兴趣的年轻人。 张一鸣在发言时直言不讳。他说,很多年轻人有本事,但潜力却被埋没。他用"过拟合"这个AI术语打比方:有些人知识很扎实,技能很强,但一遇到创新 任务就掉链子。他提到,自己长期关注人才招聘和培养,注意到很多人才潜力没有被充分挖掘,他以机器学习模型中 ...
张一鸣近年来首次公开露面,对字节跳动意味着什么
搜狐财经· 2025-10-10 21:39
创始人公开露面与角色转变 - 字节跳动创始人张一鸣近4年来首次在国内公开露面,其关注度极高[1] - 此次露面未讨论抖音、豆包AI等核心业务或公司战略,而是专注于人才与教育话题[3] - 张一鸣于2021年5月20日宣布卸任CEO,由联合创始人梁汝波接任,其卸任原因是希望公司能有更大的创新突破[5] 创始人的人才观与管理哲学 - 张一鸣长期关注人才招聘与培养,认为许多人才的潜力未被充分挖掘[3] - 其人才观强调好奇心、进取心和对不确定性的乐观心态,认为这些特质比五年工作经验更重要[4] - 他以机器学习中的“过拟合”现象类比,指出创新需要思维活跃、有热情和韧性的人才,核心是独立思考和重视实践[3] - 张一鸣自认不擅长传统管理和社交,更喜欢研究组织原理,并决定放下日常管理,聚焦于远景战略、企业文化等长期事项[6] 创始人的长期关注与公司动态 - 张一鸣喜欢思考理论上可能存在但现实中尚未发生的事情[7] - 卸任CEO后,他计划以十年为期,专注学习知识、研究新事物,为公司创造更多可能[8] - 他特别提到虚拟现实、生命科学、科学计算等领域正显现出对人类生活的曙光[9] - 卸任后张一鸣保持低调,但自2023年下半年起定期参加字节跳动Seed核心技术团队的复盘讨论会[10] 市场关注热点与公司上市传闻 - 字节跳动作为2010年后崛起的互联网巨头,凭借TikTok成为最成功的出海公司,市场关注度居高不下[11] - 围绕张一鸣的核心话题包括AI、算法、新首富、新加坡、字节跳动上市等关键词组合[11] - 关于张一鸣入籍新加坡和字节跳动上市的传闻屡次出现,但均被公司辟谣,从2018年至今公司被传上市至少7次[11] - 字节跳动上市迟迟未能实现,主要堵点在于监管、地缘环境及业务透明性等方面的不确定性[12] 公开露面的象征意义与TikTok选择 - 张一鸣此次公开露面的象征意义远大于企业经营意义,被视为公司迎来重大确定性的信号[15] - 公司于2024年9月20日发布公告,表示将按照中国法律要求推进相关工作,以确保TikTok美国公司继续服务美国用户[16] - 张一鸣的动向被视为公司发展的关键风向标[13]
张一鸣,罕见公开露面
21世纪经济报道· 2025-10-10 18:42
张一鸣近期动态与人才培养理念 - 字节跳动创始人张一鸣久未公开露面后,于10月9日出席上海徐汇知春创新中心开业活动并发言 [1] - 该创新中心是张一鸣与上海交通大学ACM班创始人俞勇教授共同发起的民办非营利性机构,面向对泛计算机与人工智能感兴趣的年轻人开放招聘 [1] - 张一鸣在活动中以人才培养者的身份分享了对创新与教育的思考,指出当前人才培养存在“过拟合”误区,即专业知识扎实但难以适应创新任务 [1] - 创新中心旨在培养思维活跃、富有热情与韧性、能够独立思考、重视实践并保持长期主义视角的青年人才 [1] 字节跳动的创业历史与核心哲学 - 字节跳动于2012年在知春路的一间民宅中创立 [2] - 公司创立初期,张一鸣认为仅做微创新无法取得根本突破,因此决心解决信息个性化问题,这成为公司产品开发的核心哲学 [2] 张一鸣卸任CEO的原因与未来规划 - 2021年5月20日,张一鸣宣布卸任字节跳动CEO,由联合创始人梁汝波接任 [3] - 卸任原因是希望公司能持续有更大的创新突破,变得更有创造力和意义,同时他感觉自己过去几年在“吃老本”,近三年学习不足 [3] - 张一鸣计划放下日常管理,聚焦于远景战略、企业文化和社会责任等长期事项,并希望用十年时间专注学习新知识、研究新事物 [3] - 他特别提到虚拟现实、生命科学、科学计算等科技领域正显现出对人类生活的深远影响 [3]
张一鸣,罕见公开露面
21世纪经济报道· 2025-10-10 18:27
张一鸣近况与角色转变 - 字节跳动创始人张一鸣久未公开露面后,以人才培养者的新身份在上海徐汇知春创新中心开业活动中发言 [1] - 张一鸣与上海交通大学ACM班创始人俞勇教授共同发起民办非营利性机构知春创新中心,该中心将面向对泛计算机与人工智能感兴趣的年轻人开放招聘 [1] 张一鸣的人才培养理念 - 张一鸣长期关注人才的招聘与培养,注意到许多人才的潜力尚未被充分挖掘 [1] - 张一鸣用机器学习中的"过拟合"概念类比当前人才培养误区,指出有些人才专业知识扎实但面对创新任务时难以发挥 [2] - 创新中心旨在培养思维活跃、富有热情与韧性、鼓励独立思考、重视实践并保持长期主义视角的青年人才 [2] 张一鸣的创业哲学与卸任原因 - 张一鸣的人才观源于其创业实践,2012年创立字节跳动时坚持"从根本上解决问题"的思维方式,认为不解决个性化问题只做微创新不可能取得根本突破 [2] - 张一鸣于2021年5月20日宣布卸任字节跳动CEO,由联合创始人梁汝波接任,卸任原因是希望公司能持续有更大创新突破,并感觉自己过去几年在"吃老本" [4] - 张一鸣决定放下公司日常管理,聚焦远景战略、企业文化和社会责任等长期重要事项,计划以十年为期专注学习知识、研究新事物为公司创造更多可能 [4]
张一鸣罕见露面,联合上海交大培育AI新锐
21世纪经济报道· 2025-10-10 16:04
他提出,创新中心希望培养的是思维活跃、富有热情与韧性的青年人才,鼓励他们独立思考、重视实 践,保持长期主义视角,在探索中成长,并学会以平常心拥抱不确定性。 张一鸣罕见露面,谈人才培养需避免"过拟合",强调培养思维活跃、有韧性与热情的青年。 上海徐汇知春创新中心里,久未公开露面的字节跳动创始人张一鸣,以人才培养者的新身份分享了他对 创新与教育的思考。 10月9日,上海徐汇知春创新中心正式开业,字节跳动创始人张一鸣久违露面并发言。这位低调的互联 网巨头创始人与上海交通大学ACM班创始人俞勇教授共同发起了这一民办非营利性机构,该中心将面 向对泛计算机与人工智能感兴趣的年轻人开放招聘。 张一鸣在活动现场分享了自己对人才培养的思考。他提到,自己长期关注人才的招聘与培养,注意到许 多人才的潜力尚未被充分挖掘。 在公开场合沉寂多时的张一鸣,此次以创新中心发起人的身份重返公众视野。 他用机器学习中的 "过拟合"概念类比了当前人才培养的误区。所谓"过拟合",是指机器学习模型在训 练数据上表现极好,却无法适应新数据的情况。 张一鸣指出,有些人才专业知识扎实,拥有高精准技能,但面对创新任务时却难以发挥。 张一鸣的人才观源于他丰富的 ...
别让成功的惯性“锁死” 未来
36氪· 2025-09-25 08:51
路径依赖现象 - 用户习惯依赖特定导航APP、报告模板和消费品牌 本质是对过往经验的依赖[1] - 电脑键盘QWERTY布局因用户习惯难以被更高效的DVORAK布局替代 后者可使打字速度提升30%以上[2] - 视频行业普遍采用MP4格式而非更先进的MKV、AV1格式 因设备兼容性和用户学习成本阻碍新技术普及[2] 商业案例表现 - 诺基亚过度依赖传统手机成功经验 未能及时转型智能手机导致市场地位丧失[3] - 柯达因对传统胶卷业务成功依赖 未大力发展数码技术最终走向衰落[3] - 企业依赖旧商业模式难以转型 管理者沿用过期激励机制管理新世代[3] 形成机制分析 - 路径依赖源于报酬递增机制 企业成功后会加大投入形成正反馈[5] - 转移成本包括经济成本、心理成本和组织成本 阻碍企业改变原有路径[5] - 大脑基于经验预判世界 通过"预测编码"理论验证猜测 逐渐强化经验依赖[6] - 成功归因偏差使企业将成功归因于方法本身 而忽略场景匹配的关键作用[6] 局部最优陷阱 - 决策时易被当下最优选择吸引 忽略进一步探索可能获得更优结果[7] - 爬山算法比喻显示 每一步局部最优可能无法达到全局最高峰[7] - 基层岗位熟练者不愿学习新技能 行业技术革新时因缺乏积累难以转型[9] - 职业探索中选择最容易转成功的岗位 导致始终在熟悉领域打转[9] 结构锁定效应 - 操作系统积累用户后形成应用生态 开发者被迫围绕其开发 despite更高效系统存在[10] - 企业数据架构偏离提升效率初衷 但因牵一发而动全身只能维持运转[10] - 结构锁定磨灭对长期价值的耐心 使企业无法忍受短期无反馈状态[10] 突破路径方案 - 主动引入扰动打破经验惯性 每月尝试跨领域交流、探索新技能或开启副业[12] - 在选择节点关注步骤是否拓宽未来选择空间 而非仅追求最快回报[13] - 定期从愿景反推路径 以全局地图参照审视是否困在局部高地[13] - 培养可迁移能力包括学习能力、系统思维能力和共情能力[14] - 第二曲线思维要求主业成功时即探索新方向 而非被动转型[14] - 提炼能力底层逻辑 掌握"为什么这么做"而非仅"怎么做"[15]
别让成功的惯性“锁死” 未来 | 创业Lifestyle
红杉汇· 2025-09-25 08:04
核心观点 - 企业在发展过程中容易陷入路径依赖和成功依赖,即过度依赖过往的成功经验和既定模式,当外部环境、市场需求或技术发生变革时,这种惯性会从优势转变为阻力,阻碍创新与转型 [4][6] - 路径依赖在认知上类似于机器学习中的“过拟合”现象,即对过去特定场景的解决方案掌握过精,却未能理解底层通用规律,导致无法适应新变化 [6] - 企业应通过主动求新、从愿景反推路径以及培养可迁移能力等策略,打破思维定式,避免被结构性锁定,以在快速变化的商业世界中保持竞争优势 [15][16][18] 路径依赖的表现与案例 - 商业案例显示,诺基亚因过度依赖传统手机领域的成功经验和技术路径,未能及时转型智能手机,最终错失市场机遇 [4] - 柯达作为胶卷行业巨头,因对传统业务的成功依赖,未大力发展数码业务,最终走向衰落 [4] - 行业普遍现象包括:管理者沿用过时激励机制管理新世代员工,品牌用上一代逻辑猜测新消费群体需求 [4] 路径依赖的成因 - 经济学角度:路径依赖形成源于报酬递增(成功模式带来更多投入与收益的正反馈)和转移成本(改变路径所需的经济、心理及组织成本过高) [6] - 认知科学角度:大脑基于经验进行“预测编码”,倾向于用个人认知加工现实,并会下意识将成功归因于方法本身,而忽略方法与场景匹配的关键作用 [7] - 个人特质因素:过度依赖及时反馈、追求确定性的人,在面对复杂新问题时更倾向从过去找答案,而非构建新模型 [8] 局部最优陷阱 - 局部最优指决策时容易被眼前可见的最优选择吸引,却忽略了通过进一步探索可能获得的更优结果,例如在熟悉岗位上得心应手而不愿学习新技能,导致行业革新时转型困难 [10][11][12] - 该思维在非线性系统中尤为危险,因不考虑全局路径结构、不允许暂时退步,最终导致结构性锁定,如成熟操作系统生态使开发者难以适配新系统,复杂企业数据架构因牵一发而动全身而难以优化 [12] 突破路径依赖的策略 - 主动求新:为系统引入扰动,例如每月尝试舒适区外的事、打破固定习惯,以跳出局部陷阱 [16] - 从愿景反推路径:定期更新并审视目标,以“全局地图”为参照,避免错把局部安稳当作全局终点 [16] - 培养可迁移能力:包括学习能力(快速理解新领域逻辑)、系统思维能力(分析整体业务链路)、共情能力(理解用户与团队需求)及第二曲线思维(主业成功时即探索新方向) [18]
华人团队终结Token危机:扩散模型数据潜力超自回归三倍
量子位· 2025-08-13 17:13
扩散语言模型的数据学习潜力 - 在token数量受限情况下,扩散语言模型的数据潜力可达自回归模型的三倍多 [1] - 一个参数规模为1B的扩散模型,仅用1B tokens训练480个周期,就在HellaSwag和MMLU基准上分别取得56%和33%的准确率 [5] - 即使在极端数据重复下,模型也未出现性能饱和,表明其还能从1B数据中挖掘出更多有用信息 [4] 扩散语言模型的技术优势 - 扩散目标和双向注意力机制使其能够进行双向建模,更充分地挖掘网络数据中的信息 [8] - 双向建模打破传统自回归模型的因果限制,能更全面捕捉语言及非因果数据的复杂模式 [8][9] - 扩散模型计算密度极高,在训练和推理中投入更多计算资源,通过多次处理数据和迭代优化提升性能 [11] - 扩散目标要求在预训练时对每个数据点进行多种掩码比例和组合的扰动,从而更有效地训练 [15] 扩散语言模型的过拟合特性 - 模型过拟合出现的训练周期数与独特数据量呈正相关,与模型规模呈负相关 [18] - 独特数据量越大,过拟合出现越晚;模型规模越大,过拟合发生越早 [18] - 模型在预训练验证集上"过拟合"时,下游任务性能不一定会下降,反而可能持续上升至训练结束 [19] - 绝对负对数似然值的变化不一定转化为相对顺序的变化,因此验证损失上升时模型判别能力仍可能提升 [21][22][25] 自回归模型的比较与行业背景 - 自回归模型优先考虑计算效率而非数据潜力,其transformer设计采用教师强制和因果掩码,限制了建模能力 [14] - 随着计算成本下降,数据可获得性成为关键瓶颈,这是研究团队开展扩散语言模型研究的出发点 [15]
token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升
机器之心· 2025-08-10 12:31
研究背景与问题 - 大语言模型发展面临高质量训练文本数据即将枯竭的挑战,成为限制模型性能提升的关键瓶颈 [2] - 新增高质量数据来源少、获取成本高,去重后更加稀缺,导致“优质token不够训练”的危机 [2] 研究方法与规模 - 团队从零开始预训练扩散语言模型与自回归模型,最高规模达80亿参数、4800亿tokens、480个epoch [3] 核心研究发现 - 在token数量受限情况下,DLMs优于自回归模型,数据潜力超出3倍以上 [5][8] - 仅用10亿tokens训练的10亿参数DLM,在HellaSwag上达56%准确率,在MMLU上达33%准确率 [5] - 模型性能未出现饱和,重复训练次数越多提升越明显 [5] 数据重复训练效果 - 将10亿token数据集重复训练480个epoch,总训练量达4800亿tokens,模型在HellaSwag和MMLU上的表现显著优于自回归模型 [14] - 即使在极端重复条件下性能仍未饱和,表明DLMs能从固定语料中提取远超预期的有效信息 [14] 模型能力提升机制 - 尽管验证集上出现过拟合,模型在下游任务表现持续提升,底层判别能力不断改善 [16][17] - 网页文本数据并非完全因果结构,DLMs通过双向建模能从数据中提取更多信息 [19] - DLMs是“超密集模型”,计算上的超高密度直接转化为更强智能 [22] 与自回归模型对比 - 自回归模型优先考虑计算效率而非数据潜力,其Transformer设计限制了建模能力 [24] - 随着计算成本下降,数据可得性成为关键瓶颈,这正是研究DLMs的动力所在 [24] 方法论批判 - 指出同期研究存在方法论缺陷,包括使用未经验证的损失函数形式 [25][26] - 批评该研究使用未训练到最佳状态的自回归模型检查点与最佳扩散模型检查点进行比较的不公平做法 [28] - 指出该研究使用的scaling law公式假设验证集损失不会下降,但实际过拟合会导致验证损失上升 [32]