Workflow
从推荐算法优化到AI4S、Pico和大模型,杨震原长文揭秘字节跳动的技术探索
机器之心·2025-11-25 17:37

公司技术发展历程 - 2014年公司开始构建大规模机器学习推荐系统,第一版即计划做到万亿级别特征规模 [7] - 2020年左右公司开始探索AI在科学计算领域的应用,认为求解薛定谔方程可模拟世界绝大部分现象 [13] - 2021年公司收购Pico团队进入XR领域,初期有两条产品路线,2023年决定更坚定投入基础技术研发 [27] - 2022年公司开始在大模型方向投入,火山引擎大模型服务已成为中国MaaS市场第一名 [39] 推荐系统技术突破 - 2014年工业界主流大规模机器学习系统用于搜索广告,公司将其原理应用于推荐系统面临工程与算法挑战 [7] - 公司优化器准备两套方案,SGD-FTRL项目数月上线成功实现稀疏化万亿特征目标,框架灵活 [10] - 2014年底公司引入FM类算法并演化成更通用的深度学习体系,上线第一天即为流式训练系统 [11] 科学计算AI应用 - 公司从2020年开始持续投入AI for Science,在神经网络量子蒙特卡洛方法领域已做到业界前沿 [16][19] - 公司发现科学计算问题与大模型一样存在Scaling Law,使用更多参数可提升仿真精度 [19] - 在分子动力学领域,公司开发GPU4PySCF实现GPU加速DFT计算业界SOTA,1GPU算力相当于500-1000CPU核心 [24] - 公司开发的Bamboo-MLFF和ByteFF力场模型在无实验数据zeroshot预测电解液性质上实现业界SOTA精度 [24] - 公司与比亚迪成立联合实验室,将高通量自动化实验与科学计算算法结合,探索AI在电池材料领域工业应用 [25] XR技术研发进展 - 公司为解决XR设备清晰度问题,2022年启动MicroOLED定制,目标达到近4000 PPI,约为iPhone 17 ProMax的九倍 [29][32] - 通过导入微透镜提升亮度并结合光学设计优化,最终成品平均PPD达40,中心区域超过45,处于行业领先水平 [33] - 为应对MR技术挑战,公司自研头显专用消费电子芯片,2024年回片并进入量产,系统延迟可做到12毫秒左右 [34][35] - 公司建设了专业高精度测试系统、3D重建机制与高精度手势数据采集系统,以提升交互体验 [36] - 预计2026年将有新产品发布 [36] 大模型战略与成果 - 火山引擎大模型服务根据IDC报告是中国MaaS市场第一名 [39] - 公司在Infra方面积累深厚,大规模训练系统MegaScale的MFU超过55%,是当时主流开源框架1.3倍以上 [39] - 通过模型结构、自研服务器等探索实现大模型低调用成本,在保证不错毛利前提下打破业界价格下限 [40] - GenMedia模型、VLM、语音模型表现长期处于国际一流水平 [40] - 公司对未来大模型发展提出思考,关注模型持续学习能力、与世界的交互能力等基础问题 [43]