Model Bias（模型偏差） - 财报，业绩电话会，研报，新闻

Model Bias（模型偏差）

搜索文档

36氪· 2025-05-28 19:59

AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑，OpenAI前首席科学家公开认为"预训练已走到尽头"，而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示，行业分化成两派：曹越、孔令鹏等通过跨架构创新（如语言模型应用Diffusion、视频模型采用自回归）实现突破，阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势，参与者形容为"摸彩票"，不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新：Dream 7B以7B参数量超越671B的DeepSeek V3，通过双向学习处理并行任务，在数学/代码任务表现突出[3][8][17] - 视频模型革新：曹越团队将自回归应用于视频生成，突破Sora无时序先验的限制，通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导：阿里内部多次"魔改"Transformer后仍确认其最优性，但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展：DeepSeek实现1:20+稀疏比，阿里测试显示1:10-1:20区间效果最佳，但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新：通过Attention稀疏化提升跨模态效率，端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显：GPU对Transformer训练非最优，行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧：2024年认为数据枯竭是共识，2025年美国新观点认为仍有潜力，阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新：历史显示算力增长可激活曾被放弃的技术，当前需重点优化算力利用率[40][41] - 创造本质探索：将创作定义为搜索问题，通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题：强化学习可能加剧错误推理模式，阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本：模型结构需同时兼容预训练与强化学习，当前每次技术押注成本显著上升[20][33] - 技术迭代哲学：行业进步类似飞机航道调整，需动态修正而非预测终极形态[44][45]