生成对抗网络
搜索文档
现场围观腾讯广告算法大赛,我都想入职了
量子位· 2025-12-24 13:14
腾讯广告算法大赛概况 - 大赛为腾讯广告主办的标杆级技术赛事,冠军奖金200万元,亚军季军奖励为六位数,所有决赛选手均获得一台iPad [1] - 比赛吸引了全球8400余名学生、2800多支队伍参与,覆盖近30个国家 [34] - 大赛总奖金池为380万元,其中包含因方案亮眼而临时增设的20万元创新奖 [32] 赛题技术前沿性与挑战 - 赛题为“全模态生成式推荐”,旨在处理图像、视频、音频等多模态信息,是当前广告推荐系统最前沿且接近真实业务的技术方向 [5][7][8] - 该技术涉及大模型、生成对抗网络、扩散模型等AI方法,真正进入工业实践仅近两年,是腾讯广告目前最重视的技术 [9][11] - 赛题挑战具体,包括多模态数据噪声大、模态对齐难、数据分布不均、冷启动问题突出,以及长序列带来的显存占用、训练效率和推理时延等工程约束 [12][13] 优胜团队解决方案亮点 - 冠军队Echoch方案核心在于大规模序列建模与工程可落地性,通过对高维ID特征压缩来降低开销,支持更长序列和更大批次的训练,并优化用户长期兴趣演化与多目标约束 [19] - 亚军队leejt方案重点在于数据质量与结构建模,对多模态特征进行筛选聚合,并引入图结构来缓解样本稀疏和冷启动问题,提升了稳定性和泛化能力 [19][20] - 季军队也许明天方案对曝光、点击和转化进行显式区分建模,采用条件生成预测用户行为,并在推理阶段过滤低价值曝光,使输出更贴近实际业务决策逻辑 [21][22] 大赛作为人才选拔与培养通道 - 大赛为参赛学生提供了实战级赛题演练、获得实习或直通offer的机会,以及大厂提供的算力和平台资源 [3][4] - 比赛过程本身完成了接近真实业务环境的能力验证,通过从初赛到复赛的数据规模(从1M扩展到10M)和目标复杂度升级,筛选出方案扎实的团队 [40][41][42] - 腾讯公司副总裁蒋杰评价学生方案不比工业界差,且对大模型的理解能跟上潮流甚至更有创新性 [23][24] - 大赛是公司“揽人”策略的一部分,旨在集中观察和交流,高效筛选硬核技术人才,避免传统招聘的局限 [28][37][39][42] 公司人才战略与投入 - 腾讯在2025年启动了史上最大的就业支持计划,面向全国吸纳了10000名校招实习生,其中六成岗位面向技术人才开放 [45][46][47] - 公司通过高额奖金、算力支持及学生关怀活动(如午餐会、交流晚宴)吸引年轻人才,释放强烈的人才需求信号 [32][49][50][52] - 公司人事变动显示出对年轻人才的青睐,例如将28岁的年轻人放在AI重要位置上 [54] - 研究人员队伍壮大表明公司对研发的投入在不断加大 [48]
VLA的Action到底是个啥?谈谈Diffusion:从图像生成到端到端轨迹规划~
自动驾驶之心· 2025-07-19 18:19
扩散模型原理 - 扩散模型是一种生成式模型,本质是通过正向扩散和反向生成过程对数据分布进行学习和模拟[2] - 正向扩散过程从初始数据分布开始逐步添加噪声,最终达到纯噪声分布[5] - 反向生成过程从纯噪声出发,通过神经网络逐步去除噪声恢复原始数据[6] - 扩散过程基于马尔可夫链,未来状态仅依赖当前状态[8] - U-Net是扩散模型核心架构,采用编码器-解码器结构和跳跃连接增强细节恢复能力[11][12][13] 扩散模型与生成对抗网络对比 - GAN由生成器和判别器组成,通过对抗博弈生成新样本[20] - 扩散模型训练更稳定且样本质量更高,但计算成本较大[27] - GAN可融合多种噪声分布,而扩散模型通常保持噪声类型不变[28] - 扩散模型像"考古修复",GAN像"造假大师"[26] 自动驾驶应用 - 合成数据生成:解决数据稀缺问题,可生成极端天气等罕见场景[30][31] - 场景预测:生成多模态交通参与者行为预测[33] - 感知优化:用于BEV去噪和多传感器融合[34][35] - 路径规划:清华AIR团队Diffusion Planner实现多模态路径生成[36] - 端到端控制:DiffusionDrive实现实时决策[37] - 能量优化:Diffusion-ES算法求解最小能耗路径[42] 企业技术方案 - 毫末智行Diffusion Planner实现预测与规划联合建模,在nuPlan数据集表现优异[47] - 地平线HE-Drive系统利用扩散模型生成舒适驾驶轨迹[48] - 理想汽车MindVLA架构整合扩散模型优化驾驶轨迹[48] - 学术方案:条件扩散模型实现车辆极限漂移控制[49][51]
TransDiffuser: 理想VLA diffusion出轨迹的架构
理想TOP2· 2025-05-18 21:08
文章核心观点 - 文章详细解释了Diffusion模型在自动驾驶轨迹生成中的应用,特别是理想汽车VLA(Vision-Language-Action)系统的技术架构和创新点 [1][4][6] - 理想汽车的VLA系统通过Diffusion模型生成驾驶轨迹,相比VLM(Vision-Language-Model)系统具有更强的拟人感和决策能力 [1][2][4] - TransDiffuser模型通过多模态感知信息融合和去相关优化机制,显著提升了轨迹生成的多样性和质量 [6][11][12] 什么是Diffusion - Diffusion是一种通过加噪和去噪过程学习数据分布的生成模型,核心思想类似于逆向拼图 [4] - 相比GAN和VAE等其他生成模型,Diffusion在生成质量和稳定性上具有优势 [4] - 理想汽车采用ODE采样器将Diffusion生成步骤从几十步减少到2-3步,大幅提升效率 [5] 理想VLA系统的技术特点 - VLA是一个具备快慢思考能力的单一系统,直接输出action token并通过Diffusion解码为轨迹 [4] - 系统能同时生成自车轨迹和预测其他交通参与者轨迹,提升复杂环境博弈能力 [5] - 当前系统输出轨迹而非直接控制信号,但未来可能演进到直接输出油门/方向盘信号 [3] TransDiffuser架构细节 - 模型采用编码器-解码器结构,融合图像/LiDAR/运动状态等多模态信息 [6][7] - 场景编码器处理前视图像(8视角)和LiDAR数据(5传感器),输出BEV/图像/点云特征 [7][10] - 去噪解码器基于DDPM算法,通过10步迭代生成覆盖4秒的8个waypoints轨迹 [9][11] - 在NAVSIM数据集上PDMS指标达到94.85,优于Hydra-MDP++等现有方法 [11] 关键创新点 - 无锚点轨迹生成:不依赖预设轨迹或词汇表,直接从感知数据生成轨迹 [11] - 多模态去相关优化:解决模式崩溃问题,提升轨迹多样性且计算开销低 [11][12] - 采用256批量大小分布在4个NVIDIA H20 GPU上进行训练 [10] 局限性与未来方向 - 模型微调存在困难,特别是感知编码器部分 [13] - 未来可能结合强化学习,并参考OpenVLA等先进模型架构 [13] - 直接输出控制信号(油门/方向盘)是更难的挑战,短期内难以实现 [3]
北京国电通申请基于生成对抗网络与大语言模型的人力资源管理专利,实现生成虚拟人力资源数据的多元化
金融界· 2025-05-14 11:56
专利申请 - 北京国电通网络技术有限公司和国网信息通信产业集团有限公司联合申请了一项名为"一种基于生成对抗网络与大语言模型的人力资源管理方法"的专利,公开号CN119963144A,申请日期为2024年12月 [1] - 专利技术通过生成对抗网络学习人力资源管理数据并生成虚拟数据,结合大语言模型训练人力资源管理模型,用于优化人力资源决策 [1] - 该技术实现了虚拟人力资源数据的多元化生成,并综合利用虚拟和真实数据提升决策质量 [1] 公司背景 - 北京国电通网络技术有限公司成立于2000年,注册资本7.3亿人民币,专注于专业技术服务业,拥有948条专利信息和65条商标信息 [2] - 国网信息通信产业集团有限公司成立于2015年,注册资本1502.231亿人民币,从事软件和信息技术服务业,拥有4601条专利信息和311条商标信息 [2] - 北京国电通对外投资4家企业,参与招投标2019次,国网信通对外投资40家企业,参与招投标5000次 [2]
一文讲透AI历史上的10个关键时刻!
机器人圈· 2025-05-06 20:30
人工智能发展历程 核心观点 - 人工智能从1956年达特茅斯会议的理论探索阶段,逐步发展为2025年渗透千行百业的实用技术,经历了10个关键里程碑事件 [1] 关键历史时刻 1 达特茅斯会议(1956年) - 首次确立人工智能作为独立学科,由麦卡锡、明斯基等先驱提出机器智能研究框架,定义问题求解、符号推理等核心方向 [2][3] 2 感知机(1957年) - 弗兰克·罗森布拉特开发首个神经网络模型,开创"训练-预测"的机器学习范式,奠定现代深度学习技术基础 [4][6] 3 ELIZA(1966年) - MIT开发的第一个聊天机器人,通过罗杰式对话法模拟心理治疗师,首次验证自然语言交互的可行性 [7][8] 4 专家系统(1970年代) - Dendral和MYCIN系统实现专业领域推理,化学分子结构分析与医疗诊断应用标志AI从理论转向垂直领域落地 [9][11] 5 深蓝胜利(1997年) - IBM超级计算机击败国际象棋世界冠军,证明机器在复杂策略游戏中可超越人类 [12] 6 机器学习范式(1990-2000年代) - 汤姆·米切尔提出数据驱动算法定义,推动自适应系统的研究转向 [14][15] 7 深度学习革命(2012年) - Geoffrey Hinton的反向传播算法突破多层网络训练瓶颈,AlexNet在ImageNet竞赛中准确率提升10.8个百分点引爆行业热潮 [17][18] 8 生成对抗网络(2014年) - 伊恩·古德费洛提出GAN框架,生成器与判别器对抗机制实现逼真图像/文本合成 [20] 9 AlphaGo(2016年) - DeepMind攻克围棋复杂性,战胜李世石展现直觉与战略决策能力 [22] 10 Transformer与大模型(2017-2025) - 2017年Transformer架构解决长文本依赖问题,GPT-3(1750亿参数)展现零样本学习等涌现能力,2023年GPT-4实现多模态融合,国内百度、阿里等企业快速跟进大模型研发 [24][26] 行业现状 - 2025年AI技术渗透至图像生成、自动驾驶、医疗诊断等全领域,形成以GPT-4、Claude、文心一言等为代表的全球化竞争格局 [26]