语义对齐
搜索文档
理想对VLA的处理思路有可能发生了本质变化
理想TOP2· 2026-03-05 01:17
文章核心观点 - 理想汽车在2026年发布的LinkVLA论文中,提出了与其在2025年GTC大会上所阐述的VLA处理思路存在本质不同的新架构 这一变化的核心在于将自动驾驶动作从语言大模型需要翻译的“输出结果”转变为LLM可以直接理解和生成的“原生语言” 通过将物理坐标直接token化并与语言词表对齐 使LLM获得了直接操纵物理空间的能力 从而在轨迹生成精度、推理速度和语义理解对齐方面实现了显著提升 [1][2] VLA架构的本质变化 - **动作表征的根本转变**:新架构认为动作不应是LLM的输出结果 而应是其原生语言 通过将坐标直接token化并引入对数空间分布 LLM具备了直接操纵物理空间的能力 无需依赖diffusion模型作为中间“翻译官” [2] - **动作Token的重新定义**:旧版VLA的动作Token是高维环境特征编码 包含对3D空间的理解、他车状态和自车意图 需经diffusion翻译生成轨迹 而LinkVLA的动作Token是离散化的BEV空间坐标 每个Token对应唯一网格坐标 环境理解被保留在LLM隐藏层 输出层Token仅代表位置 [3] - **底层词表的结构化对齐**:LLM像预测“苹果”一词一样 直接预测坐标网格ID 动作与语言在底层共享同一个词表 实现了实质上的结构化对齐 [4] 轨迹生成与精度提升 - **从并行解码到两步Token化**:旧版采用并行解码一次性输出所有动作Token 再由diffusion迭代采样 新版采用两步法 先预测代表终点的Token 再在插值基础上预测一组残差Token来修正坐标 实现了更高的轨迹精度 [5] - **推理速度与延迟优化**:两步Token化的方法大幅提升了推理速度并降低了时延 [5] - **非线性空间感知网格**:在Token化时采用近处密集、远处稀疏的非均匀网格 解决了传统均匀网格在近场控制精度不足的问题 Token本身即带有空间感知的非线性特征 [5] 语义理解与模型对齐 - **从单向对齐到双向对齐**:旧版VLA通过RLHF在输出端微调以对齐驾驶偏好 新版LinkVLA引入了“动作理解”训练任务 不仅要求模型根据指令生成轨迹 还要求其能将行驶轨迹反向翻译成文字描述 [6][7] - **解决语义鸿沟问题**:这种双向语义绑定旨在解决VLA的语义鸿沟问题 确保模型在做出如“左转”决策时 其生成的轨迹能准确对应 如果模型无法将轨迹正确翻译为文字 则被认为未真正掌握该动作 [7]
TikTok内容-人群匹配的“语义对齐”:标签、话题与检索信号
搜狐财经· 2025-08-25 00:37
文章核心观点 - TikTok内容推荐机制依赖于语义对齐策略,即通过统一标题、字幕、话题和语音文本来强化关键词信号,以提升内容精准触达和流量分发效率 [2][3][19] - 流量获取需结合推荐流量(For You流量)和检索流量(Search流量)双路径,其中检索流量是长期稳定增长的关键 [11][13] - 话题卡位策略强调使用中尾部和长尾话题(如孕妇护肤、学生党健身)以平衡曝光度与受众精准度,而非仅依赖热门话题 [14][15] - 数据驱动的弹性系数测算(包括点击弹性、完播弹性和互动弹性)可量化关键词和话题效果,优化内容运营策略 [17] 语义对齐机制 - 语义对齐需统一标题、字幕、话题和语音文本(ASR识别)中的关键词,避免信号矛盾导致平台误判推荐群体 [2][3][8] - 标题需包含明确关键词(如"3分钟教你瘦腿"),而非仅吸引眼球的模糊表述 [8] - 字幕需与口播内容一致,并重复关键词以强化信号 [8] - 话题策略需结合1-2个大话题(如foryou)提升曝光,3-5个垂直话题(如减肥餐)实现精准投放 [8] 流量分发路径 - TikTok流量分为推荐流量(算法主动推送)和检索流量(用户主动搜索),后者是长期稳定播放的核心来源 [11][13] - 推荐流量需注重内容娱乐性和爽点(如化妆前后对比),检索流量需明确关键词和问题型内容(如"如何快速去黑眼圈") [13] - 双路径布局可实现爆发性流量与长尾流量的平衡 [11][13] 话题卡位策略 - 避免过度依赖热门话题(如viral),优先选择中尾部话题(如夏日穿搭灵感)和长尾话题(如预算500元化妆)以降低竞争压力并提升转化意愿 [14][15] - 三层话题结构包括:1-2个大话题拉曝光、3-4个中尾部话题稳流量、1-2个长尾话题积累精准粉丝 [15] 数据量化方法 - 弹性系数测算包括点击弹性(CTR系数)、完播弹性(Watch Rate系数)和互动弹性(Engagement系数),用于评估关键词和话题效果 [17] - 需建立关键词-指标表,记录CTR、完播率和互动率变化,筛选高匹配度话题池 [17] - 数据驱动可替代主观判断,优化选题和标签策略 [17]