Internet Technology
搜索文档
Meta打碎Transformer 8年铁律,改写AI最底层规则,模型首次冒出潜意识
36氪· 2025-10-24 19:47
核心观点 - Meta推出名为“自由Transformer”的新模型,首次打破自2017年以来所有GPT模型的核心规则,模型在生成前能进行“预先思考”,而不再是逐token盲猜式生成[1] - 该创新通过在解码器中引入潜在随机变量Z,为Transformer增加一层“潜意识”,使模型能够早期做出全局决策,从而产生更一致和稳定的输出[3][10][22] - 这一架构变革仅增加约3%的计算开销,但在GSM8K、MMLU、HumanEval等多项基准测试中表现显著提升,可能标志着AI模型从“预测下一个词”迈向“思考如何表达”的重要节点[3][24][31] 技术架构创新 - 模型在解码器中引入了潜在随机变量Z,可视为生成文本前的“潜意识层”,模型会采样内部选择来引导整个序列的风格或结构[4] - 技术实现是通过内置在Transformer内部的条件变分自编码器完成的,Meta将其命名为Free Transformer[4] - 与标准Transformer仅根据前序token预测下一个token不同,Free Transformer先采样一个随机状态Z,然后让每个标记都基于该状态生成[7][20] - 在训练过程中使用编码器帮助模型学会选取良好的隐藏状态,但在推理时跳过编码器,直接采样隐藏状态并仅运行解码器,这避免了使成本翻倍的问题[8][9][12][13][14] - 该设计使模型仅增加约3-4%的FLOPs计算开销,大幅降低了计算负担[15][19] 性能表现 - 在1.5B参数模型上,Free Transformer在多项测试中表现显著提升:HumanEval+得分最高提升55.56%,MBPP测试最高提升35.71%,GSM8K数学题集最高提升30.30%[26][28] - 在8B参数模型上同样观察到性能改善:HumanEval+得分最高提升19.23%,MBPP测试最高提升18.71%,GSM8K数学题集最高提升20.18%[30] - 模型训练保持稳定,没有出现训练崩溃或异常波动[27] - 潜在变量Z被证明能够编码有用的全局结构信息,如主题、情感或模式位置,而不会过拟合[17][38] 潜在变量机制 - 潜在随机变量Z从65536种可能性中选取,由16个独立比特构建而成[18] - 采用KL散度惩罚结合自由比特方法进行训练,防止隐状态记忆整个序列,仅在散度大于阈值κ时添加KL损失[17] - 通过控制κ值(从1/64 bit到8 bits),可以调控Z携带的信息量:信息过少则模型表现接近普通解码器,信息过多则会导致训练退化[37][38] - 在合成任务测试中,Z成功学会了编码目标位置和噪声模式等全局属性,证明了其规划能力[32][35][36][38] 行业影响 - 这一突破可能动摇持续8年的Transformer底层架构,改写AI最底层规则[1][3] - 该研究来自Meta的FAIR实验室,由Yann LeCun领导的团队进行,专注于超越LLM的下一代人工智能研究[39][41][43] - 创新标志着Transformer思维方式的重塑,从“预测下一个词”迈向“思考如何表达”,可能开启后自回归时代[30][31]
八年后,Meta教会了Transformer「显式思考」
机器之心· 2025-10-24 11:40
文章核心观点 - Meta公司提出名为Free Transformer的新架构,打破了自2017年以来GPT模型的核心规则 [4] - 新方法在解码器内部加入随机潜在变量,使模型在生成内容前能进行内部规划,类似于赋予模型“隐藏的心智” [4] - 在15亿和80亿参数模型上,该方法在代码生成、数学文字题和多选任务上取得明显性能提升 [6][27][31] 技术架构创新 - Free Transformer是一种新解码器Transformer扩展,使用无监督潜在变量来提高下游任务性能 [4] - 架构是在标准解码器结构的中间层注入噪声Z,允许与编码器共享一半的Transformer模块,显著减少计算开销 [9] - 编码器使用非因果结构和可学习的常数token嵌入,旨在捕捉序列全局特征,增强跨任务可迁移性 [14] - 通过二进制映射器将编码器输出的向量转化为独热向量表示,维度为2^H(H=16) [15][16] 实验验证与性能表现 - 在合成数据集上验证了模型确实利用潜在变量Z对生成过程进行条件化,不同KL散度值下模型表现出不同编码行为 [18][21] - 15亿参数模型在代码生成任务HumanEval+上最高提升55.56%(从0.055至0.085),数学推理任务GSM8K最高提升30.30%(从0.025至0.033) [26] - 80亿参数模型经过1万亿tokens训练后,在HumanEval+上提升11.36%(从0.268至0.299),MMLU提升5.20%(从0.592至0.623) [30][31] - 性能提升在需要推理能力的任务上尤为显著,包括代码生成、数学问题和多选常识问答 [27][31]
Tucows Announces Timing for Q3 2025 Financial Results News Release and Management Commentary
Prnewswire· 2025-10-23 19:30
财务业绩发布安排 - 公司将于2025年11月6日美国东部时间下午5点05分发布2025年第三季度(截至2025年9月30日)财务业绩 [1] - 管理层关于季度业绩和公司展望的预录制音频评论和文字记录将于业绩发布同时公布在公司官网上 [2] - 在管理层评论发布后的七天内(截至2025年11月13日),股东、分析师和潜在投资者可通过电子邮件向管理层提问,管理层将于2025年11月25日美国东部时间下午5点左右在公司官网以音频和文字形式发布答复 [3] 公司业务概览 - 公司业务涵盖通信服务技术、域名服务和光纤互联网基础设施,旨在帮助更多人连接到互联网 [4] - Ting业务部门提供固定光纤互联网接入服务,并拥有出色的客户支持 [4] - Wavelo业务部门为服务提供商提供电信软件套件,简化移动和互联网网络接入、配置、计费、订阅以及开发者工具的管理 [4] - Tucows Domains业务部门通过超过35,000家网络主机和ISP组成的全球经销商网络,管理约2400万个域名和数百万项增值服务 [4] - Hover业务部门使个人和小型企业能够轻松管理其域名和电子邮件地址 [4]
Baidu to Report Third Quarter 2025 Financial Results on Nov 18, 2025
Prnewswire· 2025-10-21 17:00
财务报告发布安排 - 公司将于2025年11月18日美国市场开盘前公布2025年第三季度财务业绩 [1] - 公司管理层将于2025年11月18日美国东部时间上午7:30(北京时间晚上8:30)举行财报电话会议 [1] 投资者关系活动参与方式 - 投资者可通过提供的链接提前注册财报电话会议 [2] - 注册后将获得拨入号码、密码和唯一访问PIN码,这些信息也将通过日历邀请邮件发送 [2] - 电话会议开始前10分钟可使用日历邀请中的会议接入信息 [3] - 电话会议的实况和存档网络直播将在公司投资者关系网站提供 [3] - 电话会议重播可在2025年11月25日前通过拨打电话收听 [4] 公司基本信息 - 公司成立于2000年,使命是通过技术让复杂的世界更简单 [4] - 公司是一家拥有强大互联网基础的领先人工智能公司,在纳斯达克交易代码为“BIDU”,在香港联交所交易代码为“9888” [4] - 每份美国存托股(ADS)代表八股A类普通股 [4] 近期业务发展 - 公司自动驾驶出行平台Apollo Go获得迪拜首批自动驾驶测试许可证,并在迪拜市区进行道路测试 [5] - 公司宣布完成44亿元人民币计价的优先票据发行 [6]
衡阳磐田科技有限公司成立 注册资本20万人民币
搜狐财经· 2025-10-12 14:18
公司基本信息 - 衡阳磐田科技有限公司于近日成立 [1] - 公司法定代表人为张金平 [1] - 公司注册资本为20万人民币 [1] 公司经营范围 - 许可经营项目包括互联网直播技术服务、营业性演出及演出经纪 [1] - 一般经营项目涵盖网络技术服务、技术开发与推广、互联网销售、文化艺术交流活动、会议展览服务、摄像视频制作、文艺创作、婚庆礼仪服务、文化娱乐经纪、动漫游戏开发、广告设计与发布等 [1]
科大讯飞等在杭州成立网络科技公司 注册资本500万
新浪财经· 2025-10-11 15:09
公司成立与股权结构 - 杭州井宿时代网络科技有限公司于近日成立,法定代表人为王磊,注册资本为500万元人民币[1] - 公司由科大讯飞旗下安徽讯飞云创科技有限公司、海南泽文产业投资合伙企业(有限合伙)及杭州星枢密院咨询管理有限公司等共同持股[1] 业务经营范围 - 公司经营范围广泛,涵盖信息系统集成服务、计算机系统服务及数据处理和存储支持服务[1] - 业务亦包括互联网销售、工艺美术品及收藏品批发、日用百货销售、票务代理服务及企业管理咨询[1]
2025 Xiaomi Creativity Competition Launched: Exploring the Possibilities of Design and Innovation
Prnewswire· 2025-09-29 10:00
公司活动 - 小米正式启动2025年创意竞赛 主题为"你的屏幕 你的故事" 设立三个参赛类别:瞬间定格(壁纸摄影)、智见视界(AI壁纸)和重塑用户体验(主题设计)[1] - 竞赛评审团由全球杰出设计专家组成 参赛者有机会与行业顶尖专家交流 优秀作品将向数百万用户展示[2] - 竞赛设置多项奖励机制 金奖奖金高达10,000美元 获奖作品将获得广泛曝光和潜在商业机会 特别为小米粉丝设立专属奖项[3] - 作品提交于9月10日开始 用户投票9月30日启动 专家评审11月进行 获奖名单将于12月公布[4] 合作伙伴关系 - 竞赛由小米国际互联网业务部与谷歌Gemini联合举办 该部门管理着覆盖100多个市场的国际内容生态系统 包括壁纸、主题、小组件等个性化体验内容[5] - Gemini是谷歌开发的AI助手 旨在提升创造力和生产力 用户可通过实时对话进行头脑风暴、简化复杂话题及重要场景演练[6] - 小米国际互联网业务部期待看到参赛者利用Gemini技术创造惊艳的影像作品 特别是在AI和摄影类别中[6] 生态系统建设 - 小米国际互联网业务部运营着丰富的国际内容生态 涵盖壁纸、主题、小组件等 为全球100多个市场用户提供高度个性化体验[5] - 公司近期与Moloco建立全球战略合作伙伴关系 Moloco是运营机器学习和广告技术领域的领导者 合作旨在推动数百万移动应用的增长[7] - 小米互联网合作伙伴会议(MIPC新加坡2025)于11月27日在新加坡成功举办 汇聚100多家行业领先企业 共同构建可持续的开放生态系统[8]
下一代推荐系统长这样,Meta最新研究RecoWorld,从「猜你喜欢」到「听你指令」
机器之心· 2025-09-28 18:29
文章核心观点 - Meta提出RecoWorld作为推荐系统的新范式 通过模拟用户与智能体推荐系统的多轮交互实现从被动预测到主动互动的转变 旨在最大化用户留存率和参与度 [2][3][4][6][10][12][18][22][23] 传统推荐系统局限性 - 基于历史数据的离线评估容易导致路径依赖 使系统陷入老套路循环 [9] - 线上A/B测试虽能获取真实用户反馈 但存在损害用户体验的高风险 [10] RecoWorld核心架构 - 采用双视图架构:模拟用户会生成反思性指令 智能体推荐系统整合指令调整内容 形成动态反馈循环 [4][12] - 模拟用户操作包括点击、评论、分享、点赞、观看指定时长(以秒为单位)、跳过及离开会话 其中离开时会触发反思机制 [13][14] - 用户决策受环境因素影响:时间(一天中的时间、季节性)、人口统计(年龄、性别、位置)、行为(花费时间、搜索查询)和社会联系(团体关系) [14] - 会话从打开应用程序开始至退出结束 推荐列表从候选集选择并按顺序显示 目标优化长期留存指标(如会话时长和会话间隔) 关联每日活跃用户DAU [16] 多模态与多智能体支持 - 支持文本、多模态和语义ID建模 利用大语言模型推理能力模拟人类行为 [4][13] - 支持多用户和多群体交互场景 创作者可测试内容策略(如发布频率、争议话题影响) [18][24] 系统优化机制 - 通过多轮强化学习迭代完善策略 用户指令驱动推荐系统调整 形成"用户指令-系统响应"新范式 [4][18][22] - 模拟示例显示:用户对兴趣内容(如UFC Fight Night)观看30秒并点赞 对无关内容(如Hairstyling)选择跳过并更新心态期望减少推荐 [17] 行业意义与前景 - 作为推荐系统研究的基础设施 类似OpenAI Gym之于强化学习 提供安全试验场用于算法测试和模型对比 [21] - 推动推荐系统从单向推送向双向互动演进 从"算法支配用户"转向"用户指挥算法" 成为可对话的数字伙伴 [22][23] - 潜在应用:降低研发试错成本 为创作者提供内容风洞测试 为用户提供更智能的个性化推荐(如根据学习进度推荐练习曲、感知疲劳推荐轻松内容) [24][25]
上海渔洋铭帆科技有限公司成立 注册资本500万人民币
搜狐财经· 2025-09-19 05:23
公司基本信息 - 公司名称为上海渔洋铭帆科技有限公司 [1] - 公司法定代表人为宋世状 [1] - 公司注册资本为500万人民币 [1] 公司经营范围 - 公司主要经营技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广 [1] - 公司业务包括互联网销售(除销售需要许可的商品)及网络技术服务 [1] - 公司涉及科技中介服务、组织文化艺术交流活动及咨询策划服务 [1] - 公司业务涵盖广告设计、广告代理、广告制作、广告发布及信息咨询服务 [1]
EPWK Launches Global Platform, Sets Sights on Becoming a Creative Services Infrastructure Company
Prnewswire· 2025-09-18 20:00
公司全球战略启动 - 公司正式推出国际网站intlepwkcom,开启全球扩张新篇章,旨在成为创意资源配置的中心枢纽,即“全球创意人才路由器”[1] - 国际网站初期聚焦北美、欧洲和东南亚市场,未来计划提供多语言支持,国际化被视为服务市场双边用户的机会[6] - 公司长期愿景是成为市值超100亿美元的全球认可互联网平台公司,持续投资AI、数据基础设施和跨境服务[8] 公司业务规模与用户基础 - 平台已服务超过870万买家和1690万卖家,完成超过460万个项目,总商品交易总额超过167亿美元[2] - 截至2023年,平台商品交易总额达35亿美元,拥有超过2560万注册用户[8] 技术基础设施与AI应用 - 公司于2025年3月集成DeepSeek大语言模型推出AI助手,帮助雇主澄清项目需求、生成模板并自动匹配任务与供应商[4] - 其他智能功能包括个性化任务推荐引擎、智能定价助手以及托管、信任评分和版权保护等后端保障措施[5] - 公司致力于标准化全球创意工作交付,并牵头起草中国首个创意知识共享平台团体标准[8] 市场定位与价值主张 - 平台连接企业与创意专业人士,不受地域限制,为全球创意经济提供基础设施层[3][6] - 为中国自由职业者和工作室提供通往全球客户的数字门户,为国际企业提供经过审查的创意人才,特别适用于本地化、设计和营销支持[9]