Workflow
Mirage
icon
搜索文档
腾讯研究院AI速递 20250704
腾讯研究院· 2025-07-03 23:31
一、AI游戏引擎Mirage - 谷歌、英伟达等八大机构联合发布全球首款AI原生UGC游戏引擎Mirage,支持通过自然语言指令实时生成游戏内容 [1] - Mirage突破传统游戏局限,支持16FPS流畅体验和5-10分钟连续游玩,画面质量直逼GTA和极限竞速 [1] - 核心技术基于Transformer和扩散模型打造的"世界模型",通过大量游戏数据训练实现动态交互与实时控制 [1] 二、OmniGen2图像生成模型 - 智源研究院发布OmniGen2统一图像生成模型,采用分离式架构与双编码器策略,支持文生图、图像编辑和主题驱动图像生成 [2] - 模型创新性引入图像生成反思机制,显著提升上下文理解能力、指令遵循能力和图像生成质量 [2] - OmniGen2已开放科研体验版,模型权重、训练代码及训练数据全面开源,GitHub星标一周内突破2000 [2] 三、Gemini for Education - 谷歌将Gemini为首的AI工具套件免费提供给全球教育工作者,深度集成到Google Classroom和ChromeOS中 [3] - Gemini in Classroom包含30多个AI工具,可自动生成教案、课堂活动和测验题,节省教师备课时间 [3] - 推出NotebookLM和Gems等教师主导的AI工具,以及全新数据分析功能,实现个性化学习体验和数据驱动教学 [3] 四、星流Agent创作平台 - 星流Agent是一个多功能AI创作平台,可通过自然语言指令一键完成批量表情包、品牌VI设计、视频生成、3D建模等多种创意任务 [4] - 核心功能包括批量高质量内容生成、Kontext智能图像编辑功能和全媒体工作流支持,实现"Vibe designing"设计新范式 [5] - 平台提供免费体验额度和积分,支持多样化创意输出,将设计师角色从"掌握技术"转向"理解需求与表达创意" [5] 五、腾讯元宝新功能 - 腾讯元宝新增一句话搜索功能,能智能匹配图片和视频号内容,支持全部模型使用 [6] - 回答结果可智能引用视频号相关教程,实现文字与视频配合讲解的形式,并支持一键跳转视频号观看 [6] - 用户可在获取初始回答后继续追问,此前5月份元宝已打通微信读书和起点读书,实现搜索直接跳转阅读功能 [6] 六、Blender Fusion框架 - 谢赛宁团队发布Blender Fusion框架,实现通过方向键或滑块精准控制画面中物体的移动、旋转和缩放,无需依赖文本提示词 [7] - 技术核心是三步流程:先用SAM模型分离物体和场景,再用Blender进行3D编辑,最后用扩散模型生成高质量合成图像 [7] - 系统采用双流扩散合成器接收原始场景和编辑后渲染图像,并通过源遮挡和模拟物体抖动等技巧提高泛化能力和真实感 [7] 七、Grok 4新模型 - xAI即将发布新模型Grok 4系列,包括旗舰版Grok 4和专用编程模型Grok 4 Code,预计于美国国庆日后推出 [8] - Grok 4特性包括13万tokens上下文窗口、支持函数调用、结构化输出和推理能力,但仅支持文本到文本模态 [8] - 马斯克表示希望用Grok 4重写人类知识库,补充缺失信息并删除错误,而Grok 4 Code将作为专业编程助手 [8] 八、DeepSeek-R2神秘模型 - 大模型竞技场秘密上线代号为"steve"的神秘模型,通过对话透露来自DeepSeek,引发网友猜测其为DeepSeek-R2或其他新版本 [10] - "steve"模型知识截止时间为2023年10月,通过部分智力测试,但表现不够惊艳 [10] - 此前The Information报道称DeepSeek-R2再度延期,原因是内部对模型表现不满意,同时可能受英伟达H20芯片缺乏影响 [10] 九、EDA行业动态 - 西门子、新思、楷登电子宣布收到美国商务部BIS通知,解除对中国大陆市场的临时禁令,恢复中国客户对其软件和技术的全面访问 [11] - 此前5月下旬BIS对EDA三巨头突然下发出口限制通知且未设缓冲期,导致三巨头股价暴跌,新思科技曾预测中国区收入将同比下降28% [11] - 国产EDA行业面临"成熟度与市占率"困境,中国已有三家EDA公司上市,但芯片设计公司为保证流片成功率仍倾向使用成熟度高的国外产品 [11] 十、AI就业影响 - 世界经济论坛《2025年全球未来就业报告》显示AI与机器学习专家成为增长最快职业,岗位数量预计增长86% [12] - AI将重塑全球劳动力市场,大数据、网络安全和技术素养成为增长最快的三大技能,同时数据录入员和行政助理等传统岗位面临需求下降 [12] - 全球约39%员工技能将在2025-2030年间发生显著变化,但仅50%员工接受过系统培训,63%雇主将技能差距视为业务转型最大障碍 [12]
全球首款AI原生UGC游戏引擎诞生!输入文字秒建GTA世界,试玩体验来了
机器之心· 2025-07-03 11:26
游戏引擎技术突破 - 全球首个由实时世界模型驱动的AI原生游戏引擎Mirage问世,由Dynamics Lab开发[2] - 系统支持通过自然语言、键盘或控制器实时生成并修改整个游戏世界,专为动态交互式体验设计[3] - 当前演示版本包含GTA风格的《都市乱斗》和极限竞速风格的《海岸漂移》,所有场景均为实时动态生成[5][6] 核心技术架构 - 基于Transformer的大规模自回归扩散模型,融合LLM与扩散模型优势,支持生成高保真游戏序列[21][28] - 采用垂直训练流水线,通过互联网游戏数据与人类录制互动样本训练模型掌握复杂游戏逻辑[22][23] - 定制版因果Transformer模型增强KV cache驱动的长上下文窗口,确保实时演变时的视觉一致性[29] 产品功能特性 - 实现16FPS标清分辨率实时交互,支持自然语言动态UGC创作与分钟级扩展型游戏体验[35] - 云串流技术实现跨平台即时游戏无需下载,多模式控制支持文本/按键/控制器输入[26][35] - 影视级画质超越早期像素块风格,连续交互时长突破十分钟[14] 行业革新意义 - 打破传统游戏预制设计边界,玩家可实时生成逃亡巷道/召唤载具/扩展城市天际线[18][19] - 代表UGC 2.0革新,游戏世界从可交互升级为与玩家共同进化[17][20] - 开发团队认为该技术将重塑游戏产业未来格局,创造无需下载/设计的全新媒介[16][34] 团队与开发现状 - 团队成员来自谷歌/英伟达/微软等科技巨头及卡内基梅隆等顶尖院校[33] - 当前体验存在网络延迟问题,人物移动灵敏度需优化[10][11] - 用户可上传初始图片生成游戏,但实际效果与预期仍有差距[12]
舍弃CUDA编程!CMU等用几十行代码将LLM编译成巨型内核,推理延迟可降6.7倍
机器之心· 2025-06-21 09:33
核心观点 - 英伟达CUDA是当前大语言模型(LLM)训练和推理的核心计算引擎,但存在手动优化成本高、端到端延迟高等不足 [1][2] - CMU团队开发的MPK编译器可将LLM转化为优化的巨型内核,显著降低推理延迟1.2-6.7倍,逼近硬件理论极限 [3][4] - MPK通过自动化编译实现高性能推理,仅需几十行Python代码即可完成部署,大幅降低使用门槛 [5][41] 技术突破 性能优化 - 在A100-40GB GPU上,MPK将Qwen3-8B模型每个token的延迟从14.5毫秒降至12.5毫秒,接近10毫秒的理论下限 [4] - 通过消除内核启动开销、实现跨层软件流水线和重叠计算与通信三大机制,实现端到端延迟优化 [14][16] - 多GPU环境下性能提升更显著,计算与通信融合的巨型内核设计使扩展性随GPU数量增加而增强 [18] 架构创新 - 编译器将LLM计算图转化为细粒度任务图,在子内核级别显式捕获依赖关系,突破传统"单算子单内核"执行模型的限制 [20][26] - 运行时系统采用静态分区设计,将GPU流式多处理器划分为工作单元和调度单元,避免动态上下文切换开销 [30][32] - 事件驱动执行模型实现1-2微秒级的任务切换延迟,支持多层多GPU工作负载的高效调度 [35][36] 行业影响 技术替代性 - 直接解决PyTorch/Triton/TVM等现有框架无法生成端到端巨型内核的痛点 [11] - 突破NCCL/NVSHMEM/FlashAttention等专用内核库造成的碎片化问题,实现统一编译 [12] - 可能改变GPU上LLM推理工作负载的编译和执行范式 [41] 应用前景 - 已支持现代GPU架构,正在扩展至NVIDIA Blackwell等下一代平台 [43] - 计划增强对动态工作负载(如MoE模型)的支持,开发动态控制流编译策略 [43] - 探索优先级感知调度等高级功能,适用于延迟敏感型服务和混合批处理场景 [43] 实施细节 编译流程 - 将PyTorch定义的LLM计算图转化为优化任务图,最大化暴露并行性 [23] - 通过Mirage内核超优化器自动生成高性能CUDA实现 [28] - 输入输出仅需几十行Python代码指定,大幅简化部署流程 [41] 运行时机制 - 工作单元采用"获取-执行-触发"循环流程,保持持续满载运行 [33][37] - 调度单元采用分布式事件队列管理,单SM可并发运行4个调度单元 [34][38] - 通过触发/依赖事件机制实现细粒度任务同步 [31][39]
商汤-W(00020) - 2023 H1 - 电话会议演示
2025-05-06 16:48
业绩总结 - 2023年上半年,SenseTime集团的总收入为14亿人民币,同比增长1.3%[3] - 2023年上半年,GAAP净亏损为14亿人民币,同比有所减少[5] - 2023年上半年调整后的净亏损为247百万人民币,较2022年上半年亏损447百万人民币有所改善[118] - 2023年上半年公司毛利率为45.3%,较2022年上半年66.0%下降[118] 用户数据 - 2023年上半年公司客户数量同比增长48%[85] - 2023年上半年公司在Tier 1和Tier 2城市的收入占比为64%[109] 研发与技术 - 生成式AI相关收入达到24亿人民币,同比增长7%[5] - SenseTime的InternLM-123B模型在MMLU测试中得分为72.9,超过了ChatGPT的69.1[8] - 2023年上半年研发费用为705百万人民币,占总收入的29.4%[120] - 2023年上半年公司计算能力持续扩展,新增多个AIDC建设项目[6] - 预计到2023年底,SenseTime的总数据储备将达到10万亿个Token[12] - SenseTime在基础模型能力方面全球排名前3[52] 市场展望 - 生成式AI预计将推动全球GDP增长7万亿美元[56] - 2023年上半年,生成式AI相关收入实现三位数百分比的增长[3] 资本与支出 - 2023年上半年现金及现金等价物总额为13121百万人民币[128] - 2023年上半年公司资本支出为703百万人民币,占总收入的49%[128] - 2023年上半年公司净现金为9421百万人民币[128] - 2023年上半年,智能汽车业务的收入贡献为6%[79] 数据中心与基础设施 - SenseCore在上海临港的数据中心拥有超过30,000个GPU,较2023年3月增长约11%[6]
商汤-W(00020) - 2023 H2 - 电话会议演示
2025-05-06 16:47
业绩总结 - 2023年集团收入为34亿人民币,同比下降10.6%[5] - 2023年毛利为15亿人民币,毛利率为44.1%,较2022年的66.8%显著下降[79] - 2023年EBITDA亏损为54.5亿人民币,同比减少2.2%[79] - 2023年运营费用为54.71亿人民币,同比下降10.6%[83] 用户数据 - 2023年应收账款回收额为38.85亿人民币,同比增长48.5%[89] - 2023年智能汽车收入为38.4亿人民币,同比增长31%[10] 新产品与技术研发 - 生成式AI收入在2023年占集团收入的35%,同比增长200%[10] - 传统AI收入在2023年占集团收入的54%,较2022年的82%下降[63] 财务状况 - 2022年总现金为11851百万人民币,2023年为6936百万人民币,下降了41.5%[93] - 2023年总借款为3229百万人民币[93] - 2023年资本支出为14.86亿人民币,占收入的49%[91] - 2022年股权投资为5153百万人民币,2023年为4891百万人民币,下降了5.1%[94] - 2022年债券投资为1523百万人民币,2023年为1636百万人民币,增长了7.4%[94] - 2022年金融资产公允价值通过损益计入的非流动资产为6677百万人民币,2023年为6527百万人民币,下降了2.2%[94] 人力资源 - 2023年员工总数为4500人,同比减少11.1%[5] 银行融资 - 2023年末未提取的银行融资额度约为83亿人民币[93]
商汤-W(00020) - 2023 H2 - 业绩电话会
2024-03-26 17:00
SenseTime Group (00020) H2 2023 Earnings Call March 26, 2024 05:00 AM ET Speaker0 Good evening, everyone, and welcome to Sensetime Group's twenty twenty three Annual Results Presentation. I'm Jessie Lin, the Joint Company Secretary and today's MC. Let me introduce the management representatives joining us today. Doctor. Xu Li, Chairman and CEO of Senstime Group Mr. Xu Bin, Co Founder and Executive Director and Mr. Wang Zheng, CFO. First of all, let me read the disclaimer. Today's discussions may contain for ...