Workflow
腾讯研究院
icon
搜索文档
美国住房援助体系的历史、现状及启示
腾讯研究院· 2025-05-15 17:49
孙明春 腾讯集团高级经济顾问 陈亦新 独立经济学者 保障房研究系列之四 【摘要】 美国的住房体系主要依赖于私有房屋市场,具有社会保障功能的 住房援助体系 占比很低,受益者仅占 美国总人口的2.7%,故很少被研究者关注。但美国的住房援助体系已有近百年历史,其间经历了多次 修正和完善,积累了很多经验与教训,也形成了一些兼具公平与效率的制度安排,值得借鉴。 美国的住房援助体系由联邦政府拨款、州和地方政府负责执行,以三种形式为低收入家庭提供住房支 持:(1)政府出资建设或购买私人建造的房屋用作公共租赁住房;(2)政府从市场上租赁私人住 宅,再低价转租给低收入家庭;(3)由低收入家庭自行在私人住宅市场寻找租赁房源,政府则向这些 家庭发放"住房券"补贴。 在住房援助体系之外,联邦政府还设立了官方或半官方机构(如屋主贷款公司、联邦国民抵押贷款协 会、房利美等),通过提供住房抵押贷款保险、支持住房抵押贷款证券化等方式,帮助购房者改善融 资条件、降低融资成本,支持民众通过私有房屋市场实现"居者有其屋"的梦想。 美国的住房援助体系有以下可供借鉴之处。一、在公共住房的供应与运营中,联邦与地方机构的参与 都不可或缺。联邦政府负责出资 ...
腾讯研究院AI速递 20250515
腾讯研究院· 2025-05-14 21:51
Notion AI新功能发布 - Notion发布AI会议笔记功能,用户输入/meet命令即可自动记录并与日历系统完全打通[1] - 推出企业级AI功能Notion AI for Work和Research Mode,已对接10个应用集成,计划再增加20多个[1] - 定位All-In-One AI平台,每月20美元包含企业AI搜索、会议笔记等全套无限制功能[1] 腾讯代码助手CodeBuddy 3.0 - 采用插件形式可集成多种IDE,突破传统AI IDE产品使用局限性[2] - 与微信开发者工具深度整合,可快速开发小程序并完全打通微信生态资源[2] - 实际测试显示能在30分钟内完成小程序开发[2] 阶跃星辰开源3D大模型 - 发布开源3D大模型Step1X-3D,总参数量4.8B,采用3D原生两阶段架构设计[3] - 基于200万高质量训练样本,提升水密几何转换成功率20%[3] - 在CLIP-Score等核心指标领先,已开源全部代码与800K高质量3D资产[3] 字节多模态推理模型 - 发布轻量级多模态推理模型Seed1.5-VL,仅用532M视觉编码器和200亿活跃参数[4] - 采用SeedViT编码器、MLP适配器和大语言模型三大核心组件[5] - 在视觉推理、OCR识别等方面表现优异,地理位置推理能力媲美GPT-4V[5] 通义千问Deep Research系统 - 可自动规划和执行复杂研究任务,将数小时工作压缩至十几分钟[6] - 基于一句用户提示即可启动完整研究流程,生成带引用来源的综合报告[6] - 融合Qwen的推理、Agent和长上下文等能力,已在QwenChat平台免费开放[6] OpenMemory MCP开源工具 - 支持100%本地运行,实现不同AI工具间的上下文信息共享[7] - 提供标准化内存操作功能,支持跨平台多客户端使用[7] - 基于Docker部署简单,解决AI工具会话即失忆问题[7] 多邻国AI教育应用 - 一年内用AI生成148门课程(传统方式需12年),完全AI化内容生产流程[8] - 采用2分钟课程设计等机制,让1000万用户保持365天以上学习连续性[8] - 认为AI将成为个性化学习主要载体,教育模式将在20年内发生重大变革[8] 苹果脑机接口技术 - 与Synchron合作开发通过脑电波转化为iPhone操作信号的技术[10] - 采用非侵入式植入方案,已在10名患者身上进行测试[10] - 计划发布脑控标准软件接口,为全球1540万潜在用户提供新交互方式[10] 特斯拉机器人进展 - 通过强化学习实现"零样本迁移"到现实世界,可执行复杂舞蹈动作[11] - 采用模拟器训练具有高效、安全、经济优势[11] - 改进机器人模型和领域随机化技术增强现实环境适应能力[11] Poe AI模型使用趋势 - DeepSeek使用率从7%降至3%,OpenAI因GPT-4o实现暴涨[12] - GPT-4.1和Gemini 2.5 Pro在编程任务中表现出色[12] - 图像生成领域竞争激烈,GPT-Image-1两周内达17%使用率[12]
如何应对无聊,是后稀缺时代的最大挑战
腾讯研究院· 2025-05-14 16:35
书籍核心观点 - 《未来之地》探讨在技术问题已解决的世界中,理想社会如何实现以及为何令人向往,而非传统技术毁灭论 [3][4] - 作者提出乌托邦社会需解决的核心矛盾:物质富足后如何维持进步动力与避免人性惰性 [5][6] - 技术进步可能复制农业革命的负面效应,如强化不平等而非普惠社会 [3] 作者背景与理论框架 - 尼克·博斯特罗姆学术背景涵盖哲学、物理学与计算神经科学,创立人类未来研究所研究灭绝级风险 [1][2] - 其理论受"负熵主义"影响,主张技术可突破生命极限,但超级智能可能因漠视人类而引发文明危机 [2] - 新书采用哲学对话体,融合亚里士多德讲演、柏拉图对话与伊索寓言三种传统 [5] 乌托邦社会的关键挑战 - **进步动力缺失**:平等社会可能因缺乏竞争导致进步停滞,历史上不平等社会反而催生文艺复兴等成就 [5][6] - **消费形式创新**:提出三类新消费方向——生物增强/脑机接口、大型公共项目、社会地位竞争,但受资源与生理限制 [8] - **闲暇文化重构**:需改变稀缺社会形成的劳动伦理,上层阶级对闲暇接纳度高于中下层 [8] 深层冗余与目的生产机制 - **五环防御体系**:享乐效价、体验质地、自成目的活动、人工目的、社会文化纠缠,解决工作消失后的意义危机 [9][10][11] - **无聊的双重性**:既是精神挑战也是创新驱动力,技术手段如神经药物可能剥夺原创性 [11] - **美学尺度细分**:通过提升感知细腻度(如四色视者辨识1亿种颜色)对抗无聊 [12] 副线剧情隐喻 - 虚拟听众讨论指向"体验机"思想实验,强调自主经验不可替代 [13] - 狐狸与哲学家猪的寓言暗示乌托邦与弱肉强食现实并存的可能 [13] 现实意义 - 当前技术进步尚未实现闲暇中的美学体验提升,表明技术发展仍不完善 [15] - 开放式讨论为改变历史方向保留可能性,模棱两可的状态蕴含选择权 [14]
腾讯研究院AI速递 20250514
腾讯研究院· 2025-05-13 23:57
生成式AI - OpenAI为Deep Research新增PDF导出功能,支持表格、图片和可点击引用链接,向Plus、Team和Pro用户开放 [1] - 新任应用事业部负责人Fidji Simo上任后加速向企业市场转型,将AI能力与实际工作流程深度融合 [1] - AI研究助手竞争加剧,各公司从比拼功能转向优化用户体验和工作流集成,PDF导出成为企业级AI工具的基本门槛 [1] 设计垂类Agent - Lovart是首个设计垂类Agent,具备设计规范生成、图像生成、尺寸延展、图文分离等功能 [2] - 产品支持全流程设计,从需求分析到视频合成、二次修改,集成了可灵、11labs、suno等工具 [2] - 在Agent加持下设计工作流将发生重大变革,从单纯的作品创作转向完整的产品资产交付 [2] 交互式世界基础模型 - Matrix-Game是昆仑万维开源的首个10B+交互式世界基础模型,能生成连贯可控的游戏互动视频 [3] - 模型通过两阶段训练和Matrix-Game-MC数据集训练,实现了高精度的动作响应和场景泛化 [3] - 代表空间智能领域的重要突破,适用于游戏开发、影视、广告、XR等领域的内容生产革新 [3] 多模态统一CoT奖励模型 - 腾讯混元推出UnifiedReward-Think,首次实现具备长链式推理能力的统一多模态奖励模型 [4] - 该模型解决了现有奖励模型只能"表面判断"的问题,在图像生成和理解任务中性能显著提升 [5] - 模型已全面开源,包含模型、数据集和工具,代表奖励模型向具备认知理解的智能评估系统转变 [5] AI平台开放注册 - Manus AI取消邀请码制度,开放全民免费使用权限,每位用户可获得每日300积分的免费任务额度 [6] - 平台提供三档付费订阅方案(19美元、39美元、199美元/月),可解锁更多功能和优先服务 [6] - 近期完成由Benchmark领投的7500万美元融资,估值升至5亿美元,资金将用于拓展海外市场 [6] AI政策调整 - 美国废除《AI扩散规则》,认为其会扼杀创新并损害外交关系,计划推出新的简化规则 [7] - 加强对海外AI芯片管制,禁止全球使用华为昇腾芯片,并发布指南防止AI芯片转移 [7] - 沙特承诺向美国投资6000亿美元,涉及AI数据中心、航空航天等多个领域 [7] 医学基准测试 - OpenAI推出医疗评估基准HealthBench,由262名医生参与构建,包含5000段真实对话 [8] - 测试显示最新模型o3得分60%,远超早期GPT系列,且小型模型性能提升显著,成本降低 [8] - 项目开源两个版本并发布完整评估工具,基于模型的评分系统与医生判断达到相似一致性 [8] AI工厂产业革命 - 黄仁勋认为AI工厂将引领下一代产业革命,NVIDIA正在建设投资五六百亿美元的千兆瓦级AI工厂 [9] - AI首次实现了真正的数字劳动力扩充,将成为继信息和能源之后的新一代基础设施 [9] - 英伟达已从芯片公司转型为AI基础设施公司,年研发投入200-300亿美元,致力于构建全球AI生态系统标准 [9] AI智能体发展 - OpenAI计划将ChatGPT发展为个性化AI服务,预测2025年AI智能体大规模应用 [10] - 团队坚持精简高效结构和快速迭代策略,目标定位为用户核心AI订阅服务提供商 [10] - 不同年龄段对AI应用差异显著:老年人视为搜索工具,中年人视为顾问,年轻人已将其作为操作系统使用 [10]
人类技能的奇幻未来
腾讯研究院· 2025-05-13 16:06
未来技能发展前景 - 2037年通过增强现实(AR)和人工智能(AI)驱动的SkillNet平台可实现快速技能掌握,案例显示焊工萨拉通过10小时训练掌握超声波焊接技术[4][5][6] - 量子计算突破将加速科学发现和机器学习,量子设备计算速度比传统超级计算机快1.58亿倍[4][14] - 全球化协作平台支持跨国导师匹配,如印尼专家通过AR实时指导美国焊工[6][7] 技术应用现状 - 现有技术基础包括苹果3500美元AR头显、ChatGPT教练功能、微软/谷歌知识图谱系统[9] - GitHub/YouTube/Reddit等平台已具备直播、数据交换功能,为SkillNet提供原型[9] - 脑波视频还原技术2023年5月发表于《自然》期刊,未来或替代AR头盔[18] 行业挑战 - 仓储业存在系统性去技能化,工业工程师通过减少"技术性接触"降低工人技能要求[21] - 低薪重复性工作岗位技能退化严重,工人平均处理时间缩短但技能水平下降[21][22] - 技能不平等将加剧收入差距,如外科医生群体内技术差距导致收入差异达300%[20] 解决方案路径 - 数字化学徒制结合AI教练与人类导师,Codeorg等平台已实现小组协作式技能训练[31][32] - 嵌合系统提升生产力:燃气轮机维护效率提升40%,芯片设计节能25%,农业收割精度提高30%[28] - 开放平台如Surch系统可将医疗技能学习时间从20小时压缩至1分钟[38][39] 技术发展趋势 - 量子计算与AI协同效应显著,量子比特同时处理0/1状态使计算效率指数级提升[14] - 聚变能源突破:2022年12月美国国家点火设施实现能量净增益,商业化预计5年内落地[16] - SpaceX星链计划部署42000颗卫星,已为150万美国家庭提供高速网络[18] 企业实践案例 - 微软与Helion Energy签订5年聚变能源采购协议,推动清洁能源商业化[16] - MentorCliq平台实现企业内专家-新手长期配对,技能转化效率提升60%[32] - 可汗学院"可汗米果"AI辅导系统基于10万+教学案例数据构建[33]
腾讯研究院AI速递 20250513
腾讯研究院· 2025-05-12 22:46
Transformer八子之一 初创 Sakana AI 提出 「连续思维机器」 - CTM将神经元活动同步作为核心机制,通过时序信息实现更复杂的神经行为,推理过程更像人类思维 [1] - 神经元可访问自身历史并学习利用这些信息计算下一输出,所有行为均为自然涌现,未被预先设计 [1] - CTM在迷宫求解和图像识别等任务中展现出类人思维过程,思考时间越长准确率越高,且可根据任务难度调整思考时长 [1] 苹果发布 FastVLM, iPhone 直接运行的极速视觉语言模型 - 苹果发布移动端视觉语言模型FastVLM,采用双阶段处理(图像转token、token生成语言),可直接部署在iPhone等设备上运行 [2] - FastVLM在效率方面表现突出,0.5B版本较LLaVA首token输出快85倍,体积减少3.4倍;7B版本配合Qwen2较Cambrian模型快7.9倍 [2] - FastVLM具有高效处理高分辨率图像的能力,结合轻量级设计,显示出在智能眼镜等移动设备上的应用潜力 [2] 腾讯混元T1-Vision上线元宝:融合多模态原生长思维链 - 腾讯元宝升级视觉模型Hunyuan T1-Vision,能深度理解图片内容,支持多模态原生长思维链,完答速度提升1.5倍 [3] - 应用场景广泛,可识别植物品种、分析棋局、翻译游戏界面、进行选择分析、评估商品价值等实际场景 [3] - 新版本强调"边看图边思考"的能力,通过开启"深度思考T1"模式,可以更精确地捕捉和分析图片中的关键信息 [3] Perplexity 的Comet AI 浏览器开始内测,将在 5 月中旬发布 - 知名AI搜索工具Perplexity推出基于Chromium框架的AI浏览器Comet,预计5月中旬发布,目前开放内测申请 [4] - Comet具备AI Agent能力,能自动执行复杂任务,集成Perplexity的分析工具,简化用户工作流程 [5] - 继Arc推出Dia后,AI浏览器正成为新趋势,并显示出AI与操作系统、跨平台助手深度融合的发展方向 [5] 快手推出AI作图工具Poify,专注于 电商领域,目前免费 - 快手推出专注电商领域的AI作图工具Poify,集成多种功能如文生图、AI模特试衣、背景替换等,目前免费使用 [6] - Poify针对电商场景优化,可降低商品拍摄成本,提高制图效率,增强视觉吸引力,并适配各大电商平台规则 [6] - 相比同类工具,Poify专注电商图像创作,提供简单易用的界面和针对性功能,适合商家快速制作商品展示和营销素材 [6] 字节开源8B代码模型Seed-Coder, 自己筛数据训练自己 - 字节团队开源8B参数代码模型Seed-Coder,采用"LLM教LLM"方式筛选训练数据,构建了支持89种编程语言的6万亿token高质量代码库 [7] - 模型采用Llama 3架构,通过仓库级代码拼接支持32K长度,使用填空训练法和长思维链强化学习提升代码生成能力 [7] - Seed-Coder在HumanEval+等测试中超越70B级模型,在Codeforces达到接近人类铜奖水平,但在通用能力和数学能力方面仍有提升空间 [7] 逆向工程八出各大 AI 的隐藏人设,可能比你想象得还离谱 - 通过逆向工程获取的主流AI系统提示词揭示不同产品定位:GPT-4o注重专业理性,Grok-3强调全能助手,Gemini重视活力友好,DeepSeek追求简洁务实 [8] - 系统提示词作为AI的"行为说明书",决定了模型的边界、禁区和行为逻辑,其泄露可能导致用户更容易绕过限制或理解模型工作方式 [8] - 系统提示词对AI产品体验影响重大,未来可能发展出让用户自定义提示词的功能,但需要在自由度和安全性之间找到平衡 [8] 18岁高中生独著发顶刊 ,利用AI竟发现上百万个隐藏天体 - 18岁高中生Matteo Paz利用AI处理NASA的2000亿条NEOWISE数据,发现150万个未知天体,独著发表天文学顶刊论文,获得Regeneron科学竞赛25万美元奖金 [10] - 他创新开发VARnet模型,能快速识别天体时间序列数据中的变异性,处理速度达53微秒/天体,在变星识别任务中取得0.91的F1分数 [10] - 研究成果形成首个完整红外变异性巡天项目VarWISE,有望助力探索宇宙起源之谜,Paz已获斯坦福大学录取 [10] Agent 产品如何定价?一文说清 AI 产品的四种付费模式 - AI产品正从按量计费向更高级的付费模式演进:按工作流收费、按结果收费、按智能体收费,最终目标是将定价与客户价值对齐 [11] - AI应用最适合切入那些依赖BPO(业务流程外包)和低薪工作的领域,而非高薪工作,因为后者竞争激烈且用户更倾向于将AI作为辅助工具 [11] - Paid公司为解决AI产品定价难题应运而生,提供完整的账单、发票、变现、定价等后台运营系统,帮助AI公司避免陷入低水平的按量计费竞争 [11] a16z:Git 将被取代,AI 时代的 9 种全新软件开发模式 - a16z预测未来软件开发将围绕AI Agent重塑,核心变化包括意图驱动的版本控制取代Git、AI驱动的动态仪表盘、交互式文档系统等9大趋势 [12] - 开发方式从"自底向上"转向"自顶向上",开发者通过描述意图让AI Agent寻找合适构建块,并趋向异步协作模式,AI Agent在后台独立执行任务 [12] - MCP(模型上下文协议)有望成为AI Agent能力的通用标准,让各类工具和服务能被AI Agent直接调用,同时AI Agent仍需依赖认证、计费等基础设施服务 [12]
通用人工智能何时到来?
腾讯研究院· 2025-05-12 16:11
闫德利 腾讯研究院资深专家 一、AI已在诸多任务领域超越人类 AI发展日新月异,在许多任务上已经陆续超越人类基线水平。如2015年图像分类,2018年中等水平阅读 理解,2020年视觉推理、英语语言理解,2023年多任务语言理解、竞赛级数学,2024年博士级科学问 题。下图所示的8项关键任务技能中,AI仅在多模态理解和推理能力上还略逊人类一筹,但从2023年开 始就加速提升。我们有望很快见证AI 能力在现有主流基准上"全部超越人类水平"的奇点时刻。 图 选定的 AI 指数技术性能基准与人类表现对比 二、AGI的终极目标或于年内实现 我们已经构建了无数在特定任务上超越人类水平的AI系统,但它们缺乏通用性,无法应对超出预定任务 之外的问题,尚处于"狭义人工智能 (Narrow AI) "阶段。随着AI性能的大幅提升,具备跨领域能力、在 多个方面媲美甚至超越人类的、更强大的AI被提上日程。 人们常将之命名为"通用人工智能(AGI)" 。 各国高度重视AGI。2023年4月28日中共中央政治局会议提出:"要重视通用人工智能发展";英国《国家 人工智能战略》 (2021 ) 对AGI进行了专门强调,指出"必须认真对待A ...
腾讯研究院AI速递 20250512
腾讯研究院· 2025-05-11 22:17
OpenAI强化微调功能上线 - OpenAI发布RFT(强化微调)功能,通过思维链推理和专属评分机制,可用极少样本快速提升模型在特定领域的专业表现 [1] - RFT主要应用于指令转代码、文本精华提取、复杂规则应用三大场景,已有ChipStack等多家公司取得显著成效 [1] - 实施RFT前必须创建评估体系,明确任务定义和强化评分方案,避免模棱两可的任务目标 [1] Gemini 2.5视频理解突破 - Gemini 2.5 Pro通过低媒体分辨率技术可处理长达6小时视频,在多个学术基准测试中创下新纪录 [2] - 实现视频内容与代码无缝结合,能将视频直接转化为交互式网页应用、p5.js动画等创新应用形式 [2] - 具备精准的视频片段检索和时序推理能力,可实现复杂场景计数、时间戳定位等高级分析功能 [2] ChatGPT深度研究功能升级 - ChatGPT深度研究功能现可直接连接GitHub,团队用户可实时访问和分析代码库内容,包括代码、README和文档 [3] - 系统会根据用户提问自动生成搜索关键词查找相关内容,支持代码库搜索但需5分钟同步时间 [3] - OpenAI承诺企业级产品用户数据不会用于模型训练,但个人版用户若开启"为所有人改进模型"选项,内容可能用于训练 [3] Meta发布AssetGen 2.0 3D模型 - Meta发布新一代3D内容生成AI系统AssetGen 2.0,采用单阶段3D扩散模型,能直接从文本和图像生成高精度3D模型和贴图 [4] - 相比前代产品,新系统在几何一致性和纹理细节上有显著提升,已在Meta内部用于创建3D世界 [5] - Meta正在研发"完整3D场景生成"功能,目标通过简单文本指令一键生成完整的3D虚拟世界 [5] Multiverse:AI生成多人在线游戏 - 以色列Enigma Labs团队开发出全球首个AI生成的多人游戏Multiverse,实现了实时多人交互的赛车游戏,总开发成本不到1500美元 [6] - 技术突破在于创新的多人世界模型架构,通过沿通道轴堆叠双方玩家视图,实现共享世界状态的一致性渲染 [6] - 团队公开所有代码及数据,并通过修改《GT赛车4》游戏实现数据采集,利用B-Spec模式自动生成训练数据集 [6] Genspark推出AI Sheets工具 - Genspark AI Sheets推出全新AI表格工具,用户通过自然语言对话即可完成数据收集、整理、分析和可视化 [7] - 工具支持多格式文档导入、自动数据清洗、智能分析与可视化,官方称处理速度比传统手动操作快数十倍 [7] - 该工具目前处于Beta测试阶段免费开放,适用于销售、市场、产品等多个领域 [7] 陶哲轩数学工具升级 - 陶哲轩迅速升级其数学估计验证工具至2.0版本,将其改造为更灵活的证明助手,支持Python符号代数包sympy [8] - 新版本能处理命题逻辑、渐近估计等多种数学任务,陶哲轩在开发过程中大量依赖Github Copilot辅助编程 [8] - 陶哲轩发布数学形式化证明实验视频,展示如何在33分钟内借助Copilot和Lean证明助手完成一页纸数学证明的形式化 [8] 红杉AI峰会商业模式转型 - 红杉AI峰会提出AI商业模式转型:从卖工具转向卖成果,客户为可度量的业务结果付费,被视为"万亿美元机会" [9] - AI正从应用工具进化为操作系统级入口,谁能成为"用户意图的第一承接者",谁就能控制系统分配权 [9] - 未来AI竞争关键在于组织架构重构,从确定性执行转向目标试探模式,建立人机混合的协作体系 [9] YC合伙人谈AI应用设计 - YC合伙人指出当前AI应用不足在于产品设计思维仍停留在传统模式,未能充分发挥AI潜力 [10] - AI原生应用应该让用户能自定义系统提示词,让AI按照用户个人风格工作,而不是开发者预设的统一模式 [10] - 未来AI应用应转向"Agent构建器"而非单纯的Agent,为用户提供工具和界面来训练和定制自己的AI助手 [10] 英伟达"物理图灵测试"概念 - 英伟达机器人主管Jim Fan提出"物理图灵测试"概念:机器人能否在物理世界完成任务且让人无法分辨是人还是机器完成的 [11] - 解决机器人训练数据不足的关键在于模拟:通过高速并行模拟和域随机化生成训练数据 [11] - 未来发展方向是物理API,让机器人能像LLM处理数字信息一样处理物理世界,将催生新的技能经济和服务模式 [11]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-05-09 21:53
| 类别 | Top关键词 | 主体 | | --- | --- | --- | | 算力 | OpenAI for Countries | OpenAI | | 算力 | 网络提速技术 | DeepSeek、 | | | | 腾讯 | | 模型 | Gemini 2.5 Pro(I/O版) | 谷歌 | | 模型 | Medium 3 | Mistral AI | | 模型 | Nemotron开源模型 | 英伟达 | | 模型 | V2数学推理模型 | DeepSeek | | 应用 | Claude整合功能 | Anthropic | | 应用 | NotebookLM中文支持 | Google | | 应用 | 独立AI应用 | Meta | | 应用 | 合作氛围编程 | 苹果、 | | | | Anthropic | | 应用 | Omni-Reference | Midjourney | | 应用 | 参考图功能 | Runway | | 应用 | PDF渲染器 | Grok | | 应用 | V4.5正式上线 | Suno | | 应用 | Parakeet 语音识别 | 英伟达 | | 应用 ...
虞晶怡教授:大模型的潜力在空间智能,但我们对此还远没有共识|Al&Society百人百问
腾讯研究院· 2025-05-09 16:20
大模型技术发展 - 当前技术发展尚未遇到极限 跨模态整合仍有巨大潜力未被挖掘 如DALL-E 3结合语言模型与扩散模型已实现惊人图像生成效果 [10] - GPT-4o采用语言模型的Next-Token-Prediction方式 展示出图像编辑和用户需求理解的突破性能力 [10] - Scaling law在多模态背景下讨论为时尚早 当前重点在于深度挖掘语言模型能力并探索与其他模态结合的上限 [11] 空间智能演进 - 发展历程从数字孪生/仿真平台起步 逐步扩展至VR/元宇宙 光场技术提升沉浸体验质量 [12] - 神经网络技术如NeRF推动空间智能从数字复刻转向智能理解 生成式AI进一步实现空间创造能力 [12] - 文生3D技术突破传统建模限制 通过单张图片实时生成三维结构 CLAY项目获SIGGRAPH最佳论文提名 [14] 关键技术瓶颈 - 3D场景数据严重不足 真实世界复杂物体交互数据尤其匮乏 如家庭环境物品分布变化案例 [18] - 三维表达方式未统一 NeRF/SDF/Mesh参数化等方案各有优劣 影响数据利用效率 [26] - 物理规则建模是核心难点 需解决物体间动态关系模拟 如堆叠物体操作中的连锁反应 [20] 行业应用前景 - 短期聚焦影视/游戏内容生成 大幅降低元宇宙构建成本 中长期成为具身智能基础模型 [42] - 低空经济是潜力场景 无人机配送需厘米级空间精度 相关研究年底将展示demo [45] - 养老机器人需突破翻身/洗澡等刚需功能 15年内有望成熟 需解决负重与安全平衡 [49] 研究方法论创新 - 引入"行动者网络理论" 认为三维物体具有潜在行动力 其变化会显著影响环境 [16] - 整体性方法强调感知-认知-行为协同 如NLOS成像技术可推断物体背面几何形态 [36][37] - 合成数据与真实数据互补 通过跨模态学习缓解3D数据不足 如文本描述辅助推断物体关系 [19] 教育范式变革 - 编程课程将提前至高中阶段 学生接受度与能力提升显著 AI课程将成为通识教育 [52] - 教学模式转向短课程快迭代 美国quarter system显示课时压缩有助于内容更新 [8][53] - 教师需对接工业界痛点 传统教材被教参取代 持续学习能力成为核心要求 [53]