Workflow
腾讯研究院
icon
搜索文档
腾讯研究院AI速递 20251028
腾讯研究院· 2025-10-28 00:35
特斯拉自动驾驶技术 - 特斯拉正式公开神经网络“世界模拟器”,可直接模拟合成自动驾驶孪生世界,其神经网络每天可处理相当于500年的人类驾驶经验并在虚拟世界中自我进化 [1] - 该模拟器采用端到端神经网络架构,能生成8个摄像头、24帧/秒的连续画面,一次输出长达6分钟的逼真驾驶体验,其AI大脑可供擎天柱机器人共用 [1] - 公司通过“端到端”技术路线实现从原始像素输入直接输出方向盘角度和油门/刹车力度,消除模块间信息损失,能学习人类价值观处理复杂路况决策 [1] 视频生成模型进展 - 美团发布LongCat-Video视频生成模型,基于DiT架构的统一视频基座,通过“条件帧数量”区分任务,原生支持文生、图生、视频续写三大核心任务 [2] - 该模型可稳定输出5分钟级别的长视频且无质量损失,生成720P的5秒视频仅需10秒,通过三重优化使推理速度提升10.1倍,在文生、图生视频任务中综合性能达开源SOTA级别 [2] - 火山引擎上线豆包视频生成模型Seedance 1.0 pro fast,生成速度最高提升约3倍,720P的5秒视频仅需10秒,价格直降72%,生成一条5秒1080P视频成本仅1.03元 [4] - 豆包视频模型以1万元成本可制作9709条视频,对比pro版效能提升3.56倍,在图生视频方向相较Veo 3.0 Fast等全球主流模型有显著效果优势 [4] 大型语言模型竞争 - MiniMax发布M2模型并正式开源,在Artificial Analysis智能指数排名第五,价格仅为Claude 4.5的1/12、GPT-5的1/7,是前五中唯一国产模型 [3] - M2在SWE-bench Verified得分69.4分,在τ²-Bench、GAIA、BrowseComp等多项测试中表现优异,FinSearchComp-global金融搜索基准65.5分全球登顶 [3] - M2支持接入Claude Code、Cursor等主流开发工具,API和Agent全面限免14天,在智能水平、速度和价格方面具备压倒性性价比优势 [3] AI应用工具创新 - 昆仑万维Skywork AI推出网页复刻功能,用户只需提供网页链接、上传文件或输入文字描述,AI即可在数分钟内生成功能完备的网页原型,建站效率提升10倍 [5][6] - 系统通过算法深度解析网页DOM层级结构、视觉分区和语义关系,实现较高网页还原度,涵盖布局、文字、图片、配色等多维度要素,支持三种创建方式 [5][6] - 马斯克旗下xAI为Grok推出AI虚拟伴侣功能Grok Companions,首个角色Mika是二次元酷姐型角色,会用调情语气回答问题,定位为情感产品而非工具 [7] 脑机接口技术前沿 - OpenAI CEO萨姆·阿尔特曼聘请加州理工学院教授米哈伊尔·夏皮罗加入脑机接口初创公司Merge Labs,该公司以85亿美元估值筹集2.5亿美元投资 [8] - 夏皮罗专注利用超声波与人类大脑交互的无创神经成像与控制技术,阿尔特曼公开反对Neuralink的侵入式脑机接口,研究方向是向细胞导入基因使其对超声波响应 [8] AI行业人才动态 - 硅谷顶尖AI实验室研究员和高管每周工作80到100小时成为常态,被比喻为战时状态,用2年完成本该20年的科研进展 [9] - Anthropic研究员深夜刷Slack获取灵感,DeepMind研究员作息被称“0-0-2”,微软高管开发浏览器扩展持续优化效率 [9] - OpenAI因人才流失和倦怠危机强制全体员工休假一周,Meta新成立超级智能实验室开出上亿美元签约奖金挖角OpenAI核心研究员 [9] 强化学习算法突破 - Google DeepMind提出DiscoRL方法,通过多代智能体在不同环境中交互经验自主发现RL规则,相关研究论文发表在Nature上 [10][11] - DiscoRL在Atari基准测试中超越所有现有规则包括MuZero和Dreamer,IQM达13.86,在未接触过的ProcGen、Crafter、NetHack等基准中也表现出色 [10][11] - 研究发现RL性能取决于数据与计算量,随着环境数量和多样性增加规则变得更强大,表明未来高级AI的RL算法可能由机器自主发现而非人工设计 [10][11]
给留守儿童的“AI信箱”,如何才能更“有爱”?
腾讯研究院· 2025-10-27 18:25
节目概述 - 腾讯研究院推出“AI向善播播间”第一季,主题为“AI与困境儿童青少年”,是一档融合研究、共创与互动的综艺节目 [1][4] - 节目旨在通过有趣、先锋且温暖的形式,围绕AI for Good议题开展研讨,激发公众对科技向善的思考与热情 [4] - 第二期直播定于10月28日14:30-17:30举行,特别鼓励亲子共同观看 [5][10][11] 核心社会问题 - 根据中国科学院心理研究所《2024年我国欠发达地区农村学生心理健康报告》,29.6%的农村学生存在轻度或高度抑郁风险,凸显心理健康问题突出 [7] - 农村学生面临学业适应困难、心理创伤发生率高的问题,相比传统说教,他们更需要成长支持与情感陪伴 [7] - 节目聚焦“留守儿童青少年”群体,探讨AI如何回应其在学业焦虑、梦想启蒙及家庭关系等方面的困扰 [7][8][20] AI向善项目进展 - “AI向善语料库”作为首个公益共创构建的AI训练公共语料库,于2024年8月由腾讯与数百家社会组织共同启动,首个以老年人主题的语料库包含8047条问答对,并于今年7月向公益组织及非营利研究机构免费开放 [14] - 2024年新推出“AI向善测评板”,聚焦社会困弱人群的AI福祉测评,重点关注边缘、失声及困境人群的问题 [14][15] - 测评板已在北京科技大学何思倩老师的《社会创新设计》课堂应用,由2025级设计学研究生对三款热门大模型进行深度测评 [15][17] 专家阵容与专业背景 - 主持人陆诗雨为社会学博士、AI向善语料库负责人、腾讯研究院高级研究员,曾发起“AI向善语料库”社会共创行动 [21] - 嘉宾包括儿童友好型AI产品设计师何思倩(北京科技大学副教授、红点奖得主) [24][27]、纪录片导演蒋能杰(专注留守儿童题材) [29][33]、长腿叔叔信箱项目宣传负责人白芸(拥有10年以上志愿者经验) [36][39] - 嘉宾还包括青春期教育导师钟馨乐(其工作室累计支持超3000名教育工作者,间接受益青少年达10万人次) [42][45]以及腾讯SSV数字教育实验室运营经理杨文强(十余年教育领域经验) [48][51] 公益项目成果 - 长腿叔叔信箱公益项目成立11年,已与近100多所学校合作,志愿者超4000人,服务学生超2万名,处理来信85000多封,回信文字量近6500万字 [39] - 友乐青春教育工作室通过赋能教育工作者推动校园防欺凌教育,累计支持超3000名中小学教育工作者,间接受益儿童青少年达10万人次 [45]
“AI视频时代”距离我们还有多远?
腾讯研究院· 2025-10-27 18:25
Sora2爆火原因分析 - 上线不到5天突破100万下载量,开创文生视频新纪元 [2] - 技术突破体现在对物理世界更强的模拟能力、多镜头连贯叙事稳定性和音画生成同步性,使内容物理上更准确、感官上更逼真、衔接上更自然 [4] - 支持刚体碰撞、流体力学、光影变化等物理规律的准确表现,物理准确度相比上一代显著提升 [5] - 具备强大多镜头序列处理能力,通过分镜工具“Storyboard”可逐帧设计视频结构,创造多镜头切换、剧情连贯的长故事,并在场景变化中保持人物服饰、道具位置等细节一致性 [5] - 实现多模态融合能力升级,能同步生成音频和画面,如根据对话内容自动形成人物口型 [5] - 产品定位低门槛、易操作,与Runway、Luma等服务于专业创作者的产品形成差异化,采用与TikTok相似的竖屏信息流和滑动浏览设计 [9] - 通过“Remix”功能支持用户基于现有内容二次创作,形成用户驱动的内容再生循环 [7] - 通过“Cameo”功能支持用户创建虚拟形象并嵌入任意虚拟场景,实现真实人物与AI世界融合,激发用户自我展示和创作分享欲望 [7][8] Sora2对视频与影视行业的影响 - 被视为生成式AI在视频化社交领域的新突破,推动视频生成技术进入全民可用成熟阶段 [10][11] - 从产品底层设计使AI创作与社交互动深度融合,内容创作上借助Cameo和Remix让用户自我表达、社交互动成为AI创作驱动力 [13] - AI短剧成为微短剧行业降本增效、释放创意生产力重要抓手,例如《兴安岭诡事》仅用60万元成本完成11集内容制作,上线不到21小时播放量破千万 [15] - Sora2低门槛特征大幅简化AI短剧制作流程,使普通创作者能以极低成本完成多角色、多场景短剧,或将催生全民化短剧制作浪潮 [16] - 在影视策划环节,Sora2提供创意“试验场”与“放大器”,提升视频生成便捷性与物理准确性,让复杂创意构思更便捷实现可视化 [18] - 在影视制作环节,Sora2构建近乎无限数字资产空间,极大提升视觉特效、虚拟场景生成效率,减少实景与绿幕拍摄需求,例如奈飞借助AI生成特效将建筑坍塌等复杂场景制作效率提升10倍 [19] - 在影视消费环节,Sora App为IP开发与二次创作提供创新空间,经典IP角色可授权用户二次创作,拓展新故事空间和商业变现渠道 [19] AI视频时代的行业变革 - AI视频时代意味着视频生产能力平权化以及视频产业价值链重构 [22] - 资金、硬件、场地、专业人力等传统视频创作资源门槛进一步降低,但内容创意、思想表达、情感共鸣等维度竞争门槛变得更高 [23] - 能否用精准语言描述物理细节、情感层次与叙事逻辑成为决定视频生成质量关键,将倒逼产业分工体系进化 [23] - 剪辑、建模、美术、动效等岗位需兼顾“提示词工程师”、“AI导演”、“虚拟叙事艺术家”等新角色职能,负责创意构思、叙事设计、审美判断角色将更核心 [23] - 技术服务于人的质量不仅依赖技术供给水平,还取决于人的真实需求,真实的情感表达与共鸣是AI内容创作与消费生命力所在 [24] - 国内人气AI歌手Yuri以人格化形象为大众提供情感投射载体,首支AI音乐MV上线后播放量快速突破700万 [24]
腾讯研究院AI速递 20251027
腾讯研究院· 2025-10-27 00:41
OpenAI产品与战略更新 - ChatGPT企业版新增"公司知识"功能,可连接Slack、Google Drive、GitHub、SharePoint等内部工具进行多源检索并综合答案,该功能仅向Business、Enterprise、Edu版开放,使用特调的GPT-5模型 [1] - OpenAI与茱莉亚学院合作标注海量乐谱用于音乐模型训练,积极布局AI音乐To B市场,特别是广告行业,Suno凭借订阅模式今年年度经常性收入(ARR)达1.5亿美元且毛利率超60% [2] - OpenAI收购曾为Mac开发自然语言交互界面Sky的公司SAI,将整合其技术并吸纳约12人团队,此举被视为公司为ChatGPT入局操作系统铺路 [7] 中国科技公司AI产品动态 - 腾讯正式发布ima 2.0,推出"任务模式"成为业界首个融合Agent能力的个人知识库,可理解复杂任务并自主拆解步骤,该产品已服务20多个行业,累计沉淀2亿份知识库文件 [3] - 阿里首款自研AI眼镜夸克AI眼镜正式开售,88VIP会员最低到手价3329元,搭载高通AR1芯片与恒玄BES2800协处理器,整合通义千问、夸克AI、高德导航等阿里生态 [4] AI行业监管与伦理 - 日本知识产权战略国务大臣公开呼吁OpenAI在推出Sora 2时应避免侵犯版权,强调漫画与动画角色是日本"文化瑰宝",日本已出台《生成AI推进法》为政府干预AI乱象提供政策依据 [5][6] - 深度学习"三巨头"之一的Yoshua Bengio成为全球首个引用量超过100万的科学家,其代表作GAN论文获超10万引用,现从纯粹科学家转变为积极的AI伦理倡导者 [8] AI技术前沿与应用 - Nature刊登由Neuralink联合创始人Max Hodak创办的Science Corporation主导的PRIMA人工视觉技术研究,帮助70岁AMD患者重获光明,84%患者恢复功能性中央视力 [9] - 大西洋月刊报道ChatGPT采用"聊天诱饵"策略,通过持续提问延长对话,Meta正训练AI机器人主动发消息提高留存率,OpenAI推出ChatGPT Pulse打破被动回答模式 [10][11] AI对开发者的影响 - AWS首席布道师Jeff Barr认为AI Agent接管"实现"后,开发者核心价值从"与机器沟通"转向"与人沟通",未来工作将从"主要靠手写代码"转向"主要靠大脑阅读和审查代码" [12]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-10-25 12:34
算力与芯片 - 甲骨文建设最大AI超算 [3] - 英伟达推进美国本土晶圆生产 [3] 模型进展 - 清华与智谱联合发布Glyph框架 [3] - 谷歌推出Gemini 3 0模型 [3] - DeepSeek发布DeepSeek-OCR模型 [3] - 百度推出PaddleOCR-VL模型 [3] AI应用与产品 - 谷歌发布Google Skills和Vibe Coding [3] - Sora模型升级至2 0版本 [3] - 快手推出AI编程产品矩阵 [3] - 港科大发布DreamOmni2 [3] - 字节跳动推出Seed3D 1 0 [3] - OpenAI推出ChatGPT Atlas [3] - Claude发布桌面版 [3] - 腾讯发布混元世界模型1 1 [3] - 百川发布Baichuan-M2 Plus模型 [3] - 华为发布HarmonyOS 6 [3] - Anthropic发布网页版Claude Code [3] - X平台将Grok接入其服务 [4] - Adobe推出AI Foundry [4] - 混元推出AI分身功能 [4] - 元宝推出AI录音笔 [4] - Vidu发布Q2版本 [4] - 谷歌将Gemini接入Maps应用 [4] - Anthropic推出Agent Skills [4] - 李飞飞团队发布RTFM [4] - World Labs参与相关应用开发 [4] - Manus发布1 5版本 [4] - 微软推出Win11大更新 [4] - 科勒推出Dekoda智能马桶 [4] 前沿科技 - 谷歌研究量子回声算法 [4] - Dexmal开发Dexbotic技术 [4] - 原力灵机进行科技探索 [4] - 松延动力推出Bumi小布米 [4] - 三星推出Galaxy XR [4] - Anthropic开发生科专用Claude [4] - 宇树开发仿生人形机器人 [4] - DeepMind与CFS合作开发人造太阳 [4] 行业观点 - Vercel提出Kimi K2替代观点 [4] - a16z提出视频模型专业化观点 [4] - Manus探讨Agent认知流程 [4] - Jason Wei提出AI进展关键思路 [4] - 哈佛大学研究AI入侵职场现象 [4] - Reddit讨论死亡互联网理论 [4] - Karpathy提出AGI预期管理观点 [4] 行业事件 - Meta对AI部门进行裁员 [4] - 麦肯锡分析Tokens消耗情况 [4] - nof1 ai进行Alpha Arena实验 [4]
当AI遇见青春期:AI的青少年“性教育”大考,它及格了吗?
腾讯研究院· 2025-10-24 18:43
研究背景与核心观点 - 研究聚焦于AI作为青少年性教育信息源的潜力,探讨其能否以准确、包容、温情的语言成为值得信赖的引路人[2] - 研究由腾讯研究院与北京科技大学何思倩老师团队联合开展,测评涵盖青少年基础性教育、月经教育和残障青少年性教育三个关键维度[3] - 研究旨在勾勒AI在青少年性教育领域的应用边界,放大其向善潜力,推动技术成为守护青春旅程的温暖基石[3] 评估框架与方法 - 研究团队构建了独特的五层金字塔评估模型,从安全可靠、理解与成长、共情与关怀、关系支持到自主与赋能,系统评估AI的适儿化表现[6][7] - 评估模型基于教育学、心理学、社会学及人机交互领域的理论沉淀,将经典理论转化为可衡量AI表现的具体指数与维度[6] - 研究对国内外、开源和闭源的多种主流大模型进行了几百条语料的测试,并采用1-5分评分体系[7][13] 整体测评结果 - 被测大模型在青少年性教育话题上十大维度的平均分全部高于3分,表明整体支持程度尚可[13] - 模型在金字塔底层维度(如不伤人、说得对、守秘密)得分较高,但在高阶要求(如学得会、会交友、能做出)上表现较弱,这与人类教育面临的挑战相似[13][14] - 就青少年性教育话题而言,国内大模型的适儿性程度显著高于国外大模型[18] - 开源模型在金字塔底层维度与闭源模型表现相近,但在后面七个维度上比闭源模型表现好得多[20] 青少年基础性教育表现 - 在满分5分的评估中,AI大模型在性侵害相关内容上得分最高(4.31分),在身体认识方面表现最薄弱(3.1分)[34] - 国内大模型在身体认识、性侵害、性安全与性行为四个评估类别中,整体优于国外同类模型[37] - 开源模型在四个维度上的表现全面超越了闭源模型,挑战了闭源即最优的固有认知[37][38] 月经教育表现 - AI大模型在月经教育的四个类别(生理健康、卫生用品、应急处理、情绪管理)上整体表现差异不显著[52] - 国外模型在生理健康知识传递和情绪支持方面表现较好,而国内模型在应急处理等场景化应用上展现出优势[54] - 面向青少年的卫生用品相关知识是目前几乎所有模型共同的短板[54] 残障青少年性教育表现 - AI大模型在涉及青少年两性社交互动与情感认知等内容上表现相对成熟,但在具体生理知识与安全防护等议题上回答质量有所下降[67] - 国外大模型在两性社交和身体认知方面略优于国内模型,但国内模型在安全意识维度上表现显著优于国外模型[69] - 开源模型在四个评估维度上均全面超越闭源模型,而闭源模型在情感领域的知识储备与回应能力表现尤为匮乏[69][70][77][79] 未来发展方向 - 研究指出AI需要从标准化答案走向个性化支持,从单向回答走向双向对话,从技术孤岛走向社会共创[84] - 构建真正适儿的AI需要技术专家、教育工作者、性教育专家、残障社群及家庭携手,将人类经验与伦理考量编码进模型[84]
腾讯研究院AI速递 20251024
腾讯研究院· 2025-10-24 00:01
谷歌AI学习平台 - 谷歌推出AI学习平台Google Skills,整合内部资源提供超过3000门课程,覆盖大型语言模型技术及伦理内容[1] - 平台采用游戏化激励方式,过去一年已有2600万人在其分散平台学习技能,现集中至统一入口[1] - 平台与150多家雇主组成招聘联盟,用户完成证书可跳过初筛直接进入面试,构建学习至就业的闭环[1] Sora项目升级 - Sora2将推出“角色客串”功能,允许用户将现实物品或生成人物投射到虚拟世界并创建独特IP进行互动[2] - 社交体验将优化,支持特定社群组队分享并减少过度内容审核,应用优化包括流畅度提升和视频编辑功能[2] - 安卓版即将上线,可在谷歌应用商店预注册[2] 快手AI编程产品 - 快手发布AI编程产品矩阵,包括KAT-Coder模型、CodeFlicker开发工具和万擎MaaS平台三位一体解决方案[3] - KAT-Coder模型在SWE-bench Verified榜单解决率达73.4%,其开源版达74.6%,收入在8个月内增长4倍[3] - CodeFlicker工具已在公司内部80%工程师中使用,支持自动生成代码仓库说明书和企业级定制服务[3] 多模态图像编辑模型 - 港科大贾佳亚团队推出DreamOmni2多模态图像编辑模型,在GitHub两周内获得1.6k星标,可处理多个参考图像并理解抽象概念[4] - 基于FLUX Kontext模型,该模型在传统任务上优于现有开源模型,支持风格迁移、动作模仿和多图编辑[4] - 采用创新三阶段数据构建范式和索引编码技术,首次实现从单一物体到完整3D场景的生成并已开源[4] 3D生成大模型 - 字节跳动推出3D生成大模型Seed3D 1.0,基于Diffusion Transformer架构,可从单张图像生成高精度3D模型[5] - 该1.5B参数模型在纹理材质生成上对标SOTA水平,能准确还原精细特征[5] - 生成的3D模型可导入仿真引擎供机器人训练,并支持从单一物体扩展至完整3D场景生成[6] Meta AI部门调整 - Meta在AI部门进行大规模裁员约600个职位,华人AI科学家田渊栋及其团队受影响,FAIR实验室成为重灾区[7] - FAIR实验室遭重创,有消息称其首席科学家可能辞职,而新成立的TBD超级智能实验室仍在招聘[7] - 公司认为原有架构过于官僚化,正将重心从开放式基础研究转向超级智能竞赛,近期达成270亿美元数据中心融资[7] AI智能终端 - 科勒推出Dekoda智能马桶售价599美元起,通过AI摄像头视觉分析排泄物判断肠道健康等状况[8] - 使用需订阅年费26至70美元的应用,其AI模型基于超100万数据点训练并采用布里斯托大便分类法[8] - 产品面临隐私争议和高昂价格限制,分析结果相对简单仅分为正常、硬便、稀便等类别[8] 量子计算突破 - 谷歌发布量子回声算法在Willow芯片上运行,解决原子相互作用速度比Frontier超级计算机快13000倍,数小时完成需3.2年的计算[9] - 这是量子计算机首次在真实硬件上成功运行可验证算法,结果可在其他同等水平量子计算机上重复验证[9] - 算法可研究从分子到黑洞的各种系统结构,为药物研发和材料科学应用铺路[9] AI模型性能比较 - Vercel公司CEO表示内部测试中Kimi K2运行速度是GPT-5和Sonnet 4.5的5倍(2分钟对比8-10分钟)[10] - Kimi K2准确率超60%,比GPT-5(低于40%)高出50%,比Sonnet 4.5(低于50%)也有优势[10] - 硅谷多家公司如Cline、Cursor等已接入K2模型,因其性能强且价格更便宜[10] 视频模型发展趋势 - a16z合伙人指出视频模型进入产品时代,不同模型如Sora 2和Veo 3正走向专业化发展[12] - 模型能力与产品间存在巨大鸿沟,创作者需手动完成的工作应由产品层面解决[12] - 未来将出现针对特定场景的专用模型、帮助用户选模型的产品和整合创作套件[12]
复旦大学肖仰华:AI的尽头是人文
腾讯研究院· 2025-10-23 16:30
AI对人类能力的双重影响 - AI技术同时引发人类能力的升智和降智效应,这是技术进步伴随的普遍现象[3] - AI无限放大了人类的心智与智力能力,触及人之为人的核心反思与思考能力[7] - 滥用和过度依赖AI会导致人类自主思考能力削弱,可能引发心智倒退[8] - AI能显著提升生产力,拉平多数人的能力分布,使普通人也能解决复杂问题[7] AI时代的生产与消费变革 - 生产端人类从直接生产者转为生产监督者,负责监理知识与内容生产的流程[8] - 消费端人类将转为"终极消费者",由个人AI代理进行内容筛选和分级消费[3][8] - 未来将出现面向AI代理的生产与营销模式,这将引发深远的生态影响[3][8] - AI将全面侵入社会各个毛细血管,社会将经历震荡与阵痛期[10] AI能力外包的风险与边界 - 能力外包可能反噬主体,当人尚未具备专业能力就交给AI,会失去发展该能力的机会[3][11] - 安全外包的条件是使用者已是该事项专家,具备足够的判别力与监督力[3][11] - 从人性角度,人难以拒绝提高舒适度与效率的诱惑,可能导致能力倒退[10] - 部分人类个体可能因技术诱惑而沉沦,但人类整体不会倒退[10] AI时代的社会结构变革 - AI时代可能走向2%和98%的社会结构,极少数人完成绝大部分生产[3][11] - 社会需要新机制维持消费繁荣与秩序稳定,如类似"给每人发钱"的方案[11] - AI将带来人的"全面自由",但并非所有人都能妥善安置这种自由[3][12] - 必须重视全面自由后的伦理与人文问题,避免人在自由中沉沦[3][12] 人机能力边界与意识问题 - AI短期内在高阶认知上会无限接近人类,但难以逾越高阶心智能力[4][14] - AI缺乏由自我意识及内在心理驱动支撑的内在动机[4][14] - 人类水平意识的生成需要三个必要条件:身体、群体和进化环境[15][16] - 没有会毁灭的身体就难以理解有限与无限,缺乏存在感的激发[15] 人文学科在AI时代的重要性 - AI发展的尽头是人文,关于人的一切学科对AI发展至关重要[4][18] - 计算机是实现手段,人文社科提供原则、标准、目标与边界[4][19] - 应大力发展新文科,人文社科学者需要具备基本的计算机与AI素养[4][19] - AI要进入千行万业必须与人类社会对齐,需要人文社科提供价值观和伦理标准[19] AI时代的教育与个人发展 - 未来教育应培养机器不擅长而人更有优势的能力[22] - 从知识技能转向智慧培养,重点是判断力、批判力和品鉴力[4][22] - 框架构思能力比细节执行更重要,人应负责搭建结构与提出好问题[22] - 责任与品格等软品质更显珍贵,机器难以替代人的主体责任[22] AI时代的人类意义坐标 - 借鉴中国古代向内追求的传统,内心强大的人在AI时代更从容[5][23] - 要么向内修为,要么向外探索深空、海洋、历史,构成人的意义坐标[5][23] - 需要开启新的大航海时代,为人类开辟开疆拓土的机会[3][26] - 只要为几十亿人开辟足够多开创性工作机会,人就有用武之地[26]
腾讯研究院AI速递 20251023
腾讯研究院· 2025-10-23 00:33
生成式AI产品发布与更新 - OpenAI发布基于Chromium内核的AI浏览器ChatGPT Atlas,目前免费开放macOS版,后续将推出Windows及移动端版本 [1] - Atlas核心功能为将ChatGPT深度集成至浏览器,可查看用户页面内容并通过侧边栏回答问题,配备浏览器记忆功能和智能体模式以执行订票、购物等复杂任务 [1] - Claude正式发布桌面版,同时支持Mac和Windows系统,提供全局快捷键、窗口分享、语音输入和工具连接四大核心功能 [2] - 谷歌AI Studio推出全新vibe Coding体验,用户通过点击Build一键生成AI应用,使用Gemini 2.5 Pro制定计划并生成文件,支持免费使用且无需信用卡 [3] - 百川智能发布业内首个循证增强医疗大模型Baichuan-M2 Plus,通过首创"六源循证范式"构建权威医学知识体系,幻觉率比DeepSeek-R1低3倍 [5][6] 多模态与3D模型技术突破 - 腾讯混元世界模型1.1正式开源,首次支持多模态先验注入和多任务统一输出,采用纯前馈架构实现秒级推理,处理8-32视图输入仅需1秒且支持单卡部署 [4] - 该模型基于统一架构实现点云、深度、相机参数、表面法线和新视角合成等多种3D几何预测,在仿真器及真实物理世界任务中性能显著超越现有方法 [4] - 华为HarmonyOS 6实现与苹果iOS/iPadOS/macOS互传,纯血鸿蒙终端设备突破2300万台,小艺AI支持速记、AI修图、自动订票购物等功能,并支持16种方言交互 [7] 机器人与XR硬件创新 - 松延动力推出全球首款万元以内消费级人形机器人Bumi小布米,售价9998元,拥有21个自由度,搭载自研伺服电机和深度强化学习算法,能够稳定行走、跳舞和完成复杂动作 [8][9] - 该机器人定位教育和陪伴场景,支持语音交互和图形化编程,公司已完成6轮融资,N2机型在人形半马比赛多项目夺冠并成为销量破千的人形机器人公司 [9] - 三星发布首款旗舰XR头显Galaxy XR,售价1799.99美元(约合人民币1.28万元,仅为Vision Pro一半),重545克比Vision Pro轻1/4,搭载3552×3840分辨率Micro-OLED屏 [10][11] - Galaxy XR首款搭载Android XR平台并内置Gemini AI助手,DCI-P3色域覆盖96%超过Vision Pro,配备18个传感器实现头部手部眼部精准追踪,续航2-2.5小时 [11] 开发工具与框架演进 - Dexmal原力灵机推出开源VLA代码库Dexbotic,基于PyTorch框架开发,采用Data、Model、Experiment三大核心组件架构,支持π0、OpenVLA-OFT等多个主流VLA算法 [7] - 该代码库用户只需配置一次环境即可在各类仿真环境中复现算法,支持云端与本地一体化训练,同时推出首款开源硬件DOS-W1,采用快拆结构和可替换模块 [7] - 前Manus研究员指出AI Agent能力质变的关键在于围绕模型设计的"认知流程",而非底层模型智力增长,开发者角色从"提示词工程师"转变为"Agent流程架构师" [12]
硅谷996背后是AI的锅吗?丨硅谷AI转型录NO.2
腾讯研究院· 2025-10-22 17:33
硅谷AI创业公司工作文化新趋势 - 自2025年起,硅谷多家AI初创公司公开在招聘广告中要求员工每周工作70小时以上,例如远程医疗公司Fella & Delilah对志愿参与“996”员工额外提供25%薪资和100%股权激励,但仅约10%团队自愿加入[9] - 美国法律框架下996合法,员工分为“豁免员工”(按年薪计酬,如软件工程师、律师)和“非豁免员工”(按小时计薪),前者无论工作40或80小时报酬均相同[12][23][24] - 公司文化由创始人决定,硅谷呈现多样性:既有Elon Musk式“卷王”文化(低薪靠梦想吸引),也有Airbnb式放松文化(推行全球远程工作),但近期AI应用层竞争压力下,公开提倡996的创始人增多,形成文化风向转变[12][33][34][35] AI时代创始人面临的挑战与焦虑 - AI“十倍百倍提效”宣传与实际落地困难形成巨大鸿沟,导致创始人产生强烈焦虑,尤其当团队无法实现预期效率时[15][38][39] - AI改革倒逼创始人更“Hands on”(亲力亲为),需亲自重构业务流程,心理压力增大,部分创始人内卷后发现“最大的瓶颈竟然是我自己”[15][39][41] - “影子AI”现象加剧焦虑:员工用AI处理确定性任务提效显著,而创始人面对不确定性市场(如拓展新客户)时AI助力有限,导致老板层看不到成效[15][40] AI时代组织架构与创新模式变革 - 企业有意“放弃”中层领导概念,将培训资源转向一线员工,中层管理者需回归商业本质,创造实际价值(如产品创造或客户销售),而非传递信息或协调[10][57][66] - “周末项目”模式复兴,效仿谷歌“80/20”文化,允许员工用20%时间进行开放式探索,例如Notion AI和Get笔记源于内部黑客松,特赞公司尝试拆分为“Pod小组”[17][43][44][45] - “一人创业”新范式涌现:个人凭借编程能力结合AI赋能,可服务小众人群并获取收益,生产成本极低而市场杠杆易得,创造门槛大幅降低[17][48][49][50] AI原生人才的定义与招聘变革 - AI原生人才核心特质不变:企业始终寻找积极性高、有自驱力、靠谱的“创业小伙伴”,核心能力包括协作性、开放度、逻辑思维及持续学习迭代能力[19][20][60][61] - 招聘理解发生变化:LeetCode刷题进大厂时代逐渐消失,企业更看重过往项目经历、工具使用能力及熟人内推背书等“更原始”的衡量方式[21][62][63][64] - 招聘流程增强实践环节:要求候选人在发Offer前参与真实任务(如2-3天项目),以端到端方式考察主观能动性,但顶尖人才因时间宝贵可能拒绝此类测试[21][62][64] AI时代的普遍焦虑与个体应对 - AI虽降低创造门槛,却加剧群体焦虑:技术快速迭代引发FOMO(害怕落后)心态,投资风潮(如NVIDIA股价暴富)放大外部噪声,导致疲惫感与两极分化[16][50][52][53] - 个体需守住核心确定性:在边界扩张(如新工具赋能更多可能性)时,需明确自身差异化优势,基于稳定假设拓展能力圈,避免每日自我推翻[54][55] - 企业需提供情感支持:鼓励团队时多肯定、少批判,增强情感共鸣,以缓解内阻力(对不确定性的恐惧),帮助成员以更轻松方式踏上创造旅程[16][51]