腾讯研究院AI速递 20251104

寒武纪基础软件平台进展 - 发布基础软件平台Cambricon NeuWare，全面兼容PyTorch最新版本和Triton算子开发语言，支持用户模型和自定义算子快速迁移 [1] - 平台在大模型与搜广推训练推理方面完成大规模技术验证，支持DeepSeek V3、Qwen系列等MoE类模型训练，实现发布即适配 [1] - 平台提供完整的驱动运行时库、编译器、算子库和集群工具，Kernel调度吞吐达每秒数十万任务，达到业界领先水平 [1] OpenAI政策调整 - OpenAI更新使用政策，ChatGPT不再协助提供需要持牌专业人士才能给出的专业建议，包括医疗、法律和财务等高风险领域 [2] - 政策收紧主要源于法律风险上升、全球合规压力增大以及ChatGPT使用日益商业化 [2] - 此次调整是AI角色从“顾问”回到“助手”的转变，为未来进入关键行业铺设制度护栏 [2] 美团全模态模型开源 - 美团开源全模态模型LongCat-Flash-Omni，总参数量5600亿，激活参数量270亿，在全模态基准测试中达到开源SOTA水平 [3] - 模型支持128K tokens上下文窗口及超8分钟音视频交互，预训练使用超2.5万亿词元多模态语料库 [3] - 美团LongCat官方App开启公测，支持联网搜索和语音通话，音频通话10分钟且响应快速，视频通话功能后续上线 [3] 百度文心AI漫画功能 - 百度文心APP推出“魔法漫画”功能，用户通过一句话或一张照片即可在两分钟内生成多图多页、剧情完整的AI连载漫画 [4] - 功能支持自定义角色形象、九种风格选择，每页漫画自动生成文字解说，可一次性生成6-7页 [4] - 支持“续写”和“改编”功能，用户可基于原剧情延伸或重写新版本，生成的漫画可下载图片或分享到微信朋友圈 [4] Cartesia语音模型与融资 - 美国语音生成创企Cartesia完成1亿美元融资，英伟达参投，同时推出全新语音模型Sonic-3 [5] - Sonic-3支持42种语言和500多种音色，模型延迟仅90毫秒，端到端响应时间在190毫秒以内，采用非Transformer的SSM架构 [6] - 该模型支持语音克隆、自定义发音和情绪控制，目前已服务数千家企业 [6] Turbo AI用户增长 - AI笔记应用Turbo AI由两位20岁大学辍学生创办，过去半年用户从100万飙升至500万，年经常性收入达八位数且持续盈利 [7] - 产品主打课堂场景，可将录音、课件、PDF、YouTube视频转化为笔记、闪卡和测验题 [7] - 团队仅15人，客户包括高盛、德勤、麦肯锡等知名企业，至今仅融资75万美元 [7] AI浏览器发展态势 - 主流AI浏览器分为渐进派和激进派，后者将AI作为浏览器核心并支持智能体模式 [8] - ChatGPT Atlas执行力最强能真正操作网页和自动化任务，Comet信息聚合全面但执行慢，Dia速度快但总结缺细节 [8] - 主要安全威胁是“间接提示注入攻击”，黑客可将恶意指令隐藏在网页中误导AI执行，目前尚无明确解决方案 [8] 智能眼镜合作与市场 - 依视路旗下BOLON眼镜与Rokid联合推出BZ5000 AI智能眼镜，整机仅重38g，集成1200万像素摄像头和6小时续航 [9] - 依视路在中国选择Rokid，看重其自研YodaOS系统打通高德导航、支付宝支付等本土化深度服务 [9] - Rokid乐奇眼镜在Kickstarter创下45天募集361万美元的全球智能眼镜品类历史纪录，已获5000多名支持者认可 [9] AI研究的公共利益导向 - AI教母李飞飞呼吁大学与非营利机构重新承担推动AI作为公共产品的使命 [10] - 开放科学历史塑造了现代AI，但当前趋势正从“共享研究事业”变为“封闭商业竞赛” [10] - 大学面临市场失灵，在计算能力和数据资源方面严重不足，需建立全球协作网络实践公共利益使命 [11] 数据护城河构建策略 - 当基础设施提供商成为最强竞争对手时，初创企业唯一防御路径是构建耗时多年无人能复制的“数据围墙花园” [12] - VLex整合欧洲最全法律数据库，OpenEvidence建立高可信医学研究数据库，数据专有性、受监管性和动态精选性构成护城河 [12] - 潜在机会存在于供应链物流、地方政府记录、前沿科学等碎片化高敏感或难获取的数据领域 [12]