可灵2.1 - 财报，业绩电话会，研报，新闻

可灵2.1

搜索文档

虎嗅· 2025-10-04 09:01

Sora 2模型技术突破 - 新视频模型实现更精准的现实世界呈现和更强的可控性，能创造复杂音频并轻松将现实世界元素插入AI生成视频[1] - Sora 2生成内容更具真实感，可连续生成复杂镜头，展示AI理解真实世界并进行模拟的可能性[17] - 模型在人物一致性和细节效果上取得明显进步，从尝鲜向具备实际效果的生产工具过渡[16] AI视频行业竞争格局 - 2024年Sora和可灵开启AI视频赛道竞争，国内出现20多款视频大模型产品，阿里、腾讯、字节参与其中[12] - 海外市场Google、Meta等巨头及Runway、Luma AI、Midjourney等创业公司加入战局[12] - 2025年可灵2.1、Google Veo 3、字节Seedance 1.0 pro等模型在生成效果上各有优势，生数科技Vidu Q2模型强调复杂表情生成能力[16] 商业化落地进展 - 快手可灵AI月度付费流水持续突破1亿元人民币，新上线可灵2.5 Turbo价格降低30%以吸引创作者[19] - 视频大模型商业化更多集中在B端和P端，Sora App面向C端用户目前免费但限制生成10秒360P视频[20] - 2024年9月Vidu完成数亿人民币A轮融资，爱诗科技获阿里巴巴领投6000万美元B轮融资[21] 创作效率提升 - AI"炼丹"效率提升，降低试错成本，从去年Sora发布后40分钟生成结果到如今生成更自然画面[24][26][27] - 参考生视频功能上线满足创作者对一致性和可控性需求，Vidu Q1支持上传七个主题一键直出视频[31][32] - 生成5秒视频从原来只有0.5秒可用到现在可直接生成复杂镜头构成的桥段[29] 影视行业工作流变革 - AI应用减少原画师工作量，空镜画面基本由AI生成，部分短剧比原计划少画三分之一原画[40] - AI跳过传统制作环节，分镜上色后直接生成视频，优化传统拍摄模式中耗时十天的造型设计方案[41][42] - 可灵灵动画布功能支持一站式AI视频全链路创作，Luma AI Ray3被应用在Adobe Firefly中服务好莱坞制片厂[37][38] 低门槛创作工具发展 - Agent能力推动创作思路变化，爱诗科技推出模板化Agent帮助用户撰写提示词，FilmAction用户月活增长相当于过去一年[45][51] - AIpai和FilmAction等产品支持选用不同大模型完成脚本、分镜到视频、配乐全流程，降低普通人创作门槛[47][49] - 专业团队在保证质量前提下人均一天能制作一到两集短剧，但真正AI创作流程比传统影视创作有时更慢[52] 行业未来发展趋势 - AI工具将同时适用于C端、P端和B端用户，带来工具层面普惠，但因需求不同产生不同结果[56] - 技术平权后决胜关键将是内容质量，拥有IP和合规化数字形象变得重要[56] - 一键成片如实现将带来新内容生产体系和行业权力架构，而非人人都有摄像机的作品大爆炸[57]

实测可灵AI的新视频模型，它生成的动作戏酷到封神。

数字生命卡兹克· 2025-09-22 09:33

产品能力提升 - 可灵2.5在动作和表演方面实现显著进化包括运动的超进化和表演的超进化 [1] - 运动能力实现超进化能够丝滑衔接多个动作如下落、奔跑、骑摩托等并注重真实感细节如玻璃渣散落和落地缓冲 [2] - 表演能力实现超进化能够准确表达多层次情绪如从愤怒到克制的转变以及淡淡的阴恻恻的笑 [29][35] - 文生视频能力大幅提升仅靠提示词即可生成至少一半的案例无需首尾帧 [10][55] - 理解能力有巨幅提升解决以往因果关系和细节不到位的问题 [56] 技术对比 - 可灵2.5相比2.1在运动能力上有巨大进步 2.1会出现绳子消失、摩托车凭空出现、动作错误等问题 [3] - 可灵2.5在人物动作和运镜方面更稳而2.1只能保持人物基本不崩坏环境交互细节全部糊掉 [5][6] - 可灵2.5的机器人跑酷动作和交互相当真实而2.1会不受重力控制逐渐飞天 [10][12] - 可灵2.5能够自然完成情绪转变而2.1表演没层次表情做得太过或太粗糙 [32][33][37][42] 应用场景 - 可灵2.5能够生成各种运动镜头如滑雪空翻、摸雪、呲雪墙、滑板速降、篮球赛等 [16][18][20] - 可灵2.5能够满足各种奇幻脑洞如和小鹿一起闯进魔法森林、在废土世界开装甲车、在陌生星球开飞行器等 [22][24][26][27] - 可灵2.5能够处理多种专业场景如好莱坞老电影风格的斗嘴、爆炸映亮脸部、重伤喘息、古灵精怪的表情变化等 [45][47][49][50] - 可灵2.5能够生成第一视角跟随镜头并做出急迫感如猛然加速追逐 [14]

量大管饱！让藏师傅疯狂涨粉的 Nano Banana 玩法合集 02

歸藏的AI工具箱· 2025-09-05 17:12

核心观点 - Nano Banana作为多模态AI模型在图像生成、视频制作和3D建模等多个创意领域展现出强大能力其应用范围从艺术创作扩展到实用工具开发显示出在内容生成市场的巨大潜力[1][3][73] AI艺术创作应用 - 利用书法字帖和人物姿势生成具有中国风意境的AI舞蹈视频通过特定提示词控制人物风格和光影效果[4] - 使用即梦图片3.1模型生成基础图像提示词包含CG厚涂风格、精致五官、瓷白肌肤等详细视觉要求[4] - 通过可灵2.1首尾帧生成视频配合专业转场提示词实现平滑过渡支持A类关联性强的原地演变和B类差异巨大的运镜驱动转场策略[12][14][15] 3D建模与可视化 - 将建筑平面图转换为等距摄影级3D渲染图使用Hyper3d工具生成GLB格式3D文件[17][24][26] - 基于3D俯视图生成指定视角的室内渲染图如从餐桌看向卫生间的视角并支持家具样式替换[19][20][22] - 通过Cursor和GPT-5开发前端网页实现3D模型交互展示点击特定位置可显示对应渲染图[28] 营销与内容创作 - 创建夸张广角镜头效果的视频封面通过前景物品放大技术提升点击率比平时封面效果更好[33][35] - 利用视觉推理能力实现照片位置反推和地标图像生成基于地图标记生成对应实景照片[37][38][39] 产品设计与转换 - 车辆改装功能可指指定涂装参考图更改车辆配色、轮毂设计和拉花装饰并生成多阶段改动图片[41] - 将饮品图像转换为柔软充气玩具设计采用哑光织物纹理和细微缝线强调充气效果[51][52] - 建筑转换为等距3D图标风格支持任意建筑照片转换而非仅限于地标建筑[49] 教育内容生成 - 生成多张涂鸦风格图像解释"期货"概念采用统一的手绘风格和英文文本适合制作知识卡片[54] - 开发专用网页工具支持3:4比例图片导出可直接用于小红书内容发布[56] 实体产品可视化 - 将汽车渲染图转换为收藏级手办模型包含印刷包装盒和3D打印机场景[58][59][60] - 动漫角色转真人cosplay并手持手办保持发型、配饰和服装的高度还原[62][63] 时间序列预测 - 预测建筑100年后荒废状态的形象生成视频形式展现更具表现力[65][66][68] 多图像融合技术 - 混合无关图像生成连贯故事分镜保持美学表现和人物一致性 across 9张连续画面[69][71] - 支持即梦智能多帧视频生成实现多场景串联和角色整合[73]

用AI一键直出超绝电影级转场，我的PR真的可以卸载了。

数字生命卡兹克· 2025-08-21 21:48

可灵2.1首尾帧技术升级 - 可灵2.1版本新增首尾帧功能支持用户自定义视频起始帧和结束帧实现高精度画面控制 [5][7] - 首尾帧生成价格与可灵基础版本一致均为每条视频35积分 [7] - 相比1.6版本 2.1版本在动态效果、画面质感和语义理解方面有显著提升恶龙案例中翅膀扑腾幅度、镜头运动速度和冲击力明显增强 [7][8][9] 首尾帧技术功能特性 - 通过设定起点和终点帧可精确控制时间节奏、视觉风格和主体动作大幅降低AI生成内容偏离预期的风险 [10] - 支持复杂镜头运动控制包括快速推进、拉远、旋转等影视级运镜效果 [9][38] - 自动补帧能力突出能无缝衔接首尾帧并自动生成中间帧用户难以区分人工设定与AI生成帧的界限 [40][44] 应用场景拓展 - 支持影视级一镜到底制作如蜘蛛侠跑酷视频通过多段首尾帧拼接实现全程丝滑效果 [19][21] - 适用于普通用户创意表达包括地球转场特效、箱子爆炸弹出家具、车辆变形金刚化等视觉创意 [23][25][27] - 在商业领域具有应用潜力可用于设计提案草图建筑化、LOGO与商品转化广告等场景 [27][29] - 支持超现实创意实现如杯中热气变龙卷风、3D打印建筑内部探索等复杂视觉叙事 [33][35] 技术实现优势 - 物理运动规律遵循度极高能自动生成符合物理逻辑的中间元素（如蜘蛛侠案例中自动生成楼梯） [42] - 提示词要求简洁仅需描述镜头运动+主体动作即可生成高质量视频降低使用门槛 [40] - 动态控制能力突出支持大动态幅度镜头要求首尾帧设定具备丰富动势以获得最佳效果 [38][40]

可灵 AI 技术部换将；宇树机器人“撞人逃逸”上热搜；邓紫棋自曝投资 AI 公司获 10 倍收益 | AI周报

AI前线· 2025-08-17 13:33

人形机器人运动会 - 宇树H1人形机器人以6分34秒40的成绩夺得1500米田径赛冠军，成为世界人形机器人运动会首金[3] - 天工机器人在1500米和400米两个项目中两次输给宇树机器人，天工CTO表示会向宇树学习打造更全面的机器人[3] - 宇树H1在比赛中以3.8米/秒速度领跑时突然偏离赛道撞向工作人员，但未停下继续比赛，引发"机器人肇事逃逸"热议[4][5] - 宇树CEO解释事故原因为人类操作员交接疏忽，并承认遥控操作策略"比较废同事"[5] - 星动纪元旗下人形机器人星动L7在跳高项目中以95.641厘米获得冠军[7] 人工智能与科技公司动态 - DeepSeek母公司幻方量化市场总监李橙因与券商员工合谋套取返佣1.18亿元被查[8] - DeepSeek-R2模型8月内无发布计划，公司近期重点是对现有产品进行迭代优化[9][10] - OpenAI员工寻求按5000亿美元估值出售约60亿美元股票，交易处于初期阶段[15] - 苹果秘密推进两大AI项目Linwood和Glenwood，旨在全面升级Siri并考虑引入第三方AI技术[27] - 马斯克透露X公司员工从8000人缩减至1200人，裁员比例达85%[26] 芯片与硬件 - 中国互联网大厂采购英伟达H20芯片需向监管机构说明理由，部分公司计划减少订单[20] - 特朗普政府正与英特尔商洽参股事宜，以帮助其扩大本土芯片制造业务[24][25] - 寒武纪一季度营收11.11亿元同比增长4230.22%，净利润3.55亿元实现扭亏为盈[21][22] - 苹果Vision Pro升级版将使用M5芯片，iPad mini下一代产品将配备A19 Pro芯片[28] AI技术与产品 - 国家数据局数据显示中国日均Token消耗量从1千亿增至30万亿，1年半增长300多倍[30] - Anthropic为Claude推出"学习模式"，采用苏格拉底式辅导功能[32] - 智元推出行业首个机器人世界模型开源平台Genie Envisioner，整合未来帧预测与策略学习[36] - Mistral AI发布Medium 3.1模型，提升核心推理和编码能力并引入多模态支持[35] - 字节跳动开源全模态PyTorch原生训练框架VeOmni，可大幅降低工程开发时间[34] 其他科技新闻 - 阿里国际站Accio Agent在海外爆火，被称为全球首个会做生意的AI Agent[31] - 影石创新就董事长在团建活动中撒钱行为致歉，称将加强内部管理规范[23] - 传阿里"扫地僧"蔡景现离职，其为淘宝第一个程序员并曾主导构建淘宝交易系统[17][18] - 邓紫棋透露2019年投资AI公司已获10倍收益，投资产品为具有思考能力的AGI[19]

Artificial Intelligence

Robotics

Artificial Intelligence

Robotics

GPT-5

宇树H1

Artificial Intelligence

Robotics

Artificial Intelligence

腾讯研究院· 2025-05-31 02:51

芯片与算力 - 英伟达推出「阉割版」GPU [2] - 海光信息并购中科曙光以增强算力 [2] 模型发展 - DeepSeek开源新版R1模型 [2] - Odyssey发布世界模型 [2] - Claude Opus攻破30年历史的bug [2] - 阿里推出QwenLong-L1-32B模型 [2] - Google发布Gemma变体模型 [2] - Claude采用RLVR范式 [2] - 字节推出BAGEL模型 [2] - 红杉中国推出xbench基准测试 [2] 应用创新 - 可灵更新至2.1版本 [2] - 腾讯多产品接入R1模型 [2] - Opera推出Neon浏览器 [2] - VAST升级Tripo Studio [2] - Zochi推出AI Scientist [2] - Claude新增语音模式 [2] - AKOOL推出实时摄像头功能 [2] - 腾讯混元发布HunyuanVideo-Avatar [2] - 扣子空间推出文本生成播客功能 [2] - 腾讯元宝整合读书app功能 [2] - 阿联酋提供ChatGPT Plus免费服务 [2] - OpenAI推出GPT-4o唱歌功能 [3] - Kyutai开发模块化语音AI [3] - 秘塔AI搜索推出极速模型 [3] - 雷鸟发布AI眼镜X3 Pro [3] - VideoTutor推出AI老师功能 [3] - 企业微信推出智能机器人 [3] - Google发布Veo3实测功能 [3] - OpenAI发现o3l漏洞 [3] - 腾讯启动野朋友计划 [3] - OpenAI爆料AI项链 [3] 科技进展 - 优理奇推出Wanda 2.0 [3] - 波士顿动力升级Atlas机器人 [3] - SpaceX完成星舰九飞 [3] - 北航开发UAV-FlowColosseo [3] - 杭州举办机器人格斗比赛 [3] - 苹果更新iOS 19系统 [3] - AI科学家团队研发治盲新药 [3] 行业观点 - Google讨论AI平台变革 [3] - Claude4核心成员探讨长程任务能力 [3] - NVIDIA提供AI就业建议 [3] - Anthropic预测白领工作自动化 [3] - Anthropic分析AI产品生长逻辑 [3] - Character.AI被评为最佳AI应用 [3] 资本动态 - Salesforce收购Informatica [3] - SpAItial获得3D生成融资 [3] - Lilian Weng投资Thinking Machines [3] 行业事件 - Meta面临人才流失问题 [3]

腾讯控股(HK:00700)

Artificial Intelligence

「阉割版」GPU

可灵2.1

HunyuanVideo - Avatar

GPT - 4o

Artificial Intelligence

「阉割版」GPU

可灵2.1

HunyuanVideo - Avatar

GPT - 4o

腾讯研究院AI速递 20250530

腾讯研究院· 2025-05-29 23:55

开源AI模型 - DeepSeek-R1新版本开源，编程能力超越Claude 4 Sonnet，与o4-mini性能相当 [1] - 新模型具备深度推理能力、自然文本生成、支持30-60分钟长时思考，能完美执行复杂代码 [1] - 实测在3D动画、网站设计和复杂推理问题上表现优异，思考过程更稳定，能处理长链条推理 [1] AI视频创作 - 可灵2.1上线，价格降低65%，效果和速度均有提升，形成标准版、高品质版、大师版三档分层 [2] - 高品质版效果媲美旧版大师版，支持1080P画质，运动效果出色，但仅支持图生视频 [2] - 新版本性价比显著提升，普通用户适合选择高品质版，商业级制作可搭配大师版 [2] 腾讯产品AI升级 - 腾讯元宝、ima、搜狗输入法、QQ浏览器等产品接入DeepSeek R1最新版，从开源到上线仅用不到1天 [3] - 用户可在腾讯多款产品中选择DeepSeek模型R1深度思考，实现免费不限量使用 [3] - 腾讯坚持双模型驱动，选择更先进的模型并第一时间部署上线 [3] AI浏览器创新 - Opera发布首款"AI Agent"浏览器Opera Neon，重新定义浏览器在代理网络中的角色 [4] - Opera Neon由Neon Chat(聊天)、Neon Do(执行网页任务)和Neon Make(复杂创作)三大功能组成 [4] - Neon Make利用云技术执行复杂任务如生成报告、设计游戏原型和构建Web应用，离线时也能工作 [4] 3D大模型升级 - VAST升级Tripo Studio，推出智能部件分割、贴图魔法笔刷、智能低模生成和万物自动绑骨四大功能 [5] - 智能部件分割实现一键拆建，智能低模生成在保留细节前提下大幅减少面数 [5] - 万物自动绑骨功能能快速完成骨骼权重分配，非专业人士也能完成全流程3D创作，效率提升10倍以上 [5] 自动驾驶与实时视频生成 - 自动驾驶大牛创立Odyssey，推出世界模型实现视频实时生成，速度达40毫秒/帧，支持实时交互 [6] - 该技术通过真实生活视频学习像素和动作，采用窄分布模型架构解决自回归建模挑战 [6] - Odyssey已获2700万美元融资，预览版由H100 GPU集群支持，输出30FPS的5分钟连贯交互视频 [6] AI科学研究 - AI科学家Zochi的论文被顶会ACL主会录用，成为首个独立通过A*级别会议同行评审的AI系统 [7] - Zochi的论文展示了多轮攻击方法，在GPT-3.5上成功率达100%，GPT-4上达97% [7] - Zochi能自主完成从文献分析到同行评审的科学研究过程，论文质量高 [7] 具身机器人商业化 - 优理奇推出轮式双臂机器人Wanda 2.0，售价8.8万元起，已量产交付，具备自主完成复杂长序列任务的能力 [8] - Wanda 2.0搭载融合触觉的预训练多模态大模型UniTouch和长序列任务规划模型UniCortex [8] - 优理奇通过全栈自研降低70%成本，面向类C端小B客户市场，已完成数亿元融资 [8] 机器人技术升级 - 波士顿动力Atlas机器人升级，具备3D空间感知和实时物体追踪能力，可360°旋转头部和腰部 [9] - 技术核心包括2D物体检测系统、基于关键点的3D空间定位以及SuperTracker物体位姿跟踪系统 [9] - 系统融合运动学数据、视觉数据和力反馈，实现精确手眼协调，团队正致力于构建统一基础模型 [9] AI行业趋势 - Google CEO Pichai认为AI是比互联网更大的平台级变革，未来将走向多终端并行 [10] - AI进入构建可用产品的第二阶段，搜索正转变为能代表用户执行任务的Agent [10] - AI带来的关键变革在于交互方式转变和创作门槛降低，第三阶段将是AI与物理世界结合 [10]

Artificial Intelligence

Artificial Intelligence

DeepSeek-R1

可灵2.1

可灵2.1刚刚上线，价格降了65%，更快、更听话、也更强。

数字生命卡兹克· 2025-05-29 11:42

产品更新 - 可灵2.1正式上线，包含专业模式（Professional Mode）和大师版（Master）两个版本，专业模式在效果和速度上优于前代且价格更低，大师版则定位更高端但价格更贵 [2] - 可灵2.1专业模式在大多数场景下已足够使用，尤其适合抓拍风格视频，而大师版更适合动作场景和专业影视制作 [2] - 可灵2.1高品质版在部分效果上可媲美2.0大师版，同时价格降低65%，适合日常使用 [10] 产品分层与定价 - 可灵建立了三个明确的质量体系：标准版（720P，20灵感值）、高品质版（1080P，35灵感值）、大师版（1080P，100灵感值） [10] - 可灵2.0大师版定价较高，5秒视频需100灵感值（10元），10秒需200灵感值（20元） [7] - 可灵2.1高品质版定价35灵感值（3.5元），相比大师版大幅降低，更具性价比 [10] 性能对比 - 生成速度：可灵1.6和2.1均在1分钟内完成，而2.0大师版和2.1大师版需3分多钟 [18] - 效果对比：在机器人弹钢琴场景中，2.1高品质版在运镜和动作上优于1.6和2.0大师版，仅结尾出现小BUG [14] - 运动表现：在车辆飞跃场景中，2.1大师版表现最佳，灰尘弥漫效果和二次飞跃细节突出 [19] - 细节处理：在机器人打拳场景中，2.1版本动作更自然，2.0大师版动作略显怪异 [20] 产品定位 - 可灵2.1高品质版适合短视频、营销广告和AI短剧等大多数日常创作需求 [27] - 可灵2.1大师版定位专业影视级制作和商业交付，在运动表现和模型质量上有更高上限 [28] - 可灵2.1不支持文生视频，仅支持图生视频，而大师版无此限制 [10] 行业影响 - 可灵2.1的推出将价格拉回亲民区间，降低了AI视频生成的门槛 [28] - 产品分层策略让不同类型创作者能在预算和效果间找到平衡，扩大用户覆盖范围 [28] - 此次更新标志着AI视频生成技术开始针对不同需求进行专业化细分 [28]