可灵2.1
搜索文档
谈“AI抖音”尚早,Sora 2们会先改变影视行业
虎嗅· 2025-10-04 09:01
Sora 2模型技术突破 - 新视频模型实现更精准的现实世界呈现和更强的可控性,能创造复杂音频并轻松将现实世界元素插入AI生成视频[1] - Sora 2生成内容更具真实感,可连续生成复杂镜头,展示AI理解真实世界并进行模拟的可能性[17] - 模型在人物一致性和细节效果上取得明显进步,从尝鲜向具备实际效果的生产工具过渡[16] AI视频行业竞争格局 - 2024年Sora和可灵开启AI视频赛道竞争,国内出现20多款视频大模型产品,阿里、腾讯、字节参与其中[12] - 海外市场Google、Meta等巨头及Runway、Luma AI、Midjourney等创业公司加入战局[12] - 2025年可灵2.1、Google Veo 3、字节Seedance 1.0 pro等模型在生成效果上各有优势,生数科技Vidu Q2模型强调复杂表情生成能力[16] 商业化落地进展 - 快手可灵AI月度付费流水持续突破1亿元人民币,新上线可灵2.5 Turbo价格降低30%以吸引创作者[19] - 视频大模型商业化更多集中在B端和P端,Sora App面向C端用户目前免费但限制生成10秒360P视频[20] - 2024年9月Vidu完成数亿人民币A轮融资,爱诗科技获阿里巴巴领投6000万美元B轮融资[21] 创作效率提升 - AI"炼丹"效率提升,降低试错成本,从去年Sora发布后40分钟生成结果到如今生成更自然画面[24][26][27] - 参考生视频功能上线满足创作者对一致性和可控性需求,Vidu Q1支持上传七个主题一键直出视频[31][32] - 生成5秒视频从原来只有0.5秒可用到现在可直接生成复杂镜头构成的桥段[29] 影视行业工作流变革 - AI应用减少原画师工作量,空镜画面基本由AI生成,部分短剧比原计划少画三分之一原画[40] - AI跳过传统制作环节,分镜上色后直接生成视频,优化传统拍摄模式中耗时十天的造型设计方案[41][42] - 可灵灵动画布功能支持一站式AI视频全链路创作,Luma AI Ray3被应用在Adobe Firefly中服务好莱坞制片厂[37][38] 低门槛创作工具发展 - Agent能力推动创作思路变化,爱诗科技推出模板化Agent帮助用户撰写提示词,FilmAction用户月活增长相当于过去一年[45][51] - AIpai和FilmAction等产品支持选用不同大模型完成脚本、分镜到视频、配乐全流程,降低普通人创作门槛[47][49] - 专业团队在保证质量前提下人均一天能制作一到两集短剧,但真正AI创作流程比传统影视创作有时更慢[52] 行业未来发展趋势 - AI工具将同时适用于C端、P端和B端用户,带来工具层面普惠,但因需求不同产生不同结果[56] - 技术平权后决胜关键将是内容质量,拥有IP和合规化数字形象变得重要[56] - 一键成片如实现将带来新内容生产体系和行业权力架构,而非人人都有摄像机的作品大爆炸[57]
实测可灵AI的新视频模型,它生成的动作戏酷到封神。
数字生命卡兹克· 2025-09-22 09:33
产品能力提升 - 可灵2.5在动作和表演方面实现显著进化 包括运动的超进化和表演的超进化 [1] - 运动能力实现超进化 能够丝滑衔接多个动作 如下落、奔跑、骑摩托等 并注重真实感细节 如玻璃渣散落和落地缓冲 [2] - 表演能力实现超进化 能够准确表达多层次情绪 如从愤怒到克制的转变 以及淡淡的阴恻恻的笑 [29][35] - 文生视频能力大幅提升 仅靠提示词即可生成至少一半的案例 无需首尾帧 [10][55] - 理解能力有巨幅提升 解决以往因果关系和细节不到位的问题 [56] 技术对比 - 可灵2.5相比2.1在运动能力上有巨大进步 2.1会出现绳子消失、摩托车凭空出现、动作错误等问题 [3] - 可灵2.5在人物动作和运镜方面更稳 而2.1只能保持人物基本不崩坏 环境交互细节全部糊掉 [5][6] - 可灵2.5的机器人跑酷动作和交互相当真实 而2.1会不受重力控制逐渐飞天 [10][12] - 可灵2.5能够自然完成情绪转变 而2.1表演没层次 表情做得太过或太粗糙 [32][33][37][42] 应用场景 - 可灵2.5能够生成各种运动镜头 如滑雪空翻、摸雪、呲雪墙、滑板速降、篮球赛等 [16][18][20] - 可灵2.5能够满足各种奇幻脑洞 如和小鹿一起闯进魔法森林、在废土世界开装甲车、在陌生星球开飞行器等 [22][24][26][27] - 可灵2.5能够处理多种专业场景 如好莱坞老电影风格的斗嘴、爆炸映亮脸部、重伤喘息、古灵精怪的表情变化等 [45][47][49][50] - 可灵2.5能够生成第一视角跟随镜头 并做出急迫感 如猛然加速追逐 [14]
量大管饱!让藏师傅疯狂涨粉的 Nano Banana 玩法合集 02
歸藏的AI工具箱· 2025-09-05 17:12
核心观点 - Nano Banana作为多模态AI模型在图像生成、视频制作和3D建模等多个创意领域展现出强大能力 其应用范围从艺术创作扩展到实用工具开发 显示出在内容生成市场的巨大潜力[1][3][73] AI艺术创作应用 - 利用书法字帖和人物姿势生成具有中国风意境的AI舞蹈视频 通过特定提示词控制人物风格和光影效果[4] - 使用即梦图片3.1模型生成基础图像 提示词包含CG厚涂风格、精致五官、瓷白肌肤等详细视觉要求[4] - 通过可灵2.1首尾帧生成视频 配合专业转场提示词实现平滑过渡 支持A类关联性强的原地演变和B类差异巨大的运镜驱动转场策略[12][14][15] 3D建模与可视化 - 将建筑平面图转换为等距摄影级3D渲染图 使用Hyper3d工具生成GLB格式3D文件[17][24][26] - 基于3D俯视图生成指定视角的室内渲染图 如从餐桌看向卫生间的视角 并支持家具样式替换[19][20][22] - 通过Cursor和GPT-5开发前端网页 实现3D模型交互展示 点击特定位置可显示对应渲染图[28] 营销与内容创作 - 创建夸张广角镜头效果的视频封面 通过前景物品放大技术提升点击率 比平时封面效果更好[33][35] - 利用视觉推理能力实现照片位置反推和地标图像生成 基于地图标记生成对应实景照片[37][38][39] 产品设计与转换 - 车辆改装功能可指指定涂装参考图更改车辆配色、轮毂设计和拉花装饰 并生成多阶段改动图片[41] - 将饮品图像转换为柔软充气玩具设计 采用哑光织物纹理和细微缝线强调充气效果[51][52] - 建筑转换为等距3D图标风格 支持任意建筑照片转换而非仅限于地标建筑[49] 教育内容生成 - 生成多张涂鸦风格图像解释"期货"概念 采用统一的手绘风格和英文文本 适合制作知识卡片[54] - 开发专用网页工具支持3:4比例图片导出 可直接用于小红书内容发布[56] 实体产品可视化 - 将汽车渲染图转换为收藏级手办模型 包含印刷包装盒和3D打印机场景[58][59][60] - 动漫角色转真人cosplay并手持手办 保持发型、配饰和服装的高度还原[62][63] 时间序列预测 - 预测建筑100年后荒废状态的形象生成 视频形式展现更具表现力[65][66][68] 多图像融合技术 - 混合无关图像生成连贯故事分镜 保持美学表现和人物一致性 across 9张连续画面[69][71] - 支持即梦智能多帧视频生成 实现多场景串联和角色整合[73]
用AI一键直出超绝电影级转场,我的PR真的可以卸载了。
数字生命卡兹克· 2025-08-21 21:48
可灵2.1首尾帧技术升级 - 可灵2.1版本新增首尾帧功能 支持用户自定义视频起始帧和结束帧 实现高精度画面控制 [5][7] - 首尾帧生成价格与可灵基础版本一致 均为每条视频35积分 [7] - 相比1.6版本 2.1版本在动态效果、画面质感和语义理解方面有显著提升 恶龙案例中翅膀扑腾幅度、镜头运动速度和冲击力明显增强 [7][8][9] 首尾帧技术功能特性 - 通过设定起点和终点帧 可精确控制时间节奏、视觉风格和主体动作 大幅降低AI生成内容偏离预期的风险 [10] - 支持复杂镜头运动控制 包括快速推进、拉远、旋转等影视级运镜效果 [9][38] - 自动补帧能力突出 能无缝衔接首尾帧并自动生成中间帧 用户难以区分人工设定与AI生成帧的界限 [40][44] 应用场景拓展 - 支持影视级一镜到底制作 如蜘蛛侠跑酷视频通过多段首尾帧拼接实现全程丝滑效果 [19][21] - 适用于普通用户创意表达 包括地球转场特效、箱子爆炸弹出家具、车辆变形金刚化等视觉创意 [23][25][27] - 在商业领域具有应用潜力 可用于设计提案草图建筑化、LOGO与商品转化广告等场景 [27][29] - 支持超现实创意实现 如杯中热气变龙卷风、3D打印建筑内部探索等复杂视觉叙事 [33][35] 技术实现优势 - 物理运动规律遵循度极高 能自动生成符合物理逻辑的中间元素(如蜘蛛侠案例中自动生成楼梯) [42] - 提示词要求简洁 仅需描述镜头运动+主体动作即可生成高质量视频 降低使用门槛 [40] - 动态控制能力突出 支持大动态幅度镜头 要求首尾帧设定具备丰富动势以获得最佳效果 [38][40]
可灵 AI 技术部换将;宇树机器人“撞人逃逸”上热搜;邓紫棋自曝投资 AI 公司获 10 倍收益 | AI周报
AI前线· 2025-08-17 13:33
人形机器人运动会 - 宇树H1人形机器人以6分34秒40的成绩夺得1500米田径赛冠军,成为世界人形机器人运动会首金[3] - 天工机器人在1500米和400米两个项目中两次输给宇树机器人,天工CTO表示会向宇树学习打造更全面的机器人[3] - 宇树H1在比赛中以3.8米/秒速度领跑时突然偏离赛道撞向工作人员,但未停下继续比赛,引发"机器人肇事逃逸"热议[4][5] - 宇树CEO解释事故原因为人类操作员交接疏忽,并承认遥控操作策略"比较废同事"[5] - 星动纪元旗下人形机器人星动L7在跳高项目中以95.641厘米获得冠军[7] 人工智能与科技公司动态 - DeepSeek母公司幻方量化市场总监李橙因与券商员工合谋套取返佣1.18亿元被查[8] - DeepSeek-R2模型8月内无发布计划,公司近期重点是对现有产品进行迭代优化[9][10] - OpenAI员工寻求按5000亿美元估值出售约60亿美元股票,交易处于初期阶段[15] - 苹果秘密推进两大AI项目Linwood和Glenwood,旨在全面升级Siri并考虑引入第三方AI技术[27] - 马斯克透露X公司员工从8000人缩减至1200人,裁员比例达85%[26] 芯片与硬件 - 中国互联网大厂采购英伟达H20芯片需向监管机构说明理由,部分公司计划减少订单[20] - 特朗普政府正与英特尔商洽参股事宜,以帮助其扩大本土芯片制造业务[24][25] - 寒武纪一季度营收11.11亿元同比增长4230.22%,净利润3.55亿元实现扭亏为盈[21][22] - 苹果Vision Pro升级版将使用M5芯片,iPad mini下一代产品将配备A19 Pro芯片[28] AI技术与产品 - 国家数据局数据显示中国日均Token消耗量从1千亿增至30万亿,1年半增长300多倍[30] - Anthropic为Claude推出"学习模式",采用苏格拉底式辅导功能[32] - 智元推出行业首个机器人世界模型开源平台Genie Envisioner,整合未来帧预测与策略学习[36] - Mistral AI发布Medium 3.1模型,提升核心推理和编码能力并引入多模态支持[35] - 字节跳动开源全模态PyTorch原生训练框架VeOmni,可大幅降低工程开发时间[34] 其他科技新闻 - 阿里国际站Accio Agent在海外爆火,被称为全球首个会做生意的AI Agent[31] - 影石创新就董事长在团建活动中撒钱行为致歉,称将加强内部管理规范[23] - 传阿里"扫地僧"蔡景现离职,其为淘宝第一个程序员并曾主导构建淘宝交易系统[17][18] - 邓紫棋透露2019年投资AI公司已获10倍收益,投资产品为具有思考能力的AGI[19]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-05-31 02:51
芯片与算力 - 英伟达推出「阉割版」GPU [2] - 海光信息并购中科曙光以增强算力 [2] 模型发展 - DeepSeek开源新版R1模型 [2] - Odyssey发布世界模型 [2] - Claude Opus攻破30年历史的bug [2] - 阿里推出QwenLong-L1-32B模型 [2] - Google发布Gemma变体模型 [2] - Claude采用RLVR范式 [2] - 字节推出BAGEL模型 [2] - 红杉中国推出xbench基准测试 [2] 应用创新 - 可灵更新至2.1版本 [2] - 腾讯多产品接入R1模型 [2] - Opera推出Neon浏览器 [2] - VAST升级Tripo Studio [2] - Zochi推出AI Scientist [2] - Claude新增语音模式 [2] - AKOOL推出实时摄像头功能 [2] - 腾讯混元发布HunyuanVideo-Avatar [2] - 扣子空间推出文本生成播客功能 [2] - 腾讯元宝整合读书app功能 [2] - 阿联酋提供ChatGPT Plus免费服务 [2] - OpenAI推出GPT-4o唱歌功能 [3] - Kyutai开发模块化语音AI [3] - 秘塔AI搜索推出极速模型 [3] - 雷鸟发布AI眼镜X3 Pro [3] - VideoTutor推出AI老师功能 [3] - 企业微信推出智能机器人 [3] - Google发布Veo3实测功能 [3] - OpenAI发现o3l漏洞 [3] - 腾讯启动野朋友计划 [3] - OpenAI爆料AI项链 [3] 科技进展 - 优理奇推出Wanda 2.0 [3] - 波士顿动力升级Atlas机器人 [3] - SpaceX完成星舰九飞 [3] - 北航开发UAV-FlowColosseo [3] - 杭州举办机器人格斗比赛 [3] - 苹果更新iOS 19系统 [3] - AI科学家团队研发治盲新药 [3] 行业观点 - Google讨论AI平台变革 [3] - Claude4核心成员探讨长程任务能力 [3] - NVIDIA提供AI就业建议 [3] - Anthropic预测白领工作自动化 [3] - Anthropic分析AI产品生长逻辑 [3] - Character.AI被评为最佳AI应用 [3] 资本动态 - Salesforce收购Informatica [3] - SpAItial获得3D生成融资 [3] - Lilian Weng投资Thinking Machines [3] 行业事件 - Meta面临人才流失问题 [3]
腾讯研究院AI速递 20250530
腾讯研究院· 2025-05-29 23:55
开源AI模型 - DeepSeek-R1新版本开源,编程能力超越Claude 4 Sonnet,与o4-mini性能相当 [1] - 新模型具备深度推理能力、自然文本生成、支持30-60分钟长时思考,能完美执行复杂代码 [1] - 实测在3D动画、网站设计和复杂推理问题上表现优异,思考过程更稳定,能处理长链条推理 [1] AI视频创作 - 可灵2.1上线,价格降低65%,效果和速度均有提升,形成标准版、高品质版、大师版三档分层 [2] - 高品质版效果媲美旧版大师版,支持1080P画质,运动效果出色,但仅支持图生视频 [2] - 新版本性价比显著提升,普通用户适合选择高品质版,商业级制作可搭配大师版 [2] 腾讯产品AI升级 - 腾讯元宝、ima、搜狗输入法、QQ浏览器等产品接入DeepSeek R1最新版,从开源到上线仅用不到1天 [3] - 用户可在腾讯多款产品中选择DeepSeek模型R1深度思考,实现免费不限量使用 [3] - 腾讯坚持双模型驱动,选择更先进的模型并第一时间部署上线 [3] AI浏览器创新 - Opera发布首款"AI Agent"浏览器Opera Neon,重新定义浏览器在代理网络中的角色 [4] - Opera Neon由Neon Chat(聊天)、Neon Do(执行网页任务)和Neon Make(复杂创作)三大功能组成 [4] - Neon Make利用云技术执行复杂任务如生成报告、设计游戏原型和构建Web应用,离线时也能工作 [4] 3D大模型升级 - VAST升级Tripo Studio,推出智能部件分割、贴图魔法笔刷、智能低模生成和万物自动绑骨四大功能 [5] - 智能部件分割实现一键拆建,智能低模生成在保留细节前提下大幅减少面数 [5] - 万物自动绑骨功能能快速完成骨骼权重分配,非专业人士也能完成全流程3D创作,效率提升10倍以上 [5] 自动驾驶与实时视频生成 - 自动驾驶大牛创立Odyssey,推出世界模型实现视频实时生成,速度达40毫秒/帧,支持实时交互 [6] - 该技术通过真实生活视频学习像素和动作,采用窄分布模型架构解决自回归建模挑战 [6] - Odyssey已获2700万美元融资,预览版由H100 GPU集群支持,输出30FPS的5分钟连贯交互视频 [6] AI科学研究 - AI科学家Zochi的论文被顶会ACL主会录用,成为首个独立通过A*级别会议同行评审的AI系统 [7] - Zochi的论文展示了多轮攻击方法,在GPT-3.5上成功率达100%,GPT-4上达97% [7] - Zochi能自主完成从文献分析到同行评审的科学研究过程,论文质量高 [7] 具身机器人商业化 - 优理奇推出轮式双臂机器人Wanda 2.0,售价8.8万元起,已量产交付,具备自主完成复杂长序列任务的能力 [8] - Wanda 2.0搭载融合触觉的预训练多模态大模型UniTouch和长序列任务规划模型UniCortex [8] - 优理奇通过全栈自研降低70%成本,面向类C端小B客户市场,已完成数亿元融资 [8] 机器人技术升级 - 波士顿动力Atlas机器人升级,具备3D空间感知和实时物体追踪能力,可360°旋转头部和腰部 [9] - 技术核心包括2D物体检测系统、基于关键点的3D空间定位以及SuperTracker物体位姿跟踪系统 [9] - 系统融合运动学数据、视觉数据和力反馈,实现精确手眼协调,团队正致力于构建统一基础模型 [9] AI行业趋势 - Google CEO Pichai认为AI是比互联网更大的平台级变革,未来将走向多终端并行 [10] - AI进入构建可用产品的第二阶段,搜索正转变为能代表用户执行任务的Agent [10] - AI带来的关键变革在于交互方式转变和创作门槛降低,第三阶段将是AI与物理世界结合 [10]
可灵2.1刚刚上线,价格降了65%,更快、更听话、也更强。
数字生命卡兹克· 2025-05-29 11:42
产品更新 - 可灵2.1正式上线,包含专业模式(Professional Mode)和大师版(Master)两个版本,专业模式在效果和速度上优于前代且价格更低,大师版则定位更高端但价格更贵 [2] - 可灵2.1专业模式在大多数场景下已足够使用,尤其适合抓拍风格视频,而大师版更适合动作场景和专业影视制作 [2] - 可灵2.1高品质版在部分效果上可媲美2.0大师版,同时价格降低65%,适合日常使用 [10] 产品分层与定价 - 可灵建立了三个明确的质量体系:标准版(720P,20灵感值)、高品质版(1080P,35灵感值)、大师版(1080P,100灵感值) [10] - 可灵2.0大师版定价较高,5秒视频需100灵感值(10元),10秒需200灵感值(20元) [7] - 可灵2.1高品质版定价35灵感值(3.5元),相比大师版大幅降低,更具性价比 [10] 性能对比 - 生成速度:可灵1.6和2.1均在1分钟内完成,而2.0大师版和2.1大师版需3分多钟 [18] - 效果对比:在机器人弹钢琴场景中,2.1高品质版在运镜和动作上优于1.6和2.0大师版,仅结尾出现小BUG [14] - 运动表现:在车辆飞跃场景中,2.1大师版表现最佳,灰尘弥漫效果和二次飞跃细节突出 [19] - 细节处理:在机器人打拳场景中,2.1版本动作更自然,2.0大师版动作略显怪异 [20] 产品定位 - 可灵2.1高品质版适合短视频、营销广告和AI短剧等大多数日常创作需求 [27] - 可灵2.1大师版定位专业影视级制作和商业交付,在运动表现和模型质量上有更高上限 [28] - 可灵2.1不支持文生视频,仅支持图生视频,而大师版无此限制 [10] 行业影响 - 可灵2.1的推出将价格拉回亲民区间,降低了AI视频生成的门槛 [28] - 产品分层策略让不同类型创作者能在预算和效果间找到平衡,扩大用户覆盖范围 [28] - 此次更新标志着AI视频生成技术开始针对不同需求进行专业化细分 [28]