Workflow
可灵2.1
icon
搜索文档
实测可灵AI的新视频模型,它生成的动作戏酷到封神。
数字生命卡兹克· 2025-09-22 09:33
可灵2.5,来了。 不仅已经对可灵的超级创作者们正式进行灰度内测,还在这个周末,登上了釜山国际电影节。 我其实已经很久很久没做过小片子了,在前几天拿到可灵2.5的体验资格以后,试了一下,居然,又 激起了我的一些创作欲望。 就,我自己是非常喜欢科幻、非常喜欢动作、也非常喜欢一些张力很足的动作戏的。 这些,是过往几乎所有的AI视频模型,都不太行的东西。 但,可灵2.5,不说媲美那种动作大片,但是,还是把AI视频在动作和表演上,又拉到了一个新的高 度。 我也花了一整天的时间,用可灵2.5,手搓了一个AI版《速度与激情》,做了一个小片子,更直观的 感受一下,可灵2.5在动作戏上的实力。 还顾及到了破窗时玻璃渣散落,落地时蹲一下缓冲,这种极具真实感的细节。 整个看下来真的很爽。 这里面可以说是集齐了我从十五岁到现在喜欢的所有视觉效果,肾上腺素飙升的追车战,经费燃烧的 爆炸大场面,拳拳到肉的打戏,超级酷炫的漂移,等等等。 而这些效果,现在,可灵能以一己之力,给我都实现了,如果在24年,这就是不可能想象的。。。 从这个小片子,大家应该就能感受到,可灵2.5的能力圈了。 我把他总结成两块: 运动的超进化,表演的超进化。 一块 ...
量大管饱!让藏师傅疯狂涨粉的 Nano Banana 玩法合集 02
歸藏的AI工具箱· 2025-09-05 17:12
核心观点 - Nano Banana作为多模态AI模型在图像生成、视频制作和3D建模等多个创意领域展现出强大能力 其应用范围从艺术创作扩展到实用工具开发 显示出在内容生成市场的巨大潜力[1][3][73] AI艺术创作应用 - 利用书法字帖和人物姿势生成具有中国风意境的AI舞蹈视频 通过特定提示词控制人物风格和光影效果[4] - 使用即梦图片3.1模型生成基础图像 提示词包含CG厚涂风格、精致五官、瓷白肌肤等详细视觉要求[4] - 通过可灵2.1首尾帧生成视频 配合专业转场提示词实现平滑过渡 支持A类关联性强的原地演变和B类差异巨大的运镜驱动转场策略[12][14][15] 3D建模与可视化 - 将建筑平面图转换为等距摄影级3D渲染图 使用Hyper3d工具生成GLB格式3D文件[17][24][26] - 基于3D俯视图生成指定视角的室内渲染图 如从餐桌看向卫生间的视角 并支持家具样式替换[19][20][22] - 通过Cursor和GPT-5开发前端网页 实现3D模型交互展示 点击特定位置可显示对应渲染图[28] 营销与内容创作 - 创建夸张广角镜头效果的视频封面 通过前景物品放大技术提升点击率 比平时封面效果更好[33][35] - 利用视觉推理能力实现照片位置反推和地标图像生成 基于地图标记生成对应实景照片[37][38][39] 产品设计与转换 - 车辆改装功能可指指定涂装参考图更改车辆配色、轮毂设计和拉花装饰 并生成多阶段改动图片[41] - 将饮品图像转换为柔软充气玩具设计 采用哑光织物纹理和细微缝线强调充气效果[51][52] - 建筑转换为等距3D图标风格 支持任意建筑照片转换而非仅限于地标建筑[49] 教育内容生成 - 生成多张涂鸦风格图像解释"期货"概念 采用统一的手绘风格和英文文本 适合制作知识卡片[54] - 开发专用网页工具支持3:4比例图片导出 可直接用于小红书内容发布[56] 实体产品可视化 - 将汽车渲染图转换为收藏级手办模型 包含印刷包装盒和3D打印机场景[58][59][60] - 动漫角色转真人cosplay并手持手办 保持发型、配饰和服装的高度还原[62][63] 时间序列预测 - 预测建筑100年后荒废状态的形象生成 视频形式展现更具表现力[65][66][68] 多图像融合技术 - 混合无关图像生成连贯故事分镜 保持美学表现和人物一致性 across 9张连续画面[69][71] - 支持即梦智能多帧视频生成 实现多场景串联和角色整合[73]
用AI一键直出超绝电影级转场,我的PR真的可以卸载了。
数字生命卡兹克· 2025-08-21 21:48
可灵2.1首尾帧技术升级 - 可灵2.1版本新增首尾帧功能 支持用户自定义视频起始帧和结束帧 实现高精度画面控制 [5][7] - 首尾帧生成价格与可灵基础版本一致 均为每条视频35积分 [7] - 相比1.6版本 2.1版本在动态效果、画面质感和语义理解方面有显著提升 恶龙案例中翅膀扑腾幅度、镜头运动速度和冲击力明显增强 [7][8][9] 首尾帧技术功能特性 - 通过设定起点和终点帧 可精确控制时间节奏、视觉风格和主体动作 大幅降低AI生成内容偏离预期的风险 [10] - 支持复杂镜头运动控制 包括快速推进、拉远、旋转等影视级运镜效果 [9][38] - 自动补帧能力突出 能无缝衔接首尾帧并自动生成中间帧 用户难以区分人工设定与AI生成帧的界限 [40][44] 应用场景拓展 - 支持影视级一镜到底制作 如蜘蛛侠跑酷视频通过多段首尾帧拼接实现全程丝滑效果 [19][21] - 适用于普通用户创意表达 包括地球转场特效、箱子爆炸弹出家具、车辆变形金刚化等视觉创意 [23][25][27] - 在商业领域具有应用潜力 可用于设计提案草图建筑化、LOGO与商品转化广告等场景 [27][29] - 支持超现实创意实现 如杯中热气变龙卷风、3D打印建筑内部探索等复杂视觉叙事 [33][35] 技术实现优势 - 物理运动规律遵循度极高 能自动生成符合物理逻辑的中间元素(如蜘蛛侠案例中自动生成楼梯) [42] - 提示词要求简洁 仅需描述镜头运动+主体动作即可生成高质量视频 降低使用门槛 [40] - 动态控制能力突出 支持大动态幅度镜头 要求首尾帧设定具备丰富动势以获得最佳效果 [38][40]
可灵 AI 技术部换将;宇树机器人“撞人逃逸”上热搜;邓紫棋自曝投资 AI 公司获 10 倍收益 | AI周报
AI前线· 2025-08-17 13:33
人形机器人运动会 - 宇树H1人形机器人以6分34秒40的成绩夺得1500米田径赛冠军,成为世界人形机器人运动会首金[3] - 天工机器人在1500米和400米两个项目中两次输给宇树机器人,天工CTO表示会向宇树学习打造更全面的机器人[3] - 宇树H1在比赛中以3.8米/秒速度领跑时突然偏离赛道撞向工作人员,但未停下继续比赛,引发"机器人肇事逃逸"热议[4][5] - 宇树CEO解释事故原因为人类操作员交接疏忽,并承认遥控操作策略"比较废同事"[5] - 星动纪元旗下人形机器人星动L7在跳高项目中以95.641厘米获得冠军[7] 人工智能与科技公司动态 - DeepSeek母公司幻方量化市场总监李橙因与券商员工合谋套取返佣1.18亿元被查[8] - DeepSeek-R2模型8月内无发布计划,公司近期重点是对现有产品进行迭代优化[9][10] - OpenAI员工寻求按5000亿美元估值出售约60亿美元股票,交易处于初期阶段[15] - 苹果秘密推进两大AI项目Linwood和Glenwood,旨在全面升级Siri并考虑引入第三方AI技术[27] - 马斯克透露X公司员工从8000人缩减至1200人,裁员比例达85%[26] 芯片与硬件 - 中国互联网大厂采购英伟达H20芯片需向监管机构说明理由,部分公司计划减少订单[20] - 特朗普政府正与英特尔商洽参股事宜,以帮助其扩大本土芯片制造业务[24][25] - 寒武纪一季度营收11.11亿元同比增长4230.22%,净利润3.55亿元实现扭亏为盈[21][22] - 苹果Vision Pro升级版将使用M5芯片,iPad mini下一代产品将配备A19 Pro芯片[28] AI技术与产品 - 国家数据局数据显示中国日均Token消耗量从1千亿增至30万亿,1年半增长300多倍[30] - Anthropic为Claude推出"学习模式",采用苏格拉底式辅导功能[32] - 智元推出行业首个机器人世界模型开源平台Genie Envisioner,整合未来帧预测与策略学习[36] - Mistral AI发布Medium 3.1模型,提升核心推理和编码能力并引入多模态支持[35] - 字节跳动开源全模态PyTorch原生训练框架VeOmni,可大幅降低工程开发时间[34] 其他科技新闻 - 阿里国际站Accio Agent在海外爆火,被称为全球首个会做生意的AI Agent[31] - 影石创新就董事长在团建活动中撒钱行为致歉,称将加强内部管理规范[23] - 传阿里"扫地僧"蔡景现离职,其为淘宝第一个程序员并曾主导构建淘宝交易系统[17][18] - 邓紫棋透露2019年投资AI公司已获10倍收益,投资产品为具有思考能力的AGI[19]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-05-31 02:51
芯片与算力 - 英伟达推出「阉割版」GPU [2] - 海光信息并购中科曙光以增强算力 [2] 模型发展 - DeepSeek开源新版R1模型 [2] - Odyssey发布世界模型 [2] - Claude Opus攻破30年历史的bug [2] - 阿里推出QwenLong-L1-32B模型 [2] - Google发布Gemma变体模型 [2] - Claude采用RLVR范式 [2] - 字节推出BAGEL模型 [2] - 红杉中国推出xbench基准测试 [2] 应用创新 - 可灵更新至2.1版本 [2] - 腾讯多产品接入R1模型 [2] - Opera推出Neon浏览器 [2] - VAST升级Tripo Studio [2] - Zochi推出AI Scientist [2] - Claude新增语音模式 [2] - AKOOL推出实时摄像头功能 [2] - 腾讯混元发布HunyuanVideo-Avatar [2] - 扣子空间推出文本生成播客功能 [2] - 腾讯元宝整合读书app功能 [2] - 阿联酋提供ChatGPT Plus免费服务 [2] - OpenAI推出GPT-4o唱歌功能 [3] - Kyutai开发模块化语音AI [3] - 秘塔AI搜索推出极速模型 [3] - 雷鸟发布AI眼镜X3 Pro [3] - VideoTutor推出AI老师功能 [3] - 企业微信推出智能机器人 [3] - Google发布Veo3实测功能 [3] - OpenAI发现o3l漏洞 [3] - 腾讯启动野朋友计划 [3] - OpenAI爆料AI项链 [3] 科技进展 - 优理奇推出Wanda 2.0 [3] - 波士顿动力升级Atlas机器人 [3] - SpaceX完成星舰九飞 [3] - 北航开发UAV-FlowColosseo [3] - 杭州举办机器人格斗比赛 [3] - 苹果更新iOS 19系统 [3] - AI科学家团队研发治盲新药 [3] 行业观点 - Google讨论AI平台变革 [3] - Claude4核心成员探讨长程任务能力 [3] - NVIDIA提供AI就业建议 [3] - Anthropic预测白领工作自动化 [3] - Anthropic分析AI产品生长逻辑 [3] - Character.AI被评为最佳AI应用 [3] 资本动态 - Salesforce收购Informatica [3] - SpAItial获得3D生成融资 [3] - Lilian Weng投资Thinking Machines [3] 行业事件 - Meta面临人才流失问题 [3]
腾讯研究院AI速递 20250530
腾讯研究院· 2025-05-29 23:55
开源AI模型 - DeepSeek-R1新版本开源,编程能力超越Claude 4 Sonnet,与o4-mini性能相当 [1] - 新模型具备深度推理能力、自然文本生成、支持30-60分钟长时思考,能完美执行复杂代码 [1] - 实测在3D动画、网站设计和复杂推理问题上表现优异,思考过程更稳定,能处理长链条推理 [1] AI视频创作 - 可灵2.1上线,价格降低65%,效果和速度均有提升,形成标准版、高品质版、大师版三档分层 [2] - 高品质版效果媲美旧版大师版,支持1080P画质,运动效果出色,但仅支持图生视频 [2] - 新版本性价比显著提升,普通用户适合选择高品质版,商业级制作可搭配大师版 [2] 腾讯产品AI升级 - 腾讯元宝、ima、搜狗输入法、QQ浏览器等产品接入DeepSeek R1最新版,从开源到上线仅用不到1天 [3] - 用户可在腾讯多款产品中选择DeepSeek模型R1深度思考,实现免费不限量使用 [3] - 腾讯坚持双模型驱动,选择更先进的模型并第一时间部署上线 [3] AI浏览器创新 - Opera发布首款"AI Agent"浏览器Opera Neon,重新定义浏览器在代理网络中的角色 [4] - Opera Neon由Neon Chat(聊天)、Neon Do(执行网页任务)和Neon Make(复杂创作)三大功能组成 [4] - Neon Make利用云技术执行复杂任务如生成报告、设计游戏原型和构建Web应用,离线时也能工作 [4] 3D大模型升级 - VAST升级Tripo Studio,推出智能部件分割、贴图魔法笔刷、智能低模生成和万物自动绑骨四大功能 [5] - 智能部件分割实现一键拆建,智能低模生成在保留细节前提下大幅减少面数 [5] - 万物自动绑骨功能能快速完成骨骼权重分配,非专业人士也能完成全流程3D创作,效率提升10倍以上 [5] 自动驾驶与实时视频生成 - 自动驾驶大牛创立Odyssey,推出世界模型实现视频实时生成,速度达40毫秒/帧,支持实时交互 [6] - 该技术通过真实生活视频学习像素和动作,采用窄分布模型架构解决自回归建模挑战 [6] - Odyssey已获2700万美元融资,预览版由H100 GPU集群支持,输出30FPS的5分钟连贯交互视频 [6] AI科学研究 - AI科学家Zochi的论文被顶会ACL主会录用,成为首个独立通过A*级别会议同行评审的AI系统 [7] - Zochi的论文展示了多轮攻击方法,在GPT-3.5上成功率达100%,GPT-4上达97% [7] - Zochi能自主完成从文献分析到同行评审的科学研究过程,论文质量高 [7] 具身机器人商业化 - 优理奇推出轮式双臂机器人Wanda 2.0,售价8.8万元起,已量产交付,具备自主完成复杂长序列任务的能力 [8] - Wanda 2.0搭载融合触觉的预训练多模态大模型UniTouch和长序列任务规划模型UniCortex [8] - 优理奇通过全栈自研降低70%成本,面向类C端小B客户市场,已完成数亿元融资 [8] 机器人技术升级 - 波士顿动力Atlas机器人升级,具备3D空间感知和实时物体追踪能力,可360°旋转头部和腰部 [9] - 技术核心包括2D物体检测系统、基于关键点的3D空间定位以及SuperTracker物体位姿跟踪系统 [9] - 系统融合运动学数据、视觉数据和力反馈,实现精确手眼协调,团队正致力于构建统一基础模型 [9] AI行业趋势 - Google CEO Pichai认为AI是比互联网更大的平台级变革,未来将走向多终端并行 [10] - AI进入构建可用产品的第二阶段,搜索正转变为能代表用户执行任务的Agent [10] - AI带来的关键变革在于交互方式转变和创作门槛降低,第三阶段将是AI与物理世界结合 [10]
可灵2.1刚刚上线,价格降了65%,更快、更听话、也更强。
数字生命卡兹克· 2025-05-29 11:42
产品更新 - 可灵2.1正式上线,包含专业模式(Professional Mode)和大师版(Master)两个版本,专业模式在效果和速度上优于前代且价格更低,大师版则定位更高端但价格更贵 [2] - 可灵2.1专业模式在大多数场景下已足够使用,尤其适合抓拍风格视频,而大师版更适合动作场景和专业影视制作 [2] - 可灵2.1高品质版在部分效果上可媲美2.0大师版,同时价格降低65%,适合日常使用 [10] 产品分层与定价 - 可灵建立了三个明确的质量体系:标准版(720P,20灵感值)、高品质版(1080P,35灵感值)、大师版(1080P,100灵感值) [10] - 可灵2.0大师版定价较高,5秒视频需100灵感值(10元),10秒需200灵感值(20元) [7] - 可灵2.1高品质版定价35灵感值(3.5元),相比大师版大幅降低,更具性价比 [10] 性能对比 - 生成速度:可灵1.6和2.1均在1分钟内完成,而2.0大师版和2.1大师版需3分多钟 [18] - 效果对比:在机器人弹钢琴场景中,2.1高品质版在运镜和动作上优于1.6和2.0大师版,仅结尾出现小BUG [14] - 运动表现:在车辆飞跃场景中,2.1大师版表现最佳,灰尘弥漫效果和二次飞跃细节突出 [19] - 细节处理:在机器人打拳场景中,2.1版本动作更自然,2.0大师版动作略显怪异 [20] 产品定位 - 可灵2.1高品质版适合短视频、营销广告和AI短剧等大多数日常创作需求 [27] - 可灵2.1大师版定位专业影视级制作和商业交付,在运动表现和模型质量上有更高上限 [28] - 可灵2.1不支持文生视频,仅支持图生视频,而大师版无此限制 [10] 行业影响 - 可灵2.1的推出将价格拉回亲民区间,降低了AI视频生成的门槛 [28] - 产品分层策略让不同类型创作者能在预算和效果间找到平衡,扩大用户覆盖范围 [28] - 此次更新标志着AI视频生成技术开始针对不同需求进行专业化细分 [28]