Workflow
Pika
icon
搜索文档
6秒造一个「视频博主」,Pika让一切图片开口说话
机器之心· 2025-08-13 11:27
Pika音频驱动表演模型 - Pika推出名为"音频驱动表演模型"的新模型 允许用户上传音频文件结合静态图像生成高度同步的视频 实现精确口型同步 自然表情变化和流畅身体动作 [3][4] - 该技术可将任意静态图片与音频结合生成动态视频 如自拍搭配语音可实现口型神同步 眉毛挑动等细节精准匹配 生成时间仅需6秒 支持720p高清且视频长度不限 [6] - 目前功能仅限iOS端且需要邀请码 尚未全面开放 [7] 技术应用场景 - 适用于社交媒体内容创作 如生成说唱视频 脱口秀片段等 可快速制作创意短片和Meme [16][17] - 潜在应用包括游戏开发(NPC对话动画) 教育领域(生动讲解视频) 未来可能发展个人AI数字分身 [17] - 支持多语言音频输入 对不同语种表现良好 [14] 用户实测效果 - 网友测评显示唇同步准确性极高 有效避免AI视频常见"假唱"问题 说唱停顿处人物表情自然 但手部动作仍有瑕疵 [11] - 官方展示案例包括跨语言视频 脱口秀模仿和实景吐槽等 演员表现力突出 [12][15][16] 行业影响 - 技术显著降低视频制作门槛 传统需顶级特效师耗时半月的工作现可6秒完成 [6] - 可能引发新一轮创意视频爆发 但同时也带来虚假信息鉴别等新挑战 [17]
2025年AI转型访谈录行业洞察内参:企业掌舵者的云战略速查手册
搜狐财经· 2025-08-04 10:14
文章核心观点 - AI转型正在推动个人创业和企业组织变革 强调AI作为效率工具的价值 但无法替代人类创造力、专业能力和持续学习的内驱力 [1][2][5] - 个人借助AI工具可实现从传统职业向高收入自由职业的转型 典型案例显示月收入可达4-5万元 [1][35] - 企业通过AI实现组织重构和人均效益质变 例如11人团队创造超1亿美元营收 项目团队从10人缩减至2-3人 [4] - 未来人机协作成为主流 但人类创造力、共情力和学习热情仍是不可替代的核心 [5][6] 个人AI转型案例 - 何秋剑放弃15年国企影视制作工作 于2023年辞职投身AI影视创作 最初第一单AI订单制作图片耗时5天仅赚10元 目前已成为中石化、浙江卫视等机构的签约合作方 平均月收入达4-5万元 [1][17][35] - 成功关键因素包括影视基础、审美能力、创意构思等硬核能力 以及对Midjourney、Pika等AI工具的深度掌握 AI最多帮助提速80%但无法替代创作思路 [2][20] - 拓客渠道包括线上接单平台、客户转介绍和业内推荐 目前与5-6家线上平台合作保证订单量 [36][37] 企业AI转型实践 - 特赞开发Atypica.ai产品 通过大语言模型模拟真实用户行为 让多个AI智能体协同完成大规模用户访谈 在新能源汽车调研中发现多孩年轻家庭更青睐MPV车型的需求 [3] - 联易融采用小切口突破策略 从预订会议室、风控模型优化等高频场景入手 使会议室需求匹配准确率从86%提升至100% [4] - AI推动企业向全能型团队转型 过去需要10人团队完成的项目现在2-3人即可落地 会议频率从两周一次变为一天三次快速迭代 [4] AI工具与行业应用 - 主要使用的AI工具包括Midjourney、Pika、Stable Diffusion、ComfyUI、DALL-E 3等 需要组合使用以达到客户需求效果 [2][26][34][36] - 行业应用案例涵盖影视制作、市场调研、产品测试、医疗宣传片制作等领域 例如一个下午完成999感冒灵商业广告片 医院疾病防护宣传片报酬约3000元 [2][26][34] 未来发展趋势 - 2049年智能眼镜将构建镜像世界 现实与虚拟叠加成为常态 每个人都拥有AI助理 中层管理岗位大幅缩减 [5] - 内容创作领域AI让一人电影成为可能 教育医疗领域实现个性化服务 但人类创造力与同理心仍不可替代 [5] - AI重新定义努力方向 需要具备对AI工具的驾驭力和不可替代的人类特质(创造力、共情力、持续学习热情) [5][6]
AI改变了一切,除了猫咪
虎嗅· 2025-06-30 11:25
AI猫咪内容行业现状 - AI猫咪视频在抖音、小红书和TikTok等平台广泛传播,主要分为拟人化剧情类和技术展示类两种形式[7][8] - 拟人化剧情类以"大橘剧场"为代表,通过连续剧情的"宠物短剧"吸引观众,例如"Chubby"胖橘猫系列获得全球网友关注[7] - 技术展示类以挑战物理定律为特点,如三花猫完成专业跳水动作的视频在Instagram获得近2亿播放量[8] 行业数据表现 - YouTube频道Batysyr通过20个AI猫咪视频实现单月77万粉丝增长和1亿播放量[11] - Cat channel 91转型AI猫咪内容后月新增200万订阅者,视频播放量从几万跃升至千万级[11] - AiCat7频道30天内粉丝增长达127万,国内平台同类账号内容点赞量普遍达到数千至上万[11] 商业模式与变现 - 创作者通过平台分成获得收益,单条千万播放量TikTok视频可分得1200-2000元人民币[14] - "AI宠物短剧"植入广告成为变现方式之一,如"LT小狗日记"为宠物用品和食品品牌推广[15] - 部分头部创作者通过收费教程变现,例如@orange.cat899博主对制作流程咨询进行收费[15] 技术驱动因素 - Midjourney、Stable Diffusion等AI绘图工具和可灵、Pika等视频平台大幅降低创作门槛[23] - 典型制作流程包括ChatGPT生成剧本、AI绘图工具创作主角、一键生成视频并后期加工,新手一小时可掌握[23] - AI技术突破实现物理规律模拟,如水花飞溅效果和空中翻转动作,增强内容真实感[23] 平台与公司布局 - 快手通过可灵平台主动打造猫咪内容生态,发布"打工人猫"等模板视频引导用户创作[23] - MiniMax等AI公司借助"猫咪跳水"等爆款内容实现病毒式营销,获得科技媒体关注[24] - 行业存在利用AI猫咪热度发行加密货币现象,如"Book of Meow"猫主题Meme币营销案例[17] 用户心理与文化基础 - 猫类内容成功利用"幼态持续"心理学效应触发用户情感共鸣[26] - 猫脸生成有效规避"恐怖谷效应",相比人脸更易被观众接受[26] - 互联网积累数十年的猫类内容数据库为AI训练提供充足素材[26]
AI生成视频总不符合物理规律?匹兹堡大学团队新作PhyT2V:不重训练模型也能让物理真实度狂飙2.3倍!
机器之心· 2025-05-19 12:03
文本生成视频技术发展 - 当前T2V技术正从视觉质量与模型规模扩展阶段转向物理一致性与现实合理性推理驱动阶段 [2] - 物理规律作为建模现实世界的基本知识体系,是高质量视频生成的关键约束 [2] - 主流模型如Sora、Pika、CogVideoX已能生成复杂逼真场景,但在物理规则遵守方面存在显著不足 [5] PhyT2V框架核心机制 - 通过LLM引导的链式推理与迭代自我修正机制优化文本提示,增强现有T2V模型的物理一致性 [3] - 采用三步流程:1)识别物理规则与对象 2)检测提示与视频语义不匹配 3)生成修正提示 [12][13][14] - 无需模型重训练或额外数据,支持3-4轮迭代即可显著提升效果,改进在最初两轮最明显 [14][23] 技术优势与实验表现 - 在CogVideoX-5B模型上实现PC指标2.2倍提升、SA指标2.3倍提升 [23] - 跨模型测试显示对CogVideoX-2B/OpenSora/VideoCrafter均有显著增强效果 [17][21][22] - 在固体力学、流体交互、光学现象等物理场景中表现优异,尤其擅长分布外场景 [18][20] 行业应用价值 - 框架可即插即用适配不同架构T2V模型,落地门槛极低 [3][18] - 突破传统数据驱动方法的泛化瓶颈,通过知识嵌入实现物理规则遵守 [7][10] - 为构建理解物理世界的T2V模型提供新路径,推动技术商业化进程 [26]
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika
机器之心· 2025-05-06 12:11
视频细粒度文本描述技术 - 复旦大学等机构提出的Cockatiel方法在VDC榜单上获得第一名,超越通义千问2-VL、VILA1.5、LLaVA-OneVision、Gemini-1.5等主流视频理解多模态大模型 [3] - Cockatiel采用三阶段微调训练流程:构造人类偏好数据、基于打分器的多模型集成训练、蒸馏轻量化模型,最终训练出13B多模态大语言模型并蒸馏为8B模型 [8] - 实验显示Cockatiel-13B能准确复现基线模型细节,捕捉遗漏信息,且大幅减少幻觉性内容,展现更高可靠性和准确性 [7] 强化学习优化视频生成技术 - 研究团队提出迭代式强化学习偏好优化方法IPOC,在VBench榜单以86.57%总分登顶,领先通义万相、Sora、HunyuanVideo等知名视频生成模型 [14] - IPOC采用三阶段优化:人工偏好数据标注、奖励模型训练、迭代强化学习优化,仅需少量训练数据和算力即可实现效果优化 [19][20] - 优化后视频生成模型在时序一致性、结构合理性、动态程度和美学度均有显著提升,如狮子行走动作更自然连贯,人物与猛犸象结构更合理 [21][23][25] 技术方案细节 - Cockatiel基于人类偏好对齐的高质量合成数据,集成多个模型优势,以单机训练成本实现细粒度表达和人类偏好一致性 [5] - IPOC框架兼容主流偏好优化算法,包括Diffusion-DPO和Diffusion-KTO方法,用户可灵活选择训练目标 [21] - 两项技术均提供完整开源资源,包括论文、项目主页和GitHub代码库 [5][20]
26款AI工具入门,看这一篇就够了
虎嗅APP· 2025-03-03 18:08
核心观点 - AI工具在2025年已形成成熟应用格局,涵盖对话、写作、绘画、视频、音频、编程、搜索和音乐等领域 [3][4] - 各细分领域领先产品已明确,行业增速放缓,竞争转向产品体验和垂直场景优化 [4] - AI工具显著提升工作效率,如半小时完成原本需一天的项目方案 [2] AI对话工具 - ChatGPT:功能最全面的对话平台,多模态能力领先但创新停滞 [9][10] - 豆包:中文理解最佳,字节跳动产品体验突出,适合国内用户 [11][12] - Gemini:整合Google搜索能力,实时信息检索优势明显 [13][14] AI写作工具 - DeepSeek R1:国内最强开源模型,创意写作能力强但存在幻觉问题 [16][17][19] - Claude:写作和代码能力行业领先,理解力强但对中国用户不友好 [21][23][24] - Grok:马斯克旗下产品,网络热点捕捉能力强,风格幽默 [25][26][27] AI绘画工具 - 即梦:字节跳动产品,东方美学处理出色,中文提示词支持好 [30][31] - Whisk:谷歌产品,图片组合创作模式创新,可玩性强 [35] - Recraft.ai:商业设计场景专用,可生成风格一致的成套设计资源 [36][37] AI视频工具 - 可灵:快手产品,国内视频生成领军者,画质和动作流畅度领先 [44][45][46] - Pika:动态元素融合能力强,视频生成质量一流 [47][48] - Runway:专业视频生成先驱,质量高但价格昂贵 [50][51] AI音频工具 - 海螺AI:MINIMAX产品,声音克隆和朗读自然度高,自媒体适用 [55][56][57] - 海绵音乐:字节跳动产品,平民化音乐生成工具易上手 [76][77] - MusicFX:谷歌产品,操作简单且生成质量高 [79][80] AI搜索工具 - 纳米AI搜索:360产品,集成多模型协作和办公工具 [71] - 秘塔搜索:专注科研场景,支持文献翻译和知识库建设 [72][73] AI音乐工具 - Suno:AI音乐创作先驱,支持多种风格,专业性强 [74][75] - MusicFX:谷歌产品,简单易用且质量高 [79][80] 行业趋势 - 大厂加速布局AI领域,字节跳动和谷歌产品矩阵最为完善 [76][80] - 工具专业化程度提高,垂直场景应用成为竞争重点 [36][50][72] - 开源模型推动行业进步,DeepSeek带动国内AI工具普及 [16][17]
对话 PixVerse 王长虎:AI 视频生成可能通向新平台,Sora 只领先几个月
晚点LatePost· 2024-04-30 18:25
行业竞争格局 - Sora发布后被视为视频生成领域的领先者,其他模型如Runway、Pika、SVD、PixVerse等被比喻为"膜拜者"[4] - PixVerse是中国唯一进入全球视频生成领域第一梯队的产品,月访问量达140万,与Pika(200万)、Runway(600万)同属全球top3[6][10] - 国内所有公司视频生成产品访问量总和仅为PixVerse的三分之一[10] 技术发展现状 - Sora能生成60秒连贯视频,但实际用户需求更多是15秒以内的短视频[9] - 视频生成的ChatGPT时刻定义为普通用户能实时生成高质量视频,目前仍处于GPT-2到GPT-3阶段[9][13] - 当前视频生成模型普遍只能生成4-7秒视频,PixVerse可生成4秒,Runway通过拼接可达18秒[17][18] - 视频生成面临手指、尾巴等细节问题,可通过3D建模信息辅助优化[19] 公司战略与优势 - 公司坚持视频生成方向,认为视频内容最接近用户,团队有字节跳动视频AI技术积累[14][15] - 采用差异化策略,用更少资源(百卡级)达到与Pika、Runway同等水平[15][22] - 新融资将支持升级至千卡级训练,认为达不到此规模的公司将失去竞争力[22] - 同时布局模型层和应用层,目标直接服务C端用户,探索新内容平台可能性[27][28][29] 市场机会判断 - 大平台对AIGC内容持谨慎态度,这为创业公司创造了机会[9][29] - AI视频生成可能催生新内容平台,而非简单融入现有平台[29][30][32] - 全球市场同步推进,认为AI时代产品应面向全球[33][34] - 当前聚焦提升生成能力而非用户增长,商业化将基于ROI考量[36] 团队与资源 - 研发人员占比超70%,保持精简团队规模[38] - 创始人兼具学术和工业背景,有万卡GPU使用经验和国民级产品建设经历[41] - 新融资来自蚂蚁集团,金额达上亿元人民币[7]