多模态生成

搜索文档
纳米AI一句话成片功能实测:从文字到视频只需等待
歸藏的AI工具箱· 2025-07-07 21:04
大家好,我是歸藏(guizang),今天带来纳米 AI 超级搜索一句话成片功能的测试。 之前我测试纳米 AI 的 MCP 能力的时候看到有视频生成的 MCP 就提到过,要是可以直接自动生成完整的视 频就好了。 最近他们终于开始好好搞这个流程,做了一个一句话成片的功能。 现在 真的可以一句话生成完整视频了 ,而且成功率高的离谱,用来生成新闻介绍、科普视频、小说情节等都 非常好用,发了提示词等一段时间回来收菜就行。 刚开始我没写提示词,直接找了一个恐怖小说的前两章让他基于这个生成视频,没想到生成的效果还挺好。 他自己基于小说生成的视频提示词也挺厉害,比如手表在虚空中的特效,非常详细的展示了作者拿到他金手指 的效果,而且视频最后他还自己加上了诱导你看下一部分的钩子"让你猜主角能否改变自己的命运"。 这里看生成过程: https://bot.n.cn/share/mcp?id=mu4t17&from=pc&src=360_llq 帮我基于这个小说的情节生成一个三分钟的剧情视频: 第1章 、完美人生模拟器,窗外淅淅沥沥下着小雨。苏午望着窗外的雨线,默默地叹了口气,他的心情就像外面的天 然后找了一个最近刷到的比较火爆的峨 ...
冠军队独享200万,进决赛就有直通offer,腾讯广告算法大赛报名开启
机器之心· 2025-06-18 14:09
机器之心原创 作者:张倩 「2025 年,多模态生成是一个好方向吗?」这是一位同学在今年年初提出的问题。 他之所以有此疑问,是因为在找实习时发现,狭义的 AIGC(如视频生成)岗位较少,就业前景不佳,自己的「底层视觉 + 生成模型」背景不知道怎么才能发挥用 武之地。 这位同学描述的情况相信很多同学都遇到过。确实,这两年 AIGC、多模态生成很火,理论上很多行业都能用上,比如影视、游戏…… 但由于技术发展仍在早 期,能经得起商业验证的场景其实并不多。部分从业者曾在采访中告诉机器之心,他们和影视行业接触过,比如拍短剧的导演,但对方表示,目前 AI 相比普通演 员仍然不具备竞争力。 不过,并非每个行业都如此悲观。据我们观察,至少从三年前开始,多模态生成就已经在广告等行业成功试水,去年更是给一些大厂带来了实打实的收益。在这 些正向回报的激励下,不少企业正在加大投入,希望用生成式 AI(尤其是多模态生成)给广告内容的生产、分发带来一场变革。对于相关人才来说,这里面蕴含 着大量的机会。 生成式 AI + 广告 一条已经跑通的路线 提到广告 AI,大多数人首先想到的是用 AI 助力广告内容的生成。这确实是一项已经开展多年的 ...
中国AIGC企业投融资风向:早期项目受资本热捧
搜狐财经· 2025-06-14 17:35
根据最新数据,中国AIGC行业投融资呈现明显的早期化趋势,2025年-月行业融资总额达.亿元人民币,同比增长60%,其中天使轮融资事件占比 最高(起)。以下从现状、动因及趋势三个维度分析: 一、早期项目成为资本布局核心领域 融资轮次集中早期阶段 2025年-月,天使轮融资事件占60%(起),远高于A轮(起)和战略投资(起)。这与AIGC技术与商业化探索周期相关,资本更倾向于在技术验 证期介入以获取更高溢价空间。 初创企业快速崛起 -2025年成立的AIGC企业占比达60%,如月之暗面(清华系团队)、生数科技(百度投资)等均成立不足2025年即完成亿元级融资。头部资本尤 其关注具有顶尖学术背景(如清华、北大)或大厂核心团队出身的创业者。 二、资本偏好背后的驱动因素 技术迭代加速,抢占赛道先机 底层大模型研发门槛高且投入周期长(OpenAI融资超百亿美元),国内初创企业更多聚焦应用层工具链(如AI设计、办公效率工具),凭借轻量 化场景快速验证商业模式。 产业资本深度参与 腾讯、百度、视觉中国等通过战投布局生态,例如: 腾讯投资光2025年之外(.亿元); 视觉中国连续多轮领投爱设计,加速AI+内容工具融合。 三、 ...
原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架
机器之心· 2025-05-29 11:04
本文介绍工作由中国人民大学高瓴人工智能学院宋睿华团队、李崇轩、许洪腾与值得买科技 AI 团队共同完成。第一作者王希华是人大高瓴博士生(导师: 宋睿华),他的研究兴趣主要在多模态生成,之前提出利用音频布局(audio layout)为视频生成同步声音的TiVA模型,已发表在MM 2024。宋睿华的团 队主要研究方向为多模态理解、生成与交互。 想象一下:只需一张静态图片,系统就能自动生成一段「动态的、有声音的」的短视频,画面中的人或物做出自然动作变化的同时,也发出对应的声音—— 比如小鸡抬头打鸣、手指按下快门并伴随咔嚓声,这正是「图像转有声视频(Image-to-Sounding-Video, I2SV)」的目标。 近日,来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作,首次提出了一种从静态图像直接生成同步音视频 内容的生成框架。其核心设计 JointDiT(Joint Diffusion Transformer)框架实现了图像 → 动态视频 + 声音的高质量联合生成。 为什么图像转有声视频是「AI 多模态生成」的新蓝海? 人类对世界的感知本质上是多模态的。视 ...
华为正式推出昇腾超节点技术,资金连续8日净流入场内规模最大的计算机ETF(159998)
21世纪经济报道· 2025-05-28 11:01
消息面上,据智通财经,在昇腾AI开发者峰会上,华为正式推出昇腾超节点技术,由12个计算柜和4个 总线柜构成,实现业界最大规模的384卡高速总线互联,是目前业界规模最大的超节点。 5月28日,A股三大指数集体高开,相关ETF中,计算机ETF(159998)截至发稿跌0.47%,成交额超 2000万元。 该ETF近期持续"吸金"。资金流向上看,据Wind金融终端,计算机ETF(159998)近8个交易日连续获 资金净流入,累计1.12亿,居同标的第一。该ETF最新规模为28.01亿元,是场内规模最大的计算机 ETF。 此外,云计算沪港深ETF(517390)近5个交易日中有4个交易日获资金净流入。 计算机ETF(159998)跟踪中证计算机指数(930651.CSI)。该指数以中证全指为样本空间,选取涉及 信息技术服务、应用软件、系统软件、电脑硬件等业务的上市公司股票作为成分股,前十大重仓股包括 海康威视、科大讯飞、金山办公、恒生电子、润和软件等计算机龙头。 云计算ETF沪港深(517390)紧密跟踪中证沪港深云计算产业指数(931470.CSI),同时布局港股的互 联网企业,A股算力企业和A股的计算机龙头。 西 ...
第二十一届文博会上,山东展区数智觅遗珍板块全是“科技与狠活儿”
大众日报· 2025-05-24 09:05
只需要将破损纸张置于修补槽托网上,在相应槽内加入纸浆液,随后进行排水,水位下降后,就可 以看到,纸浆已经随着水流将孔洞填补好。"最后将修复好的纸张进行干燥和压平,就可以了。技术加 持下,古籍修复效率得到极大提升。"现场,山东省图书馆古籍修复师杨林玫向观众讲解原理。 记者在现场看到,原本满是破洞的纸,修补后几乎看不出来破损的痕迹。包括山东省图书馆在内, 国内多家图书馆都采购了这样的设备。"人工修复一天只能修复10至20页,而这款设备只需不到20分 钟,就可以修复完一本破损较为严重的古籍。"杨已品介绍。 在体验了古籍修复、纸张脱酸后,很多观众都赞叹:山东不愧是文化大省,连文物保护都是"科技 与狠活儿"! 第二十一届文博会上,山东展区数智觅遗珍板块全是"科技与狠活儿" 做一次深度SPA,纸质文物延缓衰老 第二十一届中国(深圳)国际文化产业博览交易会期间,山东打造数智觅遗珍板块,通过沉浸式体 验,集中呈现数字技术在古籍修复、文物保护、考古领域的广泛应用。5月23日,山东展区一系列文物 保护利用的高科技设备吸引了观众和游客的目光。 一台喷雾脱酸机摆放在展区显眼的位置。"这款设备主要用于纸张的脱酸处理,可以有效保护古 籍 ...
细扒字节Seed 逆天招人要求!这5%本地顶级大脑做出了首个跨7大语言代码修复基准,让大模型成本狂降83%!
AI前线· 2025-04-28 19:10
作者|冬梅 字节 Top Seed 启动 2026 届招聘,瞄准顶尖博士 4 月 27 日,字节跳动 Seed 在其官微上发布了一则招聘启示,宣布正式启动 2026 届 Top Seed 大模型顶尖人才校招计划, 研究课题包括大语言模型、机器学习算法和系统、多模态生成、多模态理解、语音等方向,基本覆盖大模型研究各个领域, 计划招募约 30 位顶尖应届博士。 值得一提的是,本届 Top Seed 强调不限专业背景,更关注研究潜力,希望寻找具有极强技术信仰与热情、具备出色研究能 力、富有好奇心和驱动力的年轻研究者。 值得注意的是,字节跳动在此次招聘启事中还透露了几位刚毕业的同学已经做出了一些有影响力的研究。 比如,Z 同学构建并开源了首个多语言代码修复基准 Multi-SWE-bench,在 SWE-bench 基础上,首次覆盖 Python 之外的 Java、TypeScript、C、C++、Go、Rust 和 JavaScript 七种编程语言,1632 个真实修复任务,是真正面向"全栈工程"的评测 基准,其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。 ...
智谱与生数科技达成战略合作
快讯· 2025-04-27 14:10
4月27日,智谱与生数科技宣布达成战略合作,将基于各自在大语言模型和多模态生成模型的技术积累 和优势,在联合研发、产品联动、解决方案整合、行业协同等多方面展开合作。根据战略协议,在产品 合作方面,智谱MaaS平台将接入生数科技Vidu API。 ...
活动报名:我们凑齐了 LCM、InstantID 和 AnimateDiff 的作者分享啦
42章经· 2024-05-26 22:35
清华交叉信息研究院硕士,研究方向为多模态生成,扩散模型,一致性模型 代表工作有 LCM, LCM-LoRA, Diff-Foley · 王浩帆 硕士毕业于 CMU,InstantX 团队成员,研究方向为一致性生成 代表工作有 InstantStyle, InstantID 和 Score-CAM · 杨策元 42章经 AI 私董会活动 文生图与文生视频 从研究到应用 分享嘉宾 · 骆思勉 LCM、InstantID 和 AnimateDiff 这三个研究在全球的意义和影响力都非常之大,可以说是过去一整年里给文生图和文生视频相关领域带来极大突破或应用 落地性的工作,相信有非常多的创业者都在实际使用这些作品的结果。 这次,我们首次把这三个工作的作者凑齐,并且还请来了知名的 AI 产品经理 Hidecloud 做 Panel 主持,届时期待和数十位 AI 创业者一起交流下文生图、文生视频 领域最新的研究和落地。 PhD 毕业于香港中文大学,研究方向为视频生成 6/01 | 13:00-14:00 (周六) 北京时间 美西时间 5/31 | 22:00-23:00 (周五) 活动形式 线上(会议链接将一对一发送) ...