Workflow
多模态
icon
搜索文档
可感知 可交互 可延伸 文旅新消费 “玩”出科技感
中国青年报· 2025-09-16 09:01
"当前,数字技术正深刻重塑文旅产业形态,科技创新已成为破解文旅发展痛点、激发消费活力的核心 动力。"北京市文化和旅游局副局长刘壮在2025年中国国际服务贸易交易会(以下简称"服贸会")"科技赋 能文旅数智焕新发展"专题论坛上表示。 随着数字技术不断融入日常生活,文旅消费正实现三大转向:从"走马观花"走向"深度沉浸",从"单点 服务"迈向"全域智能",从"线下局限"跨入"跨域联动"。 在同日举办的"科技赋能文旅 数智焕新发展"专题论坛和"科技新场景激活新消费"专题论坛上,多家企 业分享了他们关于文化和旅游的科技创新案例。人工智能、虚拟现实(VR)、超高清、多模态等新科 技,正以"体验重构者""需求激活者""边界拓展者"的角色,为旅游新消费注入强劲动能,催生出一批可 感知、可交互、可延伸的文旅新场景。 沉浸式体验重构:让"过目"变"沉浸" 智能化服务渗透:让"被动响应"变"主动适配" 旅游消费的核心痛点,在于"服务跟不上需求"——人工导游话术重复、景区寻路难、咨询响应慢等问 题,曾制约游客消费意愿。如今,人工智能、大数据等技术打造的智能服务体系,正以"千人千面"的适 配能力,精准对接线下线上不同群体的需求,将"满 ...
一线投资人热议AI:三大赛道仍处风口,不完美创业者受青睐
证券时报网· 2025-09-14 12:38
核心观点 - AI产业处于技术奇点与商业爆发交汇口 重点关注大模型向多模态、智能体及具身智能的跃迁 [1] - 中国AI应用走在国际前列 多个全球"首个智能体"来自中国 受益于过去20年互联网及移动互联网积累的产品经理能力与技术快速迭代 [4] - 未来全球最顶尖的智能体中三分之二将来自中国创业团队 [6] 细分赛道投资风口 - 算力、Agent和"AI+产业"三大细分赛道仍是投资风口 [2] - 蚂蚁集团过去两三年在算力层公司出手较多 关注未来Token消耗及能源支撑问题 [2] - 明势创投在智能体领域已布局6家成长较快Agent中的3-4家 [2] - 经纬创投重点关注AI与消费电子、机器人、工业及零售行业的融合 [2] 智能体投资策略 - 智能体分为通用和垂类两种 前者天花板高但风险高 后者超额回报空间有限 [3] - 蚂蚁集团投资以垂类智能体为主 选择标准包括市场空间大、付费意愿强及能构建护城河 [3] - 智能体创业需避开大模型能力迭代主赛道 否则可能被大公司版本升级冲击 [3] - 创世伙伴创投采用"哑铃策略":投资与复杂工作流结合的To B应用及天花板更高的通用方向 [3] 创业者特征偏好 - 新一代创业者比上一代年轻10岁且呈年轻化趋势 已出现00后创业者 [4] - 创业团队需对模型等技术有深刻理解 创业门槛高于移动互联网时代 [4] - 青睐对技术有独到认知、具备商业敏感度及快速迭代能力的团队 [5] - 偏好拥有非共识的超级产品经理特质 如理想汽车李想 [5] - 认可"不完美的创始人能做出伟大产品" 有激情但不够理性者更具潜力 [5] - 谨慎对待AI经验超过3年的创业者 因其可能无法区分新旧AI技术差异 [5] 行业发展前景 - 中国通过实际应用场景与环境互动获得真实应用数据 该路径在机器人领域被特别看好 [3] - 需对年轻创始人保持耐心与宽容 允许其保留个性化风格而非严格遵循CEO标准 [6] - 即便当前最优秀Agent在许多领域仅能达到30-40分水平 在细分领域做到50-60分即有大量用户付费 [2]
投资人热议Agent投资:通用与垂类智能体的路径权衡
国际金融报· 2025-09-13 21:09
技术从大模型跃迁到多模态、AI Agent(人工智能体)与具身智能,产业正处在技术奇点与商业爆发的交汇口。9月12日,在2025Inclusion·外滩大会 的"全球AI投资展望——AI创业的爆发与中国机遇"论坛上,围绕AI智能体的落地前景及投资逻辑,多位AI领域创业者、投资人展开观点交锋。 阶跃星辰创始人、CEO姜大昕认为,智能体正在金融、医疗、教育等垂直领域快速渗透,而下一代智能硬件的竞争焦点将是"会做事、总在场、有记 忆、能进化"。"随着世界模型的建立,智能体终将从数字世界走向物理世界。走向物理世界能够从经验中学习,自主学习,并且和人类科学家一起发现人类 还没有发现的物理规律。" 在智能体公司的估值尚未锚定、商业化刚刚起跑的黎明,投资人也选择了不同的路径。当前智能体大致可分为通用和垂类两种,前者天花板更高但伴随 更高投资风险,后者则超额回报的想象空间有限。 蚂蚁集团战略投资部资深总监黄海坦言,通用智能体和垂直智能体两个方向都有成长的空间,目前蚂蚁投资的智能体以垂类为主,其选择关键在于"市 场空间够大、付费意愿强,且能够在一定阶段构建护城河"。他同时表示,在投资中对算力等底层基础设施持续关注,未来Toke ...
可灵VS即梦:初探“多模态”
钛媒体APP· 2025-09-11 13:33
文 | 硅基星芒 目前国内两个最火的AI生成视频平台,非可灵和即梦莫属。 作为影视外行人和AI爱好者,我准备组建一个纯AI的"影视团队",看看效果如何。 在正式开始之前,还有一个问题:文生图+图生视频or文生视频? 两个平台都具备上述功能,那么两条路应该走哪条? AI给出的答案是:使用"文生图+图生视频"的方法具备更高的可控性;而"文生视频"的方法能够让视频 更有"动态感"。 考虑了一下成本和效率,我还是选择了可控性优先。 01 第一步:AI编剧,编写剧本 想拍一部电影出来,首先肯定得有编剧来写剧本。 我把先前公众号上发布过的一篇文章,以PDF形式丢给了目前公认性能强大的Gemini 2.5 Pro。 尤其是图生视频指令,涵盖了场景、动作、运镜、风格这些专业化的东西,解决了大麻烦。 02 第二步:AI画师,绘制"分镜图" 前面已经说过,采用"文生图+图生视频"的方式可以提高可控性。 剧本既然已经有了,接下来的任务就是绘制"分镜"。 我把AI编剧写好的这些首帧图片指令,统统交给了腾讯混元这个AI文生图模型。 相比文字,AI在图片领域的能力显然有所下降。 不得不承认,文字方面,AI当编剧确实是绰绰有余。 分镜头脚 ...
中信证券:巨头持续布局的AI浏览器以及情感陪伴类应用潜力值得关注
新浪财经· 2025-09-08 08:44
AI行业数据处理量增长 - 谷歌7月Token处理量达980万亿 较5月翻倍[1] - 微软Azure AI Foundry第二季度Token处理量达310万亿 环比增长210%[1] AI应用收入表现 - 海外前100名AI应用7月年度经常性收入总额达393亿美元 较5月增长17.3%[1] - ChatGPT和Claude等头部应用带动收入持续兑现[1] 热门应用方向 - AI编程和多模态技术成为最火热发展方向[1] - Lovable、Replit、Pixverse、Nano Banana等产品陆续出圈[1] - 科技巨头持续布局AI浏览器领域[1] - 情感陪伴类应用展现出显著发展潜力[1]
九章云极COO尚明栋:算力利用率不足30%,根源在于「堆硬件」而非「重运营」丨智算想象力十人谈
雷峰网· 2025-09-02 18:09
" AWS曾主动降价12次,云大厂在智算产业竞争中并非绝对安全 者。 " 作者丨 刘伊伦 编辑丨 包永刚 "行业内平均算力使用率不足30%,大量算力闲置浪费。" "消纳难"已经成为整个算力行业的通病,除了为头部互联网公司定制化供应算力的大型AIDC厂商,绝大 多数智算中心都在面对同样的困境。 造成大规模算力闲置,除了供大于求之外,裸金属租赁的商业模式本身也存在无法规避的弊端。九章云极 COO尚明栋认为,裸金属租赁意味着锁定两样东西: 时间与资源边界。 为了覆盖前期建设和硬件采购成 本,算力租赁企业往往倾向于"整租长租",这就使得资源消纳完全由单个主体决定,无法开放给其他企业 使用。 从经济角度来看,这种模式只适合少数拥有大规模模型训练需求的厂商,而这类厂商数量有限,市场需求 容易饱和。一位行业人士曾直言:"大厂都有自己的圈子,外部企业很难进入供应链,拿不到订单。"在技 术能力和客情关系都不足的情况下,盲目建设的算力集群往往无人问津。即便推理算力需求迎来爆发,这 些厂商也难以应对零散而弹性的算力需求。 " 算力作为基础设施本质上是一种运营型的生意 ,而不是一次交付就结束的产品。算力项目的核心价值在 于 持 续 ...
谷歌NanoBanana出圈
华福证券· 2025-08-31 13:19
行业投资评级 - 多模态向更高能力突破 看好多模态领域的爆发 [6] 核心观点 - 谷歌 Nano Banana 成为最先进的图像生成与编辑模型 在图像编辑领域模型榜单中以1362分位列第一 大幅领先第二名flux(1191分)和GPT-image-1(1170分)[3] - 谷歌 Veo3 成为视频生成领域排名第一大模型 在lmarena平台图生视频和文生视频排行榜均排名第一 [5] - 海外平台迅速接入Nano Banana 包括Adobe、Poe、WPP、Freepik、Leonardo.ai、Figma等 并验证生产力提升 [4] 技术优势 - Nano Banana具备四大核心能力:跨图一致性、多图融合、对话式/指令式精细编辑、借助Gemini世界知识的更强常识/语义理解 [3] - 定价保持高性价比 每百万token 30美元 折合约0.039美元/张图 [3] - Veo3具备原生音频生成、强提示遵循、创作控制能力 支持API级8秒/720p稳定参数 [5] 应用场景 - 设计类工作生成和编辑:品牌内容、电商营销领域的海报生成与处理、商品图制作、多元素拼贴 [4] - 创意设计与社媒内容:四格漫画生成、真人手办制作、产品内部结构拆图、游戏UI设计 [4] - 图像修复与内容改写:图片打光处理、局部PS处理 [4] - 与外部工具结合:应用于AI视频生成、AI 3D生成 [4] 投资建议 - 关注谷歌Veo3与YouTube的版权产业链:阜博集团 [6] - 关注AI图片应用公司:A股万兴科技、港股美图公司 [8] - 关注AI视频应用公司:快手、哔哩哔哩 [8] - 关注IP平台:阅文集团 [8] - 关注游戏平台:心动公司、吉比特 [8]
消失一年,Kimi杨植麟最新对话:“站在无限的开端”
创业邦· 2025-08-30 11:19
文章核心观点 - 杨植麟将AI研发视为攀登无限雪山的过程 问题不可避免但可解决 技术突破持续拓展知识边界[4][5][9][10][12][13] - Kimi K2模型基于MoE架构 具备开源编程和Agentic能力 被《自然》杂志称为"又一个DeepSeek时刻"[4] - 大模型发展从"缸中之脑"演进为与外部世界交互的系统 Agentic能力成为关键突破点[15][16][43] - 技术发展路径呈现非线性格局 L1-L5能力层级存在并行发展可能[19][20][21][22][23] - Token效率取代计算效率成为新焦点 Muon优化器实现30T token等价60T效果[29][30][32][33] 技术发展路径 - 模型能力从Chatbot经Reasoner、Agent向Innovator、Organizer演进 但层级非严格串行[19][20][23] - Agentic能力突破使模型从封闭思考转向多轮工具使用 实现测试时扩展[16][43][44] - 多智能体系统成为L5级关键特征 可实现任务分工与协作[21][22][53] - 模型自我迭代能力(L4)依赖Agentic能力实现 将参与下一代模型开发[20] Kimi K2技术特性 - 采用MoE架构提升参数规模与token效率[33] - 应用Muon优化器替代Adam优化器 学习效率达2倍提升[29][30] - 通过数据改写策略增强高质量数据利用 解决30T token数据墙限制[32][33] - 专注Base Model与Agentic能力结合 强化泛化性训练[34][35] 研发挑战与突破 - 面临Agent泛化性不足挑战 Benchmark过拟合问题突出[34][35][47] - Muon优化器大规模训练出现max logit爆炸问题 通过clipping技术解决[30][40] - Long Context架构与智商保持存在冲突 需平衡技术方案[51][52][71] - 多模态能力训练需避免损伤文本智商 追求"聪明多模态"[63][71] 行业生态格局 - 开源闭源阵营持续博弈 全球市场将收敛至少数几家[55][57][59] - "一方产品"趋势增强 模型与工具端到端整合提升上限[17][18][62] - 通用Agent与垂直Agent并存发展 长尾工具泛化成关键[44][73][74] - API与一方产品构成主要商业模式 头部公司ARR达数十亿美金[75] 技术演进方向 - Token效率提升成为突破数据墙核心路径[29][33] - 强化学习Scaling效率超越预训练 成为发展重点[28][66] - AI native训练方式加速发展 模型将参与自身训练过程[36][47][72] - 交互方式随模型能力持续演进 新范式逐步形成[64][65] 公司战略定位 - 技术决策决定公司五六成走向 关键bet需提前布局[70] - 研发重心从预训练+SFT转向预训练+RL范式[28] - 长期坚持技术开源分享 推动社区协同发展[55][57] - 动态平衡API服务与一方产品商业模式[75]
谢赛宁回忆七年前OpenAI面试:白板编程、五小时会议,面完天都黑了
机器之心· 2025-08-29 17:53
AI大厂面试特点分析 - Meta研究者Lucas Beyer发起关于AI大厂面试体验的投票 选项包括Google/Meta/MS、OpenAI/Anthropic、xAI和Old DeepMind [1] - 投票结果显示Old DeepMind以32.1%的得票率被评为最佳面试体验 [20] 顶尖研究人员职业轨迹 - Lucas Beyer拥有超过94,000次学术引用 h-index达40 2020年以来引用量达93,147次 [2][4] - 2024年6月与Alexander Kolesnikov和Xiaohua Zhai三位研究者共同从OpenAI转入Meta [2] 各公司面试模式比较 - Old DeepMind采用两小时高强度面试 包含100多个数学统计和机器学习问题 [6] - Meta FAIR面试侧重学术讨论和编码 曾由Piotr Dollar、Ross Girshick和何恺明担任面试官 [6] - Google面试采用"教职面试"模式 包含编程题和研究讨论 知名AI学者Noam Shazeer曾参与面试 [7] - OpenAI面试采用5小时白板编程和研究报告形式 由联合创始人John Schulman亲自设计强化学习问题 [7] 面试过程典型案例 - 谢赛宁在OpenAI面试时讨论强化学习中的方差崩溃问题 尽管当时对该领域了解有限但仍需现场研究解决 [7] - Omar Shams回忆DeepMind面试涵盖代码数学统计和机器学习 面试官Jacob Menick给予满分评价 [12] - Rishabh Agarwal被Christian Szegedy面试时 需解决概率分布相关的飞镖游戏问题 并在餐巾纸上完成数学计算 [18] - Felipe Mello在谷歌面试中被要求编写单元测试并分享最难解决的bug [14] - Ashwinee Panda在xAI联合创始人张国栋的面试中获得研究灵感 最终扩展为正式研究成果 [16] 行业人才流动趋势 - 知名研究人员频繁在顶级AI机构间流动 包括OpenAI、DeepMind、谷歌大脑和Meta等 [2][6] - 行业顶尖人才如Ross Girshick(超过60万引用)和何恺明已从企业转向学术或创业领域 [6]
顶层设计定方向!“人工智能+”锚定发展节奏
国际金融报· 2025-08-27 19:17
政策目标与规划 - 国务院印发《关于深入实施"人工智能+"行动的意见》 提出人工智能发展三步走计划 到2027年实现人工智能与6大重点领域广泛深度融合 应用普及率超70% 到2030年应用普及率超90% 智能经济成为重要增长极 到2035年全面步入智能经济和智能社会发展新阶段 [1] - 政策提出加快实施六大重点行动 涵盖科学技术 产业发展 消费提质 民生福祉 治理能力和全球合作领域 [1] - 政策要求强化8项基础支撑能力 包括提升模型基础能力 加强数据供给创新 强化智能算力统筹 优化应用发展环境 促进开源生态繁荣 加强人才队伍建设 强化政策法规保障和提升安全能力水平 [1] 产业影响与机遇 - 中国应用场景丰富 先进制造等行业数字化基础良好 为人工智能技术可持续发展提供有力支持 [2] - 人工智能正处在从实验室走向大规模产业应用的关键窗口期 政策引导技术 产业 资本 人才同向发力 将塑造高质量发展新质态 [2] - 基础大模型作为底层技术 上游牵引芯片算力层 下游推动应用落地 企业技术路线和产业布局与政策高度同频 [3] - 多模态是通向AGI的必经之路 政策强调跨模态融合和基础理论研究 支持多路径技术探索和模型基础架构创新 [3] 企业战略与布局 - 企业继续深耕基础技术研发 发布多模态推理旗舰大模型 联合国产芯片厂商推动生态建设 率先布局智能终端应用 [3] - 企业探索多模态理解与生成一体化的下一代底层技术架构 将智能终端Agent作为大模型技术落地发力点 重点布局汽车 手机 具身和Iot四大场景 [3] - 企业联合生态伙伴共同打造垂类Agent 落地千行百业的大模型应用 [3] - 人机协作和人智共创成为企业运营新常态 模型成为企业智能底座 企业智能化转型从碎片化改造变为全价值链整体重构 [4] 技术发展趋势 - 智能体和超级智能体让人机关系从人适应机器变为机器服务于人 [4] - 企业需要跳出技术升级局限 充分挖掘大模型潜力价值 认识潜在风险 [4] - 科技企业推动AI创新赋能实体经济 恪守人本底线 实现普及普惠 [4]