Workflow
多模态
icon
搜索文档
前字节剪映AI产品负责人创业,获硅谷基金及BV百度风投投资,要做营销多模态Agent
36氪· 2025-10-29 13:08
公司核心业务与产品定位 - 公司“极致上下文”致力于打造一个新时代的“AI表达系统”,其首款产品是一个营销Agent,而非视频生成工具 [6][7][53] - 产品定位为端到端的解决方案,前端通过多模态交互理解企业品牌调性和需求,后端整合各种AI模型能力,直接交付成品视频 [6][26] - 目标是将传统营销视频制作成本降低十倍,交付速度提升百倍,使交付质量达到行业标准 [6][29][30] - 公司选择从“生产力信息”场景切入,优先服务营销人员、品牌方等有明确工作产出目标的用户,因其ROI可量化 [28][29] - 产品开发初期将首先面向海外市场推出,后续计划拓展至教育、办公等更多垂直领域 [7][57] 创始人背景与创业契机 - 创始人廖谦拥有丰富的AIGC产品经验,曾在腾讯云打造DAU千万的换脸产品,在字节跳动从0到1推出火山引擎Top1流量产品“智能创作云”,并主导剪映出海项目Pippit达到月活百万 [1][2][10][13] - 2024年初加入多模态初创公司生数科技,带领Vidu团队实现从0到1的冷启动,达到数千万全球用户和数千万美金收入 [2][15] - 创业想法源于在生数科技期间处理上千单企业级AIGC定制需求时发现的明确痛点:企业用户不需要复杂AI工具,而是需要能直接交付成片的解决方案 [5][16][18] - 公司于2024年8月成立,并在半个月内迅速敲定了由HT investment和BV百度风投投资的数百万美金首轮融资 [2] 行业趋势与技术拐点判断 - 多模态领域的ChatGPT时刻即将来临,底层模型技术处在迅猛变化中,但落地鸿沟依然存在 [2][6] - 2024年被认为是技术拐点,关键因素包括多模态模型效果与成本达到可商业化水平,生成视频成本相比传统制作可降低到十分之一 [19][20] - 模型推理能力的突破(如ChatGPT o1发布)使得大模型落地千行百业成为一个优化程度问题,而非行与不行的问题 [20] - 多模态模型的一致性得到显著提升,为商业化应用扫除了主要瓶颈 [20][21] - 中国在AI视频领域具有独特优势,短视频生态领先全球1-2年,对视频生态的落地探索和理解更深 [7][52] 竞争格局与战略选择 - 公司战略定位为“造船的人”,即应用层开发者,其能力会随着底层模型能力的上升而增强,Sora等基础模型的进步对公司是利好 [4][35][36][37] - 明确选择不做通用Agent,而是聚焦垂直场景,认为移动互联网早期的发展规律(垂直应用胜出)同样适用于AI Agent领域 [7][27][57] - 面对Sora等强大基础模型的发布,公司的策略是建立快速反应机制,产品需每周迭代一次,以应对基础模型每两三个月一次的快速迭代 [64] - 在创业心态上强调要更冒险、更激进,去做尚未被验证过的可能性,而非追求确定性 [5][65][68] 产品交互与交付模式 - 产品交互设计为多模态,不仅限于文字输入,会通过生成参考图等方式更精准地理解用户偏好 [32] - 交付模式是保证交付一个达到行业特定质量标准的、内容本身合格的交付物,但不保证其发布后带来的市场“效果”[59][60] - 对于中小客户,其业务流程可以接受AI完全接管;但对于大客户,仍需要真人参与对接 [33] - 未来信息表达将进入“生成时代”,AI能主动理解、抓取、聚合信息,并为用户动态生成全新的、个性化的内容(如图文报告、播客)[56][62]
剪映前AI产品负责人创业多模态Agent,做懂上下文的007乙方,成立半月融资数百万美元
量子位· 2025-10-29 10:39
公司概况与融资 - 创始人廖谦于2024年8月底成立新公司“极致上下文”,公司成立仅半个月即获得硅谷美元基金HT Investment与BV百度风投的数百万美元投资 [1][2][4][10] - 公司名称源于对AI发展的理解,即AI应能深度理解并呼应用户上下文,目标是构建“更多的Context,更少的Control”的公司文化 [5][6] 创始人背景 - 创始人廖谦拥有计算机视觉技术背景,职业经历涵盖算法、产品、商业化完整路径,以及国内与海外市场、大厂与0到1创业经验 [8][9][27] - 曾任职于腾讯天美游戏工作室、腾讯云、字节跳动火山引擎,并作为发起人孵化剪映海项目Pippit(月活超百万),后加入生数科技担任产品副总裁,主导Vidu产品并带领超百人团队 [28][29][30][31][32][33] 产品战略与目标 - 公司首要目标是打造面向营销场景的多模态Agent,提供从创意、脚本到视频生成、编辑的端到端能力,因营销场景需求明确、效果可量化、付费意愿强 [3][11][12][13][18] - 中长期规划是构建AI时代的信息表达系统,让任何人(品牌或个体)实现个性化自我表达,未来能力可拓展至教育、生活方式、娱乐等领域 [19][20][21][22] 商业模式与用户定位 - 采用“预期思维”或“结果导向”的Agent模式,用户无需学习技能,Agent像专业Agency一样理解用户诉求,全流程自动完成内容生成 [14][15] - 目标用户是“大概知道自己要什么,但不需要懂怎么做的人”,产品核心价值在于持续降低用户的使用成本、理解成本与价格成本 [16] 行业机遇与技术判断 - 当前技术周期进入拐点,语义理解、镜头语言、画面真实度全面提升,Google Veo3和Sora 2等技术已达“可用”临界点,重点是将能力转化为真实产品价值 [23][24][25] - 巨头互殴(如Sora 2侵蚀抖音、TikTok核心业务)为初创公司提供进攻窗口期,可定义新内容形态、协作方式及信息分发逻辑 [36][37][38][39] - AI视频领域,“一致性”是绝对可预见的提升方向,包括画面角色一致性、音色一致性及画面美学(构图、光影等)待解决 [44]
豆包凶猛,深度解析字节AI战略
36氪· 2025-10-28 20:27
公司AI战略与市场地位 - 字节跳动在AI战略上采取“一盘棋”式协同打法,这在当前国内大型互联网公司中较为少见 [1][7] - 公司AI体系被视为“几乎没有短板”的选手,具备自研大模型底层能力、抖音超级流量入口及快速孵化App的产品体系 [1] - 豆包大模型与DeepSeek、阿里Qwen同处国内第一阵营,但在视频、图像、语音多模态产品化与矩阵完整度上具有优势 [4][5][6] 豆包App用户与产品策略 - 截至2025年8月,豆包App月活用户超过1.57亿,成为国内移动端用户量最大的AI聊天助手,其主要竞争对手DeepSeek月活约为1.43亿 [2] - DeepSeek流失用户中有近四成转向豆包App [2] - 豆包App产品风格主打“亲近”、“易用”,支持语音、视频、方言聊天,区别于西方AI聊天助手的强工具属性 [2] - 2025年9月,字节老将赵祺接手豆包产品,工作重心或将转向加速用户规模与商业变现 [3] 豆包大模型技术进展与表现 - 豆包大模型在2025年6月发布1.6版,作为国内首个原生多模态模型,在长上下文和性价比上表现突出,实现市场处境逆转 [4][5] - 截至2025年9月底,豆包大模型日均tokens调用量已突破30万亿,相比2025年5月底增长超过80% [5] - 在开发者评测中,豆包大模型在中文理解、多模态理解、视频生成中表现优异,但在代码生成、复杂API调用等任务上弱于部分竞品 [5] - 2025年初,Seed部门核心领导层变动,前Google DeepMind副总裁吴永辉博士加入,担任模型基础研究负责人 [6] 商业化与生态协同路径 - 豆包App未来可能的变现路径包括:围绕特定场景推出按次计费服务、针对企业或高频需求设置超额使用收费、在抖音生态中嵌入功能通过广告分成或佣金获取收益 [3] - 豆包大模型通过“一盘棋”打法实现品牌、产品互动、引流和商业化的协同,例如豆包App的消费端体验直接推动了企业级市场对豆包大模型的选择 [8][10] - 抖音(含极速版)月活于2025年3月达10.01亿,成为AI原生应用引流的万能入口,并在产品层与豆包形成双向互动闭环 [10] - 豆包大模型已应用于抖音、飞书、番茄小说等字节内部超过50个业务场景,火山引擎上的产品均先在内部跑通验证后再对外服务 [10][11] - 在电商大促期间,飞书多维表格集成文案、图片和视频生成工具,能批量帮助商家生成内容并一键发布至抖音,形成内部闭环 [11]
量子位「MEET2026智能未来大会」已启动!年度AI榜单 & 趋势报告正在征集中
量子位· 2025-10-28 16:04
MEET组委会 发自 凹非寺 量子位|公众号 QbitAI 我们正迈入一个由人工智能重塑一切的新时代。 智能技术已经深刻渗透进生产和生活, 跨越了软件、硬件、机器人等不同形态 ,从工具发展为能深度理解人类需求的智能伙伴。 如今,智能技术不再局限于某一特定领域,而是 跨越产业、学科和场景的边界 ,催生出全新的生态和机遇。 随着多模态、AR/VR、空间计算等新兴技术的涌现, 数字世界与物理世界的界限正在逐步模糊并融合 。 在这股强大的技术浪潮中,企业、技术与社会之间的连接与共生,已成为推动发展的核心动力。 我们正见证人工智能逐步成为基础设施的一部分,正在重塑人类未来的工作、生活和社会运作模式。科技的不断进步正在突破传统的边界,各 类新兴技术交织融合,推动着产业的深度变革。 正是在这样的背景下,我们将以 「 共生无界,智启未来」 为主题,正式启动 MEET2026智能未来大会 !承袭MEET系列年度行业观察的视 角,诚邀科技、产业与学术领域的领军人物齐聚一堂,共同见证行业变革。 今年,是 MEET智能未来大会 的第七年。作为年度影响力科技商业峰会,每年最具行业代表性的科技商业领袖,都会来到大会分享前瞻观点 与认知。 ...
晚报 | 10月27日主题前瞻
选股宝· 2025-10-26 22:49
算力 - 全球首款类脑智算体"智者一号"发布,将超算能力浓缩至迷你冰箱大小的设备中,实现超算能力高度集成化[1] - 类脑智算通过适配原创性的直觉神经网络类脑算法,为传统超算中心与智能算力集群的能效提升提供全新路径[1] - 类脑芯片与存算一体架构将突破传统冯·诺依曼瓶颈,实现算力密度与能效的指数级提升[1] 仓储物流 - 中国物流与采购联合会发起倡议,要求仓储经营者遵循《价格法》,以成本与市场供求为定价依据,自觉维护市场价格稳定,抵制低质低价恶性竞争[2] - 仓储经营者须以数字化转型为核心战略方向,通过技术升级、流程优化提升运营效率与核心竞争力[2] - 行业正从传统"货品保管"向"智能供应链枢纽"转型,预计到2030年市场规模将达3.5万亿元[3] 空气电池 - 工信部装备工业发展中心提出建议,系统布局金属空气电池等新一代电池研发工作,加速新技术产业化进程[3] - 金属空气电池是利用锌、镁、铝等常见金属与氧气、海水制成的新型电池,是一种半储能半燃料的电池[4] - 相比锂离子电池,金属空气电池在能量密度、充电时长、续航里程、环保、安全等方面有诸多优势[4] 光刻胶 - 北京大学团队通过冷冻电子断层扫描技术,首次原位解析光刻胶分子在液相环境中的微观三维结构,指导开发出可显著减少光刻缺陷的产业化方案[4] - 研究成果解决了长期困扰先进芯片制造的光刻缺陷问题,提高了芯片良率[4] - 为在原子/分子尺度上原位研究液体环境中的化学反应提供了通用工具,有助于推动光刻、蚀刻、清洗等多个制造环节的缺陷控制[4] 大飞机 - 文莱民航局发布新条例,文莱航空公司获准运营中国制造的客机,为中国喷气式客机进入文莱市场奠定法律基础[5] - 中国商飞预测,到2042年全球客机总规模将达到48455架(约为2022年的2.2倍),中国客机将达到9969架,成为全球最大单一航空市场[5] - 预计未来20年(2023-2042年)中国将接收超9000架新机,对应价值1.4万亿美元,C919批产交付有望打破空客、波音的垄断格局[5] 无人驾驶 - 英伟达宣布与优步就自动驾驶汽车开发展开合作,优步股价当日上涨3.5%[6] - 合作重点在于利用优步收集的大量真实驾驶数据来训练英伟达的Cosmos World基础模型[6] - 英伟达将借助其DGX Cloud基础设施加快开发进程,相关英伟达智能驾驶产业链公司有望受益[6] 多模态 - 蚂蚁集团即将发布全新AGI多模态应用"灵光",已上线应用商店并开启邀约内测,最大特点为"AGI相机"功能[6] - "灵光"上线意味着蚂蚁在AGI多模态赛道正式布局,依托十亿级实名账户与万亿支付数据,具备天然场景与合规壁垒[7] - 乐观测算"灵光"三年内可为蚂蚁带来百亿元增量收入,估值重估空间或超1500亿元[7] 宏观与行业 - 中美双方在吉隆坡举行经贸磋商,就多项重要经贸议题形成初步共识,下一步将履行各自国内批准程序[8] - 截至9月底,全国累计发电装机容量37.2亿千瓦,同比增长17.5%[8] - 中国人民银行开展9000亿元MLF操作,期限为1年期[8] - 截至10月17日,股票私募仓位指数升至79.68%,较前一周上涨0.55个百分点,创年内新高[9] - 沐曦股份科创板IPO获上市委会议审议通过[10] 市场主题复盘 - DRAM板块受三星、海力士四季度涨价30%及美股存储芯片龙头集体大涨影响,相关公司包括大为股份、普冉股份等[14] - 航天板块受四中全会公报提出建设航天强国影响,相关公司包括航天科技、中国卫星等[14] - 国产芯片板块受四中全会公报提出加快高水平科技自立自强影响,相关公司包括大豪科技、汇顶科技等[15] - 机器人板块受十五五规划提出推动脑机接口、具身智能等成为新经济增长点影响,相关公司包括新泉股份、春秋电子等[15] - 大消费板块受四中全会公报发布要大力提振消费影响,相关公司包括祖名股份、联翔股份等[15] - 量子计算板块受谷歌量子芯片实现新突破影响,相关公司包括格尔软件、达华智能[16]
多模态技术、产品、商业化均边际向上,看好多模态投资机会
东方证券· 2025-10-19 10:25
行业投资评级 - 传媒行业投资评级为“看好”(维持)[5] 报告核心观点 - 多模态行业在技术、产品、商业化层面均呈现边际向上趋势,投资机会显著[2] - 行业技术迭代势头迅猛,底模能力上下限同步提升,推动产品与商业化落地加速[2] - 产品路径出现分化,例如谷歌Veo系列和快手可灵系列更专注专业内容创作者,而Sora更偏重C端用户,不同路线均加速商业应用[2] - B端应用向高难度内容领域(如电影)渗透,C端产品商业模式逐步落地,共同驱动行业规模扩容提速[2] 技术层面总结 - 10月海外厂商模型相继迭代,行业技术下限与上限同步提升[7] - OpenAI的Sora2相较前代进步显著,物理运动规律和画面真实感大幅提升,分镜能力和叙事性达到SOTA,支持多语种内容生成,Pro用户可生成25秒视频(对比其他模型5~10秒)[7] - Google Veo3.1为小版本迭代,音频生成效果、画面质感提升,并具备一定分镜能力[7] - 国内厂商中,快手可灵2.5turbo版本在文生视频和提示词响应上突破,海螺02版本、ViduQ2模型、万相2.5等在物理规律、视觉美学、一致性方面提升下限能力[7] 产品层面总结 - 边际变化在于OpenAI对C端的触达加速用户拓圈,视频模型产品路径出现分化[7] - OpenAI上线Sora APP(AI原生短视频内容社区),10日内用户突破300万,自10月4日起霸榜美国地区iOS总榜第一[7] - 产品路径分化为两类:一是以OpenAI为代表,侧重C端用户简单Prompt生成完整成片,满足创意轻量化产出和社交传播;二是以Veo系列和可灵系列为代表,围绕专业内容创作者需求,注重稳定性、可控性、一致性[7] 商业化与应用前景总结 - B端内容制作向电影等高难度领域加速渗透,例如全球首部AIGC空战电影《带我去飞》(全片39分钟)上线后取得腾讯视频战争电影榜Top1[7] - AI视频技术商业化运营提速,看好其在视频广告素材、短剧、动漫、电影电视剧等内容制作领域的提效作用[7] - Sora的应用落地有望加速C端商业变现路径,包括广告、IP分成等模式,进一步抬升多模态行业的规模天花板[7] 投资建议与标的 - 建议重视垂类多模态AI应用机会,看好技术突破与成本优化带动用户增长、付费渗透和商业化发展[3] - 尤其关注有多模态AI应用出海布局的公司,其起量速率可能更快[3] - 相关标的包括:快手-W(买入)、美图公司(买入)、万兴科技(未评级)[3] - 年底至明年建议重视Meta逻辑的演绎(基于模型能力带来的CTR提升使收入提升),收入提升同时带来估值重塑,建议跟进大厂实际落地测试情况[3] - 建议关注:阿里巴巴-W(买入)、腾讯控股(买入)、快手-W(买入)[3]
百度蒸汽机,盯上长视频生成实时交互
21世纪经济报道· 2025-10-17 19:00
多模态AI视频行业竞争格局 - 行业竞争焦灼 参与方在技术上均无绝对优势 长期优势难以维持[2] - 当前竞争焦点在于执行力与速度[2] - 近期Open AI发布Sora 2模型 国内AI视频公司亦频繁更新动态[3] 百度蒸汽机模型技术进展 - 百度蒸汽机模型于10月15日升级 重点提升交互体验[3] - 模型实现实时交互生成AI长视频 突破传统10秒时长限制[4] - 用户可通过上传图片和提示词启动生成 并可实时预览 随时暂停或修改提示词以控制视频剧情 画面和转场[4] 百度蒸汽机模型技术细节与迭代 - 为延长视频时长 行业普遍采用"首尾帧续写"技术 但易导致视频缺乏连贯性[4] - 百度团队升级基础架构 引入自回归扩散模型 并着手消除训推偏差及优化一致性以应对技术挑战[4] - 自7月发布以来 模型基本保持每月重大更新的迭代频率[4] - 百度蒸汽机的APP正在规划中[4]
量子位「MEET2026智能未来大会」启动!年度榜单征集中
量子位· 2025-10-14 13:39
技术发展趋势 - 人工智能正从工具演变为深度理解人类需求的智能伙伴,跨越软件、硬件、机器人等形态 [2] - 多模态、AR/VR、空间计算等技术融合,推动数字世界与物理世界的界限模糊并融合 [4] - 智能技术跨越产业、学科和场景边界,催生全新生态和机遇,成为驱动社会演进的核心动能 [3][14] 行业生态与影响 - 企业、技术与社会之间的连接与共生成为推动发展的核心动力,技术贯通产业链并催生新业态 [5][14] - 人工智能逐步成为基础设施,重塑人类未来的工作、生活和社会运作模式 [7] - 数字智慧开始重塑物理世界,提升全社会福祉和效率 [14] MEET2026智能未来大会 - 大会主题为“共生无界,智启未来”,聚焦人工智能+、AI Infra、智能终端、智能驾驶、低空经济、能源电力等前沿话题 [13][14] - 会议拟于2025年12月在北京举办,汇聚科技、产业、学术领域领军人物,包括李开复、张亚勤、多位院士及百度、阿里、腾讯、华为等公司代表 [7][9][24] - 大会作为年度科技商业峰会,过往吸引上千名科技从业者现场参与,百万观众线上围观,近百家合作媒体联合曝光 [12] 年度评选与报告 - 将发布“2025人工智能年度榜单”,从公司、产品、人物三大维度评选领航企业、潜力创业公司、杰出产品、杰出解决方案、焦点人物五类奖项 [16][17][18][19] - 量子位智库拟在大会上发布《2025年度AI十大趋势报告》,提名释放巨大潜力的十大AI趋势并进行深入分析 [22]
《大模型的第一性思考》李建忠对话GPT5与Transformer发明者Lukasz Kaiser实录
36氪· 2025-10-13 18:46
对话一:语言对于智能到底意味着什么? - 语言模型在智能构建中扮演核心角色,其成功源于对语言在智能中核心作用的认知,ChatGPT和Transformer的成功均得益于此[6][9] - 语言具备时间维度,总是在生成下一个词,而序列模型(如Transformer)可处理包括语言、蛋白质、音频在内的各种序列,时间序列是表达智能的重要组成部分[7] - 语言训练具有实践优势,互联网上海量的语言数据使得训练非常方便且成本远低于视频训练[9] - 语言模型确实会形成独立于语言的抽象概念,例如在解决数学问题时,尽管用不同语言生成答案,但解题方式和错误类型相同,表明模型在抽象空间进行思考[10] - 然而,未经过大量多模态数据训练的模型,其概念(如"痛苦"或"爱")可能与人类植根于物理世界的真实感受有所不同[11] 对话二:多模态与世界模型的挑战 - 现代大语言模型(如GPT-4)已是多模态模型,能接收和生成图像、音频,并已取得巨大进展,例如ChatGPT的语音模式可以对话、唱歌[12] - 当前多模态处理方式(如通过VQ-VAE将图像/音频编码为特殊代码)有效但不令人满意,未来需要更深入地将多模态融合到模型中,使编码更具可训练性并与语言有更多交互[13] - 语言对于为视觉对象赋予语义含义至关重要,否定语言价值的视觉派研究可能重蹈ChatGPT发布前的错误路线[14] - 现代大语言模型在某种程度上已是世界模型,在文本和数学方面表现卓越,但作为物理模型的表现不如语言模型,部分原因是视频训练数据不足、质量不佳及当前架构限制[14] - 通过改进架构、损失函数并增加更好更多的数据,结合像Sora、Genie和Veo这类从视频学习的模型,正在弥合"世界模型"与"语言模型"之间的差距[15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔"? - Transformer架构的创造者在早期就已预见其在自动化编程方面的应用潜力[17] - 未来语言模型将能覆盖大量编程工作,但数学符号和编程语言作为沟通工具,在解释复杂概念时比纯自然语言更高效,因此专业程序员仍需掌握这些概念以实现与模型的快速、高效沟通[18] - 编程的重点在于沟通和抽象,而非特定语言,AI有望帮助更好地使用现有编程语言来改进系统,而非必然需要创造新的为AI设计的编程语言[19] - 新的编程语言需求将来自新的计算硬件架构,而非AI编程本身[20] 对话四:Agent的泛化困境:是方法问题,还是根本限制? - 所谓的"智能体模型"通常指在其推理过程中能调用外部工具(如代码解释器、网络搜索)的推理模型,这些模型使用强化学习训练且效果良好[21] - Agent泛化问题的主要挑战在于缺乏学习信号,当模型使用未经训练的工具时,没有像强化学习训练那样的反馈机制来检查答案正确性[22] - 要实现出色的多智能体系统,需要能够模拟整个环境进行训练,而这在当前难以实现,但即使没有大量训练,聪明的模型也能零样本完成许多任务[23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖? - 预训练的Scaling Law已带来巨大进展,但存在经济上的实践极限,因为用户不愿为每个token支付过高费用,且大模型可被蒸馏成更小模型[25] - 预训练的Scaling Law在解决某些问题(如GSM-8K数学数据集)时速度不可行,而强化学习推理能用小模型解决相同问题,显示出更高的数据效率[26] - 推理模型的Scaling Law(通过强化学习让模型运行更长时间以提升性能)受限于Transformer的上下文长度设计以及强化学习在长序列推理中的信用分配问题[27] - 推理的Scaling Law与预训练的Scaling Law有不同限制,这呼唤新的研究和可能的架构或强化学习算法改进[28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异? - 具身智能可能更接近于当前的大语言模型,数据效率正在提高,例如推理模型能用极少样本学会困难任务[29] - 实现具身智能需要一个在大量视频上预训练好的多模态模型作为基础,再结合强化学习进行推理训练,但需要调整架构以适应现实世界行动的速度要求[30] - 第一个版本的具身智能模型可能基于现有成果调整,但未来会出现数据和计算更高效的新一代模型[31] 对话七:强化学习:是超级优化器,还是科学发现的引擎? - 由强化学习驱动的推理模型可被视为一种数据效率更高的新架构或范式,能够从有限数据(如1000道数学题)中学习[32][33] - 强化学习只依赖一个奖励信号,若优化得当,模型有望从研究论文中学习并提出连专业人员都觉得新颖的想法,推动科学发现[33] - 该范式仍处于早期阶段(社区广泛关注约一年),需要更多尝试、发现和改进以提升效率和应用范围[34] 对话八:AI的组织跃迁:如何实现大规模Agent协作? - 实现大规模Agent组织(如成千上万个Agent协作)的最大挑战在于开发下一代推理模型,需要类似Transformer之于RNN的架构创新[35] - 当前推理模型顺序生成token的方式缺乏并行性,未来需要为并行过程提供更多信号,并结合新的架构来融入并行处理[36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远? - 通过将记忆作为工具(如访问互联网或记忆库)并结合强化学习训练,模型可以有效地解决记忆问题,当前方案已相当可行[37][38] - 未来可能出现更优雅的记忆机制,如将记忆转化为连续的向量或通过类似LoRA的适配器微调模型权重,但这仍是待研究的问题[40] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习? - 利用上下文学习作为持续学习的记忆是当前已实现的进展,模型将对话信息放入上下文进行处理,但效率并非最高[39] - 通过记忆工具和像LoRA这样的适配器微调技术,实质性修改权重已变得更加可行,为持续学习提供了基础,但如何优化算法仍是研究重点[40] - 下一代推理架构有望实现更并行的处理,推动模型在科学发现等领域的应用,未来并不遥远[41]
Ai主线 太强
小熊跑的快· 2025-10-13 16:05
股市表现比较 - A股市场表现强于美股市场 [1] - 中积电公司表现强于台积电公司 [1] 行业数据与趋势 - 9月和10月大模型tokens调用量持续增长 [3] - Gemini和Claude模型的日活跃用户数据表现良好 [3] - 人工智能与黄金板块出现同步上涨行情 [5] 大模型技术发展 - 多模态被视作大模型技术发展的下一个重要方向 [6] - 美国公司10月底即将发布的财报数据获得支撑 [1]