Workflow
生成式AI
icon
搜索文档
TUM最新!全面梳理自动驾驶基础模型:LLM/VLM/MLLM/扩散模型和世界模型一网打尽~
自动驾驶之心· 2025-07-29 08:52
自动驾驶基础模型综述 - 文章全面梳理了自动驾驶中LLM/VLM/MLLM/扩散模型和世界模型的最新工作,系统总结了相关数据集和BenchMark [1][2] - 基础模型在复杂驾驶场景合成与解读方面展现出强大潜力,可处理异构输入如自然语言、传感器数据等 [2][9] - 综述提出了统一分类体系,涵盖LLMs、VLMs、MLLMs、DMs和WMs在自动驾驶场景生成与分析中的应用 [2][14] 技术发展现状 - Waymo等公司已实现SAE四级自动驾驶商业化,2025年每周可提供25万次载客服务 [7] - 基于仿真的场景测试成为关键验证方法,可复现真实数据集中缺失的边缘案例 [8][21] - 基础模型通过大规模预训练获得通用知识,能高效适应特定AD任务 [9][10] 模型应用进展 - LLMs在场景评估中依赖高消耗提示词,新兴推理模型可能实现更高效零样本评估 [30] - VLMs通过BEV特征提取、VQA执行等技术应用于感知和预测任务 [34][36] - DMs通过前向加噪和反向去噪过程生成高质量场景样本 [42][44] 数据集与工具 - nuScenes和Waymo Open成为最具影响力的数据集,分别被引用52次和19次 [51] - CARLA、MetaDrive等仿真平台在研究中被广泛使用 [53] - 行业已建立多个基准挑战赛推动技术进步,如CARLA AD Challenge等 [54] 未来研究方向 - 需提升生成场景的真实性,将物理模型与数据驱动方法结合 [55] - 应开发专门针对罕见事件的生成方法,建立针对性数据集 [55] - 需创建多模态融合的大规模数据集,解决当前可扩展性问题 [56] - 行业亟需开发标准化评估指标和KPI体系 [56]
直击WAIC 2025 | 专访德勤TMT行业主管合伙人程中:有效的AI治理范式应从被动向主动转变
每日经济新闻· 2025-07-28 21:49
"过去一年,我们看到一种趋势:企业已从追问要不要做生成式AI,转向如何做得更好。"程中认为,真正的竞争在于谁能更快将技术转化为业务流程的实际 增效,其中,聚焦至关重要,需优先投资可验证回报的实际案例。 德勤科技、媒体、电信行业主管合伙人程中 图片来源:企业供图 企业AI投资需经历漫长阵痛期 每经记者|张韵 每经编辑|魏官红 "在生成式AI(人工智能)的热潮下,价值挖掘与风险防控的失衡已成为企业必须跨越的鸿沟。""2025世界人工智能大会"期间,德勤中国提出,技术狂奔与 风险管理的落差,本质是传统框架难以适配新变量。 如何让生成式AI的潜力真正转化为可持续的商业价值?德勤科技、媒体、电信行业主管合伙人程中在接受《每日经济新闻》记者(以下简称NBD)专访时 表示,生成式AI治理并非是可暂缓的选项,企业须尽快行动起来。人员上明确权责、提升素养,流程上贯穿全生命周期控险合规,技术上借平台破解黑箱 难题,三者协同才能在竞争中占据主动。 NBD:在企业的AI化重构过程中,推动AI迈向真正能被财务报表验证的ROI(投资回报率)闭环需要经历怎样的阵痛期? 程中:AI化重构过程通常有四个阶段。企业起初需要建立AI战略愿景,这个 ...
【公募基金】“高低切”持续,关注低位科技——公募基金权益指数跟踪周报(2025.07.21-2025.07.25)
华宝财富魔方· 2025-07-28 16:55
分析师:王骅 登记编号:S0890522090001 分析师:宋逸菲 登记编号:S0890524080003 投资要点 权益市场回顾: 上周(2025年7月21日-7月25日)A股做多意愿显著,全周A股日均交易额约1.85万亿元,环比 大幅放量3000亿元。上周周期股全面走强,雅下水电站开工带来需求增量预期,"反内卷"政策持续发酵,市场 对于内需尤其是价格端改善的预期快速升温。 权益市场观察: 公募二季报调仓思路:整体来看,主动公募基金二季度调仓方向围绕景气和估值修复展开。 再论"反内卷":本轮反内卷行情的本质仍是资金充裕环境下,由预期、筹码博弈和肌肉记忆驱动的主题行情 。 科技板块的回摆:生成式AI产业浪潮持续深化,除大模型快速迭代外,AI应用也已经产生较为可观的收入体 量,国内也在快速追赶过程中。新一轮的科技浪潮还在过程中,AI热点持续发酵,AI算力和应用上涨空间仍 存。另外,考虑到半导体有望受益于低位补涨行情,同样值得关注。 公募基金市场动态: 7月24日,第二批 12 只新型浮动费率基金获批。 主动权益基金指数表现跟踪 主动股基优选指数:上周收涨1.67%,成立以来累计录得12.31%的超额收益。 价 ...
快手可灵AI引爆WAIC论坛,累计生成视频超2亿条,中金维持“跑赢行业”评级看高80港元
智通财经· 2025-07-28 15:08
公司动态 - 可灵AI目前在全球拥有超过4500万创作者,累计生成超2亿个视频和4亿张图片,服务超过2万家企业客户 [1] - 产品自发布以来迭代升级30余次,已完成30余次迭代 [1][2] - 中金公司维持快手"跑赢行业"评级及80港元目标价 [1] - 可灵AI发布全新多图参考、灵动画布等功能,其中灵动画布功能于7月27日正式开启邀测 [2] - 可灵AI已初步建设成为一站式AI生产力引擎,成为大模型产业落地的标杆产品 [2] 技术发展 - 可灵AI从赋能工具升级为生态构建者,表达能力持续提升 [1] - 升级后的多图参考在角色、主体和场景一致性、动态质量、画风保持等方面显著提升 [2] - 灵动画布功能集无限可视化空间、智能创作辅助与多人实时协作为一体 [2] - 可灵1.0版本验证了视频生成技术可实际应用,2.0版本通过性能与成本优化推动行业标准化 [2] - 未来技术趋势将聚焦于生成效果和可控性的持续突破 [1] 战略定位 - 可灵AI目标是成为AI时代的视频创作新基础设施,让"每个人用AI讲出好故事" [1] - 2025年被视为生成式AI技术走向深度应用的关键元年 [1] - 生成式AI不仅是技术革新,更是生产关系的重塑 [1] - 未来将持续输出技术成果,探索数字人交互、游戏内容生成等新场景 [2]
快手可灵AI累计生成超2亿视频, B端生态接入企业客户及开发者突破两万
财经网· 2025-07-28 13:53
公司发展现状 - 可灵AI目前在全球拥有超过4500万创作者,累计生成超2亿个视频和4亿张图片 [1] - 公司已服务超过2万家企业客户,覆盖广告营销、影视动画、游戏制作等行业 [1] - 产品自发布以来迭代升级30余次,商业化变现规模呈现加速趋势 [1][4] - 2023年一季度收入规模达到1.5亿人民币,P端付费订阅会员贡献近70%营业收入 [4] 产品技术进展 - 多图参考模型效果比之前提升102%,在角色一致性、动态质量等方面显著提升 [3] - 灵动画布功能正式开启邀测,集无限可视化空间、智能创作辅助与多人实时协作为一体 [2] - 新增支持用户仅参考图片局部内容/特定区域,避免无关元素干扰 [3] - 基础模型持续提升,解决时长、连贯性、一致性等问题 [2] 商业化进展 - 全球已有超过2万企业客户接入API接口,覆盖149个国家和地区 [4] - 企业客户包括小米、百度、蓝色光标、Freepik等知名公司 [5] - Freepik平台用户使用可灵AI生成的视频数量超过其他模型总和 [5] - P端付费订阅会员数量和ARPU值均呈现较高增速 [4] 行业影响与未来方向 - 生成式AI被视为生产关系的重塑,目标是成为AI时代视频创作新基础设施 [1] - 1.0版本验证视频生成技术可实际应用,2.0版本推动行业标准化 [5] - 未来将聚焦生成效果和可控性突破,探索数字人交互、游戏内容生成等新场景 [5] - 技术迭代采用"技术+用户"双轮驱动模式,持续优化产品方向 [3]
在浦东的地下场馆里我看到中国的未来
虎嗅· 2025-07-28 12:25
具身智能与AI基础设施 - 世博展览馆地下一层FUTURE TECH展厅聚焦具身智能和AI基础设施,相比楼上喧闹的展区更注重务实创新 [1] - 共绩算力采用算力Airbnb模式,通过智能调度网络整合闲时算力资源,为AI应用提供弹性临时计算服务 [3][6] - 共绩算力将4090显卡租用价格降至1.68元/卡时,吸引AI视频生成和陪伴机器人等波动性算力需求大的客户 [8][9] - 赛源(CyberOrigin)为具身智能大厂提供真实物理世界交互数据,解决通用机器人落地难题 [10] - RWKV开发RNN+Attention架构替代Transformer,解决长上下文记忆缺陷,已完成数千万人民币天使融资 [12][15][16] 垂直场景AI应用 - 地下展馆按场景划分展区,包括AI for Science、AI办公、AI语音、AI健康等垂直领域 [17] - 上海不用上班科技专注18亿穆斯林市场,开发阿语教育机器人和AI陪伴机器人 [17] - AKOOL实现4000万美元年度经常性收入,服务100万用户,客户包括影视公司和数字人公司 [18] - 医者AI使用MoE架构大模型+垂直Agent,瞄准医院外日常健康管理服务市场 [18] - 深圳可触未来推出桌面陪伴机器人,可将手机作为交互界面,已获硬科技孵化器投资 [22] 行业趋势与创新 - 中国AI创业圈已形成聚焦垂直场景的行业共识,从早期通用AI产品转向垂直应用 [22][23] - 年轻创业者以行业Know-how和敏捷开发能力,在场景与算法碰撞中寻找技术落地最优解 [23] - 类似DeepSeek的MoE架构创新案例显示,年轻人通过技术重组实现突破性应用 [23] - 硬件供应链能力在具身智能领域表现突出,但部分公司存在临时拼凑产品现象 [12] - 开源创新成为重要方向,RWKV试图在大模型领域复制Linux的成功模式 [15][16]
2025世界人工智能大会:中金公司投融资发展论坛
中金· 2025-07-28 09:42
2025 世界人工智能大会:中金公司投融资发展论坛 20250727 摘要 中国 AI 产业凭借完善的产业链生态和巨大的市场规模占据领先地位,通 过科技赋能、人才培养和政策协同,构建技术、资本、人才与市场正向 循环的创新生态,推动资产重估和价值重估。 AI 作为通用型技术,具有自我加速特征,预计未来十年内,AI 每年将带 来平均年化约 0.8%的生产率上升,到 2035 年,中国 GDP 总量可能因 AI 额外增加 12.4 万亿人民币。 中国 AI 市场规模预计到 2030 年将达到 5.6 万亿人民币,为创业者提供 广阔空间,但同时也面临高昂的创业成本和行业不确定性等挑战。 中国顶尖 AI 公司与美国之间的差距正在缩小,有机会参与全球标准制定, 中金公司负责的科技企业融资项目中,全球投资人的参与程度显著提升。 全球 AI 风投和研究投资规模庞大,但 AI 安全投资严重不足,存在巨大 的资金缺口,需要采用"耐心资本"策略,优先考虑长期安全,同时实 现短期收益。 Q&A 中国在 AI 市场规模方面有哪些优势?如何将这些优势转化为创新动力? 中国在 AI 市场规模方面有两大显著优势。首先是算法和人才储备的优势, ...
什么是真正好用的推理模型?阶跃Step 3:开源的,多模态的,低成本的,国产芯片适配的
量子位· 2025-07-27 19:57
行业趋势与市场现状 - 推理模型和具身智能成为2024年WAIC最受关注的领域,分别代表当前AI话语权和下一代有形技术[1] - 行业进入推理时代后,多模态模型涌现,推理能力成为焦点,开源成为厂商和用户首选考量[10] - 模型评估标准从单一性能指标转向综合考察效率、成本、部署友好性等维度[11] Step 3核心特性 - 总参数321B的MoE架构,视觉编码器5B参数+语言模型316B参数,激活参数38B[5][17] - 多模态能力突出:在MMMU等榜单取得开源多模态推理模型新SOTA,支持跨领域复杂知识理解与视觉信息交叉分析[6][19] - 成本效率优势:推理解码成本为DeepSeek的1/3,国产芯片推理效率达DeepSeek-R1的300%[8] - 开源策略:7月31日开源,打破"强模型不开源"局面,GitHub未发布已获107星[24][25][26] 技术创新与架构设计 - AFD分布式推理系统:将Attention与FNN拆解至独立子系统,解码效率优于DeepSeek EP方案[32][34] - MFA注意力机制:硬件感知低秩设计,KV缓存小于DeepSeek-V3,算术强度128平衡内存与算力[36][37][39] - 系统协同优化:32张Hopper GPU实现4039 tokens/GPU/s吞吐量,对比DeepSeek-V3(128张GPU)的2324 tokens/GPU/s[41] 商业化落地进展 - 终端智能Agent覆盖汽车、手机、IoT等领域: - 智能座舱实现人机共驾,吉利银河M9首发搭载端到端语音大模型[64][66] - 国内Top10手机厂商过半接入多模态能力,OPPO/荣耀/中兴旗舰机型已部署[69] - 2025年预计收入近10亿人民币,形成清晰商业化路径[74] 产业链协同生态 - 国产芯片适配:完整支持华为昇腾、沐曦、天数智芯等国产芯片运行[51][52] - 发起"模芯生态创新联盟":联合10家芯片及Infra厂商构建技术链路,成员包括华为昇腾、寒武纪等[54][55] - 模型-硬件协同设计:通过架构创新降低API依赖,推动可持续成本优化[50][58] 产品定位与市场策略 - "多开好省"四字诀:多模态、开源、高性能、低成本,重新定义推理模型价值标准[13][45] - 差异化竞争:避开参数竞赛,聚焦终端部署与产业落地,形成收入规模[73][76] - 长期主义定位:通过技术工程化能力构建产业线长跑优势,区别于短期SOTA追逐者[77][79]
开创Agentic AI新篇章,亚马逊云科技揭秘“会干活”的智能体
第一财经· 2025-07-27 17:56
Agentic AI技术跃迁 - AI技术经历三次关键跃迁:预测性AI(2022年前)、生成式AI(2023年开启)、Agentic AI(2025年进入元年)[3] - Agentic AI标志机器具备自我思考、反思和任务拆解能力,能通过迭代优化实现目标[3] - 支撑Agentic AI的四大能力支柱:智能化大脑、类人记忆系统、工具化连接能力、个性能力[3][4][5] Agentic AI商业应用 - 2025年被称为Agentic AI元年因其商业价值在关键场景爆发[7] - 三大最快落地场景:提升业务生产力、推动工作流自动化、加速研发与创新效率[7] - 软件开发领域典型案例:亚马逊Kiro编程助手能端到端自动化完成电商系统模块开发[7] - 客户反馈新代码中AI生成比例已超70%[8] - 客服领域应用使首轮问题解决准确率达78%,人工介入需求直降43%[8] - 医药研发领域多智能体协作系统显著加速新药研发进程[8] 亚马逊云科技解决方案 - 公司推出AgentCore解决方案包含大脑/记忆/工具化/个性四大能力[11][12] - AgentCore填补AI Agent从原型到生产环境的关键鸿沟[12] - 提供企业构建Agent系统所需的通用能力底座而非具体应用[12] - 优势包括生产级托管基础设施+开发灵活性、支持开源框架+企业级能力、消除安全运维重复工作[12] - 标准化能力帮助企业降低开发成本和产业化门槛[13] 行业预测数据 - Gartner预测到2028年15%日常工作决策将由Agentic AI自主完成(2024年几乎为零)[5]
快手可灵AI发布全新功能灵动画布
快讯· 2025-07-27 15:53
在WAIC期间举办的"生成式AI应用元年"论坛上,快手可灵AI发布了灵动画布和多图参考的重磅升级。 灵动画布作为创意工作台,集成了无限可视化空间、智能创作辅助和多人实时协作,为创作者提供一站 式的创作体验。(智通财经) ...