Workflow
多模态
icon
搜索文档
汪华的最新预言:AI时代和移动互联网的最大区别是实现,而非连接
暗涌Waves· 2025-06-19 17:21
移动互联网与AI时代的范式差异 - 移动互联网的核心范式是连接,追求大体量用户群和垄断性平台,而AI时代的核心范式是实现,聚焦垂直领域的高价值交付[4][5] - 大厂在AI领域仍沿用移动互联网打法,争夺10%-20%的连接市场,但80%-90%的实现市场留给创业者[5] - 新旧范式的本质区别在于:移动互联网追求广度(用户规模),AI追求深度(单用户价值)[5][6] 模型红利带来的创业机遇 - 2023年底至今,推理模型和多模态技术突破形成史上最大模型红利,创业者可借此快速实现千万美元级营收[8][9][11] - 模型性能在指令遵循、工具调用等实际应用场景的进步远超榜单体现,半年内多个垂直领域出现从"玩具"到"惊艳"的转折[11][12] - 典型案例包括:医疗笔记公司估值达50亿美元,编程工具Lovable利用Claude3.7实现前端开发革新[11][12] 垂直领域创业策略 - 目标市场选择标准:不需大规模用户,但需高ARPU(toC约200美元/年,toB几十个客户即可达千万美元营收)[17][18] - 成功案例:Rille t用AI重构中小企业财务系统,一年内颠覆传统产品;餐饮管理SaaS通过模型整合实现快速商业化[21][22] - 方法论:聚焦具体痛点,问题定义越细模型效果越好,避免与通用方案(如谷歌搜索)正面竞争[23][24] Agent与多模态的技术窗口 - Agent领域:未来一年工具调用能力将提升10倍,从当前支持十几个工具扩展到上百个工具协同[31][33][34] - 多模态领域:B端应用存在巨大空白,视频生成、运动控制等关键技术将在10个月内显著进步[35][36] - 行动窗口:模型红利黄金期约12个月,之后进入同质化竞争阶段,创业者需抓住技术跃迁期[34][36] 全球化市场机会 - 中国创业者应瞄准全球市场:欧美市场ARR达成速度比国内快5-10倍,且模型能力更成熟[7][21] - 南方创业者优势:强商业化能力、全球化视野与AI实现范式高度契合,有望复制跨境电商成功[37][38] - 行业分布:除互联网外,重点关注医疗、法律、金融、餐饮等传统行业数字化改造[22][24]
直击CVPR现场:中国玩家展商面前人从众,腾讯40+篇接收论文亮眼
具身智能之心· 2025-06-18 18:41
CVPR 2025核心趋势 - 多模态和3D生成成为论文接收与研讨的热门方向 其中高斯泼溅技术是论文标题出现频率前五的关键词之一 [8][17] - 基础模型讨论深入并延伸至产业落地 具身智能和机器人AI成为独立Workshop板块 [8] - 中国企业参与度创纪录 腾讯、字节等大公司主导展区 但参与主体仍集中于成熟商业化企业 [4][9][32] 技术研究热点 - 多模态以75次出现频率位列论文标题关键词榜首 扩散模型(153次)、大语言模型(129次)紧随其后 [16] - 3D生成领域突破显著 高斯泼溅技术推动神经渲染研究 腾讯Hunyuan 3D 21版本实现几何与纹理双重优化并全面开源 [17][21][23] - 计算机视觉与图形学加速融合 3D重建相关论文数量激增 国内技术跃迁速度加快 [19][20] 企业参与动态 - 腾讯表现突出:40+篇论文入选 覆盖混元大模型团队(多模态推理/3D生成)、优图实验室(DeepFake检测/自监督生成)等方向 [34] - 中国企业赞助力度加大:6家中国机构进入赞助商名单 腾讯与字节跻身白金赞助商行列 投入规模创历史新高 [36][37] - 人才争夺策略升级:腾讯派出20人技术团队现场交流 通过Demo展示、学术活动直接对接顶尖人才 [38][44] 产业应用延伸 - Workshop议题设计呈现双轮驱动:既深化视觉概念等基础研究 又拓展3D场景理解、数字孪生等产业应用场景 [27][30] - 腾讯形成商业反哺技术闭环:2024年研发开支70686亿元 累计研发投入达3403亿元 专利授权超45万件支撑AI持续投入 [46] - AI商业化成效显现:腾讯AI能力已驱动广告与游戏业务增长 微信生态内新AI应用成为重点投入方向 [50]
直击CVPR现场:中国玩家展商面前人从众,腾讯40+篇接收论文亮眼
量子位· 2025-06-17 15:41
CVPR 2025核心趋势 - 多模态与3D生成成为论文接收热门方向 其中高斯泼溅技术为前五高频关键词之一[6][15] - 基础模型讨论深入并延伸至产业落地 具身智能与机器人AI设立独立Workshop板块[6] - 计算机视觉与图形学加速融合 神经渲染推动3D论文数量显著增长[16][17] 中国企业参与表现 - 腾讯、字节等企业展区规模创纪录 技术Demo体验排队现象突出[3][5] - 腾讯40+篇论文被接收 覆盖混元大模型团队、优图实验室等多方向[32] - 蚂蚁、字节、快手分别有21篇、12篇(含4篇Highlight)、12篇论文入选[32] - 中国企业赞助商占比达6/41 腾讯与字节跻身白金赞助商行列[34] 技术突破与开源进展 - 腾讯Hunyuan 3D 2.1版本实现几何与纹理双重优化 达到开源3D模型SOTA水平[21] - 该模型为全链路开源工业级3D生成大模型 支持消费级显卡适配[23] - 多模态领域高频词包括扩散模型(175次)、大语言模型(129次)、文生图(48次)等[14] 产业应用与人才战略 - Workshop议题新增3D捕获重建、数字孪生等方向 聚焦真实世界建模需求[28] - 腾讯研发投入超706亿元(2024年) 全球专利申请公开总数达8.5万件[44] - 腾讯科技类人才占比73% 青云计划提供无上限薪酬与顶尖科学家资源[51][52] - 企业通过顶会展示技术实力 形成商业反哺技术的良性循环[46][48]
模型上新、降价,火山引擎急推AI应用落地
21世纪经济报道· 2025-06-14 08:55
行业趋势 - 2024年是中国大模型应用元年 2025年可能是中国Agent落地元年 技术主体从PC时代的web 移动时代的APP 转向AI时代的Agent [4] - Agent正逐步进入企业各个业务流程 规模化落地需要解决堵点 [5] 定价策略 - 首创按输入长度区间定价模式 0-32K输入区间每百万tokens输入0 8元 输出8元 综合成本是豆包1 5深度思考模型的三分之一 [5][6] - 豆包1 6使企业成本下降63% 仅需原价三分之一即可使用新模型 [7] - 视频生成模型Seedance 1 0 pro每千tokens 0 015元 生成5秒1080P视频仅需3 67元 1万元预算可制作超2700条 [11][12] 技术升级 - 模型进化聚焦三个方向 深度思考 多模态理解和工具自主调用 [8] - 豆包1 6全系列原生支持多模态思考能力 具备图形界面操作行动力 可自动操作浏览器完成酒店预订 识别购物小票整理Excel [9][10] - Seedance 1 0 pro支持文字与图片输入 生成多镜头无缝切换1080P视频 [10] 市场表现 - 豆包大模型日均tokens使用量超16 4万亿 较去年5月发布时增长137倍 [13] - 服务全球TOP10手机厂商中9家 8成主流汽车品牌 70%系统重要性银行及超5成985高校 [14] - 大模型收入增速最快 毛利位居前列 客户拓展目标激进 [14] 战略定位 - 推动Agent普及的关键是做好模型 降低成本 完善落地工具 [15] - 不以免费低质模型赚吆喝 坚持通过技术价值获取行业认可 [15]
“AI掉队者联盟”谋求改命
创业邦· 2025-06-13 11:30
AI行业现状 - AI行业呈现两极分化现象,新人辈出的AI应用与面临转型困难的早期AI企业共同构成"AI掉队者联盟"[3][5][6] - 商汤作为AI 1.0时代头部企业,市值较最高点蒸发超3000亿港元,创始团队出现重大变动[7][8] - AI 1.0时代核心技术(如计算机视觉)难以直接迁移至AI 2.0时代,企业面临技术路线转型挑战[9][12] AI 1.0时代特征 - 计算机视觉技术(CV)是核心赛道,诞生商汤、云从、旷视、依图等"AI四小龙"[14][15] - 技术突破显著:2014年旷视Face++人脸识别准确率达99.5%,推动安防、金融等行业商业化[19] - 发展依赖两大假设:技术领先转化商业优势、政府支持持续创造需求,2020年后均被打破[22] - 商汤2024年营收37.72亿元(同比+10.8%),但净亏损42.78亿元,日均烧钱1172万元[23] 转型压力与应对 - AI四小龙面临财务压力:商汤员工缩减23.6%,云从全员降薪20%,依图裁员70%[24] - 第四范式转型AI Agent服务商,医疗行业解决方案推动股价单日涨幅达9.79%[29][32] - 思必驰选择硬件路线,自研AI芯片年出货超2000万颗,覆盖IoT设备1.6亿台[33] - 垂直领域AI公司面临通用大模型威胁,技术壁垒可能崩塌[35] AI 2.0时代竞争 - 大模型技术成为核心,商汤"日日新大模型"进入国内第一梯队,但面临腾讯等大厂竞争[39][41] - 腾讯通过整合DeepSeek开源模型,微信月活用户增至14.02亿,展示商业化优势[42][43] - 月之暗面受开源模型冲击,转向多模态研发寻求突破[44][45] - 多模态技术成为新焦点,但商业化路径尚不明确,企业采取多元化尝试策略[46][47] 基础设施与资源 - 商汤构建AI算力基础设施,上海临港AIDC峰值算力达9400P,为亚洲最大之一[38] - 大厂凭借财力、流量入口和商业生态形成碾压优势,纯AI创业公司生存空间受挤压[43]
中信证券:火山引擎正赋能多品类硬件产品AI落地 重点关注字节生态链公司
智通财经· 2025-06-13 08:47
火山引擎Force2025原动力大会 - 火山引擎通过Force2025大会展示AI在多品类硬件产品的落地能力,重点布局多模态视觉理解应用 [1] - 大会设主论坛、产品专场、行业专场及合作伙伴论坛,凸显生态协同效应 [1] - 字节跳动大模型在硬件端应用覆盖AI闹钟、学习机、玩具、眼镜等15+品类,呈现多品类延伸趋势 [2] AI硬件产品落地进展 - 火山引擎AI玩具支持角色/音色/动作快速配置,AI耳机首字响应时间1.5秒,均实现Turnkey交付模式 [2] - 接入豆包大模型的AIoT产品出货量已超100万台,其中国内头部AI玩具公司跃然创新占比25% [2] - 火山引擎预计2024年底AIoT产品接入量将突破1000万台,年增长达10倍 [2] - 安防摄像头通过大模型升级为管家助理,台灯+摄像头组合可实现拍照解题功能,体现多模态应用价值 [3] 产业链合作与技术创新 - 博通集成芯片优化豆包生态端侧AI体验,突出低延迟/高带宽/超低功耗特性 [4] - 星宸科技在多模态领域布局居家/商业/可穿戴场景,眼镜端芯片已实际应用 [4] - Rokid展示眼镜端多模态方案,跃然创新计划年内发布全球首款端到端AI玩具 [4] AI眼镜发展趋势 - 小米首款AI眼镜预计6月26日发布,采用高通AR1+恒玄2700芯片及索尼IMX681传感器 [5] - 行业产品形态将从无显示向单绿/全彩显示迭代,2025年重点关注光波导/MicroLED技术突破 [5] - 建议跟踪META/Rokid/影目等厂商新品节奏,供应链关注显示技术环节 [5]
多模态大模型迎来新阶段
2025-06-09 09:42
纪要涉及的行业和公司 - **行业**:AI 产业、算力产业、芯片产业 - **公司**:星宸科技、英伟达、博通、盛宏、深亿、华电、韦尔股份、思特威 - W、格科威、恒玄科技、万德、谷歌、微软、ChatGPT、Deepseek、豆包、OpenAI、苹果、字节跳动、特斯拉、中芯国际 纪要提到的核心观点和论据 - **AI 应用落地路径**:AI 应用以嵌入式方式落地传统软件,如万德、谷歌、微软等软件内嵌 AI 功能,改变市场对 AI 落地速度和方式的认知 [1][3] - **AI 产业链供需现状**:2025 年全球算力供给端问题基本解决,核心矛盾转向需求端;尽管 AI 原生应用日活增长有限,但 TOKEN 消耗量指数级增长,预计 2025 年 6 月算力需求供不应求 [1][4][5] - **市场对 AI 产业认知偏差**:市场对 AI 产业认知存在时间偏差,AI 产品推广周期远短于传统行业,渗透速度远超传统制造业和互联网时代 [1][7] - **AI 模型更新方向**:未来 AI 模型更新集中在多模态、物理 AI 和 ChatGPT 5 等方面,多模态包括视频理解与生成,物理 AI 涉及自动驾驶等硬件媒介 [1][8] - **投资建议**:看好海外算力、多模态相关芯片公司以及国产算力产业链,如英伟达、博通、星宸科技等 [2][14][19][20] 其他重要但是可能被忽略的内容 - **重要会议和活动**:2025 年 6 月 10 日苹果 WWDC 大会、6 月 11 日字节跳动原生生态大会、6 月 12 日特斯拉展示 RoboTaxi 功能,这些可能带来重要产品更新和发布 [1][11][13] - **多模态视觉理解模型**:2025 年 5 月 30 日上线豆包 APP,实测理解准确度高,未来将嵌入其他 APP、应用于安防监控、探索智能眼镜领域 [12] - **星宸科技情况**:在安防和家用监控领域成熟,开拓汽车 ISP 芯片业务已获订单,开发运动相机产品预计下半年有订单突破,发布眼镜产品,将在元动力大会做多模态相关报告 [15][16] - **恒玄科技进展**:今年下半年推出集成后的 SoC 主控芯片,针对智能眼镜行业开发推广 [18] - **国产算力挑战与前景**:中芯国际 3 月起因国产零配件原材料有良率问题,预计 7 月改善,国产算力板块将随良率修复迎来行情 [19]
美团无人机香港首条运营航线开航|首席资讯日报
首席商业评论· 2025-06-08 11:56
美团无人机香港首航 - 美团无人机首条常态化航线在香港科学园至马鞍山海滨长廊投入运营,采用"跨海+公园"场景[1] - 航线配送效率提升7倍,已有香港麦当劳、必胜客等商户接入服务[1][2] - 计划以香港科学园为起点,逐步开通至马鞍山居民小区等无人机空投柜航线[1] 佳禾食品与幸运咖合作 - 佳禾食品产品广泛应用于食品饮料领域,蜜雪冰城旗下咖啡品牌"幸运咖"是其重要客户之一[3] AI多模态发展 - 大模型正从数字世界走向物理世界交互,多模态有望在2025年迎来规模化落地拐点[4] - 数据集共享成为开源协作的关键[4] 滴滴高温补贴 - 滴滴将在全国近300个城市发放超6亿元高温补贴,覆盖北京、上海等12个重点城市[5] - 补贴将在暑期3个月持续发放[5][6] 波音对华交付重启 - 波音737MAX飞机从西雅图飞往中国,为4月以来首次恢复对华交付[7] - 该飞机原为舟山工厂待交付的新飞机,4月曾被退回美国[7] 黄金价格波动 - 老庙黄金足金饰品价格跌至999元/克,较前一日下跌9元/克,2天累计下跌17元[8][9] 特斯拉人事变动 - 特斯拉Optimus人形机器人项目工程主管米兰・科瓦奇离职,由自动驾驶负责人阿肖克・埃卢斯瓦米接手[10] 白象食品产品更名 - 白象食品将原"多半"系列更名为"面饼120克","多一半"系列更名为"面饼110克"[11] - 本月内将停止生产原包装产品,后续终止使用原产品名[11][12] 特朗普与特斯拉 - 特朗普考虑出售或赠送其购买的红色特斯拉,该车原为白宫拍照活动使用[13] - 特朗普称马斯克是"一个失去理智的人",双方关系破裂[13][14] 江苏公积金政策 - 江苏省提高住房公积金贷款额度,支持提取公积金支付购房首付款[15] - 加大租房以及建造、翻建、大修自住住房等提取住房公积金支持力度[15] 比亚迪行业倡议 - 比亚迪李云飞呼吁汽车行业比技术、拼产品,拒绝夸大宣传和恶意竞争[16] 汽车市场动态 - 新车价格战持续,可能抑制二手车市场活跃度[17] - 5月二手车源量显出疲态,行业需调整增长预期[17]
重磅演讲 :谷歌高管首谈抗癌经历,AI或将改写癌症诊疗未来
36氪· 2025-06-05 17:53
人工智能作为通用技术 - 人工智能与蒸汽机、电力、互联网并列 属于能够改变经济和社会结构的通用技术 [1] - 人工智能在四个领域具有巨大潜力:推动经济增长、加速科学突破、支持医疗服务与结果、加强网络安全 [2] - 人工智能若全面应用 2030年全球GDP可能提升约20万亿美元 [2] 人工智能在癌症研究与应用 - 谷歌人工智能聚焦于药物发现和疾病早期检测两大关键领域 [8] - AlphaFold解决了数十年未解的蛋白质折叠问题 将绘制2亿多种蛋白质结构的时间从数十万年缩短至几个月 [8] - AlphaFold已开源 全球超过190个国家的250多万科学家使用该数据库 [8] - 人工智能帮助科学家理解突变如何改变蛋白质功能 从而加速癌症研究和药物设计 [8] 人工智能在疾病诊断与早期检测 - 早期检测是改善癌症结果的关键 人工智能可识别淋巴结中微小癌细胞簇 [9] - 深度学习模型在千兆像素病理切片上发现癌症 将病理学家审查时间缩短一半并提高准确性 [9] - 人类与人工智能合作效果最佳 优于单独使用人类或算法 [9] - 人工智能辅助放射科医生快速浏览数千张扫描图像 早期检测结合治疗可挽救生命 [9] - 谷歌在东南亚和印度进行超过70万次糖尿病视网膜病变扫描 目标未来十年扩大至600万次以上 [10] 人工智能优化医疗服务与效率 - 代理人工智能系统可跟踪癌症试验、筛选患者相关数据、自动起草文件 减少医生行政负担 [10] - 谷歌与ASCO合作开发ASCO指南助手 几秒内处理大量数据 减少阅读80-90页资料的认知负担 [11] - 医生花费三分之一时间处理文书 临床医生因行政任务每周损失28小时 护士在轮班更换中损失大量时间 [11] - 生成式人工智能工具减少医疗文档记录时间 处理总结检查结果、安排预约、账单支持等任务 [12] - 多模态人工智能处理音频、高分辨率放射图像、病理图像及基因组学数据 帮助医生更精确高效工作 [12] - 人工智能使医生记录病情效率提高30% 护士节省40%时间处理出院报告 增加患者陪伴时间 [12] 人工智能在网络安全中的应用 - 医疗数字环境易受攻击 去年医疗数据泄露达历史最高水平 数亿条记录泄露影响超过80%美国人口 [13] - 网络攻击持续加速 因医疗数据敏感且有价值 谈判可能导致时间与生命损失 [13] - 人工智能通过早期数据模式检测监控新威胁 防止不必要数据入侵 加强云环境安全 [14] 人工智能技术推广与愿景 - 谷歌翻译服务覆盖250种语言 过去九个月新增116种语言 体现人工智能发展速度 [15] - 人工智能解决方案直观易用 建议通过实际使用建立熟悉度 例如尝试ASCO指南助手或搜索AI模式 [17] - 人工智能愿景包括普及早期检测、使优质医疗成为常态、将"可控"和"治愈"带给数百万人 [17]