Workflow
多模态
icon
搜索文档
Jinqiu Spotlight | 用户破1000万,造梦次元沈洽金:AI应用创业是踏浪而行,必须站上大模型的每一波浪潮
锦秋集· 2025-07-23 23:39
公司概况 - 深圳想法流科技有限公司(造梦次元)成立于2023年,专注于AI互动内容平台开发,核心产品"造梦次元"于2024年2月上线 [2] - 截至2025年6月,平台累计用户超1000万,日均活跃互动时间超100分钟,用户粘性居行业前列 [2] - 平台日均tokens消耗量突破千亿,峰值达1600-1800亿,成为大模型厂商的重要测试场景 [2][3] 技术驱动与产品定位 - 大模型技术突破使互动内容平台成为可能,解决传统UGC内容门槛高、供给不足的问题 [6] - 平台定位为AI原生应用,不自主研发模型,而是与字节、阿里等头部厂商合作共创角色模型、记忆方案等 [16] - 模型推理能力和多模态进化是核心驱动力,推动AI从Assistant向Agent甚至Multi-Agent转变 [7][16] 产品特点与增长策略 - 提供互动故事、剧本杀、换装游戏等多元玩法,聚合图文/音频/视频内容,形成差异化体验 [9] - 用户裂变效应显著,相关UGC内容在快手累计播放量达6.3亿次 [12] - 创作者生态活跃,拥有23万创作者,日均新增3000作品,通过"IdeaFlow Studio"降低创作门槛 [13] 商业化与IP运营 - 主要变现方式包括虚拟道具、付费短剧、角色打赏,如热门道具"读心术"可解锁角色内心OS [15] - 强调IP长期价值,创作者通过运营粉丝群体和商业化玩法获得激励,未来计划拓展虚拟装扮、联名等IP衍生形态 [15][16] - 创作Agent即将上线,可自动完成意图识别、任务规划及多模态内容生成,提升效率50%以上 [13][19] 行业趋势与战略方向 - 2025年重点布局多模态和Agent:多模态模型生成速度提升(如Veo 3模型10秒生成高质量视频),实时性增强将催化AI直播类内容 [17] - Agent能力突破支持复杂场景交互(如自动调用定位/时间服务)和智能化创作辅助(自动关联意象、生成动态分镜) [18][19] - 内容形态边界模糊,交互体验重要性超越格式,用户行为兼具消费与创作属性 [7][8] 企业文化与愿景 - 以"真实有效,坚韧极致"为文化内核,强调执行力与技术创新转化能力 [21][22] - 目标从单一内容类型进化为真正的AI Native平台,持续占据技术转化先发优势 [3][22]
同样1GB文本,为何中文训练效果差?对话EleutherAI研究员Catherine,看懂多语言模型的“诅咒”与“祝福”
AI科技大本营· 2025-07-23 15:32
多语言模型研究 - 提出"字节溢价"概念,揭示不同语言在相同字节数下有效信息密度的显著差异,影响模型输入效率 [15][16] - 训练参数量1亿的"Goldfish"小型语言模型系列,覆盖350种语言,部分性能超越参数量80倍的Llama-8B [3][27][28] - 多语言模型面临"多语言诅咒",模型容量受限导致加入新语言可能降低目标语言性能 [24][25] 模型训练策略 - 建议为特定语言开发专门化小模型而非追求单一大型多语言模型 [25][27] - 低资源语言可通过多语言训练实现知识迁移,尤其从相似语言迁移效果更佳 [27] - 小模型降低研究门槛,在笔记本电脑上两小时完成实验流程,适合资源有限场景 [30] 数据与评估体系 - 当前最大障碍是缺乏有效多语言评估基准,需开发具文化敏感性的高质量评估体系 [7][21] - 避免使用机器翻译生成基准测试,防止引入噪音影响评估准确性 [22] - 需要组建多语言多文化背景专家团队构建评估体系,理解文化语境差异 [22][23] 行业发展现状 - 多语言模型研究仍处"上半场",许多语言数据量不及1970年代英语水平 [33][34] - 欧洲开源生态倾向公共资源共享模式,如EuroHPC超级计算中心统一分配资源 [43] - 开放科学是基础,需掌握完整技术栈包括训练代码和数据才能获取有效知识 [37] 技术发展方向 - 未来AI需走向多模态,结合语言与视觉等多方面能力 [39] - 语言在人类心智发展中起独特作用,塑造思维方式实现复杂观念构建 [40] - 需平衡开放数据与负责任AI,构建符合伦理要求且可持续的数据集 [38]
多模态都是假的:最强模型数不清手指、认不出雷碧
虎嗅· 2025-07-22 15:21
多模态AI技术现状 - 当前多模态模型在视觉识别上存在显著局限,无法真正"看见"图像,仅能处理数字化后的张量数据(如224x224彩色图转化为150528个数值的矩阵)[9] - 视觉识别依赖人工标注的图-文配对数据(如服装图+黑卫衣标签),通过将图像分块为16x16网格并生成嵌入向量来建立高维指纹[12][13] - 听觉模态发展相对成熟,因音频波形作为一维时间序列更易处理,且数据获取成本较低[9] 图像识别机制与局限 - 模型通过统计概率输出结果,当训练数据中某种模式(如五指手掌)占比过高时,会强烈偏向该模式(六指手掌被识别为五指的概率达99%)[14][15] - 图像识别本质是图向量与文向量的映射匹配,文字标签权重可能压倒视觉特征(如"雷碧"包装因文字识别被纠正为"雪碧")[26][27] - 任务粒度影响输出,手部识别通常以判断"是否手部"为目标,而非精确计数手指数量[18] 数据偏差与行业应用挑战 - 训练数据仅覆盖真实世界的"主干道路",长尾场景(六指手、工业缺陷)需额外投入采样与合成数据[30][31] - 医疗等复杂领域面临模糊边界(相似症状对应不同疾病)、动态演化(病情突变)等超出当前模型架构的问题[32] - 基础模型在缺乏特定领域数据(如医学伦理)时,堆砌算力会导致"严密而精准的错误"[34] 技术本质与发展路径 - AI本质是概率驱动的规律统计器,其"视觉能力"完全依赖标注数据构建的概率世界[16][38] - 行业应用需通过补充场景数据、重塑任务目标来校准模型,医疗影像等垂直领域需定制化解决方案[36][40] - 当前多模态模型能力边界受限于训练数据覆盖范围,突破需持续注入更贴近真实世界的样本[39][41]
梁文锋等来及时雨
是说芯语· 2025-07-19 09:26
行业竞争格局 - 国内大模型行业进入密集更新期,Kimi、阶跃星辰、智谱AI、科大讯飞等玩家将在7月底集中发布新一代基础大模型 [3] - DeepSeek自4月起月活用户持续下滑,5月MAU为1.69亿(环比-5.1%),官网访问量下降29%,使用率从7.5%峰值回落至3% [3][4][18] - 第三方平台托管的DeepSeek模型使用量逆势增长20倍,形成与官方流量下滑的反差 [13] 技术发展动态 - Kimi K2成为国内首个万亿参数MoE架构开源模型,在代码/数学推理任务反超DeepSeek,支持128K上下文窗口 [10][15] - MiniMax-M1以53.47万美元低成本完成训练(512块H800三周),对比DeepSeek V3训练成本557万美元(2048块H800) [11] - 行业普遍提升上下文窗口能力(MiniMax达100万token),而DeepSeek保持64K最小窗口的保守策略 [15] 商业模式对比 - 科技大厂通过低价API争夺市场:百度李彦宏公开批评DeepSeek"慢且贵",阿里/字节/百度等推出更低价模型 [10] - Kimi K2定价与DeepSeek标准时段对齐(输入4元/百万tokens,输出16元/百万tokens) [11] - DeepSeek坚持开源路线但面临商业化压力,需平衡开发者生态与产品使用率 [17] 供应链挑战 - 英伟达H20芯片禁售导致DeepSeek R2模型延迟发布,算力储备出现紧缺 [5][7] - 7月15日英伟达获准重新销售H20芯片,将缓解DeepSeek算力瓶颈 [7] - H20芯片因DeepSeek的低成本训练方法在中国需求激增,引发4月美国出口管制 [5] 产品能力短板 - DeepSeek暂不支持多模态功能(语音/图片/视频生成),成为主流AI助手中唯一缺失该能力的产品 [19] - 调用工具能力不足:字节测试发现其工具调用表现不理想,最终改用自研模型 [19] - 小版本更新策略(如DeepSeek-R1-0528仍基于2024年V3 Base模型)导致竞争力下降 [8][10] 国际对标差异 - OpenAI通过高频更新保持领先(GPT 4.1系列发布后份额达10%),而DeepSeek R1仅持平o1水平 [17][18] - DeepSeek缺乏OpenAI的代际优势,使用率从7%峰值降至3%(跌幅超50%) [18] - 行业普遍学习OpenAI的快速迭代策略,如奥特曼每周更新产品的运营方法 [17]
交银产业机遇混合:2025年第二季度利润4321.38万元 净值增长率2.8%
搜狐财经· 2025-07-18 19:07
基金业绩表现 - 2025年第二季度基金利润4321.38万元,加权平均基金份额本期利润0.0271元 [3] - 报告期内基金净值增长率为2.8% [3] - 截至7月17日单位净值为0.974元 [3] - 近三个月复权单位净值增长率为6.81%,同类排名134/182 [3] - 近半年复权单位净值增长率为18.89%,同类排名29/182 [3] - 近一年复权单位净值增长率为32.61%,同类排名32/181 [3] - 近三年复权单位净值增长率为0.04%,同类排名49/172 [3] - 近三年夏普比率为0.3485,同类排名23/174 [9] 基金风险指标 - 近三年最大回撤为41.72%,同类排名65/174 [11] - 单季度最大回撤出现在2024年一季度,为31.21% [11] 基金资产配置 - 近三年平均股票仓位为86.75%,略低于同类平均87.2% [14] - 2024年三季度末达到最高仓位89.87% [14] - 2020年末最低仓位为53.99% [14] 基金投资策略 - 将持续关注AI大趋势下耕耘推进的公司,重点关注多模态方向进展 [3] - 关注致力于给消费者带来快乐和美好的泛消费公司 [3] 基金持仓情况 - 截至2025年二季度末基金规模为15.43亿元 [3][15] - 持股集中度较高,前十大重仓股包括泡泡玛特、恺英网络、吉比特、李宁、腾讯控股等 [18]
全球AI大模型最新进展及展望
2025-07-16 23:25
纪要涉及的行业和公司 - **行业**:全球AI大模型行业 - **公司**:OpenAI、Keep Seek、Deepseeker、Minimax、阿里、字节跳动、谷歌 纪要提到的核心观点和论据 1. **发展现状** - 全球AI大模型发展迅速,迭代速度超预期,美国在大参数量版本表现突出,中国在MOE架构优化等方面表现出色 [3] - 国产大模型能力被低估,豆包C1.6、Kimi开源模型、Minimax产品及阿里通义千问等达SOTA级别,中美差距未显著拉大 [1][6] - 自2022年ChatGPT发布,美国保持前沿,但今年Deepseek R1突破显示中美前沿大模型差距缩小 [13] 2. **商业化进展** - 大模型商业化加速,OpenAI预计年底ARR达150亿美元以上,6月已达100亿美金,Cloud从10亿美金增至30亿美金,环比增速约20%,部分公司80%编程由AI解决 [1][3][4][5] 3. **对厂商影响** - 2023 - 2025年,AI软件行情与大模型迭代相关,每次版本升级影响硬件和软件厂商,多模态是下一轮发力和商业化重点,国内多模态模型测评领先 [1][7] 4. **发展趋势** - 大模型与垂直领域小型蒸馏模型并行发展,小型模型在特定领域效果提升,价值不衰减 [1][10] - AI成本下降与能力提升同比例,推理成本下降更快,推动大模型商业化和产业链发展 [1][11] - 多模态是通往AGI关键,下半年至明年是重点关注方向,AI agent和视频编辑等场景值得重视 [1][12] 5. **技术探索** - 为突破Scaling局限,产业探索MOE架构,激活部分专家降低计算量,如Deepseeker、Minimax M1、千问3系列 [2][15][16] - 效率优化方面,采用多种注意力机制改进,如MLA、闪电注意力、分组查询注意力等 [17] - 推理能力提升有思考模型和混合推理模型两大方向 [18] - 智能体工具调用能力受厂商重视,国内Kimi KR具备工具调用能力,大厂AI工具类调用需求增长 [19][20][21] 6. **国内模型发展方向** - 降低成本,优化架构和算法,提高回答速度、降低幻觉率 [21] - 加大强化学习算力投入,统一非推理和推理模型 [21] - 加强工具调用能力,提高模型落地价值 [21] - 多模态发展,实现多模态推理与生成统一 [21] 7. **投资趋势** - 未来两到三年,算力是重要且长周期投资领域,关注芯片、服务器出货量及光模块预测等指标,模型是前沿观察指标 [22] 其他重要但可能被忽略的内容 1. **GPT - 4影响**:带来更长上下文长度和更大规模,推动产业链发展,但受训练复杂度、运行成本、算力集群互联能力和高质量数据集缺失限制 [14] 2. **模型性能表现**:GROK4在所有基准测试中表现优异,在human last exam测试中成绩好于其他旗舰版本 [23][24] 3. **强化学习训练变化**:目前模型强化学习训练时间和所需算力显著增加,未来技术路线是大幅延长强化学习训练时间和增加算力 [25] 4. **MID - train范式影响**:MID - train范式预计显著提升模型能力,GROX可能采用该技术路线 [26] 5. **国内优异模型**:Kimi K2仅预训练和MID train,非思维链版本全球领先,引入思维链后可能达全球顶尖水平 [27][28] 6. **谷歌流量影响**:谷歌流量增长来自内部调用、聊天机器人和API调用,三部分均有增长潜力,对下游推理算力需求乐观 [29]
豆包视觉通话模型落地,智能眼镜将迎来最大催化
2025-07-16 14:13
纪要涉及的行业和公司 - **行业**:AI、智能眼镜、AR眼镜 - **公司**:豆包、星辰科技、兰特光学、JVD上海显耀、高通、横旋、家有智能坐视荧幕、天键、蓝丝科技、恒星科技、环虚电子、龙骑科技、雷神科技、小米集团 纪要提到的核心观点和论据 - **豆包视觉模型进展**:豆包更新视频通话功能,识别准确度高,对现实世界理解准确,语义和场景符合人类自然使用习惯,模型已从文本问答进入视频多模态阶段,先理解后画面生产,已到可商用阶段 [1][2][3] - **视觉模型应用场景**:适用于现有有摄像头的地方,如家用安防、门锁等,最大增量来自智能眼镜,智能眼镜看到的画面与人类一致,适合多模态模型渗透,且模型记忆力强,能关注到更多细节 [4][5][6] - **智能眼镜产业进展** - **产品发布**:雷达发布采用克什方案光波导的眼镜,在显示效果和体积上有改善;ROKI GLASSES 6月正式发售,预定量超25万台;华为可能发AR显示眼镜;小米预计6 - 7月发布,雷鹏三代眼镜预计9月发布,今年雷鹏眼镜预计销量从去年200万台提升到500万台,明年可能达千万台级别 [9][10][11] - **供应链情况**:带显示AR眼镜BOM占比最大的是光机和光波导,光机全球被JVD上海显耀垄断,光波导有几何和衍射两个路线,今年都会有新品发布;芯片环节主要是高通AR1和国内横旋等有突破;代工环节有小厂和大厂,如蓝丝科技是肉体AR眼镜代工厂商 [12][13][14] - **行业趋势判断** - **销售情况**:今年能卖上量的大概率是不带显示的眼镜,依托摄像头、麦克风适配AI,推广速度更快 [16][17] - **设计思路**:硬件上要将摄像头、麦克风、屏幕显示等硬件更轻便地塞到眼镜里;软件上可将手机APP功能适配到眼镜,也可针对大模型开发新系统 [18] - **产业前景**:多模态产业和行情刚起步,视频理解模型刚推出,后续产品端和推广端会有很多变化,新产品会基于模型定制开发 [22] 其他重要但可能被忽略的内容 - 6月11号豆包原动力大会,星辰科技可能官宣视频视觉相关合作,有演讲报告和产品发布会 [7] - 推荐关注的标的主要是芯片公司黑轩科技和星辰科技 [21]
晚点独家丨MiniMax 即将完成近 3 亿美元新融资,估值超 40 亿美元
晚点LatePost· 2025-07-14 21:20
公司融资与估值 - MiniMax接近完成新一轮3亿美元融资,投后估值超过40亿美元(约300亿元人民币)[3][4] - 目前国内达到40亿美元估值的大模型公司仅有MiniMax和智谱[4] - MiniMax曾在2023年底完成一轮估值30亿美元的融资[4] - 智谱在2024年上半年估值也达到300亿元人民币范围[9] 公司发展历程与战略 - MiniMax由前商汤科技副总裁闫俊杰于2021年底创立,创立之初就专注于AGI领域[6] - 公司从创立起就将多模态能力作为核心方向同步推进,而非先做语言模型再拓展[6] - 2024年上半年战略是产品和模型双轮驱动,2024年下半年转向"加速技术迭代"[7][8] - 公司认为用户数量与模型能力提升无直接关系,模型能力提升主要依赖研发人才[8] 产品与技术进展 - 已发布大语言模型、语音生成模型、视频生成模型和图文理解模型等多模态产品[6] - 2022年推出AI角色扮演产品Glow,之后推出国内版星野和海外版Talkie[7] - Talkie加星野总日活约300万,远超字节类似产品猫箱的30-40万日活[7] - 视频生成模型Hailuo网页端用户数近1500万(5月数据),仅次于快手可灵[7] - 2024年6月发布多项技术成果,包括开源模型、视频模型、智能体等[9] 行业竞争格局 - 2023年备受关注的"大模型六小龙"中仅剩4家仍在推进通用大模型[9] - 月之暗面发布开源K2模型,阶跃星辰探索场景化Agent产品[9] - 硅谷大模型公司估值远超国内,如OpenAI估值超3000亿美元,Anthropic估值615亿美元[10] - 应用层公司如Cursor估值从25亿升至99亿美元,Perplexity估值从30亿升至140亿美元[10] 财务与市场表现 - 外媒报道称MiniMax 2024年营收将突破7000万美元[8] - 公司已启动上市进程,此前传出赴港股上市消息[2][9] - 智谱已在2024年4月启动IPO进程[9]
研一刚入学导师让我搭各种AI Agent框架,应该往什么方向努力?
自动驾驶之心· 2025-07-12 20:00
Agent技术发展现状 - Agent领域的低垂果实已被摘完 纯API调用的红利期结束于22年底至23年 需结合多模态和ML/DL技术提升竞争力[1][14] - 网易逆水寒等商业化案例已实现盈利 技术落后公司面临生存压力[1] Agent技术分类 博弈类/MARL衍生 - 主流方法为将MARL技术迁移至LLM Agent 实验环境集中于矩阵博弈和overcook等场景 学术价值高于实用价值[2] 游戏类应用 - 文本化环境构建成为重点 如civrealm和LLM play sc2项目 需解决游戏文本空间的精准映射问题[4] - 多模态技术渗透明显 安波团队的多模态Agent cradle带动技术潮流 黑神话悟空等商业项目开始应用[4] - 棋牌类游戏全面覆盖 但需突破传统RL已实现的人类超越瓶颈[5] 具身智能 - 机器人领域更看重真机实验 纯仿真研究认可度较低[5] 社会模拟类 - 斯坦福小镇等项目引爆关注 核心挑战包括:仿真器开发(Unity成为主流)、个性化决策保持、百万级Agent交互支持[6][8] - 可视化Demo成为项目评估关键要素[9] 商业化应用 - 客服问答和RAG技术最成熟 落地变现能力突出[9] - Tool use类工具(如HuggingGPT)成为企业生产力提升重点[9] - 自动化流水线应用分化 代码生成类依赖基础模型性能 AI for science类需跨学科知识整合[9] Minecraft专项 - 技术路线分化为纯RL(如OpenAI视频学习)、纯LLM(Voyager等技能库方案)、LLM+RL混合(顶会热门)[11][12] - 竞争白热化 需顶级团队资源支持才可能突破[13] 行业发展建议 - 高校研究需转向商业化场景合作 单打独斗模式已失效[14] - 技术路径选择应结合自身优势领域 避免同质化竞争[14] 技术社区动态 - 大模型之心Tech社区提供每日论文/技术报告更新 覆盖预训练、量化、RAG等12个技术板块[15] - 会员日均成本低于0.3元 主打快速技术路径打通[16]
百度2026届校招重注AI,超4000份Offer,应届生直接触核心研发!
搜狐财经· 2025-07-12 08:03
百度2026届校园招聘 - 公司提供超过4000个工作岗位 其中AI相关职位比例高达90% 创国内互联网巨头校招中对AI人才重视程度新高[1] - 招聘覆盖北京 上海 深圳 成都等七大城市 新增90个AI领域全新职位 专注多模态 跨模态及大模型架构等前沿技术[1] - 应届生将直接参与文心大模型 飞桨平台 数字人项目等核心产品研发[1] AI岗位技术布局 - 算力层提供AI异构计算 云原生AI及底座研发岗位 构建计算能力基础[3] - 框架层设置深度学习 AI训练岗位 支撑上层模型与应用开发[3] - 模型层招聘模型算法工程师 多模态大模型应用算法工程师等 打造智能大脑核心[3] - 应用层覆盖搜索 自动驾驶 生物计算等领域 推动技术落地[3] - 创新设立"AI大模型评估产品经理"等复合型职位 要求技术背景与业务理解能力结合 如电商领域智能推荐系统设计[3] 行业竞争格局 - 百度智能云2025年上半年中标48个大模型相关项目 金额达5 1亿元 在金融 能源 政务领域65%央企选择深度合作[5] - 公司构建包含3万台昆仑芯集群的算力底座 服务招商银行等企业 提升金融 多模态数据分析 智能客服场景效能[5] - 阿里云2025财年收入1180亿元 AI产品收入连续七季度三位数增长 通义千问开源模型全球下载量超3亿次 衍生模型突破10万个[5]