Llama 3
搜索文档
一手实测Nano Banana Pro后,我总结了8种全新的超神玩法。
数字生命卡兹克· 2025-11-21 06:25
文章核心观点 - Nano Banana Pro模型在图像生成、文字处理(特别是中文)和多模态推理能力方面有显著提升,进化幅度超出预期[2] - 该模型支持直出4K图像和自定义比例,文字稳定性和知识推理能力得到巨幅提升[2] - 基于Gemini 3构建的多模态模型展现出强大的应用潜力[27] 漫画处理功能 - 可实现黑白漫画翻译、上色、换材质一条龙服务,将日文漫画转化为彩色中文版[3][4] - 支持生成自定义主题漫画并转换风格,如生成中文炭治郎和海绵宝宝玩耍的日文漫画后再转为彩色中文版[7][8] - 能够不断变换漫画风格,包括3D毛绒效果、中世纪石头马赛克风格、铜制浮雕材质等[10][11][12] 海报设计能力 - 文字处理能力显著提升,尤其中文表现突出,可生成高质量中英文电影海报[15][16][17] - 支持复杂中文文字设计,能稳定生成赛博朋克主视觉海报[24] - 可制作中国传统风格艺术海报,如《天书奇谭》中国山水画风格海报,保持文字清晰可辨[25] 知识解说与教育应用 - 利用多模态推理能力生成知识解说图,如应县木塔结构解说图、苏绣工艺详解图[29][31] - 可生成赛博义眼拆解图等专业图解[33] - 具备解题功能,能画出数学题的完整解题过程草稿[35][36][37][38] 内容转换与游戏界面生成 - 可将论文或长篇文章转换为详细的白板照片,如转换92页Llama 3模型PDF[40][43] - 在游戏UI界面生成方面表现稳定,能生成《潜水员戴夫》、《使命召唤》等多种游戏风格界面[48][49] - 可生成游戏内社交互动场景,如英雄联盟和王者荣耀的玩家聊天界面[52][54] 产品渲染与创意设计 - 文字一致性保持效果极佳,支持产品场景化渲染,如周杰伦CD在不同环境中的展示[57][58][59] - 支持多种场景转换,包括唱片店、悬浮时空、演唱会等复杂场景[61][64][66] - 在拼豆风格生成上表现特别稳定,能生成精致手办盒、小狗等3D拼豆图像,文字清晰无变形[69][70][72]
成为具身智能“大脑”,多模态世界模型需要具备哪些能力?丨ToB产业观察
钛媒体APP· 2025-11-05 12:01
多模态大模型技术突破 - 北京智源研究院发布悟界·Emu3 5多模态世界大模型,参数量达34B,训练数据包含790年视频时长,通过自研DiDA技术将推理速度提升20倍,并验证了“Next-State Prediction”范式 [2] - 模型采用原生统一架构,基于单一Transformer和自回归架构实现多模态理解与生成的原生统一,避免了组合式架构导致的模态间信息损耗和性能折损问题 [3] - 组合式架构模型在处理长视频时文本理解准确率显著下降,视觉生成的时空一致性受损,在跨模态任务中逻辑断裂率高达28%,而原生统一架构模型仅为9% [3] 市场规模与增长 - 2024年中国多模态大模型市场规模达138 5亿元,同比增长67 3%,预计2025年攀升至236 8亿元 [2] - 2025年全球多模态大模型市场规模预计突破4200亿元人民币,中国市场占比达35%,成为全球第二大单体市场 [2] - 2024年中国具身智能市场规模达8634亿元,同比增长65%,预计2025年突破9731亿元,其中多模态技术贡献了约42%的增长动力 [6] 数据挑战与解决方案 - 高质量多模态数据获取成本极高,2024年有68%的初创企业因数据成本放弃自主训练,模型难以从碎片化的互联网数据中学习深层物理规律和因果逻辑 [4] - Emu3 5突破的关键在于大规模使用长视频数据,如纪录片和教学视频,这些数据包含丰富的上下文和连贯的叙事逻辑,是模型学习世界运作的绝佳教材 [4] - 医疗、金融等领域的多模态数据包含隐私信息,企业在应用模型赋能过程中因担心合规问题不敢大规模训练 [4] 性能效率平衡与应用瓶颈 - 模型性能提升往往以牺牲效率为代价,2024年前主流模型生成5秒视频平均耗时超3秒,组合式架构模型在手机端生成3D模型的响应延迟达1 2秒,无法满足实时交互需求 [5] - Emu3 5的发布验证了多模态Scaling Law,成为继语言预训练、后训练推理之后的“第三范式” [5] 具身智能应用 - 多模态大模型为具身智能提供“大脑”,推动机器人从“机械执行”向“自主决策”进化,解决智能无限可能性与物理硬件及数据极端匮乏的核心矛盾 [6] - Emu3 5的“Next-State Prediction”能力使智能体具备物理直觉,能在执行动作前模拟不同行动方案的后果,从而在动态真实环境中做出更安全高效的决策 [7][8] - 采用统一模型端到端处理“感知-认知-行动”完整回路,可取代模块化设计,降低高级机器人技能开发门槛,加速具身智能在工业分拣、仓储物流等场景的应用 [8] 行业应用案例 - 在医疗领域,多模态大模型融合到医学影像技术中实现疾病早期发现与精准治疗,某县医院部署后疑难病例诊断准确率从68%提升至89%,患者外转率下降41% [9] - 智能诊疗系统通过分析患者影像、基因图谱、治疗史等多模态数据生成定制化治疗方案,测试显示采用个性化方案的患者中位生存期延长6 8个月,治疗副作用发生率降低34% [10] - 系统使用涵盖12万患者的多中心数据集,包含45万份影像、18万份病历与9万条基因序列,通过自监督学习掌握治疗手段与患者反应的关联规律 [10]
斯坦福新发现:一个“really”,让AI大模型全体扑街
36氪· 2025-11-04 17:53
研究背景与核心问题 - 聊天机器人用户数据显示,有超过100万人在对话中表现出自杀倾向,凸显了AI在涉及人类情绪时正确理解用户情感的重要性[1] - 大语言模型在医疗、法律、新闻等高风险领域应用时,能否像人类一样区分“个人想法”和“客观事实”成为关键问题[1] - 若缺乏区分能力,大语言模型不仅可能误导判断,还可能在无意中放大错误信息的影响[1] 研究方法与数据集 - 斯坦福大学James Zou教授团队通过“原子化”语言任务对大语言模型的认知局限进行系统性检验[1] - 相关研究论文发表在权威科学期刊《自然·机器智能》上[2] - 研究采用名为“知识与信念语言评估”的数据集,包含13个任务的13000道题目,覆盖历史、文学、医学和法律等10个领域[3] - KaBLE数据集巧妙结合来自《大英百科全书》等权威来源的事实陈述与保持相似语义但引入细微偏差的虚假版本[3] 模型分类与评估框架 - 研究人员将大语言模型分为两组:GPT-4o发布之前的模型归为旧一代“通用型”模型,包括GPT-4、Claude 3和Llama 2/3[6] - GPT-4o发布之后的模型归为新一代“推理导向型”模型,包括o1和DeepSeek R1,这些模型经过强化学习训练,具备复杂推理能力[6] 模型表现与局限性 - 旧一代大语言模型在识别错误信息时准确率仅49.4%,识别真实信息的准确率为89.8%,揭示了不稳定的决策边界[7] - 新一代大语言模型在“识别错误信息”上更敏锐,判断逻辑更鲁棒,能主动质疑输入内容[8] - 即使是先进的推理型模型,也难以识别以第一人称表达的错误想法,例如GPT-4o处理错误想法时准确率从98.2%骤降至64.4%[10] - 大语言模型在处理想法时会根据归属于“谁”而表现不同,确认第三人称错误信念时准确率明显更高[13] - 对“递归知识”的评估显示,部分以推理为导向的模型表现良好,但也有一些模型表现不佳,表明可能在进行表层模式匹配而非真正掌握逻辑本质[14] - 大语言模型对语言细节非常敏感,例如在判断语句中多加一个“really”就会导致准确率大幅下降[15] 行业影响与未来方向 - 研究结果对大语言模型在新闻业、医疗、法律推理、教育及科学交流等领域的应用具有深远影响[15] - 研究中揭示的局限性甚至存在于先进模型之中,凸显亟需改进人工智能系统在“信念、知识与事实”表征和推理方面的能力[15] - 未来大语言模型不仅需要熟练区分“个人观点”与“客观事实”的细微差异,还必须理解“人们为何会相信某个信息是真或假”[16]
Is Meta Placing an Unrealistic Bet on AI?
PYMNTS.com· 2025-10-31 21:00
公司战略目标 - 公司首席执行官明确表示非常专注于将公司确立为领先的前沿人工智能实验室并致力于为每个人构建个人超级智能[1] - 公司将其AI愿景描述为介于数字助手和个性化操作系统之间的模型该模型能够从用户在公司旗下多个社交平台和设备上的行为中学习[5] - 公司首席执行官强调正积极前置建设能力以便为最乐观的情况做好准备并认为进行显著更大的投资很可能在未来某个时期带来盈利[7][10][11] 资本支出与投资 - 公司首席财务官预计2026年的资本支出将明显高于2025年总费用将以显著更快的速度增长主要成本集中在数据中心云合约和AI人才上[3] - 公司首席财务官指出随着扩大计算能力以支持AI路线图资本支出预计将面临进一步的上行压力[3] - 公司对于资本支出何时恢复正常化没有具体时间表并表示将继续看到投资于长期AI优先事项的机会[11] 技术能力与市场定位 - 公司目前的大模型在推理和多模态基准测试上落后于前沿领导者包括OpenAI的GPT-4Anthropic的Claude和谷歌的Gemini[6] - 与竞争对手将其基础模型授权给开发者和企业不同公司采用开源模式发布其模型并不从中获得直接收入[6] - 公司将AI技术主要用于提升用户参与度推荐引擎广告排名以及内部工具而非像部分同行那样通过云服务等途径直接创收[8] 运营风险与历史参照 - 公司在未明确定义成功标准的情况下大规模建设基础设施这使其面临与之前押注元宇宙时类似的风险模式[7] - 据路透社报道公司元宇宙部门Reality Labs每季度运营亏损仍超过40亿美元自2020年以来在该领域的总投入已超过600亿美元凸显了追逐缺乏商业验证的愿景所带来的风险[7] - 公司首席执行官承认内部和外部对额外计算能力存在非常高需求但在最坏情况下公司可能会暂时放缓新基础设施建设步伐[9]
Tale of Two Mag 7 Earnings: GOOGL's Rally v. META's Sell-Off
Youtube· 2025-10-31 08:00
Meta业绩与市场反应 - 公司股价在财报发布后下跌超过11% [1] - 晨星维持850美元的公允价值估计 认为公司营收将保持强劲 主要由AI改进驱动 [1] - 市场担忧2026年评论对运营支出和资本支出的影响 可能导致利润率下降 [2] - 公司AI投资长期有望产生可观回报 但当前未被市场充分定价 [2] Meta与同行对比劣势 - 缺乏公有云业务 无法像亚马逊 微软和Alphabet通过外部客户分散AI投资风险 [4] - 公司需要基于AI技术对营收的改善或新收入来源来论证投资回报率 [5] - 最新季度营收增长约26% 为过去15个季度中最高水平(除2024年第一季度) [6] Meta的AI投资逻辑 - 营收增长主要由AI基础设施投资驱动 包括GPU和更广泛的AI系统 [7] - 更好的广告定位和内容推荐等优势会随时间复合增长 [7] - 公司拥有35亿日活用户 使用第三方生成式AI模型将产生巨额运营支出 [11] - 自建数据中心被认为是最佳成本结构 不使用AWS Azure或GCP等超大规模云服务 [12] Alphabet业绩表现 - 搜索业务增长15% 为ChatGPT推出以来最强增长 [16] - 谷歌云待处理订单环比增长约40% 同比增长79% 预示2026年强劲增长 [16] - 公司使用7-8年历史的TPU芯片且利用率达100% 延长资产使用周期可提升增量利润率 [16] - 晨星将公允价值估计上调至340美元 认为公司是AI领导者而非落后者 [14][17] AI投资范式转变 - AI被视为类似互联网的范式转变 公司需要自主控制基础设施和分销渠道 [10] - 与元宇宙投资不同 AI投资被视为更具战略必要性的基础设施投入 [10] - Meta需要提供更多投资回报证明点 类似谷歌云和Gemini被市场认可后的转变过程 [8]
10 年资深技术元老突然被裁!网传按代码行数大裁员?网友:这太特么疯狂了吧
程序员的那些事· 2025-10-25 20:56
核心事件概述 - Meta AI部门进行新一轮裁员,涉及约600人,其中FAIR实验室和AI基础设施部门是重灾区[2][7] - 入职十余年的元老级研究员田渊栋及其团队多名成员被裁,形成老中青三代人才集体离场的局面[2][3] - 田渊栋团队在裁员前曾被要求搁置所有在研项目,紧急支援GenAI部门完成Llama 4发布的后期工作,项目收尾后即收到裁员通知[2] 裁员标准争议 - 业内传闻Meta按代码行数决定裁员名单,导致专注模型构建的研究员和代码量少的新员工首当其冲[6] - 该传闻引发技术圈强烈批评,认为用代码行数衡量工程师价值极不科学,如同用食材用量评判厨师水平[6] - 有Meta前员工现身反驳,称其经历的绩效评估和裁员中,代码行数从未作为标准[6] - 更多观点认为,真正的裁员标准是组织内部的权力调整和派系站队,而非绩效[7][10] 内部管理问题 - 新任首席AI官Alexandr Wang主导的TBD实验室在裁员中毫发无伤且持续扩招,与FAIR实验室的遭遇形成鲜明对比[7][10] - Meta AI部门在半年内进行了四次重组,导致内部出现抢项目、窃成果等乱象,管理混乱[13] - 公司存在待遇双标问题,为招揽外部人才开出亿级薪酬包,新员工薪资可达老员工十倍,同时却裁撤十年元老[12] - 有知情者透露裁员名单早在夏天已确定,拖延执行只为让员工完成手头工作,被指为卸磨杀驴[9] 行业影响与人才流动 - 田渊栋离职后,OpenAI、xAI、谷歌DeepMind、英伟达等顶级企业迅速抛出橄榄枝,OpenAI甚至开出八位数美元加任选方向的优厚条件[16] - 此次事件引发对科技行业的反思,当管理者用简单量化指标替代专业判断,权力斗争凌驾于技术价值时,将难以留住真正的创新者[16] - Meta裁撤核心研究者的策略与其重金挖人的行为相矛盾,被质疑为买火箭却扔了地图[16]
国内首个大模型“体检”结果发布,这样问AI很危险
36氪· 2025-09-23 07:27
AI大模型安全漏洞现状 - 国内首次AI大模型实网众测累计发现安全漏洞281个,其中大模型特有漏洞达177个,占比超过六成[1] - 五大典型漏洞风险包括:不当输出类漏洞危害严重、信息泄露类漏洞多发、提示注入类漏洞最常见、无限制消耗类攻击防护不足、传统安全漏洞依然普遍存在[2] - 大模型漏洞影响不直观,常通过绕过提示词获取超法律或道德边界的信息,例如早期曾出现模型泄露内部配置文件的情况[2] 用户使用习惯与隐私风险 - 截至今年7月,ChatGPT每周活跃用户超7亿,发送信息量高达180亿条,其中近一半属于“询问”类使用方式[1] - 用户习惯向AI咨询疾病、情感、财务等高度私密问题,但缺乏定期清理聊天记录的习惯,一旦模型或服务器被攻破,敏感数据极易泄露[1] 主流厂商安全防护水平 - 参与测试的主流大模型产品中,腾讯混元大模型、百度文心一言、阿里巴巴通义App、智谱清言等被发现漏洞风险较少,体现较高安全防护水平[2] - 中国电信安全团队对国内六款最热门基础大模型扫描发现,最高分仅77分,有的低于60分,说明国内基础大模型安全仍有很大提升空间[8] 本地化部署的安全误区 - 近九成本地部署DeepSeek的服务器存在安全风险,2025年春节DeepSeek出圈后遭到有组织的大规模网络攻击[5] - 本地化部署不等于安全,服务器一旦被攻击,私有服务器上存储的隐私信息和商业机密可能被窃取[8] AI智能体带来的新挑战 - 人工智能正从“Chat向Agent”跃迁,智能体风险比大模型更复杂,业内发布首部《AI智能体安全治理》白皮书[9] - AI智能体衍生独特系统性风险:感知出错可能导致危险反应、决策失误在关键领域造成严重事故、记忆被污染导致越权操作或隐私泄露、工具被滥用成为黑客攻击入口[9][10] 行业标准化与应对措施 - 国家市场监督管理总局在多模态大模型、智能体等前沿方向新发布10项国标,立项48项技术文件[11] - 当前迫切需要通过标准化建设减少数字技术发展带来的风险和不确定性[11]
朱啸虎:搬离中国,假装不是中国AI创业公司,是没有用的
虎嗅· 2025-09-20 22:15
开源AI模型趋势 - DeepSeek等中国开源模型显著影响行业 保证AI技术不被少数私有化公司控制 开源成为AI领域主流趋势[3] - Hugging Face平台中国开源模型下载量已超过美国 开源模型与闭源模型能力差距正迅速缩小 预计半年到一年内可齐头并进[4] - 形成"中国开源vs美国闭源"竞争格局 美国开发者也在采用开源模型 开源生态一旦建立将形成长期壁垒[5][6][7][9] AI应用核心壁垒 - Manus案例显示Go-to-Market能力是关键壁垒 中国创业者技术能力不逊色但市场进入策略存在短板[10] - AI应用公司首要壁垒是发展速度 需要让竞争对手感到绝望的快速增长 其次才是用户留存能力[11] - 中美市场存在Token消耗差异 中国更关注Token消耗量作为"含AI量"指标 日均消耗达百亿级别 大厂提供补贴使性价比显著提升[12][13][14] AI编程赛道分析 - AI编程是大厂主导领域 中美都在进行补贴 美国补贴AI Coding 中国补贴外卖 几乎都是负毛利运营[15] - Cursor从月费改为按流量收费 显示ARR难以维持 负毛利达300%-500% 收入增长越快VC补贴压力越大[16] - 程序员群体忠诚度低 对价格和性能高度敏感 切换成本极低 OpenAI的API调用量曾因Gemini新版本发布而急剧下降[18] 机器人投资策略 - 重点关注能实际干活的"牛马型机器人" 如洗船机器人和按摩机器人 虽然外观不讨巧但能创造真实商业价值[21] - 按摩机器人不仅能按摩理疗 还能实现卖卡功能 转化率甚至高于人工 真正取代整个岗位而非"半个人"[22][23] - 机器人ROI计算必须完整取代岗位 很多创业公司陷入只能取代"半个人"的陷阱 导致ROI测算不真实[22] AI硬件发展逻辑 - AI硬件成功关键是做减法而非加法 优先保证大批量发货能力 许多公司因添加花哨功能无法交货而失败[28] - Plaud案例显示应选择小切入点 使用成熟技术实现商业化 FuzozoAI玩具本质是游戏玩法创新 AI只是噱头[28] - AI时代独有新硬件物种尚未出现 取代手机非常困难 电池 存储 联网等技术瓶颈可能需要10-20年突破[29][30] 全球化战略 - 中国C端App在全球市场具有绝对优势 过去十年超过百亿美金的C端App几乎全是中国创业者开发 美国VC已基本不投Consumer领域[37] - To B应用面临Go-to-Market挑战 PLG模式可做到2000-3000万美金ARR 但要突破5000万美金必须转型SLG模式[38][39] - 出海市场选择取决于团队背景 F-35级别打美国市场 F-20级别打日本市场 F-16级别打东南亚市场[39] 估值与资本环境 - 高估值会压缩犯错空间 移动互联网时代很多大厂高管创业即获5000万美金估值 但产品上线后第二轮融资就失败[43] - 中国美元基金资金量减少 因大量LP资金被锁在字节 小红书 蚂蚁等未上市公司 总市值约1.5-2万亿美金[45] - 香港成为主要IPO目的地 中国企业应选择在香港上市 全球投资人都认可香港市场的资产购买价值[47] AI创业投资策略 - 投资回报期指现金回收时间 希望市场投放资金在3-6个月内回笼 最佳情况是首月投1元收回0.8元 六个月后能收回2元[50] - 早期投资更关注用户参与度指标 如日活率 周活率 留存率 使用时长等 而非仅看收入数据[51] - AI时代演化速度是移动互联网的三倍速 创业者需在离大厂三条马路之外寻找机会 并以三倍速发展[53]
GPT-5能啃下多少行业硬骨头
21世纪经济报道· 2025-08-08 13:11
GPT-5技术突破 - GPT-5是融合模型,能根据问题复杂度自动调整思考深度,在速度与准确性间取得平衡[2][7] - 在数学推理(AIME 2025测试94.6%)、多模态理解(MMMU 84.2%)、医疗健康(HealthBench Hard 46.2%)等基准测试创下新高[4] - 编程能力显著提升:SWE-bench Verified测试74.9%,Aider polyglot测试88%,可生成数百行可运行代码且无需调试[4] 行业应用深化 - 医疗领域表现突出,被描述为"最准确的医疗问题解答模型",能结合患者个人情况提供细致建议[6] - 编程场景落地成熟,Meta预计明年50%代码由AI编写,微软当前20%-30%代码为AI生成[5] - 在40多种职业任务中表现优于人类专家,覆盖法律、物流、销售等高附加值领域[10] 商业化战略调整 - 年化经常性收入从6月100亿美元跃升至130亿美元,预计年底突破200亿美元[8] - 推出1美元政府服务计划,与美国国防部签署2亿美元合同,重点拓展企业及政府市场[8][9] - 当前75%收入依赖消费者订阅,企业市场份额25%落后于Anthropic(32%)[10] 市场竞争格局 - 面临谷歌Genie 3、Meta Llama 3及中国Qwen 3等竞品压力[8] - Anthropic凭借安全性占据金融/医疗市场,谷歌依靠云基础设施提供一站式方案[10] - 公司计划2026年在华盛顿设立办事处,强化政府关系[9]
美国启动“ATOM计划”,对抗中国“千问”开源领先地位
观察者网· 2025-08-06 17:14
中国开源AI发展现状 - 阿里巴巴通义千问系列大模型成为全球开发者偏好的免费模型 因其是当前性能最强大的免费开源模型[1] - 全球性能最强的15个AI大模型中仅有5个开源模型且全部由中国AI企业开发[1] - 中国企业在开源AI领域取得显著突破 仅2023年7月阿里巴巴就发布四个领先的开源AI模型[1] 美国开源AI竞争态势 - 美国同期未发布任何具有全球影响力的新一代开源大模型 凸显其在开源生态建设上的明显短板[1][2] - Meta公司自4月发布Llama 3后更新令人失望 且首席执行官宣布未来在开源问题上将更加谨慎[2] - 美国科技界和政策制定者对中国开源AI发展保持高度警觉[1] 美国ATOM计划战略部署 - 计划建立总部位于美国的非营利性AI实验室 专注于开发真正开放的AI模型[2] - 核心算力配置将超过10,000块最先进GPU芯片 相当于大型科技公司AI项目的算力规模[2] - 需要至少1亿美元资金投入用于获取顶级GPU算力支持[3] 行业支持与影响 - 获得十余位行业领袖联署支持 包括Hugging Face首席执行官、斯坦福大学教授、英伟达总监及OpenAI高管等[2] - 分析人士警告若计划失败 美国可能丧失对全球AI技术发展方向的影响力[3] - 开源AI竞争已超越技术层面 成为生态、理念与全球话语权的博弈[3]