Workflow
大型语言模型
icon
搜索文档
如何应对不同类型的生成式人工智能用户
36氪· 2025-12-19 11:54
我最近参与了一些关于为终端用户设计基于大型语言模型工具的有趣讨论,其中一个重要的产品设计问 题是"人们对人工智能了解多少?"这很重要,因为正如任何产品设计师都会告诉你的,你需要了解用 户,才能成功为他们打造可用的产品。想象一下,如果你在搭建一个网站,假设所有访客都会流利使用 普通话,所以你用普通话写了网站,但结果发现你的用户全是西班牙语。就是这样,因为虽然你的网站 可能很棒,但你构建的假设是致命的错误,结果大大降低了它的成功可能性。 所以,当我们为用户构建基于LLM的工具时,我们必须退一步,看看这些用户如何看待LLM。例如: 用户研究是产品设计中极其重要的部分,我认为在构建基于大型语言模型的工具时跳过这一步是个大错 误。我们不能假设我们知道特定受众过去如何体验过大型语言模型,尤其不能假设我们自己的经历代表 他们的经历。 用户类别 大概有 这四个类别: 无意识使用者(不知道/不在乎) 一个不怎么思考人工智能、也不认为它与自己生活相关的用户属于这一类。他 们自然对底层技术了解有限,也不会有太多好奇心去了解更多。 回避型用户(人工智能很危险) 这个用户对人工智能整体持负面看法,会带着高度怀疑和不信任来解决这个问 题 ...
医疗AI迎来大考,南洋理工发布首个LLM电子病历处理评测
36氪· 2025-12-16 11:05
南洋理工大学研究人员构建了EHRStruct基准,用于评测LLM处理结构化电子病历的能力。该基准涵盖11项核心任务,包含2200个样本,按临 床场景、认知层级和功能类别组织。研究发现通用大模型优于医学专用模型,数据驱动任务表现更强,输入格式和微调方式对性能有显著影 响。基于此,团队提出EHRMaster框架,与Gemini联合后性能超越现有模型。 电子病历(EHR)是医疗体系中最核心的数据形态,集中呈现患者在诊断、检验、用药、生命体征监测与疾病管理过程中的关键临床信息,是临床决策的 重要基础。 随着LLM逐步应用于医疗场景,如何使其有效理解和处理这些结构化的EHR,从而辅助医生完成关键的数据分析与临床推理,已成为推动医疗人工智能 发展的重要问题。 因此,南洋理工大学的研究人员提出了首个全面评测LLM处理结构化电子病历能力的综合基准EHRStruct,由计算机科学家与医学专家共同构建,并按 照临床场景、认知层级与功能类别进行层次化组织,全面的覆盖了LLM处理结构化EHR的11项核心任务,包含2,200个标准化样本,为医疗大模型的可控 性、可靠性与临床可用性提供统一而严谨的可解释评测框架。 论文链接:https: ...
Llama已死?Meta(META.US)将在明年初推出新AI大模型Avocado
智通财经· 2025-12-09 21:46
今年6月曾有市场消息称,包括扎克伯格在内的Meta高管已讨论过对其Llama系列语言模型"削减投资", 转而采用竞争对手开发的模型,包括OpenAI和Anthropic的产品。 数月后,Meta重组了人工智能部门,部分原因是为了优化组织架构,从而更快开发AI产品以应对竞 争。 今年夏季,Meta斥资近150亿美元收购了Scale AI的股权,并任命其CEO Alexandr Wong为Meta的首席人 工智能官。 据知情人士透露,Meta (META.US)可能在2026年第一季度发布新的大型语言模型(LLM),以进一步 与谷歌(GOOGL.US)、OpenAI等公司竞争。 知情人士称,这款代号为"Avocado"的新模型被视为Llama的继任者——Meta在Llama模型的发展上一直 面临挑战。 知情人士表示,Avocado发布时很可能将成为专有模型。而Meta目前的Llama系列模型均为开源模式, 允许任何人下载并改进。 ...
迎战谷歌新利器!OpenAI正研发新AI模型“Garlic”
智通财经· 2025-12-03 16:41
OpenAI新产品开发动态 - OpenAI正在开发代号为“Garlic”的大型语言模型 旨在应对谷歌在AI领域的进展[1] - 公司首席研究官马克·陈表示 Garlic在内部评估中表现良好 在编程和推理等任务上表现优于谷歌的Gemini 3和Anthropic的Opus 4.5[1] - OpenAI计划尽快发布Garlic的一个版本 可能最早于2025年初以GPT-5.2或GPT-5.5的名义发布[2] 行业竞争与公司战略 - 谷歌的新AI模型Gemini 3近期大获成功[2] - OpenAI首席执行官萨姆·阿尔特曼已宣布启动“红色代码”行动 以提升ChatGPT的质量[2] - 阿尔特曼向同事表示 OpenAI正准备推出一款新的推理模型 在内部评估中“领先于”Gemini 3[3] 技术细节与开发进展 - Garlic与另一个正在开发的新模型“Shallotpeat”不同[3] - Garlic包含了公司在预训练阶段开发Shallotpeat时的错误修复[3] - 在开发Garlic过程中 OpenAI解决了在预训练方面一直存在的一些关键问题 包括改进了其之前“最佳”且“规模大得多”的预训练模型GPT-4.5[4] - 这些改进意味着OpenAI现在可以将以往只有通过开发更大型模型才能获得的知识量 注入到一个更小的模型中[4] - 凭借从Garlic项目中汲取的经验 OpenAI已经着手开发一个更大、更好的模型[5] - Garlic在发布前仍需完成多个步骤 包括后期训练、其他测试以及安全评估[5] 相关ETF产品数据 - 食品饮料ETF(515170) 近五日涨跌-0.34% 市盈率20.61倍 最新份额108.8亿份 增加150.0万份 净申赎86.2万元 估值分位20.74%[7] - 游戏ETF(159869) 近五日涨跌3.10% 市盈率36.59倍 最新份额80.1亿份 增加1.8亿份 净申赎2.5亿元 估值分位53.96%[7] - 科创50ETF(588000) 近五日涨跌1.31% 市盈率148.60倍 最新份额515.3亿份 增加4950.0万份 净申赎6893.1万元 估值分位94.85%[7] - 云计算50ETF(516630) 近五日涨跌3.15% 市盈率94.84倍 最新份额2.8亿份 增加0.0份 净申赎0.0元 估值分位81.01%[7][8]
当大型语言模型计算“2+2”时
36氪· 2025-11-28 15:12
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技 术、新观点、新风向。 编者按:一道简单算术揭示了机器的奇特认知方式。本文来自编译,希望对您有所启发。 划重点: 不久前,我问一个大型语言模型,苹果是什么样子的。这个问题不是关于水果的,而是探讨无视觉感知 的世界。在那个世界里,"苹果"并非简单的红色或脆爽,而是存在于2万余维空间中的关系模式。现 在,让我们思考一个看似更简单的问题:当大型语言模型进行2+2运算时会发生什么? 有趣的是,这种模式与人类思维非常相似。人类思想同样源于模式与邻近性。孩童并非从算术起步,而 是从联想开始。他们看见两个苹果,接着又两个,听到"二加二等于四"的表述。在理解数量概念之前, 他们早已辨识出完整性的模式。 大脑并非按键式计算器,而是充满生机的连接几何体——意义源于关系而非规则。这并非使我们变得机 械化,而是赋予我们关系性。如此美妙。 在模型内部,没有意识,没有微小的声音说"是的,那是4个",唯有加权向量的动态演化,每一步都将 后续推向统计学上的协调。然而结果却显得充满智慧。这种错觉揭示了我们自身令人不安的真相。正是 如此,我们常将IAI的流畅误认为理 ...
大摩:谷歌每对外销售约50万颗TPU,将推升2027年谷歌云营收增加约130亿美元,每股盈利增长约3%
格隆汇· 2025-11-27 10:33
谷歌TPU销售对财务的潜在影响 - 根据敏感度分析,谷歌每对外销售约50万颗TPU,将使2027年谷歌云营收增加约130亿美元,意味着约11%的增长幅度 [1] - 每对外销售约50万颗TPU,将使2027年谷歌每股盈利增加约0.37美元,约3%的增长幅度 [1] 谷歌TPU的市场定位与策略 - 在英伟达预期2027年GPU出货量可达约800万颗的情况下,谷歌TPU的对外销售量若落在50万至100万颗区间,仍属合理范围 [3] - 谷歌推动TPU对外销售的整体策略存在不确定性,关键关注点包括其商业模式、定价策略以及TPU可承载的工作负载类型 [3] 谷歌AI芯片资本配置与行业格局 - 今年以来,谷歌在大型语言模型相关运算上,对英伟达的采购金额约200亿美元,而对TPU的支出则仅约十余亿美元 [3] - 这一资本配置结构明年可能略有调整,但整体AI芯片需求成长不太可能出现“赢家通吃”的情况 [3] 谷歌云业务与股价前景 - 若谷歌云端业务增长持续加速,且公司在半导体市场的布局顺利扩大,将有助于支撑其股价维持较高评价水准 [1]
大摩:谷歌每对外销售约50万颗TPU,将推升2027年每股盈利约3%
格隆汇· 2025-11-27 10:15
摩根士丹利分析师指出,依其敏感度分析推估,谷歌每对外销售约50万颗TPU,将使2027年谷歌云营收 增加约130亿美元、意味着约11%的增长幅度,2027年每股盈利将增加约0.37美元、约3%的增长幅度。 分析师进一步表示,若谷歌云端业务增长持续加速,且公司在半导体市场的布局顺利扩大,将有助于支 撑其股价维持较高评价水准。 以产业规模来看,在英伟达预期2027年GPU出货量可达约800万颗的情况下,谷歌TPU的对外销售量若 落在50万至100万颗区间,仍属合理范围。分析师也提醒,谷歌推动TPU 对外销售的整体策略仍存在不 确定性,投资人关注的重点包括其商业模式、定价策略,以及TPU可承载的工作负载类型。 该行指出,今年以来,谷歌在大型语言模型相关运算上,对英伟达的采购金额约200亿美元,而对TPU 的支出则仅约十余亿美元,这一资本配置结构明年可能略有调整,但整体AI芯片需求成长不太可能出 现"赢家通吃"的情况。 ...
喝点VC|a16z对话AI领袖:AI的“蛮力”之路能走多远?从根本上具备人性,才能真正理解人们想要什么
Z Potentials· 2025-11-22 11:21
AI发展现状与AGI路径之争 - 当前AI发展速度空前,过去一年在推理模型、代码生成和视频生成等领域取得突破性进展,不理解市场悲观情绪从何而来[7] - 制约模型发展的关键因素并非智能水平本身,而在于提供正确的上下文以有效运用其智能,以及计算机使用等尚不完善的方面,这些问题预计在一两年内几乎肯定能解决[8] - 对AGI的定义倾向于将其锚定为能力超越典型远程工作者的水平,无需在每项任务上都超越世界顶尖专家,达到此水平后世界将完全不同[9] - 现有大型语言模型架构仍有很大发展空间,无需全新架构即可持续进步,预训练和推理模型的进展仍然相当快速[10] - 大型语言模型存在明确局限性,需要大量人工标注、合约工作和人为构造的强化学习环境来提升性能,当前范式更像是"蛮力"模式而非真正破解智能本质[13][14][17] - 对AGI的传统定义是能够进入任何环境并高效学习的机器,像人类一样即时学习新技能,而当前AI仍需大量数据、计算和人类专业知识[15] 经济变革与未来社会图景 - 当AI能以相当于一小时一美元成本的能源完成任何远程工作者的工作时,GDP增长将远不止4%到5%,但可能因成本或能力瓶颈而无法完全达到该水平[21] - AI可能自动化入门级工作但无法替代专家,导致中间层职业发展受阻,例如计算机科学毕业生就业机会减少,公司减少投入培养新人[22] - 存在专家数据训练依赖的悖论:AI替代专家工作者后,长期可能缺乏人类专家提供训练数据,影响AI自我改进能力[23] - 短期内会爆炸式增长的职业类别是那些能够真正利用AI的工作,特别是擅长使用AI完成单靠AI本身无法完成任务的人[24] - 未来可能出现大量人口失业或在经济上不再做出贡献,但创业者数量将大幅增加,因为他们可以利用AI智能体快速创建公司[27] - 政治结构可能因经济生产力核心变化而改变,民族国家可能衰落,进入各国竞争人才和富人的时代[27] 技术格局演变与创业生态展望 - 独立创业者数量将大幅增长,个人首次能够将想法变为现实,探索大量未被实践的想法,这并非零和游戏,对每个人都是机会[5][6][28][29][30] - 当前技术格局处于良好平衡状态:超大规模公司之间有足够竞争使应用层公司有选择,价格快速下降,同时基础模型公司也能筹集资金进行长期投资[32] - AI技术趋势既是持续性又是颠覆性的,既为现有企业提供超级动力,也催生可能对抗现有企业的新商业模式,与Web 2.0时代相比网络效应作用减弱[34][36] - 订阅模式和Stripe等支付工具使新进入者更容易立即收费,不同于早期公司依赖规模才能建立广告业务[37] - 地缘政治因素影响技术发展,投资欧洲等地区的基础模型公司可能是个好主意,因为世界并非完全全球化[37] - 用户成熟度提高,普通消费者会使用多个AI产品,并根据不同场景选择不同模型,如付费使用ChatGPT但认为Claude更擅长分析类任务[39] 公司战略与产品发展 - Poe被视为额外机会而非对Quora的颠覆,定位为让人们私下与AI聊天的平台,押注于模型公司的多样性发展[38] - Quora专注于人类知识分享,这些知识对人类和AI训练都有帮助,同时通过AI应用在内容审核、答案排序等方面改进产品体验[42] - Replit创新"智能体"模式,不仅提供代码补全,还包括基础设施配置、部署、调试等完整软件开发生命周期,智能体自主性从V1的2分钟提升到V3的近乎无限期运行[44][45] - 未来发展方向包括多智能体协作、多模态交互(如白板绘制)、跨项目记忆等,目标是让单个开发者能管理多个智能体处理产品不同部分[46][48] - AI编程工具将软件创造能力开放给大众,让每个人都能创造出原本需要百名专业软件工程师团队才能完成的东西[49] 未来挑战与终极思考 - AI可能导致公司内部人际交流减少,新员工入职体验变差,需要认真对待因过度依赖AI而减少知识分享的文化力量[49] - 计算机科学基础知识和算法数据结构理解在未来管理智能体时仍有价值,建议学生学习喜欢的领域而非单纯追求热门[50] - 当前技术探索不足,过于受金钱驱动,需要更多修补和实验性探索,如将基础预训练模型、推理模型等组件以新方式组合[51][52] - 意识本质等核心科学问题尚未被充分探索,大型语言模型的发展分散了基础研究注意力,需要更多人才投入智能真正本质的研究[19][53]
推出全新AMD Instinct MI350系列GPU优化服务器解决方案 超微电脑(SMCI.US)小幅上涨
智通财经· 2025-11-21 00:20
公司动态 - 超微电脑股价周四盘初小幅上涨,截至发稿涨超1[1] - 公司宣布推出最新的AMD Instinct MI350系列GPU优化服务器解决方案[1] - 全新系统专为需要AMD Instinct MI355X GPU高端算力但部署在空气冷却环境中的企业设计[1] 产品性能 - 相比上一代产品,新款服务器可实现最高4倍的AI训练算力提升[1] - 新款服务器推理性能提升高达35倍[1] - 产品显著增强企业在大型语言模型、生成式AI、科学计算等领域的部署能力[1]
速递|百人团队ARR突破2亿美元,Lovable启动新一轮融资,估值预计超60亿美元
Z Potentials· 2025-11-19 19:30
融资与估值 - 公司即将完成新一轮融资,估值将超过60亿美元 [2][3] - 公司估值预计从夏季的18亿美元增长逾三倍至超过60亿美元 [5] - 竞争对手Cursor近期估值达293亿美元 [5] 业务模式与产品 - 公司采用免费增值模式,提供从免费到每月100美元不等的多个服务层级 [3] - 公司产品能让专业开发者和没有编程背景的用户快速从零开始构建应用或网站 [3] - 公司是众多氛围编程初创公司之一,依托日益精密的大型语言模型开发,能够辅助软件开发 [3] 市场定位与客户 - 公司客户群体包括独立创业者、大型企业中的非技术人员以及毫无编程经验的普通用户 [6] - 企业客户(如Klarna Group Plc)正将其用于产品原型开发 [6] - 公司最初目标是为99%的人群实现软件开发的民主化,但越来越多企业开始在实际业务场景中采用其产品 [7] 财务指标与增长 - 公司使用年经常性收入(ARR)指标,通过将上月收入乘以12来计算年度化数据 [5] - 自七月份以来,公司ARR指标已翻倍 [5] - 公司计划在2026年实现10亿美元的ARR目标 [5] 运营与团队 - 公司目前约有100名员工,并计划在未来几个季度内实现团队规模翻倍 [7] - 公司计划在波士顿和旧金山设立办公室 [7] - 公司最大的新客户来源是口碑传播 [3]