公司业务与模式 - 公司名为Forum AI 其业务是评估基础模型或任何AI产品在复杂高风险话题上的表现 这些话题包括地缘政治、心理健康、金融等 没有明确是非答案的领域[3][4] - 公司的方法是识别各领域的顶尖精英专家 由他们帮助构建基准 然后训练大型语言模型作为评估员进行规模化评估[4] - 公司从地缘政治领域开始 因为这是创始人的热情所在且拥有相关人脉网络 合作专家包括尼尔·弗格森、法里德·扎卡里亚、前国务卿托尼·布林肯、前众议院议长凯文·麦卡锡等知名人士[5] - 评估过程旨在捕捉专家的推理过程和思维方式 而不仅仅是他们的结论或知识 经过训练后 评估员与专家共识度达到90%[6] 市场机会与监管驱动 - 公司在偏见评估方面获得大量关注 包括新闻中的政治偏见 以及招聘、贷款和信贷中的性别与种族偏见[7] - 许多新法规正在生效 要求公司对偏见进行评估或审计 这正成为一个巨大的增长领域[7] - 以纽约市为例 法律规定在招聘中使用任何AI工具都必须进行审计和评估 并每年公开结果 州审计长调查发现超过一半的审计未能发现违规行为[17] - 目前的合规审查流于形式 是“合规表演” 而公司旨在提供可规模化、定制化的深度评估方案[18] 当前AI模型在新闻领域的表现与问题 - 当前领先的AI模型在新闻方面表现不佳[8] - 基础模型公司极度专注于编码和数学 而处理新闻等复杂领域并非其优先事项[10] - 模型普遍存在左倾偏见 除了Grok模型 但Grok倾向于迎合用户的输入[11] - 问题不仅在于事实准确性偏见和信源选择 还在于缺乏背景、缺失不同视角 以及处理论证的方式[12] - 数百万用户正使用聊天机器人获取新闻和信息 因此准确性需要成为优先事项 企业客户的需求也将对此施加压力[13][14] AI模型的行为差异与消费者信任 - 在动态变化的情境中 不同AI模型表现各异 例如Claude倾向于谨慎、缓慢并承认模糊性 而Gemini和ChatGPT则会继续推进[30] - 在医疗保健和心理健康相关问题方面 不同模型的表现也存在差异[30] - 消费者对AI的信任度极低 普通用户使用聊天机器人询问基本问题时 仍会得到大量错误和低质量答案 这与科技公司描绘的变革性前景存在脱节[32] - 硅 Valley与普通消费者之间缺乏沟通 需要开始关于AI素养的对话 并思考如何向公众传达关于模型工作原理的知识[33][34] 行业趋势与未来展望 - 行业目前处于一个阶段:企业CEO和董事会层面竞相采用AI 而合规团队则要求谨慎 许多企业已意识到风险过高 因此在信贷、贷款、保险、招聘等决策领域对使用AI工具感到不安 评估是建立信心的唯一途径[15] - 企业市场是AI公司的主要盈利来源 企业客户不会希望AI优化“用户喜欢什么” 而是会要求优化“正确答案”[26][27] - 存在一种希望 AI可能不会像社交媒体那样为“参与度”而优化 而是可以优化“真实性”和“诚实” 这或许有助于回归某种“共享的真相”[24][25][41] - 美国政府已出台相关法规 要求通过采购过程向政府出售的任何含AI的工具 都必须评估其政治中立性 相关指导原则包括“追求真相”和“中立”[38][39][40]
Campbell Brown on Going From Anchor to Facebook to Founding Forum AI | StrictlyVC