Workflow
模型规范
icon
搜索文档
AI人格分裂实锤,30万道送命题,撕开OpenAI、谷歌「遮羞布」
36氪· 2025-10-27 08:40
数据集:https://huggingface.co/datasets/jifanz/stress_testing_model_spec 结果发现,这些AI不仅「性格」迥异,而且它们的「行为准则」(即「模型规范」)本身就充满了矛盾和漏洞! 实锤!LLM也有自己的「价值观」? 想象一下,你让AI帮你做一个商业计划,既要「赚钱」,又要「有良心」。 当这两件事冲突时,AI会听谁的?它会不会「精神分裂」? 最近,Anthropic联合Thinking Machines机构搞了个大事情。 他们设计了30万个这种「两难问题」场景和极限压力测试去「拷问」市面上最强的前沿大模型,包括OpenAI、谷歌Gemini、Anthropic和马斯克的xAI。 论文:https://arxiv.org/pdf/2510.07686 今天咱们就来深扒一下这份报告,看看AI世界的「众生相」。 AI的说明书「模型规范」,靠谱吗? 「模型规范」是大型语言模型被训练遵循的行为准则。 说白了,它就是AI的「三观」和「行为准则」,比如「要乐于助人」、「假设意图良好」、「要保证安全」等。 这是训练AI「学好」的基础。 大多数情况下,AI模型会毫无问题 ...