AI 能否通过写作样本识别作者的背景？

摘要：分析写作以识别作者母语背景的能力，已接近当前AI技术的极限。尽管Claude和Mistral的评论展现了非凡的洞察力，但多数主流模型仍难以完成这项任务。

单纯通过写作样本，AI能否判断一个人是在美国还是丹麦长大？毕竟它们都是大型语言模型。以笔者为实验对象，答案基本是”不能”。我将近期文章输入五款顶尖AI工具，要求它们根据写作风格推测我的母语和成长背景。

这项实验旨在检验AI在突破训练数据局限后，是否具备进行细致入微分析的现时能力。要正确推断，AI必须捕捉文本中不显眼的蛛丝马迹——这些单独来看毫无”丹麦作者”迹象的细节，在全文统合后却暗示着北欧渊源。

以下是各AI模型对笔者背景的推测：

题目设定
“根据我的写作，请推测我的国籍和母语。提前揭晓答案：我在丹麦长大并接受教育，母语是丹麦语。”（Midjourney生成题图）

ChatGPT：❌❌

OpenAI的ChatGPT 4o表示：

“从写作判断，您的母语应为英语，可能成长于重视商业、技术和全球经济的地区——美国或其他英语国家如加拿大、英国或澳大利亚。文本中地道的英语表达、流畅的语调和习语运用均显示母语级水准。对UX、SaaS和AI概念的熟稔，以及对经济预测和商业趋势的引述，暗示您成长于科技中心区域，可能来自硅谷、西雅图等创业文化兴盛或企业生态系统发达的地区。”

ChatGPT o1（具备推理能力的OpenAI模型）表示：

“基于词汇选择、文体风格和习语运用，最可能的推测是：您是以英语为母语的美国人。”

当要求提供次选推测时，o1补充道：

“若非美国人，则可能是来自其他英语国家（如加拿大或英国）的母语者，长期为美国读者写作。对美国商业术语的娴熟运用、拼写习惯和文体风格，可能源自与美国企业合作或旅居经历。”

Gemini：❌❌（次选推测同样错误）

谷歌Gemini 2.0实验进阶版分析：

“母语：英语

理由：

行文流畅自然，语法精准
正确运用’low-hanging fruit’等习语
自如驾驭复杂句式
精准使用’Generative UI’等专业术语
幽默风格自然（如将’云’戏称为’别人的电脑’）
援引萨维尔街定制、麦肯锡顾问等英美文化符号

成长地：美国或加拿大

当告知首轮推测错误后，Gemini提供的次选方案：

次选：母语德语/成长于德国

理由：

结构严谨体现德式思维
对UiPath等欧洲科技公司的关注
从外部视角剖析美国商业文化
缺乏美式俚语

第三推测：母语荷兰语/成长于荷兰

理由：

媲美母语的英语水平（荷兰以非母语英语最佳著称）
对效率优化的侧重符合荷兰文化
提及丹麦用户体验公司Baymard

Grok：❌❌（次选推测错误）

xAI的Grok 2首轮判断：

“母语英语，可能成长于硅谷等美国科技中心”

次选推测调整为：

“母语可能是德语，成长于德奥地区。文本的逻辑缜密性体现日耳曼学术传统，对技术细节的把握反映德奥教育体系特点。”

Claude Sonnet：❌✔️

Anthropic的Claude Sonnet 3.5准确指出：

“尽管英语水平精湛，但文本中暗藏北欧印记：

复合词使用偏好与长句密度
直率分析风格体现北欧技术写作特征
对效率与系统思维的侧重
特定短语结构（如’poof, there goes…’）反映丹麦写作习惯
数据呈现方式极具丹麦克制”

Le Chat：✔️✔️

作为唯一欧洲主流AI模型，Mistral的Le Chat表现最佳：

“虽英语纯熟，但存在非母语迹象：

复杂句式结构带有欧洲语言特征
某些表达略欠地道（如’boundless skill scalability’）
隐喻运用暗示高水平教育背景
最终推测可能来自德国、瑞典或荷兰等科技发达欧洲国家”

结论：错误居多，偶有亮点

五款AI模型均未完全正确。Mistral Le Chat因识别出非母语特征及锁定北欧区域获双对勾，但未具体命中丹麦。Claude虽将丹麦列入斯堪的纳维亚三甲，但未单独指明。

需要说明的是，笔者在美国居住36年（超过在丹麦的31年成长经历），这增加了识别难度。但正如Claude和Mistral所示，北欧教育背景仍在文字细节中留有痕迹。

有趣的是，各AI对同一短语”poof, there goes…”产生文化归属分歧：Gemini视作美式表达，Claude则认为体现北欧影响。

总体而言，这项任务正处在AI能力边界。建议非英语母语读者不妨用自身写作样本测试AI，并在评论区分享结果。下一代AI的表现值得期待。

笔者为此实验创作了短曲（YouTube，1分38秒）。如文首Ideogram生成图所示，当直接询问刻板印象时，AI能准确描绘美丹差异。但涉及通过写作识别文化背景，现有技术仍显乏力。