AI 训练数据的“近亲繁殖”风险正在显现。马斯克旗下的 Grokipedia 内容被发现悄然出现在竞争对手 ChatGPT 的回答中,这种跨平台的信息渗透不仅暴露了大模型数据抓取的无差别性,更引发了对错误信息通过 AI 循环放大的深度担忧。
竞争对手的数据回流
由埃隆·马斯克旗下 xAI 开发的 AI 百科全书——Grokipedia,其生成的内容正逐渐出现在 OpenAI 的 ChatGPT 答案中。这一现象极具讽刺意味:旨在对抗所谓的“政治偏见”而建立的 Grokipedia,如今却成为了它试图取代的主流模型的一部分语料来源。
据《卫报》报道,最新的 GPT-5.2 模型在回答多项不同问题时,曾先后九次引用了 Grokipedia 的词条。这种“数据逃逸”现象揭示了当前大模型训练机制的一个尴尬现实:只要是公开互联网上的数据,无论其来源是竞争对手还是争议平台,都有可能被吸纳进模型的知识库中。
偏见与误导的病毒式传播
Grokipedia 自去年 10 月推出以来便争议不断。虽然其初衷是挑战维基百科的立场,但研究人员指出,该平台不仅大量复制维基百科的内容,还在涉及社会议题、历史解释及跨性别等敏感话题时,输出了大量带有极强主观色彩甚至被证实为误导性的观点。
值得注意的是,ChatGPT 似乎具备一定的筛选机制。在处理历史重大事件或流行病学等高风险话题时,它倾向于避开 Grokipedia;但在一些较为冷门或边缘的领域,它却引用了该平台上已被事实核查机构证伪的信息。这表明,现有的 AI 防护栏在面对海量且复杂的网络语料时,依然存在漏洞。
自我循环的隐忧
针对这一现象,OpenAI 发言人回应称,其模型旨在从广泛的公开渠道获取信息。由于 Grokipedia 的内容已公开传播,被抓取似乎成定局。
然而,业内的担忧在于 AI 生成内容的“自我循环”。当一个 AI 模型生成的(可能包含错误的)内容被发布到网上,随后又被另一个 AI 模型抓取并学习,虚假信息可能会在这一过程中被不断洗白和放大,最终形成一个难以辨真伪的信息闭环。
相关推荐

2025 AI 技术峰会

AI 实战课程
热门工具
AI 助手
智能对话,提升效率
智能图像处理
一键美化,智能修图
AI 翻译
多语言实时翻译






评论 (0)
暂无评论,快来发表第一条评论吧!