OpenAI 联合数据公司要求合同工上传真实工作文档以训练 AI 模型,尽管提供了隐私清洗工具,但法律专家指出,高度依赖人工判断的数据收集方式可能使 AI 实验室面临严峻的知识产权风险。
真实案例取代合成数据
为了突破 AI 模型在处理复杂白领任务时的瓶颈,OpenAI 及其数据合作伙伴 Handshake AI 正在执行一项激进的数据采集策略。根据一份内部简报显示,公司明确要求第三方合同工上传过去或现在工作中的“真实案例”,而非经过概括的摘要。
这一举措的核心目的在于获取高质量的训练数据,使模型能够理解并自动化更高阶的办公任务。OpenAI 要求的数据类型覆盖了现代办公的核心场景,包括 Word 文档、PDF 报告、PowerPoint 演示文稿、Excel 电子表格,甚至包括完整的代码库。这种对“原始输出”的渴望,显示了 AI 巨头正在从通用数据训练转向更具针对性的垂直领域深耕。

清洗工具与隐私博弈
为了缓解随之而来的隐私泄露风险,OpenAI 引入了一款名为“ChatGPT 明星清洗”的专用工具。公司要求合同工在上传任何文件之前,必须删除所有具有专有性质的信息(Proprietary Information)和个人可识别信息(PII)。
然而,这一流程将巨大的合规压力转移到了合同工个人身上。系统依赖于工人的主观判断来界定什么是“机密”,什么是“可公开”。这种机制在实际操作中存在巨大的灰色地带,尤其是在处理由于非竞争协议或保密协议保护的过往工作内容时。
法律界预警信任风险
针对 OpenAI 的这一做法,知识产权领域的法律专家发出了明确警告。知识产权律师 Evan Brown 指出,任何采取这种数据搜集方式的 AI 实验室都处于“巨大的风险之中”。
核心问题在于信任机制的脆弱性。将鉴别机密信息的责任下放给合同工,不仅难以保证数据清洗的彻底性,更可能在无意中触犯第三方的商业秘密保护法。一旦含有版权或商业机密的数据被混入训练集,AI 公司将面临难以估量的法律诉讼风险。截至目前,OpenAI 官方尚未对这一争议性策略做出进一步回应。
相关推荐

2025 AI 技术峰会

AI 实战课程
热门工具
AI 助手
智能对话,提升效率
智能图像处理
一键美化,智能修图
AI 翻译
多语言实时翻译






评论 (0)
暂无评论,快来发表第一条评论吧!