如何避免網站內容被 AI 用於訓練，又能顯示於 ChatGPT 搜尋結果中？

Block ai training with robots txt 01. — 圖片來源：Introducing ChatGPT search / OpenAI

上週我寫了一篇「ChatGPT search：OpenAI 的革命性 AI 搜尋引擎，將如何重塑未來搜尋？」，可以預見在不久的將來 AI 搜尋引擎將改變使用者過去二十年的搜尋習慣，其實對內容創作者來說很矛盾，我們既希望從 AI 搜尋創造更多流量來源，但又不想要內容被 AI 服務直接拿去訓練大型語言模型（像是未取得授權的情況下就把內容全部搬走的感覺），國外有部分出版商已率先表示他們將會拒絕 AI 使用任何相關內容。

如果你問我：網站管理者是否應該讓 AI 存取網站內容呢？我會抱持正面開放態度，對於內容我在乎的是能被更多人使用並解決使用者遇到的問題，至於未來在 AI 服務上的資料來源呈現方式，有沒有對於流量有所幫助，這些問題我覺得都會慢慢獲得改善，也會在一段時間後逐漸累積共識。

如何阻擋 AI 機器人？

但你可能會有不同的想法，若不希望網站內容被使用於訓練 AI 模型可以利用 robots.txt 對 AI 服務網頁檢索器進行阻擋，我在「如何阻擋 OpenAI ChatGPT 抓取或使用你的網站內容？」也有介紹過實作方式，當然各家服務檢索器的使用者代理（User-Agent）也不一樣。

以下的 robots.txt 可禁止所有主流生成式 AI 機器人將網站內容用於訓練大型語言模型：

	User-agent: Amazonbot
	User-agent: Anthropic-ai
	User-agent: Applebot-Extended
	User-agent: AwarioRssBot
	User-agent: AwarioSmartBot
	User-agent: Bytespider
	User-agent: CCBot
	User-agent: ChatGPT-User
	User-agent: ClaudeBot
	User-agent: Claude-Web
	User-agent: Cohere-ai
	User-agent: DataForSeoBot
	User-agent: FacebookBot
	User-agent: Google-Extended
	User-agent: GPTBot
	User-agent: ImagesiftBot
	User-agent: Magpie-crawler
	User-agent: Omgili
	User-agent: Omgilibot
	User-agent: Peer39_crawler
	User-agent: Peer39_crawler/1.0
	User-agent: YouBot
	Disallow: /

view raw disallow-genai-bots.txt hosted with ❤ by GitHub

robots.txt 的用途

robots.txt 檔案主要是用於告訴搜尋引擎可以存取網站上的那些網址，最常看到的是禁止搜尋引擎爬蟲去檢索特定頁面（例如需要登入權限才能存取的網址），或管理檢索流量、防止圖片、影片和音訊檔案顯示在搜尋結果。但只針對遵循規則的檢索器有用，主要服務基本上都會遵循該規則。

好消息是 ChatGPT 制定出一個方法，讓網站管理者在拒絕網站內容被 AI 用於訓練時也能顯示於 ChatGPT search 搜尋結果，ChatGPT search 搜尋資料來自於 Bing 搜尋和 OpenAI 的 OAI-SearchBot 檢索器，只要網站不阻擋掉這兩個檢索器（而且不能阻擋這些檢索器 IP 位址）那麼就有機會顯示於 ChatGPT search 搜尋結果中。