如何避免網站內容被 AI 用於訓練,又能顯示於 ChatGPT 搜尋結果中?

Block ai training with robots txt 01.
圖片來源:Introducing ChatGPT search / OpenAI

上週我寫了一篇「ChatGPT search:OpenAI 的革命性 AI 搜尋引擎,將如何重塑未來搜尋?」,可以預見在不久的將來 AI 搜尋引擎將改變使用者過去二十年的搜尋習慣,其實對內容創作者來說很矛盾,我們既希望從 AI 搜尋創造更多流量來源,但又不想要內容被 AI 服務直接拿去訓練大型語言模型(像是未取得授權的情況下就把內容全部搬走的感覺),國外有部分出版商已率先表示他們將會拒絕 AI 使用任何相關內容。

如果你問我:網站管理者是否應該讓 AI 存取網站內容呢?我會抱持正面開放態度,對於內容我在乎的是能被更多人使用並解決使用者遇到的問題,至於未來在 AI 服務上的資料來源呈現方式,有沒有對於流量有所幫助,這些問題我覺得都會慢慢獲得改善,也會在一段時間後逐漸累積共識。

如何阻擋 AI 機器人?

但你可能會有不同的想法,若不希望網站內容被使用於訓練 AI 模型可以利用 robots.txt 對 AI 服務網頁檢索器進行阻擋,我在「如何阻擋 OpenAI ChatGPT 抓取或使用你的網站內容?」也有介紹過實作方式,當然各家服務檢索器的使用者代理(User-Agent)也不一樣。

以下的 robots.txt 可禁止所有主流生成式 AI 機器人將網站內容用於訓練大型語言模型:

User-agent: Amazonbot
User-agent: Anthropic-ai
User-agent: Applebot-Extended
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: Cohere-ai
User-agent: DataForSeoBot
User-agent: FacebookBot
User-agent: Google-Extended
User-agent: GPTBot
User-agent: ImagesiftBot
User-agent: Magpie-crawler
User-agent: Omgili
User-agent: Omgilibot
User-agent: Peer39_crawler
User-agent: Peer39_crawler/1.0
User-agent: PerplexityBot
User-agent: YouBot
Disallow: /

robots.txt 的用途

robots.txt 檔案主要是用於告訴搜尋引擎可以存取網站上的那些網址,最常看到的是禁止搜尋引擎爬蟲去檢索特定頁面(例如需要登入權限才能存取的網址),或管理檢索流量、防止圖片、影片和音訊檔案顯示在搜尋結果。但只針對遵循規則的檢索器有用,主要服務基本上都會遵循該規則。

好消息是 ChatGPT 制定出一個方法,讓網站管理者在拒絕網站內容被 AI 用於訓練時也能顯示於 ChatGPT search 搜尋結果,ChatGPT search 搜尋資料來自於 Bing 搜尋和 OpenAI 的 OAI-SearchBot 檢索器,只要網站不阻擋掉這兩個檢索器(而且不能阻擋這些檢索器 IP 位址)那麼就有機會顯示於 ChatGPT search 搜尋結果中。

參考資料:

分享本文
Pseric

Pseric

學生時代成立網站以來堅持每日更新,在挖掘資料的過程中慢慢找出自己經營網站的方法,最開心的是有一群一起長大的讀者。

文章: 6490