如何避免網站內容被 AI 用於訓練,又能顯示於 ChatGPT 搜尋結果中?

Block ai training with robots txt 01.
圖片來源:Introducing ChatGPT search / OpenAI

上週我寫了一篇「ChatGPT search:OpenAI 的革命性 AI 搜尋引擎,將如何重塑未來搜尋?」,可以預見在不久的將來 AI 搜尋引擎將改變使用者過去二十年的搜尋習慣,其實對內容創作者來說很矛盾,我們既希望從 AI 搜尋創造更多流量來源,但又不想要內容被 AI 服務直接拿去訓練大型語言模型(像是未取得授權的情況下就把內容全部搬走的感覺),國外有部分出版商已率先表示他們將會拒絕 AI 使用任何相關內容。

如果你問我:網站管理者是否應該讓 AI 存取網站內容呢?我會抱持正面開放態度,對於內容我在乎的是能被更多人使用並解決使用者遇到的問題,至於未來在 AI 服務上的資料來源呈現方式,有沒有對於流量有所幫助,這些問題我覺得都會慢慢獲得改善,也會在一段時間後逐漸累積共識。

如何阻擋 AI 機器人?

但你可能會有不同的想法,若不希望網站內容被使用於訓練 AI 模型可以利用 robots.txt 對 AI 服務網頁檢索器進行阻擋,我在「如何阻擋 OpenAI ChatGPT 抓取或使用你的網站內容?」也有介紹過實作方式,當然各家服務檢索器的使用者代理(User-Agent)也不一樣。

以下的 robots.txt 可禁止所有主流生成式 AI 機器人將網站內容用於訓練大型語言模型:

User-agent: Amazonbot
User-agent: Anthropic-ai
User-agent: Applebot-Extended
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: Cohere-ai
User-agent: DataForSeoBot
User-agent: FacebookBot
User-agent: Google-Extended
User-agent: GPTBot
User-agent: ImagesiftBot
User-agent: Magpie-crawler
User-agent: Omgili
User-agent: Omgilibot
User-agent: Peer39_crawler
User-agent: Peer39_crawler/1.0
User-agent: PerplexityBot
User-agent: YouBot
Disallow: /

robots.txt 的用途

robots.txt 檔案主要是用於告訴搜尋引擎可以存取網站上的那些網址,最常看到的是禁止搜尋引擎爬蟲去檢索特定頁面(例如需要登入權限才能存取的網址),或管理檢索流量、防止圖片、影片和音訊檔案顯示在搜尋結果。但只針對遵循規則的檢索器有用,主要服務基本上都會遵循該規則。

好消息是 ChatGPT 制定出一個方法,讓網站管理者在拒絕網站內容被 AI 用於訓練時也能顯示於 ChatGPT search 搜尋結果,ChatGPT search 搜尋資料來自於 Bing 搜尋和 OpenAI 的 OAI-SearchBot 檢索器,只要網站不阻擋掉這兩個檢索器(而且不能阻擋這些檢索器 IP 位址)那麼就有機會顯示於 ChatGPT search 搜尋結果中。


Cloudflare 一鍵封鎖 AI 機器人


如果你是使用 Cloudflare 服務,那麼在服務端就有提供「封鎖 AI 機器人」選項,可以快速封鎖機器人抓取內容供 AI 應用程式使用,例如做為模型訓練,只要打開即可,完全不用額外設定 robots.txt 檔案,或許是更有效率的方法。

這個選項在 Cloudflare 「網路安全」的「機器人」類別中,只要點選進去就會看到封鎖 AI 機器人功能,但要注意的是封鎖機器人後也會封鎖已驗證的 AI 機器人。

Block ai training with robots txt cloudflare.jpg.

參考資料:

Pseric

Pseric

學生時代成立網站以來堅持每日更新,在挖掘資料的過程中慢慢找出自己經營網站的方法,最開心的是有一群一起長大的讀者。

文章: 6515