上週我寫了一篇「ChatGPT search:OpenAI 的革命性 AI 搜尋引擎,將如何重塑未來搜尋?」,可以預見在不久的將來 AI 搜尋引擎將改變使用者過去二十年的搜尋習慣,其實對內容創作者來說很矛盾,我們既希望從 AI 搜尋創造更多流量來源,但又不想要內容被 AI 服務直接拿去訓練大型語言模型(像是未取得授權的情況下就把內容全部搬走的感覺),國外有部分出版商已率先表示他們將會拒絕 AI 使用任何相關內容。
如果你問我:網站管理者是否應該讓 AI 存取網站內容呢?我會抱持正面開放態度,對於內容我在乎的是能被更多人使用並解決使用者遇到的問題,至於未來在 AI 服務上的資料來源呈現方式,有沒有對於流量有所幫助,這些問題我覺得都會慢慢獲得改善,也會在一段時間後逐漸累積共識。
如何阻擋 AI 機器人?
但你可能會有不同的想法,若不希望網站內容被使用於訓練 AI 模型可以利用 robots.txt
對 AI 服務網頁檢索器進行阻擋,我在「如何阻擋 OpenAI ChatGPT 抓取或使用你的網站內容?」也有介紹過實作方式,當然各家服務檢索器的使用者代理(User-Agent)也不一樣。
以下的 robots.txt 可禁止所有主流生成式 AI 機器人將網站內容用於訓練大型語言模型:
robots.txt 的用途
robots.txt
檔案主要是用於告訴搜尋引擎可以存取網站上的那些網址,最常看到的是禁止搜尋引擎爬蟲去檢索特定頁面(例如需要登入權限才能存取的網址),或管理檢索流量、防止圖片、影片和音訊檔案顯示在搜尋結果。但只針對遵循規則的檢索器有用,主要服務基本上都會遵循該規則。
好消息是 ChatGPT 制定出一個方法,讓網站管理者在拒絕網站內容被 AI 用於訓練時也能顯示於 ChatGPT search 搜尋結果,ChatGPT search 搜尋資料來自於 Bing 搜尋和 OpenAI 的 OAI-SearchBot
檢索器,只要網站不阻擋掉這兩個檢索器(而且不能阻擋這些檢索器 IP 位址)那麼就有機會顯示於 ChatGPT search 搜尋結果中。
Cloudflare 一鍵封鎖 AI 機器人
如果你是使用 Cloudflare 服務,那麼在服務端就有提供「封鎖 AI 機器人」選項,可以快速封鎖機器人抓取內容供 AI 應用程式使用,例如做為模型訓練,只要打開即可,完全不用額外設定 robots.txt
檔案,或許是更有效率的方法。
這個選項在 Cloudflare 「網路安全」的「機器人」類別中,只要點選進去就會看到封鎖 AI 機器人功能,但要注意的是封鎖機器人後也會封鎖已驗證的 AI 機器人。
參考資料:
- Overview of OpenAI Crawlers
- How to appear in ChatGPT search results without training their AI
- 宣佈推出 AIndependence:一鍵封鎖 AI 機器人、剽竊者和網路爬蟲