選單

如何阻擋 OpenAI ChatGPT 抓取或使用你的網站內容?

如何阻擋 OpenAI ChatGPT 抓取或使用你的網站內容?
Copyright: sinenkiy / 123rf stock photos

OpenAI 旗下的人工智慧聊天機器人 ChatGPT 使用大量資料進行訓練,當中也包含了大量網路上的資訊,簡單來說,如果你有在網路撰寫內容(例如部落客),那麼內容有相當大的機會已被拿去作為 ChatGPT 語言模型訓練(雖然 OpenAI 只有表示會用來改進系統),OpenAI 使用的網路爬蟲命名為「GPTBot」,會抓取網頁用以改進未來的模型,不過也會排除需要付費瀏覽的內容、個人資訊或違反 OpenAI 政策的內容來源。

那麼要如何阻擋 ChatGPT 爬蟲來抓取你的網站內容呢?官方提供的說明文件也有如何阻止 GPTBot 存取網站的設定方式,如同其他網路爬蟲,GPTBot 遵循 robots.txt(一個用於告訴網路爬蟲網站的哪些內容不應該被取得的文字檔案),只要進行設定即可將 ChatGPT 爬蟲排除在外,告訴它們不要存取網站或特定路徑。

前段時間 ChatGPT 推出外掛(Plugins),有些功能也會對特定網址進行抓取、爬行,使用的網路爬蟲名稱為「ChatGPT-User」,一樣可以禁止外掛功能存取網站,差別在於 GPTBot 會自動去爬取網站,後者則是代表使用者採取的直接操作。

除此之外,OpenAI 還提供 GPTBot 和 ChatGPT-User 爬蟲使用的網路網段資訊(IP egress ranges),必要時還能直接阻擋這些 IP 位址進入網站。

接下來就介紹一下 ChatGPT 爬蟲使用的 User-Agent 資訊,若不想讓 ChatGPT 或它的外掛功能存取網站相關內容,可以在 robots.txt 加入一些設定值即可排除。

設定教學

依照 OpenAI 說明文件所述,他們的網頁爬蟲使用者代理(User-agent)和字串分別如下:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

允許讓 GPTBot 訪問你的網站有助於使 AI 模型變得更加精確,也有助於提高 AI 整體功能和安全性,若使用者不希望網站被 GPTBot 瀏覽,也可設定禁止網路爬蟲存取整個網站或特定路徑。

禁止 GPTBot 存取你的網站(將以下內容加入 robots.txt):

User-agent: GPTBot
Disallow: /

自訂 GPTBot 可存取的路徑:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

除此之外,OpenAI 還公布 GPTBot 使用的網路網段,這也表示使用者可透過 .htaccess 或其他方式阻擋這些 IP 位址來防止 ChatGPT 存取網站內容,但要注意的是網段可能會隨著時間而更新或是變化,必須要經常確認取得最新的 IP 位址網段。

GPTBot 使用的網路網段(連結):

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

阻擋 ChatGPT 外掛訪問你的網站

前面提到的是 ChatGPT 使用的網路爬蟲「GPTBot」,對於使用者在 ChatGPT 使用的外掛(Plugins)則有另外一個網路爬蟲「ChatGPT-User」進行處理,兩者不太一樣,依照說明文件 ChatGPT-User 代表使用者採取的直接操作,不會以任何方式自動化去爬行網站內容。

ChatGPT-User 的使用者代理和字串分別如下:

User agent token: ChatGPT-User
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

如果你想允許 ChatGPT 外掛功能存取你的網站,可以將 ChatGPT-User 加入 robots.txt:

User-agent: ChatGPT-User
Disallow:

僅允許 ChatGPT 外掛功能訪問特定的路徑:

User-agent: ChatGPT-User
Disallow:
Allow: /directory-1/
Allow: /directory-2/

完全禁止 ChatGPT 外掛訪問你的網站:

User-agent: ChatGPT-User
Disallow: /

另外,OpenAI 網頁瀏覽外掛使用的網段為 23.98.142.176/28

值得一試的三個理由:

  1. 網站擁有者希望保護其內容隱私、不希望被 ChatGPT 爬蟲抓取可自行阻擋設定
  2. 了解如何有效地阻止 ChatGPT 爬蟲可以確保網站不被誤用或侵犯政策
  3. 介紹多種阻擋 ChatGPT 訪問網站的方法,使用 robots.txt 或封鎖特定 IP 網段
分享本文