
本文重點:說明 Googlebot 2 MB 抓取限制如何運作,以及如何透過 Will it Crawl? 快速檢查網站是否可被完整索引。
近期 Google 搜尋中心有一些頁面進行更新,其中比較重要、值得網站管理員關注的是 Googlebot 檢索器將原有的網頁大小限制從 15 MB 調整為 2 MB,簡單來說 Google 只會抓取支援文件類型的前 2 MB 內容,PDF 則為前 64 MB。這意味著如果網頁太大、超過檢索器支援的大小,超出的部分會被自動忽略,雖然說這項限制很少有網站會達到,若有疑慮依然可以自行檢測。
Googlebot 2 MB 限制運作方式
Googlebot 檢索器只會檢索網頁前 2 MB 內容,而且這項限制是指「未壓縮」大小,不包含其他資源加入的大小,HTML 引用的各項資源(例如 CSS 和 JavaScript)也都受相同檔案大小上限限制,圖片部分則是 15 MB,若發現網頁好像無法被搜尋引擎正確檢索時,應該可以檢查一下有沒有超過限制。
如何檢查網頁是否超過 2 MB?
那麼要如何知道網頁有沒有超過 2 MB 大小限制呢?最簡單的方法就是使用瀏覽器內建的開發者工具,直接查看網頁文件大小即可,絕大多數 HTML 文件應該都遠小於 2 MB,正常情況下應該不會遇到,如果有的話,很大機率是使用 Base64 編碼內嵌的圖片或字型所致。
有國外開發者製作一個名為「Will it Crawl?」線上工具,可以在貼上網址後直接檢查網頁有沒有超過 2 MB,此外,結果頁面也會清楚顯示總頁面大小、可抓取比例、無法抓取比例和舊限制(15 MB)等資訊,透過可視化方式讓使用者知道 Googlebot 可抓取的範圍,更有利於找出網頁可能的問題。
網站資訊
網站名稱:Will it Crawl?
網站鏈結:https://willitcrawl.com/
使用教學
進入「Will it Crawl」網站後貼上要檢測的網址、點選「Check Now」就會立即檢測並顯示結果,操作上非常簡單!如果你對瀏覽器的開發者工具較不熟悉,這是一個更容易檢查網頁是否超過 2 MB 的方法。

結果頁面會顯示能否被 Google 完整抓取,如果標記為綠色勾勾代表在網頁大小方面沒有超過限制。
此外,下方也會顯示總頁面大小、可被抓取比例、無法抓取比例和舊限制(15 MB),下方標記綠色範圍的內容是在 2 MB 限制以內,如果有出現標示紅色範圍就代表 Google 無法完整抓取。

如果 Will it Crawl 網站無法正常使用,推薦另一個「G-Bot Limit Checker」也有相同功能,將網址貼上後就能快速檢測有無超過 2 MB 網頁大小限制,一般來說網頁幾乎都不會超過這項限制。

總結
這次 Google 調整 Googlebot 的抓取大小限制其實是一個很容易被忽略,但對技術 SEO 相當重要的更新。
多數網站雖然不太可能超過 2 MB,不過如果使用大量 Base64 或內嵌資源,就可能影響索引完整性。透過像 Will it Crawl? 這類工具快速檢查,能讓網站管理更安心,也是一個值得定期檢測的小細節,若有經營網站的朋友,不妨撥冗檢查一下喔!








