
Google 搜尋有一個很實用的「頁庫存檔」功能,也就是 Google 爬蟲抓取網頁內容時建立快取頁面,使用者就能利用這項功能查詢到過去時間點的網頁樣貌(很像是將網頁備份在 Google 的概念),對於查某個頁面編輯前的資料或網頁伺服器無法連線時就會很有用,此外,頁庫存檔還能查看網頁的純文字版本或原始碼,有時候想查資料就不需要看到一堆圖片或廣告,直接就能抓取到文字內容。
不知道大家最近有沒有發現 Google 搜尋結果的「頁庫存檔」不見了?以往是點選搜尋結果網站名稱右側「選單」就會在「進一步瞭解這項結果」最下方出現頁庫存檔按鈕,看起來就像下圖:

但最近打開後最底下就沒有這些按鈕功能,而且只有在登入 Google 帳戶的情況下搜尋才會遇到(如果以瀏覽器的無痕模式測試又會出現),猜測可能是 Google 搜尋在修改時發生了一些問題。

那麼想使用 Google 頁庫存檔功能要怎麼解決呢?以下提供兩個方法,若有需要在 Google 搜尋、檢視某個網頁的快取頁面,瀏覽由 Google 搜尋引擎建立的快照,可以把這個方法學起來以備不時之需喔!
方法一:在搜尋時加入 Cache: 指令
STEP 1
最簡單的方法就是在 Google 搜尋欄位使用「cache:」指令,後方加上要查看快取的頁面網址,例如:
cache:https://free.com.tw/about/

STEP 2
如果 Google 有對該網頁建立快取,就會顯示特定時間的快照存檔(也就是大家熟悉的頁庫存檔),若搜尋引擎沒有抓取過、或是網頁有設定要求搜尋引擎不要建立暫存頁面或快取的 meta 標籤就會顯示 404 錯誤。

方法二:使用 Web Cache Viewer 擴充功能
STEP 1
另一個方法是使用 Google Chrome 擴充功能「Web Cache Viewer」,雖然這個外掛已經很久沒更新,但是功能上很簡單,還是可以正常使用。

STEP 2
安裝後在頁面點選右鍵,找到「Web Cache Viewer」選項後就有兩個功能可用:
- WayBack Machine Version:查看網頁的網站時光機版本。
- Google Cache Archive:Google 快取頁面索引。
相較於第一種方法,使用 Web Cache Viewer 必須在能打開網頁的情況下才能使用,不過好處是可以透過另一個網頁時光機功能查看更多不同時間點的網頁索引,也算是 Google 頁庫存檔的替代方案吧!

STEP 3
我有寫過一篇「Wayback Machine 網站時光機帶你重溫那些年」介紹,透過 Internet Archive 網際網路檔案館的服務,可以查看特定網頁在不同時間點的樣貌,相較於 Google 只會顯示最近一次索引的頁庫存檔,這個功能可看到的資料更多。

值得一試的三個理由:
- Google 頁庫存檔可查看過去某個時間點的網頁樣貌,即使伺服器無法連上也能打開
- 除了能查看網頁的完整版,還能選擇直接查看網頁的純文字版本或原始碼
- 無論是研究、學術還是個人使用,頁庫存檔都是一個非常實用的工具