以網頁時光機 Wayback Machine 比較不同時間點的網頁內容差異

以網頁時光機 Wayback Machine 比較不同時間點的網頁內容差異

Internet Archive 最知名的工具「Wayback Machine」網站時光機相信大家都不陌生,這項服務的目標是將分分秒秒都在變化的網頁備份保存下來,以便使用者日後隨時返回、檢索特定時間點的網頁樣貌和內容。事實上現今搜尋引擎都有類似頁庫存檔(或稱為網頁快照)功能,當網頁暫時無法開啟時依然可以透過快取資料查看內容,以前介紹過「Cached Pages」能在網頁打不開或資料被刪除時利用頁庫存檔找回備份,當然它的資料也來自 Google 和 Archive.org,只不過提供一個更簡單、易於操作的介面。

最近 Wayback Machine 帶來幾個新功能,依照官方網站公告加入可查詢不同時間點網頁變化的比較工具(Changes)還有一個收藏(Collections)功能,可以知道網頁在 Internet Archive 是基於那些目的或性質而被收錄保存。在此次更新中,最受歡迎的「Save Page Now」工具也一併更新,現在使用者可在輸入網址後提交給 Wayback Machine 備份網頁內容,而且能夠保存所有站內或站外鏈結,對於儲存網頁資料來說更有用處。

Wayback Machine

如果你想找回一個已遭修改或被刪除的網頁內容,除了透過 Google 搜尋引擎的頁庫存檔,網頁時光機 Wayback Machine 收錄的資料更多,而且時間還能回溯到更早以前,前提是網站內容有被 Internet Archive 索引保存。依照網站的重要性與更新頻率,Wayback Machine 也會有不同的擷取速度,在某些網站一天可能發生數百甚至數千次,而現在網站也把顯示所有擷取內容的功能開放出來,就能知道在某日、某個時間點該網頁的樣貌與內容變化。

Wayback Machine
https://web.archive.org/

使用教學

STEP 1

開啟 Internet Archive 的 Wayback Machine 網頁時光機,從這裡可以看到一些即時被索引儲存的頁面,首頁還有一個儲存(備份)頁面功能,文章後面會再介紹。

Wayback Machine

從網址列輸入要查詢的頁面網址,目前被儲存的頁面已經超過 3800 億個,非常可觀。

Wayback Machine

STEP 2

出現結果後,點選上方的「Changes」可開啟新的網頁比較工具,使用方法很簡單,點選一個基準點,上方有出現顏色方塊的日期代表 Wayback Machine 有索引備份,顏色越靠近藍色代表頁面變化越大,如果接近黃色的話就表示差異較小,點選色塊會顯示該日期的所有備份時間點。

選擇兩個要比較的時間點,上方會顯示「Compare」按鈕,點選就能開啟比較模式。

Wayback Machine

STEP 3

對於兩個不同時間點的頁面,標示為黃色代表是已刪除的部分,藍色則是新加入的內容。

Wayback Machine

STEP 4

這次還有新加入一個新功能「Collections」,可以了解網頁為何被放入 Wayback Machine,從這裡會看到各個收藏夾名稱,點選後可開啟收藏夾,或是依照不同時間點查詢被儲存的頁面內容。如果是由 Internet Archive 的 Archive-It 服務建立的話還可執行全文搜尋檢索。

Wayback Machine

STEP 5

前面有提到 Save Page Now 功能也有更新,勾選 Save outlinks 可以將出站鏈結也就是外部鏈結一併儲存,方便日後檢索時使用。透過這項功能可以讓 Wayback Machine 協助你完整備份某個網頁內容,只要將網址輸入,點選「Save Page」就能立即存檔。

Wayback Machine

儲存時會建立一個網頁擷圖,接著就會顯示抓取的網頁檔案,也會在右下角標示已經下載多少個網頁元件,對於日後要回顧來說能備份愈完整就愈能讓檢視貼近現況,畢竟網頁上除了文字,也有圖片、CSS 和 JavaScript 等等需要載入,為了避免將來這些檔案無法存取而造成缺陷,Wayback Machine 也會將這些網頁元件一併備份到資料庫。

Wayback Machine

STEP 6

完成後就能檢視備份、保存在 Wayback Machine 上的頁面囉!透過上方時間軸,還能看到不同時間點的頁面網址備份紀錄,點選可快速返回某個時間點,查看以前的網頁樣貌或內容。因為以前的資料可能不完整,有時候圖片或影片無法正確顯示,但近期的備份資料大多都能正常顯示。

Wayback Machine

值得一試的三個理由:

  1. Wayback Machine 加入針對兩個不同時間點的網頁內容比較功能
  2. 透過 Collections 了解頁面被收錄在那些主題收藏夾
  3. Save Page Now 現在可以抓取站外鏈結
Pseric

Pseric

學生時代成立網站以來堅持每日更新,在挖掘資料的過程中慢慢找出自己經營網站的方法,最開心的是有一群一起長大的讀者。

文章: 6507