この項目では、ウェブページを収集する行為について説明しています。ブラウザ Safariの保存形式については「webarchive」を、ウェブアーカイブ閲覧サービス「ウェイバックマシン」を運営する団体については「インターネットアーカイブ」をご覧ください。
*記事編集時にウェブページを出典で使う場合の案内についてはWikipedia:出典を明記する#ウェブサイトを出典とする場合」を、
アーカイブしたウェブページをWikipediaでリンクするテンプレートについては「Template:ウェブアーカイブ」をご覧ください。
ウェブアーカイブ (web archive) は、WWW(web、ウェブ)全体もしくはその一部を収集し、そのコレクションを後世の研究者、歴史家、一般大衆のために保存して、アーカイブとしたもの。
ウェブのサイズは膨大であるため、ウェブアーカイブではクローラを使って自動収集を行う。最大規模のウェブアーカイブ機関は、ウェブ全体のアーカイブ作成を自動・手動の両面で行っているアメリカの非営利団体「インターネットアーカイブ」(Internet Archive) である。
各国の国立図書館もまた文化的に重要なウェブコンテンツを保存しようとしており、フランスでは2001年にウェブページのウェブアーカイブ化を義務化する法律が成立した[1]。2003年7月には、世界各国の国立図書館等が連携してウェブアーカイブの技術開発を行うための国際コンソーシアムとして、国際インターネット保存コンソーシアム (IIPC) が設立されている[2]。
2004年には、日本でもこの方面のアーカイブを検討するという方向が小泉内閣で打ち出され、国立国会図書館による事業、「国立国会図書館インターネット資料収集保存事業」(WARP、2010年にこれに名称変更)が始まった。 Webアーカイブはクローラを使ってウェブページの収集プロセスを自動化している。クローラはWebの一般利用者がウェブブラウザを使ってWebコンテンツを閲覧するのと同じようなやり方でWebページを辿っていく。Heritrixクローラは有名なツールの一つであり、アーカイブ的なクロールを行うのに用いられている。 Webアーカイブで収集されるのは、あらゆる種類のWebコンテンツである。これにはHTMLのウェブページ、スタイルシート、JavaScript、画像、ビデオなどが含まれる。さらに収集したリソースに関するメタデータも蓄積する。例えば、アクセス日時、MIMEタイプ、サイズなど。これらのメタデータにより、アーカイブされているコレクションの信頼性と同一性を確保できる。 Webアーカイブは収集を主としてクロールに頼っているため、Webクローリングの難しさに影響を受ける。
Webの収集
アーカイビングの難しさと限界
Robots Exclusion Protocolによりクローラはウェブサイトの一部へのアクセスが拒否されることがある。
ウェブサイトの大部分がDeep Webとして隠れた領域となっていることもある。例えば、フォームの先にあるはずの結果ページなどは、クローラはリンクを辿って行き着くことができないためDeep Webの領域となってしまう。
ウェブサーバーの中にはクローラに対して通常のWebブラウザに対するのとは別のページ内容を返すことがある。これはサーチエンジンを騙してサイトへのトラフィックを増やそうとする際に行われる手法の一つでもある。
クローラ・トラップが、クローラにページを無限に延々とダウンロードさせることがある(例えば、カレンダーなど)。このためクローラは通常、動的ページのダウンロード数の上限を設定されている。