ウェイバックマシン - 暇つぶしWikipedia

ウェイバックマシン

□記事を途中から表示しています
[最初から表示]

1996年から2001年まで、集められた情報は不完全ながらデータベースとしてデジタルテープで保存されていて、ケールは研究者や科学者がアクセスできるようにしていた [8]。アーカイブが5周年を迎えた2001年に一般公開を迎え、カリフォルニア大学バークレー校にて記念式典が行われた [9]。サービス開始時点で既にアーカイブページが10億ページ以上に及んでいた [10]。

データはインターネットアーカイブが所有するLinuxノードの大規模クラスタに保存されているが [5]、時折ウェブページに再アクセスし新しいバージョンをアーカイブしている（下部の技術的詳細参照）[11]。またウェイバックマシン側がウェブサイトを「クロール」して保存できる場合に手動で検索ボックスにウェブサイトのURLを入力してキャプチャーすることができる。
技術的詳細

ウェブをクロールし、一般にアクセスできるWorld Wide Webページの全て、Gopherヒエラルキー、ネットニュース（Usenet）掲示板システム、ダウンロード可能なソフトウェアを収集するために開発されたソフトウェアが「クローラー」である [12]。「クローラー」によって収集された情報はインターネット上にある情報が全て含まれているわけではなく公開者によって制限されているかアクセスできないデータベースに保存されているデータがある。部分的にキャッシュされたウェブサイトの矛盾を解決するために、2005年にインターネットアーカイブがArchive-It.orgという機関やコンテンツ制作者がデジタルコンテンツコレクションを収集して保存しデジタルアーカイブを作成するシステムを開発した [13]。

クロールは様々なソースで構築されていて一部は第三者から移入されたものやアーカイブによって内部生成されたものもある [11]。たとえばアルフレッド・P・スローン財団やアレクサ・インターネットが構築したクロールやアメリカ国立公文書記録管理局やインターネット・メモリー財団（英語版）の代理としてインターネットアーカイブが運用しているクロールや、コモン・クロールのミラーがある [11]。2010年より「Worldwide Web Crawls」が作動していて世界中のウェブをキャプチャーしている [14][11]。

スナップショットの取得頻度はウェブサイトによって異なっていて [11]、「Worldwide Web Crawls」内のウェブサイトはクロール毎に一回アーカイブされたサイトがある「クロールリスト」に含まれている [11]。たとえば「Wide Crawl Number 13」は2015年1月9日に始まり、2016年7月11日に完成した [15]。しかし、複数のクロールがある時点で同時進行していることがあり、また特定のサイトが複数のクロールリストに含まれるため、サイトのクロール頻度が大きく異なることが多い [11]。
ストレージ容量と成長

長年に渡る技術発展のように、ウェイバックマシンのストレージ容量は増大している。一般公開から2年後の2003年時点で、ウェイバックマシンの容量は月に12TB(テラバイト)増加している。データはインターネットアーカイブ職員がカスタムデザインしたPetaBoxラックシステムに保存されている。最初の100TBのラックは2004年6月に本格稼働したが、間もなくさらなる容量のストレージが必要になることが判明した [16][17]。

2009年にインターネットアーカイブは自身のカスタマイズしたストレージアーキテクチャをSun Open Storage（英語版）に移行し、サン・マイクロシステムズのカリフォルニアキャンパスにあるSun Modular Datacenterの新たなデータセンターで管理することになった [18]。2009年時点で、ウェイバックマシンは約3PB(約3000TB)のデータで構成されていて、毎月100TB(0.1PB)(ペタバイト)の割合で増加していた [19]。

2011年、インターフェイスやアーカイブされたコンテンツの索引が更新されたウェイバックマシンの新しいかつ改善されたバージョンの公開テストが行われた [20]。同年3月、ウェイバックマシンフォーラムにて「ウェイバックマシン新バージョンのベータ版は2010年に全てのクロールされたデータのインデックスが更新されより完全なものとなり、定期的に更新を続けている。古いウェイバックマシンには2008年になっても僅かなデータしかなく、これ以上インデックスを更新する予定もなく、今年運用終了する予定である。」と発表された [21]。また2011年、インターネットアーカイブは6組のPetaBoxラックを導入したことで、ウェイバックマシンのストレージ容量は700TB(0.7PB)増加した [22]。

2013年1月、URLが2,400億に達したと発表した [23]。同年10月、ユーザーがURLを入力するだけでウェブサイトをアーカイブできる「Save a Page」機能を発表したが [24]、この機能は悪意あるバイナリをダウンロードさせる手口に悪用される脅威となった [25][26]。

2014年12月時点で、ウェイバックマシンはウェブページが4,350億、データ容量が約9PBとなり、週で20TB(0.02PB)増える割合になった [10][27][28]。

2016年7月、データ容量が約15PBに達したと発表した [29]。

2018年9月、データ容量が25PB以上に達した [30][31]。

2020年12月、データ容量が70PB以上に達した [32]。

2023年3月、ウェイバックマシンにアーカイブされているサイトの数が8000億に達した [33]。
成長

2013年10月から2015年3月の間、アレクサの全世界ランクは163 [34]から208 [35]に推移している。

2022年8月にはページ数が7200億件を突破。

2023年中にはページ数が1兆に達すると言われている。

ウェイバックマシンの成長 [36][37]ウェイバックマシンの年別アーカイブページ数
200540,000,000,000
200885,000,000,000
2012150,000,000,000
2013373,000,000,000
2014400,000,000,000
2015452,000,000,000
2016459,000,000,000
2017279,000,000,000
2018310,000,000,000
2019345,000,000,000
2020405,000,000,000
2021514,000,000,000
2022640,000,000,000

ウェブサイト除外規定

歴史的に、ウェイバックマシンは Robots Exclusion Standard (robots.txt)の設定でウェブサイトをクロールできるかできないか、既にクロールされているか、そのウェブサイトのアーカイブが一般向けに閲覧できるかを判断している。ウェブサイト管理者は任意でrobots.txtを使ってウェイバックマシンをオプトアウトするか設定できる。robots.txtの設定を遡及的に適用していて、もしインターネットアーカイブをブロックしている場合、そのドメインから過去にアーカイブされたページも直ちに利用できなくなる。加えて、インターネットアーカイブは「時々ウェブサイト管理者が、我々に直接連絡したり、サイトのクロールやアーカイブを止めるように求めることがあり、この要求に我々は従っている。」と声明している [38]。さらに、「インターネットアーカイブは自身の資料をコレクションに追加することを望まない人のウェブサイトやその他インターネットドキュメントを保存したり提供することは考えていない。

Size:88 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef