データはインターネットアーカイブが所有するLinuxノードの大規模クラスタに保存されているが[5]、時折ウェブページに再アクセスし新しいバージョンをアーカイブしている(下部の技術的詳細参照)[11]。またウェイバックマシン側がウェブサイトを「クロール」して保存できる場合に手動で検索ボックスにウェブサイトのURLを入力してキャプチャーすることができる。 ウェブをクロールし、一般にアクセスできるWorld Wide Webページの全て、Gopherヒエラルキー、ネットニュース(Usenet)掲示板システム、ダウンロード可能なソフトウェアを収集するために開発されたソフトウェアが「クローラー」である[12]。「クローラー」によって収集された情報はインターネット上にある情報が全て含まれているわけではなく公開者によって制限されているかアクセスできないデータベースに保存されているデータがある。部分的にキャッシュされたウェブサイトの矛盾を解決するために、2005年にインターネットアーカイブがArchive-It.orgという機関やコンテンツ制作者がデジタルコンテンツコレクションを収集して保存しデジタルアーカイブを作成するシステムを開発した[13]。 クロールは様々なソースで構築されていて一部は第三者から移入されたものやアーカイブによって内部生成されたものもある[11]。たとえばアルフレッド・P・スローン財団やアレクサ・インターネットが構築したクロールやアメリカ国立公文書記録管理局やインターネット・メモリー財団
技術的詳細
スナップショットの取得頻度はウェブサイトによって異なっていて[11]、「Worldwide Web Crawls」内のウェブサイトはクロール毎に一回アーカイブされたサイトがある「クロールリスト」に含まれている[11]。たとえば「Wide Crawl Number 13」は2015年1月9日に始まり、2016年7月11日に完成した[15]。しかし、複数のクロールがある時点で同時進行していることがあり、また特定のサイトが複数のクロールリストに含まれるため、サイトのクロール頻度が大きく異なることが多い[11]。 長年に渡る技術発展のように、ウェイバックマシンのストレージ容量は増大している。一般公開から2年後の2003年時点で、ウェイバックマシンの容量は月に12TB(テラ バイト)増加している。データはインターネットアーカイブ職員がカスタムデザインしたPetaBoxラックシステムに保存されている。最初の100TBのラックは2004年6月に本格稼働したが、間もなくさらなる容量のストレージが必要になることが判明した[16][17]。 2009年にインターネットアーカイブは自身のカスタマイズしたストレージアーキテクチャをSun Open Storage
ストレージ容量と成長
2011年、インターフェイスやアーカイブされたコンテンツの索引が更新されたウェイバックマシンの新しいかつ改善されたバージョンの公開テストが行われた[20]。同年3月、ウェイバックマシンフォーラムにて「ウェイバックマシン新バージョンのベータ版は2010年に全てのクロールされたデータのインデックスが更新されより完全なものとなり、定期的に更新を続けている。古いウェイバックマシンには2008年になっても僅かなデータしかなく、これ以上インデックスを更新する予定もなく、今年運用終了する予定である。」と発表された[21]。また2011年、インターネットアーカイブは6組のPetaBoxラックを導入したことで、ウェイバックマシンのストレージ容量は700TB(0.7PB)増加した[22]。
2013年1月、URLが2,400億に達したと発表した[23]。同年10月、ユーザーがURLを入力するだけでウェブサイトをアーカイブできる「Save a Page」機能を発表したが[24]、この機能は悪意あるバイナリをダウンロードさせる手口に悪用される脅威となった[25][26]。
2014年12月時点で、ウェイバックマシンはウェブページが4,350億、データ容量が約9PBとなり、週で20TB(0.02PB)増える割合になった[10][27][28]。
2016年7月、データ容量が約15PBに達したと発表した[29]。
2018年9月、データ容量が25PB以上に達した[30][31]。
2020年12月、データ容量が70PB以上に達した[32]。
2023年3月、ウェイバックマシンにアーカイブされているサイトの数が8000億に達した[33]。 2013年10月から2015年3月の間、アレクサの全世界ランクは163[34]から208[35]に推移している。 2022年8月にはページ数が7200億件を突破。 2023年中にはページ数が1兆に達すると言われている。 ウェイバックマシンの成長[36][37]ウェイバックマシンの年別アーカイブページ数 歴史的に、ウェイバックマシンはRobots Exclusion Standard (robots.txt)の設定でウェブサイトをクロールできるかできないか、既にクロールされているか、そのウェブサイトのアーカイブが一般向けに閲覧できるかを判断している。ウェブサイト管理者は任意でrobots.txtを使ってウェイバックマシンをオプトアウトするか設定できる。robots.txtの設定を遡及的に適用していて、もしインターネットアーカイブをブロックしている場合、そのドメインから過去にアーカイブされたページも直ちに利用できなくなる。加えて、インターネットアーカイブは「時々ウェブサイト管理者が、我々に直接連絡したり、サイトのクロールやアーカイブを止めるように求めることがあり、この要求に我々は従っている。」と声明している[38]。さらに、「インターネットアーカイブは自身の資料をコレクションに追加することを望まない人のウェブサイトやその他インターネットドキュメントを保存したり提供することは考えていない。
成長
200540,000,000,000
200885,000,000,000
2012150,000,000,000
2013373,000,000,000
2014400,000,000,000
2015452,000,000,000
2016459,000,000,000
2017279,000,000,000
2018310,000,000,000
2019345,000,000,000
2020405,000,000,000
2021514,000,000,000
2022640,000,000,000
ウェブサイト除外規定