ウェイバックマシン
[Wikipedia|▼Menu]
□記事を途中から表示しています
[最初から表示]

最初の100TBのラックは2004年6月に本格稼働したが、間もなくさらなる容量のストレージが必要になることが判明した[16][17]

2009年にインターネットアーカイブは自身のカスタマイズしたストレージアーキテクチャをSun Open Storage(英語版)に移行し、サン・マイクロシステムズのカリフォルニアキャンパスにあるSun Modular Datacenterの新たなデータセンターで管理することになった[18]。2009年時点で、ウェイバックマシンは約3PB(約3000TB)のデータで構成されていて、毎月100TB(0.1PB)(ペタ バイト)の割合で増加していた[19]

2011年、インターフェイスやアーカイブされたコンテンツの索引が更新されたウェイバックマシンの新しいかつ改善されたバージョンの公開テストが行われた[20]。同年3月、ウェイバックマシンフォーラムにて「ウェイバックマシン新バージョンのベータ版は2010年に全てのクロールされたデータのインデックスが更新されより完全なものとなり、定期的に更新を続けている。古いウェイバックマシンには2008年になっても僅かなデータしかなく、これ以上インデックスを更新する予定もなく、今年運用終了する予定である。」と発表された[21]。また2011年、インターネットアーカイブは6組のPetaBoxラックを導入したことで、ウェイバックマシンのストレージ容量は700TB(0.7PB)増加した[22]

2013年1月、URLが2,400億に達したと発表した[23]。同年10月、ユーザーがURLを入力するだけでウェブサイトをアーカイブできる「Save a Page」機能を発表したが[24]、この機能は悪意あるバイナリをダウンロードさせる手口に悪用される脅威となった[25][26]

2014年12月時点で、ウェイバックマシンはウェブページが4,350億、データ容量が約9PBとなり、週で20TB(0.02PB)増える割合になった[10][27][28]

2016年7月、データ容量が約15PBに達したと発表した[29]

2018年9月、データ容量が25PB以上に達した[30][31]

2020年12月、データ容量が70PB以上に達した[32]

2023年3月、ウェイバックマシンにアーカイブされているサイトの数が8000億に達した[33]
成長

2013年10月から2015年3月の間、アレクサの全世界ランクは163[34]から208[35]に推移している。

2022年8月にはページ数が7200億件を突破。

2023年中にはページ数が1兆に達すると言われている。

ウェイバックマシンの成長[36][37]ウェイバックマシンの年別アーカイブページ数
200540,000,000,000
200885,000,000,000
2012150,000,000,000
2013373,000,000,000
2014400,000,000,000
2015452,000,000,000
2016459,000,000,000
2017279,000,000,000
2018310,000,000,000
2019345,000,000,000
2020405,000,000,000
2021514,000,000,000
2022640,000,000,000

ウェブサイト除外規定

歴史的に、ウェイバックマシンはRobots Exclusion Standard (robots.txt)の設定でウェブサイトをクロールできるかできないか、既にクロールされているか、そのウェブサイトのアーカイブが一般向けに閲覧できるかを判断している。ウェブサイト管理者は任意でrobots.txtを使ってウェイバックマシンをオプトアウトするか設定できる。robots.txtの設定を遡及的に適用していて、もしインターネットアーカイブをブロックしている場合、そのドメインから過去にアーカイブされたページも直ちに利用できなくなる。加えて、インターネットアーカイブは「時々ウェブサイト管理者が、我々に直接連絡したり、サイトのクロールやアーカイブを止めるように求めることがあり、この要求に我々は従っている。」と声明している[38]。さらに、「インターネットアーカイブは自身の資料をコレクションに追加することを望まない人のウェブサイトやその他インターネットドキュメントを保存したり提供することは考えていない。」とも述べている[39][40]
Oakland Archiveの規定

Waybackの遡及的除外規定は2002年にカリフォルニア大学バークレー校の情報管理学部が出した、ウェブサイト管理者がサイトのアーカイブへのアクセスを阻止する権利について書かれている「Recommendations for Managing Removal Requests and Preserving Archival Integrity」の一部に基づいている[41]。Waybackは高額訴訟を避けるためにこの規定を遵守している[42]

しかし、2017年にWaybackの遡及的除外規定が緩和され、アメリカ合衆国の政府や軍のウェブサイト両方のrobots.txtの設定に従わずクロールを行いウェブページを閲覧できるようにした。2017年4月時点で、robots.txtの無視は拡大し米国政府のウェブサイトに留まらなくなっている[43][44][45][46]
利用

一般向けに利用開始された2001年以降、ウェイバックマシンによるデータの収集と保存方法やアーカイブにある現行のページに関して学者によって研究されている。2013年時点で、ウェイバックマシンに関する論文は約350件ありほとんどは情報技術、図書館科学、社会科学の分野で著されている。社会科学学者は1990年代から現在までの間のウェブサイト開発が企業の成長に与えた影響を分析するためにウェイバックマシンを活用している[10]

ウェイバックマシンがページをアーカイブした時、通常ほとんどのハイパーリンクが収集されておりネットの不安定性さが原因で壊れている可能性があってもそれらのリンクは保持される。インドの研究者はオンライン学術出版のハイパーリンクを保存するためのウェイバックマシンの能力の有効性を研究していて、実際保存されていたのはほぼ半分という結果を得た[47]

ジャーナリストも削除されたウェブサイトや日にちの経った報道記事を閲覧したりウェブサイトコンテンツに変えるためにウェイバックマシンを使用している。得られたコンテンツは政治家に説明責任を求め、論争の場での嘘を暴くことに活用されている[48]。2014年、ウクライナからの分離独立を目指す組織のトップであるイーゴリ・ストレルコフは自身のソーシャルメディアページでの投稿で、実際は民間のマレーシア航空機だったことが判明する前にウクライナ軍機と疑われる軍用機を自軍が撃墜したことを自慢していたものの、後にその投稿を削除しウクライナ軍が撃墜したと非難したがその削除した投稿がアーカイブに残っていた[48][49]。2017年、ホワイトハウスのウェブサイトから気候変動に関する全ての参照文献が削除されたことがArchive.orgの閲覧を通して発覚しこれがredditで議論になったことが科学のための行進(英語版)の原因となった。「科学者はワシントンでデモを起こす必要がある。」というユーザーのレスポンスがあった[50][51][52]
制限

ウェイバックマシンは多機能であるがいくつかの制限も存在する。2014年、ウェブサイトがクロールされてウェイバックマシンで閲覧できるようになるまで6ヶ月ものタイムラグがあった[53]。2018年時点ではタイムラグは3時間から10時間である[54]。ウェイバックマシンではユーザーがウェブサイトを閲覧するためにはURLを把握する必要がある[55]

またウェイバックマシンはウェブクローラーの制限により常に作成されたウェブページが全て収録されるわけではない上、FlashプラットフォームやJavaScriptで書かれたフォームといったインタラクティブ機能はホストウェブサイトとの対話が必要なため完全にアーカイブできない。


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:88 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef