ウェイバックマシン
[Wikipedia|▼Menu]
□記事を途中から表示しています
[最初から表示]

同年10月、ユーザーがURLを入力するだけでウェブサイトをアーカイブできる「Save a Page」機能を発表したが[24]、この機能は悪意あるバイナリをダウンロードさせる手口に悪用される脅威となった[25][26]

2014年12月時点で、ウェイバックマシンはウェブページが4,350億、データ容量が約9PBとなり、週で20TB(0.02PB)増える割合になった[10][27][28]

2016年7月、データ容量が約15PBに達したと発表した[29]

2018年9月、データ容量が25PB以上に達した[30][31]

2020年12月、データ容量が70PB以上に達した[32]

2023年3月、ウェイバックマシンにアーカイブされているサイトの数が8000億に達した[33]
成長

2013年10月から2015年3月の間、アレクサの全世界ランクは163[34]から208[35]に推移している。

2022年8月にはページ数が7200億件を突破。

2023年中にはページ数が1兆に達すると言われている。

ウェイバックマシンの成長[36][37]ウェイバックマシンの年別アーカイブページ数
200540,000,000,000
200885,000,000,000
2012150,000,000,000
2013373,000,000,000
2014400,000,000,000
2015452,000,000,000
2016459,000,000,000
2017279,000,000,000
2018310,000,000,000
2019345,000,000,000
2020405,000,000,000
2021514,000,000,000
2022640,000,000,000

ウェブサイト除外規定

歴史的に、ウェイバックマシンはRobots Exclusion Standard (robots.txt)の設定でウェブサイトをクロールできるかできないか、既にクロールされているか、そのウェブサイトのアーカイブが一般向けに閲覧できるかを判断している。ウェブサイト管理者は任意でrobots.txtを使ってウェイバックマシンをオプトアウトするか設定できる。robots.txtの設定を遡及的に適用していて、もしインターネットアーカイブをブロックしている場合、そのドメインから過去にアーカイブされたページも直ちに利用できなくなる。加えて、インターネットアーカイブは「時々ウェブサイト管理者が、我々に直接連絡したり、サイトのクロールやアーカイブを止めるように求めることがあり、この要求に我々は従っている。」と声明している[38]。さらに、「インターネットアーカイブは自身の資料をコレクションに追加することを望まない人のウェブサイトやその他インターネットドキュメントを保存したり提供することは考えていない。」とも述べている[39][40]
Oakland Archiveの規定

Waybackの遡及的除外規定は2002年にカリフォルニア大学バークレー校の情報管理学部が出した、ウェブサイト管理者がサイトのアーカイブへのアクセスを阻止する権利について書かれている「Recommendations for Managing Removal Requests and Preserving Archival Integrity」の一部に基づいている[41]。Waybackは高額訴訟を避けるためにこの規定を遵守している[42]

しかし、2017年にWaybackの遡及的除外規定が緩和され、アメリカ合衆国の政府や軍のウェブサイト両方のrobots.txtの設定に従わずクロールを行いウェブページを閲覧できるようにした。2017年4月時点で、robots.txtの無視は拡大し米国政府のウェブサイトに留まらなくなっている[43][44][45][46]
利用

一般向けに利用開始された2001年以降、ウェイバックマシンによるデータの収集と保存方法やアーカイブにある現行のページに関して学者によって研究されている。2013年時点で、ウェイバックマシンに関する論文は約350件ありほとんどは情報技術、図書館科学、社会科学の分野で著されている。社会科学学者は1990年代から現在までの間のウェブサイト開発が企業の成長に与えた影響を分析するためにウェイバックマシンを活用している[10]

ウェイバックマシンがページをアーカイブした時、通常ほとんどのハイパーリンクが収集されておりネットの不安定性さが原因で壊れている可能性があってもそれらのリンクは保持される。インドの研究者はオンライン学術出版のハイパーリンクを保存するためのウェイバックマシンの能力の有効性を研究していて、実際保存されていたのはほぼ半分という結果を得た[47]

ジャーナリストも削除されたウェブサイトや日にちの経った報道記事を閲覧したりウェブサイトコンテンツに変えるためにウェイバックマシンを使用している。得られたコンテンツは政治家に説明責任を求め、論争の場での嘘を暴くことに活用されている[48]。2014年、ウクライナからの分離独立を目指す組織のトップであるイーゴリ・ストレルコフは自身のソーシャルメディアページでの投稿で、実際は民間のマレーシア航空機だったことが判明する前にウクライナ軍機と疑われる軍用機を自軍が撃墜したことを自慢していたものの、後にその投稿を削除しウクライナ軍が撃墜したと非難したがその削除した投稿がアーカイブに残っていた[48][49]。2017年、ホワイトハウスのウェブサイトから気候変動に関する全ての参照文献が削除されたことがArchive.orgの閲覧を通して発覚しこれがredditで議論になったことが科学のための行進(英語版)の原因となった。「科学者はワシントンでデモを起こす必要がある。」というユーザーのレスポンスがあった[50][51][52]
制限

ウェイバックマシンは多機能であるがいくつかの制限も存在する。2014年、ウェブサイトがクロールされてウェイバックマシンで閲覧できるようになるまで6ヶ月ものタイムラグがあった[53]。2018年時点ではタイムラグは3時間から10時間である[54]。ウェイバックマシンではユーザーがウェブサイトを閲覧するためにはURLを把握する必要がある[55]

またウェイバックマシンはウェブクローラーの制限により常に作成されたウェブページが全て収録されるわけではない上、FlashプラットフォームやJavaScriptで書かれたフォームといったインタラクティブ機能はホストウェブサイトとの対話が必要なため完全にアーカイブできない。ウェブクローラーはHTML(またその派生の一種)でコードされていないものを取り出すのが困難なため結果的にハイパーリンクが壊れたり画像が失われることも多い。さらに、ウェブクローラーは他のどのサイトからもリンクされていない「孤立ページ」をアーカイブすることもできない[56][55]。ウェイバックマシンの運用を定めた特定の規則によって設定されているハイパーリンクの深さ制限により全てのページの全ハイパーリンクをアーカイブすることもできない[14]

一部の管理者は自身のウェブサイトにrobots.txtというファイルを置くことでウェイバックマシンが発見しアーカイブすることを防いでいる。さらに、ウェブサイト管理者はインターネットアーカイブに直接問い合わせたりアーカイブからのページの削除を求めることもできる[56]
法的根拠
民事訴訟
Netbula LLC v. Chordiant Software Inc.

2009年の訴訟である「Netbula, LLC v. Chordiant Software Inc.」では被告のChordiantはNetbulaにウェイバックマシンが遡ってNetbulaのサイトのアーカイブページの過去版へのアクセスを不能にしているとしてウェブサイトに置かれたrobots.txtの強制的な撤去を求めた。そのページにはChordiantがこの訴訟で有利になる材料があると考えていた[57]

Netbulaは自社のウェブサイトを改ざんしようとしているとして申立に反対し、インターネットアーカイブを直接呼び出さなければならないと主張した[58]。インターネットアーカイブの職員はChordiantの申立を支持する意見書を提出したが、「著しい負担や費用、業務の中断無し」に他の手段でウェブページを作成することはできないとも述べている[57]


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:88 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef