ウェイバックマシンが保持しているデータ量は、2001年時点ではおよそ100テラバイトに過ぎなかったが、2004年時点で1ペタバイトに達し、月に20テラバイトの割合で増加を続けている。2003年に報告された増加率は月あたり12テラバイトであったので、1年でおよそ倍の速度になった。これは、議会図書館など世界最大規模の図書館の文書量をはるかに上回るものである。そして2012年にはデータ総量は10ペタバイトを超えた[3]。保存されたウェブページ数[注 3]では、2022年10月現在で7400億を超え[5]、一か月あたりおよそ140億ページの割合で増加中である[5][6]。このデータのコピーは新アレクサンドリア図書館にも保存されている。
ウェイバックマシンの過去のページの再生表示は、様々な理由により不完全であることがある。例えば、アレクサ・インターネットから提供されるデータにはHTMLファイルしか含まれていないため、2010年以前のアーカイブはページの画像などが表示されないものが大半である。またWebクローリングの技術的制約により、Webページの再生に必要なデータ全てが収集されないことや、Webページの再生表示技術の制約などによりページ表示が正常に行われないことなどは、特に最近の高度に動的なWebページではよく見られる。また、ウェブページを構成するスクリプトや画像などの部品はページのHTMLと同時点で収集されたものとは限らず、1年以上の時間差があることも稀ではない。さらに、いったん収集されたWebアーカイブが、関係者の要請やrobots.txtの配置によりウェイバックマシンから取り除かれることもある。
「ウェイバックマシン」という名称は「ロッキーとブルウィンクルの大冒険」の一シーンからとられた。このアニメシリーズは学者風の蝶ネクタイをした犬のピーボディ先生と人間の助手シャーマンが「ウェイバックマシン (WABAC machine)」と呼ぶタイムマシンを使って歴史上の有名な事件にちょっかいを出すというコメディアニメである。
公的な保存とは別途、個人のレベルでも、特定の個人がインターネット上に運営していたWebサイト、Blogを個人の死後も管理、保存することがどのようにして可能か、といった話題もWeb Magazine、Web ニュースなどに出てくるようになった。保険会社などが遺言の執行と合わせて、こうしたサービスを行っているようなものはないが、難病での闘病生活をおくった人のドキュメントやさまざまな公益的で共有すべき内容を持ったもの(人権、環境、社会問題、女性、健康と福祉、情報公開、特殊な個人的体験など)、オンラインソフトウェアの開発サイトなどが、関係者によって保存、維持されている例はある。こうしたものには、Webサイトを保存しているものと、故人を追悼するためのものとが混在している。 ウェイバックマシンは米国著作権法のフェアユース規定にもとづいてウェブアーカイブを構築している[7]。後述の「インドからのアクセス遮断」のようにフェアユースに該当するとは思えない情報(営利目的の情報など)の収集も行っているのが実態である。 ウェイバックマシンは目的の性質上、フェアユースが成立しているが、2020年にアシェット、ハーパーコリンズ、ワイリー、ペンギン・ランダムハウスなどの出版社が著作権侵害によりインターネットアーカイブを提訴[8][9]。 またInternet Archiveのデータベース的側面としては、現在の特定URLを必要とする形以外のアクセス方法として、2003年9月、Internet Archiveに保存されたウェブページ全体を対象にした検索エンジン「Recall」のベータ版が公開された。検索した単語の頻度をグラフ化して表示する機能があり(2byte文字は未対応)、ネットワーク上の流行調査などに有益なものだったが、2004年9月中旬に停止した。これは「Recall」の開発者であったAnna Pattersonがプロジェクトから離れたためである。Internet Archiveのフォーラムでは新たな検索システムの構築を望む声が多くあがっており、動向が注目される。 ウェイバックマシンはWebブラウザを使ったウェブアーカイブの閲覧だけでなく、アプリケーションプログラミングインタフェースも提供している[10]。2015年時点では、 がある。 動画、書籍、録音の多くがパブリックドメインにあるか、クリエイティブ・コモンズのライセンスで提供されている。音楽部門には、コンサートでの演奏の録音を許可しているアーティストや演奏家(グレイトフル・デッド、ストリング・チーズ・インシデント、トード・ザ・ウェット・スプロケット、311、fugaziなど)による音源とともに、独立系ミュージシャンの音源も数多く含まれている。 2020年11月, インターネットアーカイブではAdobe FlashのエミュレータとしてRuffleを導入し、Flashアニメーションやゲームのアーカイブを開始した。[11] インターネットアーカイブはオープン・ライブラリの運営も行っている。ここではいくつかのスキャンしたパブリックドメイン書籍が容易に閲覧、印刷ができる形式で入手可能である。 商用映画に加え、動画像コレクションには以下のようなものがある。ニュース映画コレクション、昔のアニメ(カートゥーン)コレクション、戦争映画・反戦映画などのプロパガンダコレクション、Skip ElsheimerによるA/V Geekコレクション、プレリンガー・アーカイブズによる短編ものコレクション(広告用、教育用、工業用などや家庭用の動画コレクション) ブリックフィルムコレクションにはレゴによるストップモーション・アニメーションがあり、中には映画のリメイクものをしているものもある。Election 2004 (2004年選挙)コレクションは、2004年アメリカ合衆国大統領選挙に関連する動画資料を中立の立場からまとめた資料である。Independent NewsコレクションにはインターネットアーカイブのWorld At War competition from 2001(歴史的事物へのアクセスの重要性を示すための短編映画コンテスト)のようなサブコレクションもある。最もダウンロードされたビデオファイルは、2004年のスマトラ島沖地震の惨禍をとらえたものとなっている。 インターネットアーカイブには以下のような映画が1,500本前後存在する:body:not(.skin-minerva) .mw-parser-output .columns-list__wrapper{margin-top:0.3em}body:not(.skin-minerva) .mw-parser-output .columns-list__wrapper>ul,body:not(.skin-minerva) .mw-parser-output .columns-list__wrapper>ol{margin-top:0}body:not(.skin-minerva) .mw-parser-output .columns-list__wrapper--small-font{font-size:90%}
著作権
著作権侵害によるインターネットアーカイブに対する訴訟
Recall サーチエンジン
アプリケーションプログラミングインタフェース
Wayback Availability JSON API
Memento API
Wayback CDX Server API
コレクション
オープンライブラリ
動画像コレクション
『戦艦ポチョムキン』
『国民の創生』
『M』
『散り行く花』
『ヒズ・ガール・フライデー』
『愛のアルバム』
『復活の日』
『ナイト・オブ・ザ・リビングデッド』
『吸血鬼ノスフェラトゥ』
『プラン9・フロム・アウタースペース』
『リーファー・マッドネス
『三十九夜』
『スタア誕生』
『ジェーン・エア』 Jane Eyre
Size:59 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)』
担当:undef