現在、この項目の一部の版または全体について、削除の手続きに従って、削除が提案されています。
削除についての議論は、削除依頼の依頼サブページで行われています。削除の議論中はこのお知らせを除去しないでください。
この項目の執筆者の方々へ: まだ削除は行われていません。削除に対する議論に参加し、削除の方針に該当するかどうか検討してください。また、本項目を既に編集されていた方は、自身の編集した記述内容を念のために控えておいてください。
ショートカット:
WP:DD
ウィキペディアのコンテンツは、全てGNU Free Documentation Licenseの下にライセンスされており(Wikipedia:著作権を参照)、再配布や再利用のためにデータベース・データの提供が行われています。データの生成は不定期に行われています。より詳しい解説は ⇒meta:Data dumps(英語)を参照してください。
ウィキメディア財団による全プロジェクトのデータベース・ダンプ
⇒http://download.wikimedia.org/ (ptmpa)
ウィキペディア日本語版: ⇒http://download.wikimedia.org/jawiki/
MediaWikiソフトウェア: ⇒http://www.mediawiki.org/
データベースソフトウェア: MySQL
目次
1 通常のページ
2 要約
3 画像
4 その他のテーブル
5 コンテンツの二次利用に関して
6 クローラを使わない
7 参考リンク
//
ウィキページのデータはSQLのテーブルではなく、XMLで提供されます。XMLファイルの文字エンコーディングはUTF-8です。 非常にファイルサイズが大きいため、通常のエディタやブラウザで、解凍したXMLを開かないようにご注意ください。
pages-articles.xml.bz2 - ノートページ、利用者ページを除く最新版のダンプ
pages-meta-current.xml.bz2 - 全ページの最新版のダンプ
pages-meta-history.xml.7z - 全ページの全ての版のダンプ
all-titles-in-ns0.gz - 全項目のページ名一覧 (標準名前空間)
これらのXMLファイルをMySQLデータベースにインポートするには、MediaWiki配布物に含まれるimportDump.phpスクリプトを使用します。
例:$ bunzip2 -c pages-articles.xml.bz2 | php maintenance/importDump.php
ページの最初の段落とリンクのみを抽出したXMLデータが提供されます。
abstract.xml.gz
画像等のメディア・ファイルは単一のtarアーカイブ(無圧縮)で提供されます。
upload.tar - 全メディア・ファイル
現在、メディア・ファイルの提供は中止されています。
その他の補助テーブルは、MySQLダンプで提供されます。
page.sql.gz
user_groups.sql.gz
logging.sql.gz
interwiki.sql.gz
langlinks.sql.gz
externallinks.sql.gz
templatelinks.sql.gz
imagelinks.sql.gz
categorylinks.sql.gz
pagelinks.sql.gz
oldimage.sql.gz
image.sql.gz
site_stats.sql.gz
データベース・スキーマについてはMediaWiki配布物に含まれる ⇒tables.sqlを参照してください。
ウィキペディア日本語版のテキストを再利用する際は、GFDL1.2またはそれ以上のバージョンの下で配布してください(詳しくはWikipedia:著作権を参照)。GFDLを完全に履行できない場合は、データがウィキペディアに由来することを明記し、ウィキペディアの個々のページにリンクバックすることで、GFDLの要求する著者と履歴の提示にかえることができます。ウィキペディア日本語版以外のプロジェクトでは、採用しているライセンスが異なる場合がありますので、各プロジェクトの解説を参照してください。
画像のダンプにはGFDLで利用可能でないものが含まれています。それぞれの画像に関して、テキストのダンプに含まれている、画像ページでライセンス等の著作権情報を確認してください(詳しくはWikipedia:アップロードされたファイルのライセンスを参照)。
テキスト・画像ともに、おそらく他者の著作権を侵害しているものが含まれていますが、誰も気づいていないため除去されていません。このことを理解したうえで、すべて自己責任で利用してください。また、あなたがこのような著作権侵害に気づいた場合は、私たちに知らせてください。
その他の諸注意に関して、Wikipedia:免責事項#ウィキペディア内コンテンツの2次利用についてや ⇒Copyright and license (英語)も参照してください。
記事を大量にダウンロードするためにクローラを使わないで下さい。強引なクローリングは、ウィキペディアが劇的に遅くなる原因となります。
ウィキペディアのデータベースから動的にデータの収集がなされた場合、開発者によってあなたのサイトからウィキペディアへのアクセスを禁止する措置が取られることもあります。またウィキメディア財団が法的措置を検討することもあります。
参考リンク
⇒meta:Data dumps
⇒xml2sql - XMLファイルをデータベースに直接インポートできる形式へ変換するユーティリティプログラム