分散ファイルシステム (distributed file system) またはネットワークファイルシステム (network file system) とは、複数のホストがコンピュータネットワークを経由して共有しつつファイルにアクセスすることを可能にするファイルシステムである[1]。複数のマシン上で複数のユーザーがファイルやストレージ資源を共有できるようにする。
クライアントノードはファイルシステムを構成している二次記憶装置に直接アクセスすることはできないが、通信プロトコルを使ってネットワーク経由でやり取りする。その通信プロトコルがどう設計されているかにもよるが、アクセスリストまたはケーパビリティに基づいてクライアントとサーバの双方でファイルシステムへのアクセスを制限することも可能である。
これに対してクラスタファイルシステム
(英語版)では、全ノードがファイルシステムを構成しているストレージ全体に一様に直接アクセスできる。その場合、アクセス制御はクライアント側の責任となる。分散ファイルシステムには一般に、透過的レプリケーションとフォールトトレラント性に関する機能がある。すなわち、ファイルシステムを構成するノード群の一部がオフラインになっても、データを失うことなくシステムとして機能し続ける。
分散ファイルシステムと分散データストアの違いはあいまいだが、分散データストアは一般にLANでの利用に特化していることが多い。 このようなファイルサーバは1970年代に開発された。1976年、DECが DECnet Phase II の一部である Data Access Protocol 実装として File Access Listener 分散ファイルシステムは透過性を備えていることが多く、プログラムやユーザーから見ればネットワーク経由のファイルがローカルディスク上のファイルと全く同じに扱える。サーバや記憶装置の多様性と分散は隠蔽される。ファイルの配置やデータ転送はファイルシステムに任されている。 ネットワークファイルシステムでは、処理にかかる時間も重要な課題である。通常のファイルアクセスならば、これはディスクアクセス時間と少しのCPU処理時間に相当する。ネットワークファイルシステムでは、分散構造であるが故の余分なオーバヘッドが必要となる。このオーバヘッドには、サーバに要求を届けるまでの時間、応答をクライアントまで戻すのにかかる時間などが含まれる。どちらの方向も情報転送時間だけでなく、通信プロトコルソフトウェアの実行にかかるCPU時間が含まれる。ネットワークファイルシステムの性能もある意味でネットワークファイルシステムの透過性の一部と言える。すなわち、理想的なネットワークファイルシステムの性能はローカルなディスクアクセスと同程度になる。 ネットワークファイルシステムは複数のクライアントプロセスが同じファイルを同時に更新できるようにしなければならない。あるクライアントのファイル更新によって別のクライアントの参照や更新が妨害されてはならない。そのため並行性制御やロックをファイルシステムに組み込むか、追加プロトコルに組み込む必要がある。 分散データストア(Distributed Data Store)とは、ユーザーが自身の情報を複数のノードに格納しておくことを指す概念で、分散データベースとして実装される場合と複数のユーザーがP2Pネットワーク上で情報を格納する場合がある。 分散データベースとしての分散データストアは関係データベースではなく、多数のノードがあるデータに素早くアクセスできる。例えば、GoogleのBigTableがあるが、これは分散ファイルシステムあるいはP2Pネットワークに近い[2]。他にも、Amazon.com の Dynamo[3]、Windows Azure Storage[4] などがある。 任意のクエリを可能にすることは可用性ほど重要視されないので、分散データストアは一貫性を犠牲にして可用性を向上させる設計を採用することが多い。
歴史と具体例
透過性
性能
同時ファイル更新
分散データストア
分散データベース
Size:24 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)』
担当:undef