Subject   : HDFS(Hadoop Distributed File System)

カテゴリー  : 情報産業・技術  


 HDFS(Hadoop Distributed File System)
 HDFSとは、分散処理システムのHadoopが利用している分散ファイルシステム。OSのファイルシステムを代替するものではなく、その上に独自のファイル管理システムを構築するもので、OSにマウントして様々なプログラムからアクセスすることは(通常は)できない。

HDFSは管理するファイルの読み書きを高速化するため、大きなファイルを一定の大きさ(初期設定では64MB)のブロックに分割し、複数の記憶装置に分散して保存、読み込みや書き込みを記憶装置の台数だけ並列に実行できるようにしている。その際、同じブロックを複数の装置(通常は3台)に同時に記録し、対障害性を高めており、保存するデータの3倍の記憶領域が消費される。

どのファイルをどのように分割し、どの装置にどのように格納したかはネームノード(name node)と呼ばれるサーバで一元管理され、他のサーバは分割されたファイルを保存するデータノード(data node)として利用される。

● Hadoop(Apache Hadoop)
Hadoopとは、Apache Software Foundation(ASF)が開発・公開している、大規模データを効率的に分散処理・管理するためのソフトウェア基盤(ミドルウェア)。オープンソースソフトウェアとして公開されており、誰でも自由に入手・利用することができる。

Google社が自社システムの基盤として利用している分散ファイルシステムのGFS(Google File System)に似たファイルシステムと、分散データベースのBigTableに似たデータベースシステム、MapReduceによる分散処理システムなどをJavaで実装したものである。

Hadoopは多くの要素で構成されるが、共通の基盤システムである「Hadoop Common」をベースに、分散ファイルシステムのHDFS(Hadoop Distributed File System)、構造化された大規模なデータを管理する分散データベース「HBase」、MapReduceによる大規模データの分散処理を実現する「Hadoop MapReduce」などが開発されている。

 ⇒ 

[メニューへ戻る]  [HOMEへ戻る]  [前のページに戻る]