Subject   : HDFS(Hadoop Distributed File System)

カテゴリー  : 情報産業・技術  


 HDFS(Hadoop Distributed File System)
 HDFSとは、分散処理システムのHadoopが利用している分散ファイルシステム。OSのファイルシステムを代替するものではなく、その上に独自のファイル管理システムを構築するもので、OSにマウントして様々なプログラムからアクセスすることは(通常は)できない。

分散処理を行うHadoopで、ファイルの管理を担当するのがHDFS(Hadoop Distributed File System)です。 複数のノードにファイルを分割して格納しますが、ユーザーからは一つのファイルを扱うようにしか見えませんので、分割処理である事を意識する事はありません。

ビッグデータを高速で処理出来ますがデータを書き込むよりも読み込む方が得意なので、HDFSを効果的に使用するには、ファイルの書き込みをする回数を最低限に減らして、ファイルの読み込みを中心にするべきです。

大量のデータを蓄積して分析をするためにデータを読むDWHやBIツールを使用するのであれば、HDFSの性能を活かす事が出来ます。

● Hadoopとは
 Hadoop(ハドゥープ)は、データを複数のサーバに分散し、並列して処理するミドルウェア(ソフトウェア基盤)です。テラバイト、ペタバイト級大容量データの分析などを高速処理できるため、「ビッグデータ」活用における主要技術として活用が進んでいます。

<参考:https://www.fujitsu.com/jp/products/computing/storage/lib-f/tech/beginner/hadoop/>

 ⇒ 

[メニューへ戻る]  [HOMEへ戻る]  [前のページに戻る]