Subject : HDFS(Hadoop Distributed File System)
カテゴリー : 情報産業・技術
HDFS(Hadoop Distributed File System)
-
HDFSとは、分散処理システムのHadoopが利用している分散ファイルシステム。OSのファイルシステムを代替するものではなく、その上に独自のファイル管理システムを構築するもので、OSにマウントして様々なプログラムからアクセスすることは(通常は)できない。
分散処理を行うHadoopで、ファイルの管理を担当するのがHDFS(Hadoop Distributed File System)です。
複数のノードにファイルを分割して格納しますが、ユーザーからは一つのファイルを扱うようにしか見えませんので、分割処理である事を意識する事はありません。
ビッグデータを高速で処理出来ますがデータを書き込むよりも読み込む方が得意なので、HDFSを効果的に使用するには、ファイルの書き込みをする回数を最低限に減らして、ファイルの読み込みを中心にするべきです。
大量のデータを蓄積して分析をするためにデータを読むDWHやBIツールを使用するのであれば、HDFSの性能を活かす事が出来ます。
- ● Hadoopとは
-
Hadoop(ハドゥープ)は、データを複数のサーバに分散し、並列して処理するミドルウェア(ソフトウェア基盤)です。テラバイト、ペタバイト級大容量データの分析などを高速処理できるため、「ビッグデータ」活用における主要技術として活用が進んでいます。
<参考:https://www.fujitsu.com/jp/products/computing/storage/lib-f/tech/beginner/hadoop/>
⇒
[メニューへ戻る]
[HOMEへ戻る]
[前のページに戻る]