Subject   : データクレンジング(data cleansing)

カテゴリー  : 情報産業・技術  


 データクレンジング(data cleansing )
データクレンジングとは、データベースに保存されているデータの誤記や表記ゆれ、重複などを削除や修正し、品質を高めることです。

たとえば、「株式会社」を「(株)」と表記することがあります。これらは表現こそ違いますが、意味するところは同じです。ところが、コンピュータでデータを処理する場合、両者は別物として扱われてしまいます。そこで、両者の表記をどちらかに統一することで、データを扱いやすくするのがデータクレンジングです。

上記の例のほかにも、全角・半角の違いや人名の異体字、スペースの有無、電話番号におけるハイフンの有無などが整理の対象となり得ます。具体的に何をどう整理するかは、データの利用目的や企業の方針によって異なります。 空白文字や区切り記号の有無、人名の異体字の誤りや姓名の分割・併合、法人名の表記(株式会社と(株)の違いなど)、住所や電話番号の表記法などが対象となり、それぞれについて表記ルールを決めて修正・削除などを行なっていく。

<出典:ITトレンド>

● 

[メニューへ戻る]  [カテゴリー一覧]  [HOMEへ戻る]  [前のページに戻る]