Skip to main content

データクレンジングとは何ですか?

dataデータスクラビングとも呼ばれるデータクレンジングは、データのセットが正しく正確であることを保証するプロセスです。このプロセス中に、記録に正確性と一貫性が確認され、必要に応じて修正または削除されます。これは、単一のレコードセット内またはマージする必要がある複数のデータセット間で発生する可能性があります。記録とその精度の確認。タイプミスとスペルエラーが修正され、誤ったラベルデータが適切にラベル付けおよびファイルされ、不完全または欠落しているエントリが完了します。これらの操作は、多くの場合、時代遅れまたは回復不可能なレコードをパージして、スペースを占有し、非効率的な操作を引き起こさないようにします。これらのプログラムは、ユーザーが決定したさまざまなルールと手順でデータを確認できます。プログラムは、過去5年以内に更新されていないすべてのレコードを削除し、スペルミスの単語を修正し、重複するコピーを削除するように設定できます。より複雑なプログラムは、正しい郵便番号に基づいて行方不明の都市を埋めることができたり、データベース内のすべてのアイテムの価格を別の種類の通貨に変更できる可能性があります。データ依存性ビジネス。データベース内の一部のクライアントに正確な電話番号がない場合、たとえば、従業員は簡単に連絡できません。クライアントの電子メールアドレスが正しくフォーマットされていない場合、別の例として、自動化された電子メールシステムは最新のクーポンや特別な取引を送信できません。データクレンジングの仕事は、システム内のデータが正しいことを保証し、システムがデータを使用できるようにすることです。不正確または不完全なレコードは誰にとってもあまり役に立ちません。企業に同じ顧客の多くと連携する2つの支店がある場合、各ブランチのデータを完全かつ正確にする必要があるだけでなく、2つのブランチにも一致するデータが必要です。顧客が1つのブランチで自分の電話番号を更新する場合、他のブランチのデータを同じ情報で更新して、最高の効率を確保する必要があります。データクレンジングは、データが正確であることを確認するだけでなく、異なるレコード間で一貫していることを確認するために機能します。データクレンジングの目標は、これらのエラーを最小限に抑え、データを可能な限り有用で意味のあるものにすることです。このプロセスが定期的に行われないと、間違いやエラーが加算され、効率の低い作業とより多くの合併症につながる可能性があります。