Skip to main content

データマイニングプロセスとは何ですか?

dataデータマイニングプロセスは、大量のデータの統計的に有意なパターンを明らかにするためのツールです。通常、準備、データ探索、モデルの構築、展開、レビューなど、5つの主要なステップが含まれます。プロセスの各ステップには異なる一連の手法が含まれますが、ほとんどの形式の統計分析を使用します。この準備ステップは通常、どのタイプのデータを調査する必要があるか、どのデータマイニング手法を使用する必要があるか、および結果がどのような形をとるかを決定します。プロセスのこの最初のステップは、有用な情報を収集するために重要かもしれません。この手順では、通常、情報ウェアハウスまたは収集エンティティから必要なデータを収集することが含まれます。次に、鉱業の専門家は通常、分析のために生データセットを準備します。このステップは通常、すべてのデータの収集、クリーニング、整理、およびエラーのチェックで構成されています。これを達成するために、研究者は通常、データの小さなテストサンプルを採取し、さまざまなデータマイニング手法を適用します。モデリングステップは、目的の結果を達成するために必要な統計分析の最良の方法を決定するためによく使用されます。1つ目は、事前定義されたグループまたはカテゴリにデータを配置する分類です。クラスタリングと呼ばれる2番目の手法では、研究者はコンピューターが選択したようにデータをグループに整理できるようにします。3番目のデータマイニング手法は、変数間の関連を求めています。通常、4番目は、将来の傾向を予測するために使用される可能性のあるデータのシーケンシャルパターンを探します。これを行うために、モデルで選択した手法がより大きなデータセットに適用され、結果が分析されます。このステップから生じるレポートは、通常、データセット内に存在する分類、クラスター、関連性、またはシーケンシャルパターンなど、プロセス全体で見つかったパターンを示しています。プロセスのこのフェーズでは、通常、新しいデータセットでマイニングモデルを繰り返して、メインセットがデータの全母集団を代表することを確認します。データサンプルがそれを正確に表していない場合、結果はより大きな母集団の傾向を予測することはできません。