Skip to main content

情報抽出とは何ですか?

Information情報検索と呼ばれることもありますが、情報抽出(IE)は、いくつかの定義された基準のセットを使用して、関連するデータを大規模なデータから抽出できるようにコンピューターシステムで使用されるプロセスです。情報抽出の背後にあるアイデアは、特定のアクティビティに関連するデータを簡単に識別および同化させることを可能にすることです。このプロセスは、コンセプトマイニングやWebスクレイピングのアイデアに似ています。これらのアプローチは、利用可能なデータのより広いプールから有用な情報を収集しようとしているという点です。

情報抽出への一般的なアプローチは、機械可読と見なされる情報源をスキャンできるプログラミングを使用するための要求を求めています。これには、何らかの電子ファイルにスキャンされたハードコピードキュメント、スプレッドシートまたはワードプロセッシングドキュメントとして作成されたドキュメント、またはデータベース内の読み取り可能なフィールドに含まれるデータさえ含まれます。通常、ソフトウェアプログラムをこれらのデータソースにアクセスできるようにするパラメーターが設定され、特定の基準を使用してそれらをすばやくスキャンして、利用可能なプールから特定の種類の情報を優先して引き出します。このプロセスは、通常、単純な検索プロセスとは異なります。これは、この方法では特定の単語やフレーズ自体と一致するのではなく、自然言語処理と呼ばれるプロセスを使用します。その文脈によって暗示される意味。compleation情報抽出に伴う複雑さにより、このアプローチの使用はグローバルスケールでの管理がやや困難になりますが、電子ファイルに関連付けられたデータソースなど、限られた量のデータでのみ非常にうまく機能するツールがあります。企業のサーバー、または限られた数のニュースフィードを含むソースのプールでさえ収容されています。このアプローチを使用すると、何らかのタイプのイベントを特定し、イベントに特定の数の参加者を含めるためにリターンを制限し、デートに応じてデータを配置することもできます。conelectionさまざまなテクノロジーと同様に、情報抽出に従事するために使用されるツールは継続的に洗練されています。21世紀の初め以来、関連情報の検索の一部としてパラメーターを設定し、電子データの増加する体を利用する能力が大幅に増加しています。これには、大量の非構造化データを処理し、それらのパラメーターを使用してそのデータに何らかの順序または構造をもたらす機能が含まれ、将来の検索にもっと役立つようになります。