Skip to main content

Apa itu ekstraksi informasi?

Kadang-kadang dikenal sebagai pengambilan informasi, ekstraksi informasi (IE) adalah proses yang digunakan dengan sistem komputer untuk memungkinkan data yang relevan diekstraksi dari badan data yang lebih besar, menggunakan beberapa set kriteria yang telah ditentukan sebelumnya.Gagasan di balik ekstraksi informasi adalah untuk memungkinkan untuk dengan mudah mengidentifikasi dan mengasimilasi data yang relevan dengan aktivitas tertentu, tanpa perlu secara manual melalui sejumlah besar informasi untuk menemukan data yang tepat yang diperlukan.Prosesnya mirip dengan ide -ide penambangan konsep atau pengikisan web, karena semua pendekatan ini berusaha untuk mengumpulkan informasi yang berguna dari kumpulan data yang tersedia yang lebih luas.

Pendekatan umum untuk panggilan ekstraksi informasi untuk menggunakan pemrograman yang mampu memindai sumber informasi yang dianggap dapat dibaca mesin.Ini dapat mencakup dokumen hard copy yang telah dipindai menjadi semacam file elektronik, dokumen yang disiapkan sebagai spreadsheet atau dokumen pengolah kata, atau bahkan data yang terkandung dalam bidang yang dapat dibaca dalam database.Biasanya, parameter diatur yang memungkinkan program perangkat lunak untuk diberikan akses ke sumber data ini dan dengan cepat memindai mereka menggunakan kriteria spesifik untuk memprioritaskan dan mengeluarkan jenis informasi tertentu dari kumpulan yang tersedia.Proses ini biasanya berbeda dari proses pencarian sederhana, karena metode ini membutuhkan kata -kata atau frasa tertentu, tetapi juga menggunakan proses yang disebut pemrosesan bahasa alami, yang membantu tidak hanya mengevaluasi kata -kata yang sebenarnya tetapi juga konteksnya danMakna yang tersirat oleh konteks itu.

Kompleksitas yang terlibat dengan ekstraksi informasi membuat penggunaan pendekatan ini agak sulit dikelola dalam skala global, meskipun ada alat IE yang bekerja sangat baik hanya dengan jumlah data yang terbatas, seperti sumber data yang terkait dengan file elektronikBertempat di server perusahaan, atau bahkan sekelompok sumber yang melibatkan sejumlah umpan berita.Dengan pendekatan ini adalah mungkin untuk mengidentifikasi beberapa jenis peristiwa, bahkan mungkin membatasi pengembalian untuk dimasukkannya sejumlah peserta dalam acara tersebut, dan memiliki data yang diatur sesuai tanggal.

Seperti halnya banyak bentuk teknologi, alat yang digunakan untuk terlibat dalam ekstraksi informasi terus -menerus disempurnakan.Sejak awal abad ke-21, kemampuan untuk menetapkan parameter dan memanfaatkan badan data elektronik yang semakin meningkat sebagai bagian dari pencarian informasi yang relevan telah meningkat secara signifikan.Ini termasuk kemampuan untuk menangani volume besar data yang tidak terstruktur dan menggunakan parameter tersebut untuk membawa beberapa pesanan atau struktur ke data itu, menjadikannya semakin berguna untuk pencarian di masa depan.