Feature extraction atau ekstraksi fitur adalah proses mengidentifikasi dan mengekstrak fitur-fitur penting dari data mentah, seperti gambar, teks, atau suara, dengan tujuan memperbaiki kinerja model machine learning dan meningkatkan akurasi prediksi. Dalam konteks Natural Language Processing (NLP), contohnya adalah mengubah teks mentah menjadi representasi vektor fitur yang dapat diproses oleh mesin. Fitur yang diekstraksi dapat mencakup kata-kata kunci, entitas, tata bahasa, atau atribut-atribut lain yang relevan dengan tujuan analisis. Teknik-teknik feature extraction NLP termasuk bag-of-words, TF-IDF (Term Frequency-Inverse Document Frequency), word embedding (seperti Word2Vec dan GloVe), dan banyak lagi. Dalam konteks Computer Vision, contohnya adalah mengubah gambar menjadi representasi numerik yang dapat diproses oleh mesin, seperti histogram warna, filter Gabor, atau fitur khusus yang dihasilkan oleh jaringan saraf konvolusional (CNN).
Feature extraction adalah tahap awal yang penting dalam pengolahan data dan memainkan peran penting dalam meningkatkan akurasi model machine learning. Setelah fitur-fitur penting diekstrak, model machine learning dapat dilatih menggunakan fitur-fitur tersebut untuk memprediksi hasil yang akurat. Feature extraction adalah tahap penting dalam NLP karena kualitas fitur yang diekstraksi dapat berdampak besar pada kinerja model. Fitur yang buruk atau tidak relevan dapat menghasilkan model yang buruk atau tidak akurat. Oleh karena itu, pemilihan fitur yang tepat dan efektif sangat penting dalam keberhasilan aplikasi NLP.
Sumber gambar: Link