TF-IDF adalah singkatan dari “Term Frequency-Inverse Document Frequency“. Ini adalah metode feature extraction atau ekstraksi fitur yang digunakan untuk memberikan bobot pada kata-kata dalam sebuah dokumen atau korpus berdasarkan seberapa sering kata tersebut muncul dalam dokumen tersebut dan seberapa umum kata tersebut di seluruh korpus. Tujuan utama dari TF-IDF adalah untuk menemukan kata-kata yang paling penting dalam dokumen tertentu. Term Frequency-Inverse Document Frequency (TF-IDF) adalah metode yang digunakan untuk menilai kepentingan kata dalam suatu dokumen atau korpus berdasarkan seberapa sering kata tersebut muncul dalam dokumen tersebut dan seberapa umum kata tersebut di seluruh korpus.
TF-IDF memperhitungkan dua faktor penting dalam penentuan kepentingan kata dalam sebuah dokumen:
- Term Frequency (TF) – menghitung seberapa sering kata tertentu muncul dalam sebuah dokumen.
- Inverse Document Frequency (IDF) – menghitung seberapa umum kata tertentu di seluruh korpus dokumen.
Dengan menggabungkan kedua faktor tersebut, TF-IDF memberikan bobot pada kata dalam dokumen tersebut. Kata yang muncul lebih sering dalam dokumen dan kurang umum dalam seluruh korpus mendapatkan bobot yang lebih tinggi, sedangkan kata yang muncul lebih jarang dalam dokumen atau lebih umum dalam seluruh korpus mendapatkan bobot yang lebih rendah. Dengan cara ini, TF-IDF dapat membantu dalam mengidentifikasi kata-kata kunci atau topik yang paling penting dalam suatu dokumen atau korpus. TF-IDF sering digunakan dalam pengolahan bahasa alami, pemrosesan teks, dan analisis teks untuk mengklasifikasikan dokumen, melakukan clustering, dan mengekstrak informasi penting.
TF-IDF digunakan di bidang information retrieval (IR) pada Natural Language Processing (NLP) dan machine learning, yang dapat mengukur tingkat kepentingan atau relevansi representasi string (kata, frasa, lema, dan sebagainya) di dalam sebuah dokumen di antara sekumpulan dokumen (yang disebut juga sebagai corpus).