Word embedding adalah metode feature extraction atau representasi kata berbentuk vektor bernilai numerik dengan dimensi rendah yang disebut vector embedding. Vector embedding dibuat dengan pembelajaran dari data teks yang besar untuk dapat menangkap sintaks dan semantik kata. Vector embedding tersebut akan digunakan untuk pembuatan fitur. Terdapat dua jenis vector embedding pada Natural Language Processing (NLP) yang sudah melalui proses pembelajaran (pre-trained) yaitu Word2Vec dan Glove.
Word2vec adalah sebuah algoritma untuk mempelajari representasi vektor kata (word embedding) yang dapat digunakan untuk menganalisis atau memproses teks secara komputasional. Algoritma ini mengambil sekumpulan data teks mentah dan memetakan setiap kata dalam dokumen tersebut ke dalam ruang vektor multidimensi. Algoritma Word2vec memiliki dua metode yaitu Continuous Bag-of-Words (CBOW) dan Skip-gram. CBOW memprediksi kata target berdasarkan konteks kata di sekitarnya, sedangkan Skip-gram memprediksi konteks kata berdasarkan kata target. Kedua metode ini dapat digunakan untuk mempelajari representasi vektor kata yang dapat digunakan dalam berbagai tugas pemrosesan bahasa alami seperti klasifikasi teks, analisis sentimen, dan penerjemahan mesin.
Dalam Word2vec, setiap kata direpresentasikan oleh vektor numerik yang merepresentasikan makna dan keterkaitan dengan kata-kata lain. Semakin dekat kedua vektor kata, semakin mirip makna dari kedua kata tersebut. Representasi vektor kata ini dapat digunakan dalam berbagai tugas pemrosesan bahasa alami seperti klasifikasi teks, analisis sentimen, dan penerjemahan mesin.
GloVe (Global Vectors for Word Representation) adalah algoritma word embedding yang mirip dengan Word2vec, tetapi dengan beberapa perbedaan penting. GloVe didasarkan pada prinsip bahwa kata-kata yang sering muncul bersama-sama dalam teks cenderung memiliki makna yang sama atau terkait erat, dan berusaha untuk mempelajari representasi vektor kata yang menggambarkan hubungan semantik antara kata-kata tersebut.
Algoritma GloVe memanfaatkan matriks co-occurrence, yaitu matriks yang merepresentasikan jumlah kemunculan dua kata bersama-sama dalam konteks yang sama. Algoritma ini kemudian mengoptimalkan representasi vektor kata yang meminimalkan perbedaan antara produk titik antara dua vektor kata dan logaritma dari frekuensi kemunculan kata-kata tersebut dalam matriks co-occurrence. Hasilnya adalah representasi vektor kata yang menggambarkan hubungan semantik antara kata-kata tersebut. Keuntungan dari GloVe adalah kemampuannya untuk mengatasi masalah dengan word embedding yang lebih tradisional seperti Word2vec, yaitu masalah dengan kata-kata yang jarang muncul atau kata-kata yang memiliki banyak makna yang berbeda. GloVe dapat mengatasi masalah tersebut dengan mempertimbangkan distribusi frekuensi kata-kata dalam korpus yang lebih luas daripada teks mentah yang digunakan dalam Word2vec.
Kurang lebih seperti itu definisi word embedding, dan juga jenis-jenis word embedding yang paling sering digunakan pada NLP.