digilib@itb.ac.id +62 812 2508 8800

Perkembangan teknologi informasi dan digital saat ini mendorong ketersediaan sejumlah besar konten buatan pengguna. Konten buatan pengguna, seperti ulasan pengguna, postingan, dan opini di internet, dapat digunakan sebagai indikator bisnis jika dikumpulkan dan dianalisa dengan tepat, salah satunya untuk memprediksi kepuasan pelanggan. Dalam menganalisa data konten buatan pengguna untuk memprediksi kepuasan pelanggan, penulis menerapkan metode Analisis Sentimen. Validasi silang lima kali lipat dilakukan untuk melatih model klasifikasi. Pelatihan dilakukan dengan kombinasi metode vektorisasi: frekuensi istilah–inversi frekuensi dokumen (tf-idf) dan kumpulan kata (bag-of-words); variasi n-gram: unigram, bigram, trigram, dan kombinasi unigram, bigram, dan trigram; dan algoritma model: Support Vector Machine dan Naïve Bayes. Hasilnya kemudian dievaluasi menggunakan metrik kinerja klasifikasi seperti precision, recall, F1, dan skor area di bawah kurva (AUC). Hasil penelitian menunjukkan bahwa vektorisasi tf-idf memiliki kinerja yang serupa dengan metode bag-of-words. Hasil serupa juga diamati untuk pemilihan algoritma pembelajaran mesin (machine learning). Hal ini menunjukkan bahwa keduanya merupakan pengklasifikasi data teks yang cukup baik. N-gram tingkat rendah (seperti unigram) cenderung memiliki precision, recall, F1, dan skor AUC yang lebih baik daripada n-gram tingkat tinggi (seperti trigram). Hasil terbaik dicapai dengan menggabungkan unigram, bigram, dan trigram, menghasilkan skor kinerja rata-rata 0,94 untuk semua satuan kinerja. Dari hasil dan analisis, penulis menemukan bahwa memprediksi kepuasan pelanggan menggunakan metode analisis teks dan sentimen pada konten buatan pengguna adalah mungkin. Performa model dalam eksperimen ini cukup baik, dengan skor yang tinggi pada precision, recall, F1, dan skor AUC.