digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Kumpulan dokumen dari media sosial memiliki potensi untuk memberikan insight yang berharga bagi berbagai pihak. Namun, analisis manual terhadap kumpulan dokumen tersebut tidak efisien dan rentan terhadap inkonsistensi dan subjektivitas manusia. Beberapa penelitian terdahulu telah mengembangkan metode otomatis berbasis pemodelan topik untuk menganalisis kumpulan dokumen dari media sosial. Akan tetapi, hasil yang diperoleh masih berupa kumpulan kata kunci dan mengabaikan penyajian frekuensi dokumen pada setiap topik yang ditemukan, padahal informasi ini penting untuk membantu proses analisis. Tugas akhir ini menggunakan tiga proses utama untuk menjawab permasalahan tersebut, yaitu pemodelan topik, pelabelan otomatis berbasis Large Language Model (LLM), dan klasifikasi multilabel untuk menentukan frekuensi dokumen pada setiap topik. Pada tahap pemodelan topik, dilakukan perbandingan antara tiga metode, yakni BERTopic, Latent Dirichlet Allocation (LDA), dan Non-negative Matrix Factorization (NMF). Untuk pelabelan topik, digunakan dua model LLM dari OpenAI, yaitu GPT-4o dan GPT-4o mini dengan input dapat berupa dokumen representatif, kata kunci, hasil ekstraksi RAKE atau gabungannya. Adapun klasifikasi multilabel dilakukan dengan menetapkan nilai ambang batas (threshold) yang dipilih berdasarkan konfigurasi yang memberikan hasil evaluasi terbaik pada eksperimen terhadap dua dataset. Hasil eksperimen menunjukkan bahwa kombinasi paling optimal diperoleh dari penggunaan BERTopic dengan pendekatan soft clustering melalui approximate distribution, serta pelabelan topik menggunakan GPT-4o dengan input berupa gabungan kata kunci dan pemotongan dokumen representatif maksimal sebanyak 60 token. Selain menghasilkan label topik yang lebih baik (deskriptif dan informatif), pendekatan ini juga memungkinkan estimasi frekuensi dokumen per topik secara lebih akurat melalui klasifikasi multilabel dengan threshold 0,3 yang dapat mengakomodasi penentuan dokumen yang relevan dengan lebih dari satu topik maupun dokumen outlier (dokumen dengan topik yang jauh dari topik-topik utama). Meskipun demikian, identifikasi dokumen outlier dan keberadaan beberapa topik yang masih sulit diprediksi tetap menjadi tantangan dalam penelitian ini.