digilib@itb.ac.id +62 812 2508 8800

Dalam mempertanggungjawabkan penyaluran subsidi listrik yang tepat, maka PT PLN (Persero) wajib melaporkan komponen biaya yang dikeluarkan untuk menyelenggarakan penyaluran energi listrik atau yang disebut sebagai komponen Biaya Pokok Penyediaan (BPP) Tenaga Listrik ke Pemerintah secara periodik. Dalam melaporkan hal tersebut, PT PLN (Persero) harus melakukan identifikasi komponen BPP (yang disebut juga sebagai Allowable Cost) dan non-BPP (yang disebut juga sebagai Non-Allowable Cost) pada transaksi keuangan yang tersimpan di sistem keuangan perusahaan. Saat ini proses identifikasi pengelompokkan komponen BPP dan non-BPP dilakukan secara manual sehingga memerlukan sumberdaya yang besar. Data transaksi keuangan yang digunakan untuk identifikasi terdiri dari kode Akun dan teks keterangan Transaksi. Dalam upaya mengefisiensikan proses identifikasi komponen BPP dan non BPP pada transaksi keuangan yang berjumlah besar, maka penulis mengusulkan sebuah model klasifikasi teks berbasis pembelajaran mesin dengan menggunakan machine learning. Data yang akan digunakan merupakan data transaksi keuangan periode Januari - Desember 2023 untuk pengembangan dan evaluasi model dan data transaksi keuangan periode Januari - Maret 2024 untuk melakukan prediksi dengan menggunakan model yang telah dikembangkan. Data memiliki tiga kelompok/kelas yaitu AC, NAC dan PROP (kelas PROP merupakan transaksi yang memiliki nilai Proporsi atas nilai NAC). Data transaksi keuangan yang memiliki teks bebas bersifat tidak terstruktur dan menggunakan singkatan sehingga perlu dilakukan preprocessing terlebih dahulu. Tahapan preprocessing yang akan digunakan antara lain case folding, noise removal, tokenization, stop word, spell checker, dan word representation. Selain itu, data transaksi yang digunakan memiliki karakteristik imbalanced data, yaitu kelompok/kelas pada dataset tidak memiliki distribusi normal sehingga diperlukan metode tambahan untuk mengatasi hal tersebut agar hasil machine learning tidak bias di kelompok mayoritas. Untuk mengatasi hal tersebut, digunakan metode Synthetic minority oversampling (SMOTE) agar hasil pembacaan machine learning lebih akurat. Pada penelitian akan dilakukan 2 skenario untuk membandingkan model yang lebih baik, skenario pertama model menggunakan metode Random Forest dan skenario kedua model menggunakan metode CNN. Berdasarkan hasil penelitian ditemukan bahwa model SMOTE-Random Forest memiliki hasil evaluasi metriks yang lebih baik dibandingkan dengan SMOTE-CNN yaitu nilai akurasi sebesar 97% dan AUC sebesar 0.9871. Penerapan model tersebut terhadap data baru memberikan akurasi sebesar 85%. Penerapan machine learning pada klasifikasi transaksi keuangan untuk menentukan komponen BPP dan Non BPP pada subisidi listrik mampu memberikan efisiensi waktu yang baik, model mampu memprediksi data baru lebih cepat dibandingkan dengan klasifikasi manual.