Putus kuliah merupakan sebuah masalah yang berdampak cukup besar di dunia
pendidikan. Salah satu solusi yang dapat dilakukan adalah dengan menyusun sebuah
sistem peringatan menggunakan machine learning atau pembelajaran mesin untuk
mengidentifikasi mahasiswa yang memiliki kemungkinan putus kuliah untuk diberikan
intervensi sejak dini. Saat ini, belum ada penelitian yang dilakukan di ITB terkait
prediksi mahasiswa putus kuliah.
Telah banyak studi yang menunjukkan bagaimana identifikasi tersebut dapat dilakukan
menggunakan pembelajaran mesin. Namun, penggunaan metode yang sama belum
tentu dapat menghasilkan kinerja yang baik di institusi yang berbeda. Karena itu,
perlu dicari tahu apakah dapat menyusun model yang memiliki kinerja yang baik di
lingkungan ITB. Selain itu, saat ini data yang dapat digunakan baru data transkrip nilai
mahasiswa, sementara studi lain umumnya menggunakan data lain seperti demografis.
Tugas akhir ini mencoba menyusun model dengan menggunakan dua algoritme yang
umum digunakan pada data mining di bidang pendidikan, yaitu decision tree dan knearest neighbors. Data transkrip nilai juga akan diolah menjadi dua bentuk dataset,
yaitu data seluruh mahasiswa dengan fitur turunan seperti IP dan jumlah SKS, dan data
per prodi dengan nilai setiap mata kuliah.
Dari hasil percobaan, metode yang terbaik adalah melakukan pemodelan secara terpisah
terhadap setiap program studi menggunakan k-neighbors classifier yang dioptimasi
hyperparameter-nya. Namun, dengan nilai rata-rata precision dan recall dari setiap
prodi yang dimodelkan 0.57, kinerja model belum dapat dikatakan baik. Hal ini
diakibatkan karena data nilai mahasiswa ITB tidak memiliki informasi pembeda yang
cukup antara mahasiswa berisiko dan yang tidak. Ini terlihat dari data yang beririsan
antara kedua kelas.