Peran Perguruan Tinggi (PT) dalam menyiapkan lulusan untuk siap menghadapi dunia
kerja selalu menjadi isu kontroversial, PT sering dikritik mengenai ketidaksiapan
lulusannya untuk terlibat dalam konteks nyata dalam praktik profesional, dimana
dalam hal ini employability dari lulusan menjadi salah satu masalah utama yang terjadi
di perguruan tinggi. Oleh karena itu, PT semakin fokus dalam menyiapkan lulusannya
agar mampu mendapatkan pekerjaan setelah lulus dari perguruan tinggi. Perguruan
tinggi dan pemerintah Indonesia telah mengimplementasikan berbagai program untuk
meningkatkan kualitas, baik itu perguruan tinggi maupun para lulusannya agar siap
menghadapi dunia kerja dan dapat menekan pengangguran. Salah satu program yang
dilakukan oleh Kementrian, Pendidikan, Kebudayaan, Riset dan Teknologi
(Kemdikbudristek) adalah dibangunnya sistem tracer study yang bertujuan untuk
melacak aktivitas para lulusan setelah masa pendidikan tinggi. Belum terdapat
penelitian yang melakukan pembangunan model yang digunakan untuk memprediksi
bagaimana employability pada lulusan perguruan tinggi di Indonesia dengan
menggunakan dataset yang berasal dari database tracer study Indonesia. Oleh karena
itu, penelitian ini bertujuan untuk membangun model klasifikasi employability lulusan
perguruan tinggi di Indonesia menggunakan teknik data mining yang yang dapat
memprediksi bagaimana pekerjaan lulusan setelah lulus dari perguruan tinggi. Model
klasifikasi employability terdiri dari model klasifikasi prediksi status kerja lulusan
perguruan tinggi dalam kurun waktu enam (6) bulan setelah kelulusan dan model
klasifikasi prediksi kesesuaian bidang studi dengan pekerjaan yang didapatkan; dan
juga menginvestigasi variabel penting yang relevan terhadap model yang dibangun.
Sumber data yang digunakan berasal dari database tracer study Belmawa yang
berjumlah 365.062 lulusan dan database tracer study ITB yang berjumlah 8.274
lulusan. Model klasifikasi status kerja yang bersumberkan pada dataset tracer study
Belmawa menunjukkan bahwa algortima Random Forest - SMOTE-ENN
menghasilkan model dengan kinerja terbaik dengan akurasi sebesar 95,67% dan F1
sebesar 95%, 10 variabel penting dan relevan terdiri dari jumlah perusahaan yang
dilamar, pengelompokan pembina perguruan tinggi, waktu mencari kerja, kelompok
bidang ilmu, mencari pekerjaan melalui relasi, mencari pekerjaan melalui internet,
IPK, penekanan pembelajaran aspek magang, mencari pekerjaan melalui network, dan kompetensi Bahasa Inggris. Pada model klasifikasi status kerja yang bersumberkan
pada dataset tracer study ITB, algoritma Random Forest - SMOTE-ENN
menghasilkan model dengan kinerja terbaik dengan akurasi sebesar 94,45% dan F1
sebesar 94%, 10 variabel penting dan relevan terdiri dari waktu mencari pekerjaan,
jumlah perusahaan yang dilamar, mencari pekerjaan melalui internet, kelompok
bidang studi, sumber dana kuliah, mencari pekerjaan melalui relasi, IPK, mencari
pekerjaan melalui bursa kerja, kompetensi bahasa asing, dan penekanan pembelajaran
aspek diskusi.
Model kedua yang dibangun adalah model klasifikasi kesesuaian bidang studi dengan
pekerjaan yang didapatkan oleh lulusan perguruan tinggi. Model klasifikasi kesesuaian
kerja yang dibangun menggunakan dataset tracer study Belmawa menunjukkan bahwa
algortima Random Forest - SMOTE-ENN merupakan algoritma yang menghasilkan
model dengan ukuran kinerja terbaik dengan akurasi sebesar 96,75% dan F1 sebesar
96%, di mana 10 variabel penting dan relevan terdiri dari tingkat pendidikan dengan
pekerjaan, pengelompokan pembina perguruan tinggi, jenis perusahaan, kelompok
bidang ilmu, kompetensi pengetahuan bidang ilmu, pendapatan per bulan, penekanan
metode pembelajaran aspek perkuliahan, jenis perguruan tinggi, penekanan metode
pembelajaran aspek magang, penekanan pembelajaran aspek demonstrasi, kompetensi
bahasa inggris, penekanan pembelajaran dalam aspek riset, IPK, penekanan
pembelajaran dalam aspek diskusi, penekanan pembelajaran dalam aspek praktikum,
dan jenjang studi. Sedangkan model klasifikasi kesesuaian kerja yang dibangun
menggunakan dataset tracer study ITB, algoritma Random Forest - SMOTE-ENN
menghasilkan model klasifikasi yang mempunyai akurasi sebesar 99,35% dan F1
sebesar 99% dengan variabel penting dan relevan terdiri dari sumber dana kuliah,
kompetensi pengetahuan bidang ilmu, jenis perusahaan, pendapatan per bulan,
kompetensi pengetahuan di luar bidang ilmu, dan kelompok bidang ilmu.