18219112 Ferdian Airlangga.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Penelitian yang dilakukan dalam tugas akhir ini adalah membangun Modul yang
dapat digunakan untuk melakukan CV (Curriculum Vitae) Screening dengan
memanfaatkan Optical Character Recognition (OCR). Pengujian terhadap OCR
dilakukan dengan membandingkan nilai Levenshtein Distance dari teks yang ada
dalam CV dan hasil ekstraksi. Pengujian terhadap Clustering dilakukan dengan
membandingkan nilai Silhoutte Coefficient dari hasil Clustering.
OCR dapat membantu mengekstrak kata penting yaitu Softskill dan Hardskill dengan
bantuan NLP dan Linkedin Skill Data dari CV dan Deskripsi Pekerjaan yang memiliki
format PDF dan Non-ATS Friendly. Softskill dan Hardskill digunakan untuk
melakukan Clustering dan didapatkan CV yang memiliki klaster yang sama dengan
Deskripsi Pekerjaan. Proses Scoring didapatkan dengan menggunakan Cosine
Similarity dari hasil ekstraksi Deskripsi Pekerjaan dan CV.
Hasil pengujian menunjukkan bahwa Tesseract OCR memiliki waktu pemrosesan
1,45 kali lebih cepat dibandingkan dengan Calamari OCR memiliki Levenshtein
Distance senilai 1,08 kali lebih besar dibandingkan dengan Tesseract OCR. Hasil
pengujian juga menunjukkan nilai silhouette coefficient dari Hierarchical Clustering
adalah 0,717 dan K-Means adalah 0,623. Hal tersebut dapat diakibatkan karena
Tesseract OCR tidak menggunakan Deep Learning dan Calamari OCR menggunakan
LSTM. Nilai Silhoutte Coefficient dari Hierarchical Clustering dapat lebih tinggi
karena CV pada umumnya dikategorikan berdasarkan jenis pekerjaan yang memiliki
hierarki.
Berdasarkan hasil pengujian tersebut didapatkan hasil bahwa OCR dapat membantu
melakukan ekstraksi Softskill dan Hardskill dari CV dengan format ATS Friendly dan
Non-ATS Friendly dengan kombinasi OCR dan teknik Clustering terbaik yaitu
Tesseract OCR dan Hierarchical Clustering. Penelitian di masa mendatang diharapkan
dapat melakukan Scoring dengan mempertimbangkan konteks dan pembobotan untuk
setiap Softskill dan Hardskil.