digilib@itb.ac.id +62 812 2508 8800

18219112 Ferdian Airlangga.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Penelitian yang dilakukan dalam tugas akhir ini adalah membangun Modul yang dapat digunakan untuk melakukan CV (Curriculum Vitae) Screening dengan memanfaatkan Optical Character Recognition (OCR). Pengujian terhadap OCR dilakukan dengan membandingkan nilai Levenshtein Distance dari teks yang ada dalam CV dan hasil ekstraksi. Pengujian terhadap Clustering dilakukan dengan membandingkan nilai Silhoutte Coefficient dari hasil Clustering. OCR dapat membantu mengekstrak kata penting yaitu Softskill dan Hardskill dengan bantuan NLP dan Linkedin Skill Data dari CV dan Deskripsi Pekerjaan yang memiliki format PDF dan Non-ATS Friendly. Softskill dan Hardskill digunakan untuk melakukan Clustering dan didapatkan CV yang memiliki klaster yang sama dengan Deskripsi Pekerjaan. Proses Scoring didapatkan dengan menggunakan Cosine Similarity dari hasil ekstraksi Deskripsi Pekerjaan dan CV. Hasil pengujian menunjukkan bahwa Tesseract OCR memiliki waktu pemrosesan 1,45 kali lebih cepat dibandingkan dengan Calamari OCR memiliki Levenshtein Distance senilai 1,08 kali lebih besar dibandingkan dengan Tesseract OCR. Hasil pengujian juga menunjukkan nilai silhouette coefficient dari Hierarchical Clustering adalah 0,717 dan K-Means adalah 0,623. Hal tersebut dapat diakibatkan karena Tesseract OCR tidak menggunakan Deep Learning dan Calamari OCR menggunakan LSTM. Nilai Silhoutte Coefficient dari Hierarchical Clustering dapat lebih tinggi karena CV pada umumnya dikategorikan berdasarkan jenis pekerjaan yang memiliki hierarki. Berdasarkan hasil pengujian tersebut didapatkan hasil bahwa OCR dapat membantu melakukan ekstraksi Softskill dan Hardskill dari CV dengan format ATS Friendly dan Non-ATS Friendly dengan kombinasi OCR dan teknik Clustering terbaik yaitu Tesseract OCR dan Hierarchical Clustering. Penelitian di masa mendatang diharapkan dapat melakukan Scoring dengan mempertimbangkan konteks dan pembobotan untuk setiap Softskill dan Hardskil.