Speech recognition saat ini merupakan salah satu bidang kecerdasan buatan yang banyak diminati. Salah satu teknik untuk pembuatan speech recognition yaitu Connectionist Temporal Classification (CTC). Framework dengan teknik CTC dengan hasil evaluasi paling baik saat ini yaitu Wav2Vec2. Terdapat beberapa pengembangan model Wav2Vec2 dalam bahasa Indonesia, akan tetapi pada model yang ada bila diuji dengan data ber domain spesifik menghasilkan nilai evaluasi yang kurang baik. Oleh karena itu diperlukannya pembuatan speech recognition dengan Wav2Vec2 untuk domain data yang spesifik. Domain spesifik yang diuji terdiri dari domain perkuliahan, domain kedokteran gigi dan domain berita. Untuk model yang digunakan pada eksperimen yaitu model hasil pengembangan Facebook "wav2vec2-large-xlsr-53". Hal tersebut disebabkan karena model menghasilkan nilai evaluasi yang paling baik bila diuji dalam data berbahasa Indonesia. Pada penelitian ini terdapat beberapa skenario diantaranya model Wav2Vec2 dengan model bahasa dan tanpa model bahasa serta model Wav2Vec2 menggunakan transfer learning dengan model bahasa dan tanpa model bahasa. Hasil yang didapat yaitu model Wav2Vec2 menggunakan transfer learning dengan model bahasa mendapatkan hasil evaluasi yang paling kecil dibandingkan skenario lainnya di domain spesifik dan multi domain. Pada domain berita nilai WER yang didapatkan 6.9%, Nilai CER yang didapatkan 1.1%. Pada domain Kedokteran gigi nilai WER yang didapatkan 11.8% dan CER 4.1%. Pada domain perkuliahan nilai WER yang didapatkan 46.5% dan CER 16.2%. Begitupun model dengan multi domain menghasilkan nilai WER 30.4% dan nilai CER 11.5%.