digilib@itb.ac.id +62 812 2508 8800

Abstrak.pdf
PUBLIC Alice Diniarti

Media sosial saat ini, terutama platform Twitter telah menjadi sumber informasi paling populer untuk mengetahui kondisi lalu lintas secara real-time. Umumnya penggunaan informasi yang dimuat pada Twitter digunakan untuk kepentingan jangka pendek, hanya untuk mengetahui titik-titik kemacetan pada saat kejadian berlangsung. Jika informasi tersebut dapat dihimpun dan diolah lebih lanjut, akan lebih bermanfaat untuk keperluan jangka panjang, seperti pemetaan titik-titik rawan kemacetan pada jam tertentu. Informasi tersebut dibutuhkan oleh para pemangku kepentingan kota. Ekstraksi informasi diperlukan untuk mengolah informasi dalam bentuk teks dari media sosial yang sebelumnya tidak terstruktur menjadi terstruktur. Teknik Named Entity Recognition (NER) dapat diterapkan untuk memperoleh entitas-entitas yang merepresentasikan kondisi lalu lintas. Penelitian ini mencoba mengklasifikasikan entitas-entitas ke dalam 11 kelas, yaitu: B-TIME, I-TIME, B-LOCT, I-LOCT, BCOND, I-COND, B-CAUS, I-CAUS, B-WEAT, I-WEAT, B-MISC, I-MISC, dan O. Kelas-kelas yang didefinisikan tersebut merepresentasikan entitas waktu, lokasi, kondisi, penyebab, cuaca, miscellaneous, dan lainnya, disertai skema pengodean BIO. Ditemukan beberapa penelitian sebelumnya terkait ekstraksi informasi kondisi lalu lintas dari media sosial. Namun, kebanyakan masih didominasi dengan pendekatan berbasis aturan (rule-based). Penelitian ini mengajukan solusi rancangan arsitektur model dengan pendekatan deep learning. Dalam menangani tingkat kata menggunakan pendekatan Bidirectional LSTM. Sedangkan untuk menangani tingkat karakter menggunakan pendekatan CNN. Kinerja dari kombinasi kedua metode deep learning tersebut disertai word embedding mampu memperoleh nilai F-measure 0,789. Data yang digunakan pada penelitian ini sebanyak 44.102 tweet dengan komposisi data latih sebanyak 70%, data uji sebanyak 15%, dan data development sebanyak 15%.