digilib@itb.ac.id +62 812 2508 8800

Agregator berita dikembangkan untuk memperoleh berita secara cepat dan mudah dengan cara mengumpulkan berita dari berbagai sumber yang kemudian disajikan dalam satu tampilan yang padu. Namun, melimpahnya content yang dihasilkan dapat menyebabkan efek information overload bagi pengguna. Efek information overload ini dapat ditangani dengan mengelompokkan berita sesuai peristiwa secara otomatis yang disebut juga document clustering. Salah satu algoritma clustering yang cocok untuk agregator berita adalah algoritma Chung-Mcleod. Algoritma Chung-Mcleod dipilih karena kemampuannya untuk melakukan proses clustering secara incremental. Hal ini sesuai dengan sifat arus berita yang terus mengalir sehingga proses clustering dapat dilakukan sewaktu-waktu, tidak perlu menunggu keseluruhan dokumen terkumpul. Proses document clustering yang ada saat ini seperti pada GoogleNews hanya bersifat monolingual, yaitu hanya melakukan clustering pada dokumen dalam bahasa yang sama. Hal ini efektif untuk peristiwa yang bersifat lokal, akan tetapi pada peristiwa yang bersifat global, berita yang sama biasanya dituliskan serempak oleh berbagai sumber dalam berbagai bahasa. Masalah ini dapat diatasi dengan mengumpulkan berita dari berbagai situs berita dalam beberapa bahasa yang berbeda, kemudian berita-berita yang menceritakan suatu topik yang sama dikelompokkan dalam cluster yang sama meski berita-berita tersebut tersaji dalam bahasa yang berbeda. Pada Tesis ini dibangun sebuah aggregator berita multilingual yang mengimplementasikan algoritma Chung-Mcleod dengan bersumber pada beberapa situs berita dari bahasa yang berbeda. Aggregator berita multilingual yang diberi nama Agata Multilingual ini dibangun menggunakan pendekatan dictionarybased dengan bahasa Indonesia sebagai bahasa acuan. Kesimpulan yang dapat diambil dari Tesis ini adalah aggregator berita multilingual dapat dibangun dengan menerapkan algoritma clustering Chung-Mcleod yang menggunakan pendekatan dictionary-based meskipun dalam tingkat performansi yang masih rendah. Performansi rendah ini disebabkan oleh kekurangtepatan proses translasi terutama berkaitan dengan term yang mengalami proses stemming.