digilib@itb.ac.id +62 812 2508 8800

NoteBOX adalah sistem dan aplikasi konten yang menyediakan informasi dan pengetahuan kepada penggunanya, yang dapat diakses melalui layanan messaging seperti email, SMS, MMS, voice messaging, fax, dan Instant Messaging. NoteBOX dibangun menggunakan konsep unified messaging system (UMS), yang memungkinkan NoteBOX untuk mengintegrasikan berbagai layanan messaging tersebut diatas. UMS memungkinkan terjadinya proses pertukaran pesan dan pengaksesan konten oleh dua jenis layanan messaging yang berbeda dengan media yang berbeda pula. Content service merupakan aplikasi yang berfungsi sebagai penyedia informasi dan pengetahuan, yang akan dijalankan pada content server yang terletak pada lapisan aplikasi sistem NoteBOX. Pada tesis ini dilakukan kajian dan perancangan model pengelompokkan dokumen yang sesuai untuk aplikasi content service untuk sistem NoteBOX. Berdasarkan sifat NoteBOX yang dapat menangani beragam jenis pesan dengan media yang berbeda, konten yang disediakan content server juga harus dapat dikirim dalam bentuk pesan yang beragam, khususnya ukuran panjang dan pendek pesan yang berbeda. Skema pengelompokkan dokumen harus memungkinkan untuk me-retrieve sebuah dokumen secara utuh, dan juga bagian-bagian tertentu dokumen saja. Model pengelompokkan dokumen yang diusulkan pada tesis ini didasarkan pada kebutuhan NoteBOX, yang terdiri atas tiga bagian utama yaitu document parsing, document pre-processing dan classification. Document parsing berfungsi untuk mengubah dokumen dengan format yang beragam menjadi dokumen dengan format teks (.txt), untuk memudahkan proses ekstraksi kata dari dokumen. Document preprocessing melakukan tokensisasi dokumen dan pembobotan kata. Tokenisasi dokumen terdiri atas proses ekstraksi kata dari dokumen, eliminasi stop words, dan stemming. Classification terdiri atas document classification untuk mengelompokkan dokumen ke dalam kelas-kelas dokumen, dan document structure classification untuk mengelompokkan elemen dokumen yang ditentukan berdasarkan struktur logik dokumen ke dalam kelas-kelas struktur dokumen. Teknik yang digunakan untuk mengelompokkan dokumen adalah hybrid clustering-classification. Teknik clustering-classification dapat mengotomatisasi proses penentuan predefined class label dokumen dan dapat mengelompokkan dokumen dengan akurasi yang tinggi. Pada teknik ini, predefined class label dokumen ditentukan dari hasil clustering dokumen. Dan selanjutnya dilakukan pengelompokkan dokumen menggunakan teknik classification. Untuk mengelompokkan dokumen digunakan pendekatan hierarchical classification. Pendekatan ini mengklasifikasi dokumen ke dalam kelas-kelas yang saling terhubung berdasarkan struktur topik dokumen, dan menghasilkan direktori klasifikasi berbentuk struktur pohon. Ada dua manfaat utama yang dapat diperoleh dari model pengelompokkan dokumen yang dirancang untuk content server NoteBOX. Pertama, model pengelompokkan ini memungkinkan content server untuk dapat memberikan dokumen yang lebih relevan sesuai dengan query pengguna kepada search engine, dan dapat membantu search engine mencari dokumen dengan lebih cepat. Karena, dokumen telah dikelompokkan ke dalam kelas-kelas yang sesuai dengan isi dokumen. Kelas-kelas dokumen dibentuk menggunakan teknik klasifikasi sehingga akurasi pengelompokkan tinggi. Dengan menggunakan pendekatan hierarchical classification, akurasi klasifikasi menjadi semakin tinggi dan proses pencarian dokumen oleh search engine menjadi lebih efisien. Kedua, model pengelompokkan ini memungkinkan search engine untuk me-retrieve dokumen secara utuh atau bagian tertentu dokumen saja. Pada model ini, pengelompokkan dilakukan dengan mempertimbangkan struktur dokumen. Dengan kata lain, pengelompokkan tidak hanya dilakukan pada dokumen saja, tetapi juga pada elemen struktural dokumen. Dengan mengelompokkan elemen struktural dokumen, akses pada bagian tertentu dokumen dapat dimungkinkan. Pada tesis ini tidak dilakukan implementasi model pengelompokkan dokumen yang dirancang. Untuk mengimplementasi model yang didesain dapat menggunakan open-source library. Ekstraksi teks dapat menggunakan library JTidy untuk dokumen HTML, PDFBox untuk dokumen PDF, dan TextMining untuk dokumen Word. Untuk proses pra-pengolahan dokumen dapat menggunakan beberapa class dari library Lucene, dan untuk proses pengelompokkan dokumen dapat menggunakan beberapa class dari library Weka.