ABSTRAK Hary Nugroho
PUBLIC Irwan Sofiyan COVER Hary Nugroho
PUBLIC Irwan Sofiyan BAB1 Hary Nugroho
PUBLIC Irwan Sofiyan BAB2 Hary Nugroho
PUBLIC Irwan Sofiyan BAB3 Hary Nugroho
PUBLIC Irwan Sofiyan BAB4 Hary Nugroho
PUBLIC Irwan Sofiyan BAB5 Hary Nugroho
PUBLIC Irwan Sofiyan PUSTAKA Hary Nugroho
PUBLIC Irwan Sofiyan
Pada pemetaan litologi di kawasan yang sulit dijangkau dengan densitas vegetasi yang tinggi, pengumpulan titik pelatihan merupakan kegiatan yang sangat menantang. Pada situasi seperti ini jika tidak ditemukan titik singkapan maka titik pelatihan harus diperoleh melalui pengeboran tanah. Dengan demikian tidak jarang titik pelatihan yang diperoleh jumlahnya hanya sedikit dan tidak cukup untuk digunakan dalam interpretasi data litologi. Jika kondisi ini dipaksakan maka tidak akan dapat diperoleh peta litologi yang akurat. Pada kawasan seperti ini diperlukan suatu metodologi yang dapat membantu para ahli geologi untuk dapat melakukan pembuatan peta litologi dengan titik pelatihan dan data pendukung lainnya yang terbatas dengan proses cepat dan efisien. Pemetaan litologi pada wilayah seperti ini dapat menerapkan metode Remote Predictive Mapping (RPM).
RPM adalah suatu teknik pemetaan geologi yang menggunakan data geosains, seperti citra satelit dan data geofisika udara yang meliputi data magnetik, radiometrik, dan elektromagnetik, yang diolah dengan metode machine learning untuk memperoleh peta litologi prediktif. Machine learning digunakan untuk melakukan klasifikasi data geosains dengan rujukan titik pelatihan atau yang disebut dengan klasifikasi terbimbing (supervised classification). Titik pelatihan memiliki fungsi sebagai penghubung antara data citra satelit/geofisika udara dengan data litologi yang ada di tanah. Seperti dalam pemetaan litologi konvensional, keberhasilan pemetaan litologi dengan metode RPM bergantung pada jumlah dan kelengkapan titik pelatihan yang mewakili jenis litologi yang ada di lapangan. Namun, pada metode RPM keseimbangan jumlah titik pelatihan yang mewakili jenis litologi akan berpengaruh terhadap hasil klasifikasi dan akurasinya. Hal ini disebabkan oleh machine learning yang selalu menganggap titik pelatihan terdistribusi secara berimbang. Dengan demikian jika terjadi ketidakseimbangan (imbalance data) maka machine learning akan menjadi bias ke kelas dengan jumlah titik pelatihan terbanyak (kelas mayoritas).
Penelitian ini bertujuan untuk membuat metodologi pemetaan litologi yang efisien dengan menerapkan RPM. Pada penelitian ini dilakukan kajian untuk memperoleh kombinasi data dan metodologi yang paling optimal melalui (1) kajian penggunaan data, (2) kajian jumlah dan sebaran titik pelatihan (data lapangan), (3) penerapan algoritma machine learning yang digabungkan dengan beberapa metode perbaikan pada tingkatan data dan algoritma, dan (4) penerapan metode smoothing untuk meningkatkan akurasi hasil klasifikasi (pascaklasifikasi). Wilayah studi berada di Kelurahan Komopa, Kecamatan Aweida, Kabupaten Paniai, Provinsi Papua. Permukaan tanah di wilayah ini tertutup oleh vegetasi yang lebat serta lapisan humus yang tebal. Luas wilayah studi mencapai sekitar 84 km2. Data yang digunakan adalah citra satelit Sentinel-2A, citra radar ALOS PALSAR, dan model elevasi digital (DEM) serta data geofisika berupa data magnetik, elektromagnetik dan radiometrik. Titik pelatihan yang digunakan bervariasi, mulai dari 25, 50, 100, 200, 300, 400, dan 500 titik dengan distribusi simple random dalam kondisi tidak balans serta 25 dan 50 titik dengan distribusi stratified random dalam kondisi balans yang diuji dengan 502 titik uji. Machine learning yang digunakan adalah Random Forest dengan penerapan metode perbaikan pada tingkatan data dan algoritma yang meliputi penerapan oversampling dan cost sensitive learning. Untuk proses perbaikan pascaklasifikasi atau smoothing diterapkan metode Fuzzy C-Means dan probabilitas hasil klasifikasi Random Forest. Hasil klasifikasi diuji dengan menggunakan matriks konfusi serta diperbandingkan dengan peta litologi eksisting skala 1:25.000 yang diproduksi oleh Mine Serve International pada tahun 2000.
Model yang paling efisien dengan distribusi data tidak balans adalah model dengan 100 titik pelatihan yang mengintegrasikan Random Forest dengan metode oversampling. Pada jumlah titik pelatihan tersebut rasio ketidakseimbangan data (imbalance ratio-IR) adalah antara 11:1 dan 30:1, dengan kombinasi data terbaik meliputi beberapa elemen citra satelit Sentinel-2A, DEM, RTP dan elemen data elektromagnetik 20 kHz dan 36 kHz yang memberikan kenaikan akurasi pengujian 4%, presisi 20%, recall 20%, F1 score 20% dan Kappa score 21%. Untuk data dengan pola distribusi balans atau stratified, model terbaik adalah model 50 TP dengan penambahan data RTP, yang memberikan kenaikan akurasi pengujian 11%, presisi 5%, recall 8%, F1 score 8% dan Kappa score 10%. Proses smoothing terbukti dapat memperbaiki hasil klasifikasi dengan cara menghilangkan sebagian derau (noise) melalui penerapan metode Direction Magnitude dan Fuzzy C-Means dan probabilitas Random Forest. Metode smoothing ini dapat meningkatkan akurasi pelatihan hingga 7% dan F1 score 4%.