Penggunaan frame atau pembingkaian dalam artikel berita merupakan strategi penulis berita
dalam mengarahkan sudut pandang pembaca yang dapat bersifat subjektif dan memengaruhi
opini pembaca. Frame berperan sebagai lensa atau dimensi yang membatasi penulis dalam
menyajikan berita, berbeda dengan topik yang merupakan subjek atau bahasan di dalam berita.
Kategori yang ada di dalam frame juga berbeda dengan kategori topik pada berita yang bersifat
sangat umum. Meskipun telah dilakukan penelitian topik pada berita berbahasa Indonesia,
namun belum ada penelitian yang terfokus pada klasifikasi frame pada berita. Oleh karena itu,
penelitian ini bertujuan untuk mengadaptasi penelitian klasifikasi frame lintas bahasa untuk
berita berbahasa Indonesia.
Penelitian ini dilakukan dengan membangun korpus data berita beserta dengan label frame
yang ada di dalamnya dan menganalisis perbandingan kinerja model bahasa berbasis
Transformer beserta dengan strategi penanganan ketidakseimbangan data. Metodologi
penelitian mencakup pembangunan korpus data sebanyak 150 artikel berita dari portal
detik.com dan kompas.com yang dianotasi oleh ahli linguistik yang digunakan sebagai data uji,
serta eksperimen dengan model diskriminatif dan generatif. Penggunaan model diskriminatif
XLM-RoBERTa-base dilakukan dengan berbagai skenario eksperimen seperti Task-Adaptive
Pre-Training (TAPT), penggunaan Binary Cross Entropy (BCE) dan Focal Loss, serta
oversampling dengan bantuan machine translation. Penggunaan model generatif SeaLLM-v3-
7B dan Qwen3-8B dilakukan dengan metode zero shot prompting dan few shot prompting.
Hasil penelitian menunjukkan bahwa performa terbaik dicapai oleh model yang menggunakan
strategi TAPT dengan probabilitas masking 20% dan fungsi kerugian BCE dengan penggunaan
classweights, menghasilkan nilai F1 Macro sebesar 0,474 dan F1 Micro sebesar 0,571 pada
data uji bahasa Indonesia. Model terbukti sangat efektif dalam mendeteksi frame konkret
seperti Health_and_safety (F1 Score = 0,906), namun masih menghadapi tantangan pada frame
yang bersifat abstrak atau memiliki data terbatas seperti Morality dan Fairness_and_equality.
Penelitian ini menyimpulkan bahwa kombinasi metode adaptive pre-training dan costsensitive
learning merupakan pendekatan yang andal untuk klasifikasi frame pada berita
meskipun terdapat distribusi data yang tidak seimbang secara ekstrem. Pada kedua strategi
prompting, zero shot dan few shot, model Qwen3-8B memberikan kinerja yang lebih baik
daripada model SeaLLM-v3-7B, namun tidak sebagus kinerja model diskriminatif.
Perpustakaan Digital ITB