Modern human-aligned Large Language Models (LLMs) kini dilengkapi chat-style prompt templates, human-alignment yang mendalam, dan cakupan bahasa yang lebih luas. Namun, sebagian besar bukti tentang metode in-context seperti in-context learning (ICL), cross-lingual ICL (X-ICL), dan in-context alignment (ICA) masih berasal dari era LLMs sebelum alignment. Penelitian ini mengkaji ulang efektifitas teknik-teknik tersebut pada multilingual human-aligned LLMs terkini, mencakup 20 bahasa dengan tingkat sumber daya tinggi, menengah, dan rendah.
Terdapat dua dataset yang digunakan, yaitu klasifikasi topik (SIB-200) dan machine reading comprehension (Belebele) untuk evaluasi. Peningkatan kinerja metode in-context bergantung pada beberapa faktor, seperti 1) penggunaan chat-template meningkatkan performa ICL dan X-ICL, 2) ICA meningkatkan kinerja bahasa sumber daya rendah dan menengah (hingga +6,1% f1-score), 3) memilih bahasa yang secara linguistik mirip untuk X-ICL dapat memberikan peningkatan (hingga +21,98%) dibandingkan Bahasa Inggris. Penerapan ICA pada tugas domain medis tidak mampu mengungguli ICL standar. Pemilihan contoh secara acak juga memberikan hasil serupa dengan pemilihan secara semantik menandakan batasan metode in-context di luar domain umum.
Secara keseluruhan, hasil eksperimen menyempurnakan klaim sebelumnya, yaitu human-aligned LLMs informasi in-context masih dapat meningkatkan kinerja LLMs. Namun, peningkatannya bergantung pada desain prompt, sumber daya bahasa, pemilihan pasangan bahasa, dan kompleksitas tugas.
Perpustakaan Digital ITB