Hipotesis Awal Cross-Lingual Transfer

Dari uji kecil ke pertanyaan riset

Titik awal eksperimen ini bukan benchmark besar, melainkan skenario praktis: model X diberi kalimat bahasa Batak dan diminta menjawab dalam bahasa Sunda memakai template prompt yang sama. Hasil bahasa Sunda itu kemudian diterjemahkan balik ke bahasa Batak, lalu dievaluasi apakah masih menjawab makna asal. Jika makna masih koheren, kita punya indikasi bahwa model menyimpan representasi makna yang bisa berpindah antar bahasa.

Indikasi awal memang muncul. Kalimat seperti au mangan indahan di jabu menghasilkan output bahasa Sunda yang masih berarti makan nasi di rumah. Ketika diterjemahkan balik, makna intinya tetap ada. Tetapi detail kecil langsung memberi peringatan: pada contoh hami marsiajar di sikkola, pronomina dapat bergeser menjadi bentuk yang lebih dekat ke hita. Ini bukan error sepele, karena dalam bahasa Batak perbedaan inclusive dan exclusive we membawa informasi pragmatik yang penting.

Bahasa Batak asal

hami marsiajar di sikkola

Output bahasa Sunda

urang diajar di sakola

Balik ke bahasa Batak

hita marsiajar di sikkola

Dari sini, kesimpulan yang aman bukan "model sudah memahami semua relasi bahasa Batak dan bahasa Sunda". Kesimpulan yang lebih tepat adalah: ada sinyal transfer semantik lintas bahasa, tetapi sinyal itu harus dipisahkan dari efek template, overlap kosakata, dan kemungkinan jalur pivot lewat bahasa Indonesia.

Catatan pembacaan Artikel ini memakai istilah "transfer" secara empiris: model berhasil membawa sebagian makna dari satu bahasa ke bahasa lain pada prompt terkontrol. Istilah ini belum berarti bukti mekanistik penuh tentang representasi internal model.

Alur eksperimen: parent awal sampai sub-parent

Setelah uji kecil memberi indikasi, eksperimen dilanjutkan menjadi matrix arah bahasa. Tujuannya sederhana: jika bahasa Batak ke bahasa Indonesia kuat dan bahasa Indonesia ke bahasa Sunda kuat, tetapi bahasa Batak ke bahasa Sunda hanya kuat pada kalimat sederhana, maka hipotesis pivot lewat bahasa Indonesia menjadi masuk akal. Matrix juga menguji arah balik seperti bahasa Sunda ke bahasa Batak agar kita tahu apakah kemampuan model simetris atau berarah.

Tahap berikutnya memperluas evaluasi menjadi 100 kalimat terkontrol per arah langsung, ditambah 100 contoh pivot eksplisit bahasa Batak ke bahasa Indonesia ke bahasa Sunda. Skor tidak digabung menjadi satu angka besar, karena satu angka akan menyembunyikan error penting. Sebaliknya, evaluasi dipisahkan menjadi kesesuaian makna, target-language correctness, pronoun fidelity, negation fidelity, cultural/name fidelity, dan klausa molo.

Figure 1

Jejak eksperimen

Setiap kartu merangkum satu tahap dari isu awal sampai revisi artifact artikel.

Figure 1. Jejak eksperimen dari ENS-9 sampai ENS-12.

Matrix skor terkontrol

Matrix berikut adalah pusat bukti kuantitatif awal. Semua skor berada pada skala 0 sampai 100. Kesesuaian makna mengukur apakah makna utama masih terbawa. Target-language mengukur apakah output benar-benar berada di bahasa target. Pronoun, negation, cultural/name, dan molo sengaja dipisahkan karena tiap fitur menguji jenis kompetensi yang berbeda.

Hasilnya memperlihatkan pola yang tidak simetris. Bahasa Indonesia ke bahasa Sunda adalah salah satu arah lintas bahasa terkuat. Bahasa Batak ke bahasa Sunda juga tinggi pada negasi dan molo, tetapi masih rendah pada pronomina. Sebaliknya, bahasa Sunda ke bahasa Batak paling lemah: target-language hanya 20.6 dan negation 0. Ini berarti subset kalimat bahasa Sunda yang mengandung negasi tidak pernah berhasil berubah menjadi negasi bahasa Batak yang benar seperti ndang atau dang.

Figure 2

Matrix arah bahasa dan ranking metric

Pilih metric untuk melihat arah mana yang paling kuat dan paling lemah.

Arah	Kesesuaian Makna	Target-language	Pronoun	Negation	Cultural/name	Molo

Figure 2. Skor ini adalah scoring heuristik berbasis ekspektasi leksikal terkontrol. Ia berguna untuk membandingkan pola error, tetapi belum menggantikan adjudikasi manusia.

Mengapa pronoun menjadi sinyal penting?

Banyak terjemahan lintas bahasa terlihat benar jika kita hanya membaca makna kasar. Namun pronomina sering menjadi tempat error tersembunyi. Bahasa Batak membedakan hami dan hita, juga hamu dan ho. Jika model tidak stabil pada perbedaan ini, ia mungkin menguasai gist semantik tetapi belum mempertahankan detail sosial dan gramatikal.

Membaca karakter setiap arah

Matrix berguna untuk melihat keseluruhan pola, tetapi setiap arah perlu dibaca sebagai profil. Bahasa Batak ke bahasa Sunda, misalnya, tidak bisa disebut lemah karena negasi dan molo mencapai 100. Tetapi ia juga tidak bisa disebut stabil penuh karena pronoun hanya 41. Bahasa Indonesia ke bahasa Sunda lebih rata, sedangkan bahasa Sunda ke bahasa Batak tampak gagal pada target-language dan pronoun.

Profil per arah juga membantu menentukan klaim paper. Kalau sebuah model kuat pada makna umum tetapi lemah pada pronomina, klaim yang tepat adalah transfer semantik terbatas, bukan pemahaman bilingual penuh. Kalau arah balik gagal, kita harus menulis bahwa fenomenanya berarah.

Figure 3

Profil arah dan radar skor

Radar menunjukkan keseimbangan enam metric untuk satu arah bahasa.

Arah

Rata-rata

Terkuat

Terlemah

Figure 3. Radar yang tidak seimbang adalah tanda bahwa model mungkin menyelesaikan sebagian tugas, tetapi gagal pada fitur yang lebih granular.

Hipotesis pivot: mengapa Indonesia dicurigai sebagai jembatan?

Hipotesis pivot muncul karena pola kemampuan model tidak acak. Bahasa Batak ke bahasa Indonesia kuat, bahasa Indonesia ke bahasa Sunda kuat, dan bahasa Batak ke bahasa Sunda juga cukup kuat pada banyak pola terkontrol. Sementara itu bahasa Sunda ke bahasa Batak lemah. Pola seperti ini cocok dengan skenario bahwa model membawa makna bahasa Batak ke ruang representasi yang lebih dekat dengan bahasa Indonesia, lalu memakai kemampuan bahasa Indonesia dan bahasa Sunda untuk menghasilkan bahasa Sunda.

Uji pivot eksplisit memperkuat dugaan itu. Jalur langsung bahasa Batak ke bahasa Sunda dibandingkan dengan jalur bahasa Batak ke bahasa Indonesia ke bahasa Sunda. Hasilnya tidak identik, tetapi cukup mirip: output Jaccard 62.9, error-taxonomy similarity 72.7, exact taxonomy match 65.0, dan shared non-empty error 57.0. Angka ini tidak membuktikan pivot penuh, tetapi cukup kuat untuk membuat pivot bahasa Indonesia menjadi interpretasi yang paling defensible.

Figure 4

Jalur langsung vs pivot eksplisit

Kemiripan taxonomy error menjadi bukti tambahan, bukan bukti tunggal.

Jalur eksplisit

Batak

Indonesia

Sunda

Pivot eksplisit memperoleh target-language 77.2, pronoun 45.0, negation 97.6, cultural/name 88.7, dan molo 91.7. Polanya dekat dengan jalur langsung bahasa Batak ke bahasa Sunda pada fitur tertentu, terutama negasi dan klausa kondisional.

Kemiripan jalur langsung vs pivot

Figure 4. Kemiripan jalur langsung dan pivot menguatkan hipotesis bahwa bahasa Indonesia berperan sebagai jembatan, tetapi jalur langsung bahasa Batak ke bahasa Sunda tetap punya beberapa kasus yang berbeda dari pivot eksplisit.

Langkah berikutnya

Langkah berikutnya adalah membuat evaluasi lebih robust: tambah adjudikasi manusia, perluas pasangan minimal, audit data training, lalu lakukan probing hidden states jika akses model memungkinkan. Probing baru berguna setelah fenomena permukaan ini stabil, karena probing mahal dan mudah menghasilkan cerita yang tampak meyakinkan tetapi belum menjawab sumber error sebenarnya.