Dari uji kecil ke pertanyaan riset
Titik awal eksperimen ini bukan benchmark besar, melainkan skenario praktis: model X diberi kalimat bahasa Batak dan diminta menjawab dalam bahasa Sunda memakai template prompt yang sama. Hasil bahasa Sunda itu kemudian diterjemahkan balik ke bahasa Batak, lalu dievaluasi apakah masih menjawab makna asal. Jika makna masih koheren, kita punya indikasi bahwa model menyimpan representasi makna yang bisa berpindah antar bahasa.
Indikasi awal memang muncul. Kalimat seperti au mangan indahan
di jabu menghasilkan output bahasa Sunda yang masih berarti makan
nasi di rumah. Ketika diterjemahkan balik, makna intinya tetap ada.
Tetapi detail kecil langsung memberi peringatan: pada contoh
hami marsiajar di sikkola, pronomina dapat bergeser
menjadi bentuk yang lebih dekat ke hita. Ini bukan error
sepele, karena dalam bahasa Batak perbedaan inclusive dan exclusive we
membawa informasi pragmatik yang penting.
hami marsiajar di sikkola
urang diajar di sakola
hita marsiajar di sikkola
Dari sini, kesimpulan yang aman bukan "model sudah memahami semua relasi bahasa Batak dan bahasa Sunda". Kesimpulan yang lebih tepat adalah: ada sinyal transfer semantik lintas bahasa, tetapi sinyal itu harus dipisahkan dari efek template, overlap kosakata, dan kemungkinan jalur pivot lewat bahasa Indonesia.
Alur eksperimen: parent awal sampai sub-parent
Setelah uji kecil memberi indikasi, eksperimen dilanjutkan menjadi matrix arah bahasa. Tujuannya sederhana: jika bahasa Batak ke bahasa Indonesia kuat dan bahasa Indonesia ke bahasa Sunda kuat, tetapi bahasa Batak ke bahasa Sunda hanya kuat pada kalimat sederhana, maka hipotesis pivot lewat bahasa Indonesia menjadi masuk akal. Matrix juga menguji arah balik seperti bahasa Sunda ke bahasa Batak agar kita tahu apakah kemampuan model simetris atau berarah.
Tahap berikutnya memperluas evaluasi menjadi 100 kalimat terkontrol
per arah langsung, ditambah 100 contoh pivot eksplisit bahasa Batak ke bahasa Indonesia
ke bahasa Sunda. Skor tidak digabung menjadi satu angka besar, karena satu
angka akan menyembunyikan error penting. Sebaliknya, evaluasi
dipisahkan menjadi kesesuaian makna, target-language correctness,
pronoun fidelity, negation fidelity, cultural/name fidelity, dan
klausa molo.
Jejak eksperimen
Setiap kartu merangkum satu tahap dari isu awal sampai revisi artifact artikel.
Matrix skor terkontrol
Matrix berikut adalah pusat bukti kuantitatif awal. Semua skor
berada pada skala 0 sampai 100. Kesesuaian makna mengukur apakah makna utama
masih terbawa. Target-language mengukur apakah output benar-benar
berada di bahasa target. Pronoun, negation, cultural/name, dan
molo sengaja dipisahkan karena tiap fitur menguji jenis
kompetensi yang berbeda.
Hasilnya memperlihatkan pola yang tidak simetris. Bahasa Indonesia ke bahasa Sunda
adalah salah satu arah lintas bahasa terkuat. Bahasa Batak ke bahasa Sunda juga
tinggi pada negasi dan molo, tetapi masih rendah pada
pronomina. Sebaliknya, bahasa Sunda ke bahasa Batak paling lemah: target-language
hanya 20.6 dan negation 0. Ini berarti subset kalimat bahasa Sunda yang
mengandung negasi tidak pernah berhasil berubah menjadi negasi bahasa Batak
yang benar seperti ndang atau dang.
Matrix arah bahasa dan ranking metric
Pilih metric untuk melihat arah mana yang paling kuat dan paling lemah.
| Arah | Kesesuaian Makna | Target-language | Pronoun | Negation | Cultural/name | Molo |
|---|
Mengapa pronoun menjadi sinyal penting?
Banyak terjemahan lintas bahasa terlihat benar jika kita hanya
membaca makna kasar. Namun pronomina sering menjadi tempat error
tersembunyi. Bahasa Batak membedakan hami dan hita,
juga hamu dan ho. Jika model tidak stabil
pada perbedaan ini, ia mungkin menguasai gist semantik tetapi belum
mempertahankan detail sosial dan gramatikal.
Membaca karakter setiap arah
Matrix berguna untuk melihat keseluruhan pola, tetapi setiap arah
perlu dibaca sebagai profil. Bahasa Batak ke bahasa Sunda, misalnya, tidak bisa
disebut lemah karena negasi dan molo mencapai 100.
Tetapi ia juga tidak bisa disebut stabil penuh karena pronoun hanya
41. Bahasa Indonesia ke bahasa Sunda lebih rata, sedangkan bahasa Sunda ke bahasa Batak tampak gagal
pada target-language dan pronoun.
Profil per arah juga membantu menentukan klaim paper. Kalau sebuah model kuat pada makna umum tetapi lemah pada pronomina, klaim yang tepat adalah transfer semantik terbatas, bukan pemahaman bilingual penuh. Kalau arah balik gagal, kita harus menulis bahwa fenomenanya berarah.
Profil arah dan radar skor
Radar menunjukkan keseimbangan enam metric untuk satu arah bahasa.
Hipotesis pivot: mengapa Indonesia dicurigai sebagai jembatan?
Hipotesis pivot muncul karena pola kemampuan model tidak acak. Bahasa Batak ke bahasa Indonesia kuat, bahasa Indonesia ke bahasa Sunda kuat, dan bahasa Batak ke bahasa Sunda juga cukup kuat pada banyak pola terkontrol. Sementara itu bahasa Sunda ke bahasa Batak lemah. Pola seperti ini cocok dengan skenario bahwa model membawa makna bahasa Batak ke ruang representasi yang lebih dekat dengan bahasa Indonesia, lalu memakai kemampuan bahasa Indonesia dan bahasa Sunda untuk menghasilkan bahasa Sunda.
Uji pivot eksplisit memperkuat dugaan itu. Jalur langsung bahasa Batak ke bahasa Sunda dibandingkan dengan jalur bahasa Batak ke bahasa Indonesia ke bahasa Sunda. Hasilnya tidak identik, tetapi cukup mirip: output Jaccard 62.9, error-taxonomy similarity 72.7, exact taxonomy match 65.0, dan shared non-empty error 57.0. Angka ini tidak membuktikan pivot penuh, tetapi cukup kuat untuk membuat pivot bahasa Indonesia menjadi interpretasi yang paling defensible.
Jalur langsung vs pivot eksplisit
Kemiripan taxonomy error menjadi bukti tambahan, bukan bukti tunggal.
Jalur eksplisit
Pivot eksplisit memperoleh target-language 77.2, pronoun 45.0, negation 97.6, cultural/name 88.7, dan molo 91.7. Polanya dekat dengan jalur langsung bahasa Batak ke bahasa Sunda pada fitur tertentu, terutama negasi dan klausa kondisional.
Kemiripan jalur langsung vs pivot
Langkah berikutnya
Langkah berikutnya adalah membuat evaluasi lebih robust: tambah adjudikasi manusia, perluas pasangan minimal, audit data training, lalu lakukan probing hidden states jika akses model memungkinkan. Probing baru berguna setelah fenomena permukaan ini stabil, karena probing mahal dan mudah menghasilkan cerita yang tampak meyakinkan tetapi belum menjawab sumber error sebenarnya.