Daftar Kosa Kata Nias untuk Pemeriksaan Ejaan Otomatis di Smartphone dan PC

Keyboard Nias telah hadir, baik di layar smartphone maupun di papan ketik komputer. Namun proyek ini lebih dari sekedar menciptakan satu keyboard. Proyek juga bertujuan untuk menghadirkan fungsi pemeriksaan ejaan otomatis dan usulan kata berikut di kala mengetik (next word prediction engine).

Untuk menyediakan fungsi tsb. saya membutuhkan daftar kosa kata bahasa Nias. Tetapi bagaimana cara untuk mengumpulkan kata? Tentu saja saya bisa duduk dan menuliskan satu per satu kata yang saya ingat. Tapi hal ini tidak membawa hasil yang maksimal.

Praktek umum di dunia computer programming adalah menelusuri berbagai situs di Internet dan melakukan apa yang dikenal dengan istilah "mengikis web" (web scrapping) untuk mengumpulkan daftar kata. Itulah cara yang ditempuh oleh berbagai kamus bahasa Inggris dan bahasa-bahasa lainnya.

Masalahnya dengan bahasa Nias adalah ketiadaan sumber semacam itu: tak ada situs berbahasa Nias, tak ada tulisan-tulisan berbahasa Nias yang dipublikasikan di Internet.

Dengan keterbatasan semacam itu saya membangun daftar kata untuk kamus keyboard Nias dengan memakai dua sumber yang tersedia bagi saya. Yang pertama adalah teks KS Perjanjian Baru, yang diterjemahkan oleh P. Hadrian Hess dan Julius Lahagu atas permintaan Komisi Liturgi Keuskupan Sibolga.

Sayang teks tsb. tidak bisa langsung dipakai untuk meng-kompilasi kamus bahasa di Android OS. Selain banyak salah ketik, ada juga salah formatting, misalnya memasukkan tanda pemisah kata secara langsung sehingga secepat teks berubah tanda pemisah tetap di situ (hard hypen). Tetapi lebih dari itu terdapat banyak sekali kata bahasa Indonesia di dalamnya.

Sumber yang kedua adalah teks Sura Ni'amoni'ö Online yang dipublikasikan secara bebas di Internet di jw.og. Untuk menambah variasi kata, saya juga mengikutkan teks dari majalah 2018 dan majalah 2019 (no 1 dan 2) serta satu booklet.

Catatan: Apa yang saya lakukan di sini hanyalah menjaring kosa kata Nias, membuang kata ganda (mengumpulkan kata-kata unik) dan menghasilkan daftar kata dasar bahasa Nias. Jadi kegiatan ini tak ada hubungannya dengan karya terjemahan itu sendiri, yang mungkin dilindungi hak cipta..

Sayang kedua teks memiliki cara pemberian tanda baca yang berbeda (salah satunya adalah tanda apostrof yang memiliki kode huruf berbeda), sehingga masing-masing butuh proses tersendiri untuk diolah sebelum masuk ke dalam daftar kata.

Kendati keterbatasan ini, saya merasa bahwa kedua teks cukup untuk dipakai sebagai langkah awal membangun mesin pemeriksaan ejaan di proyek keyboard Nias.

Hasilnya sudah bisa dinikmati dengan rilis pertama keyboard Nias. Tetapi dengan catatan besar: Rilis ini merupakan versi awal.

Mengingat saya belum memiliki tata bahasa Nias, maka saya tidak bisa meng-kompilasi kamus kata siap pakai dengan aturan pemisahan kata. Karena itu pula daftar kata yang saya buat, belum bisa dikompilasi dengan hunspell, program yang dipakai untuk menciptakan kamus pemeriksaan ejaan dan tata bahasa yang siap dipakai di komputer (mis. di LibreOffice Writer).

Sementara saya berusaha menciptakan tata bahasa sederhana untuk bisa digunakan komputer, saya harap ada orang-orang Nias lain yang melihat pentingnya melestarikan bahasa Nias dengan mendorong pemakaiannya di media sosial dan di Internet.

Seandainya saja ada aplikasi yang memungkinkan orang Nias menulis cerita-cerita pendek dan sejenisnya, niscaya database kosa kata Nias bisa dibangun pelan-pelan dan memakainya untuk memperbaiki fungsi pemeriksaan ejaan otomatis (auto spelling) dan usulan kata berikut secara otomatis (next word prediction).


Korespondensi dengan P. Hadrian Hess tentang pemakaian teks

Kontak

Nama

Email *

Pesan *