visitaaponce.com

Kembangkan Korpus, Badan Bahasa Jadikan Media Indonesia Acuan

Kembangkan Korpus, Badan Bahasa Jadikan Media Indonesia Acuan
Suasana lengang di ruang redaksi koran Media Indonesia di kawasan Kedoya, Jakarta Barat, beberapa waktu lalu.(MI/Fransisco Carollio.)

MEDIA Indonesia menjadi salah satu sumber data untuk Badan Pengembangan dan Pembinaan Bahasa (Badan Bahasa) mengembangkan Korpus Indonesia (Koin). Koin yang kini berisi 10 juta kata hendak dimutakhirkan dengan target mencapai 25 juta kata.

Koordinator Kelompok Kepakaran dan Layanan Profesional Perkamusan dan Peristilahan Badan Bahasa yang juga ketua pelaksana pengembangan korpus Azhari Dasman, Rabu (10/3), mengatakan Media Indonesia disertakan sebagai sumber data karena surat kabar nasional ini pernah mendapatkan penghargaan dari Badan Bahasa dalam penggunaan bahasa Indonesia di media cetak. Selain Media Indonesia, yang menjadi sumber data Koin ialah Koran Tempo, Kompas, dan Republika.

Pada tahap awal, data yang dimanfaatkan Badan Bahasa untuk Koin ialah editorial media yang bersangkutan. Rentang waktu yang direkam tidak kurang dari lima tahun ke belakang.

Korpus Indonesia diluncurkan pada 2018. Hingga kini sudah ada 10 juta kata yang disusun berdasarkan teks ilmiah dan sastra. Badan Bahasa hendak mengembangkan Koin tahun ini hingga 25 juta kata dengan mencakupkan teks dari media massa.

Untuk tahap awal, yang disasar ialah media cetak. Koin dikembangkan dengan tujuan menyediakan data digital kebahasaan yang dapat dimanfaatkan secara luas oleh peneliti bahasa, pekamus, penerjemah, dan pemerhati bahasa. Melalui Koin, orang dapat melihat tuturan alami bahasa Indonesia di masyarakat. Dalam Koin terdapat detail kalimat, konkordansi, kolokasi, dan kelas kata.

Pada 2018 sudah terinput 5.140.780 token (kemunculan kata). Token itu diambil dari tesis dan skripsi sebanyak 900 teks dan jurnal ilmiah sebanyak 1.130 teks. Pada 2020 input ditambah dengan 5.428.688 token dari berbagai jurnal dan teks sastra.

Jurnal kedokteran, misalnya, menyumbang 235 teks dan jurnal komputer 209. Karya sastra terbitan 1920-2016 menyumbang 133 teks. Sastra klasik dari periode kelahiran 1700-an berandil enam naskah saja. Beda sedikit, sastra klasik periode 1800-an menyumbang 10 teks.

Sebanyak 881.422 token menunggu diinput. Jumlah itu didapat dari 743 artikel berita daring dan 73 karya sastra terbitan 2017. Badan Bahasa menargetkan dapat menambah hingga tahun ini menjadi 25 juta token agar data tentang bahasa Indonesia kontemporer dapat mengejar keunggulan korpus nasional negara lain.

British National Corpus (BNC), misalnya, terdiri atas 100 juta kata yang disusun berdasarkan korpus tulis dan lisan dengan rentang perekaman 1975-1994. BNC dikembangkan Oxfor University Press, Longman Group UK Ltd, Chambers Harrap, Oxford University, dan Lancaster University. Berdasarkan data Natcorp.ox.ac.uk, 30% materi penyusun BNC berasal dari surat kabar. (OL-14)

Cek berita dan artikel yg lain di Google News dan dan ikuti WhatsApp channel mediaindonesia.com
Editor : Wisnu

Terkini Lainnya

Tautan Sahabat