Kembangkan Korpus, Badan Bahasa Jadikan Media Indonesia Acuan

MEDIA Indonesia menjadi salah satu sumber data untuk Badan Pengembangan dan Pembinaan Bahasa (Badan Bahasa) mengembangkan Korpus Indonesia (Koin). Koin yang kini berisi 10 juta kata hendak dimutakhirkan dengan target mencapai 25 juta kata.

Koordinator Kelompok Kepakaran dan Layanan Profesional Perkamusan dan Peristilahan Badan Bahasa yang juga ketua pelaksana pengembangan korpus Azhari Dasman, Rabu (10/3), mengatakan Media Indonesia disertakan sebagai sumber data karena surat kabar nasional ini pernah mendapatkan penghargaan dari Badan Bahasa dalam penggunaan bahasa Indonesia di media cetak. Selain Media Indonesia, yang menjadi sumber data Koin ialah Koran Tempo, Kompas, dan Republika.

Pada tahap awal, data yang dimanfaatkan Badan Bahasa untuk Koin ialah editorial media yang bersangkutan. Rentang waktu yang direkam tidak kurang dari lima tahun ke belakang.

Korpus Indonesia diluncurkan pada 2018. Hingga kini sudah ada 10 juta kata yang disusun berdasarkan teks ilmiah dan sastra. Badan Bahasa hendak mengembangkan Koin tahun ini hingga 25 juta kata dengan mencakupkan teks dari media massa.

Untuk tahap awal, yang disasar ialah media cetak. Koin dikembangkan dengan tujuan menyediakan data digital kebahasaan yang dapat dimanfaatkan secara luas oleh peneliti bahasa, pekamus, penerjemah, dan pemerhati bahasa. Melalui Koin, orang dapat melihat tuturan alami bahasa Indonesia di masyarakat. Dalam Koin terdapat detail kalimat, konkordansi, kolokasi, dan kelas kata.

Pada 2018 sudah terinput 5.140.780 token (kemunculan kata). Token itu diambil dari tesis dan skripsi sebanyak 900 teks dan jurnal ilmiah sebanyak 1.130 teks. Pada 2020 input ditambah dengan 5.428.688 token dari berbagai jurnal dan teks sastra.

Jurnal kedokteran, misalnya, menyumbang 235 teks dan jurnal komputer 209. Karya sastra terbitan 1920-2016 menyumbang 133 teks. Sastra klasik dari periode kelahiran 1700-an berandil enam naskah saja. Beda sedikit, sastra klasik periode 1800-an menyumbang 10 teks.

Sebanyak 881.422 token menunggu diinput. Jumlah itu didapat dari 743 artikel berita daring dan 73 karya sastra terbitan 2017. Badan Bahasa menargetkan dapat menambah hingga tahun ini menjadi 25 juta token agar data tentang bahasa Indonesia kontemporer dapat mengejar keunggulan korpus nasional negara lain.

British National Corpus (BNC), misalnya, terdiri atas 100 juta kata yang disusun berdasarkan korpus tulis dan lisan dengan rentang perekaman 1975-1994. BNC dikembangkan Oxfor University Press, Longman Group UK Ltd, Chambers Harrap, Oxford University, dan Lancaster University. Berdasarkan data Natcorp.ox.ac.uk, 30% materi penyusun BNC berasal dari surat kabar. (OL-14)

Cek berita dan artikel yg lain di Google News dan dan ikuti WhatsApp channel mediaindonesia.com

Editor : Wisnu

visitaaponce.com

Kembangkan Korpus, Badan Bahasa Jadikan Media Indonesia Acuan

Terkini Lainnya

Khitah Negara pada Sastra Masuk Kurikulum

Rumah Akademik Masa Depan Profesional dan Kreatif di Prodi PBSI Unika Santu Paulus Ruteng

Kemendikbud Ristek Siap Perbaiki Panduan Penggunaan Rekomendasi Buku Sastra

Polemik Buku Sastra, DPR RI Minta Nadiem Makarim tidak Kebablasan Keluarkan Kebijakan Pendidikan

Berbagai Aktivitas Kesusastraan di Daerah Sambut 100 Tahun AA Navis

Prosa: Penjelasan, Jenis, Ciri-Ciri, dan Contoh

Aplikasi Gemini Kini Sediakan Opsi Bahasa Indonesia

Buronan Thailand Pakai Google Translate Selama Sembunyi di Indonesia

Megawati Heran Banyak Orang Bilang “Saranghaeyo” daripada “Aku Cinta Kamu”

Mengenal Penokohan yang Umum Digunakan dalam Cerita Fiksi, Novel, ataupun Cerpen

Ngariksa Peradaban Nusantara di Era Digital

Manajemen Haji dan Penguatan Kelembagaan

Integrative & Functional Medicine: Pendekatan Holistik dalam Pengobatan Kanker

Eskalasi Harga Pangan Tengah Tahun

Iuran Tapera ibarat Masyarakat Berdiri di Air Sebatas Dagu

Huluisasi untuk Menyeimbangkan Riset Keanekaragaman Hayati di Indonesia

Polresta Malang Kota dan Kick Andy Foundation Serahkan 37 Kaki Palsu

Turnamen Golf Daikin Jadi Ajang Himpun Dukungan Pencegahan Anak Stunting

Kolaborasi RS Siloam, Telkomsel, dan BenihBaik Gelar Medical Check Up Gratis untuk Veteran

Ulang Tahun, D'Cost Donasi ke 17 Panti Asuhan Melalui BenihBaik.com

Informasi

Rubrikasi

Opini

Ekonomi

Humaniora

Olahraga

Weekend

Video

Sitemap

Tautan Sahabat