Perangkat lunak text-to-speech dalam bahasa Indonesia dengan metode phoneme synthesis

Author : TJIPUTRA, SUDARMONO;

Suatu perangkat lunak text-to-speech menghasilkan file suara output berisi percakapan, misalnya dalam bahasa Indonesia, berdasarkan teks yang diinputkan. Secara garis besar, keseluruhan proses yang dilaksanakan oleh perangkat lunak ini untuk menghasilkan percakapan yang diinginkan dapat dibagi menjadi 3 subproses: sub-proses “text normalization” yang melakukan normalisasi terhadap input teks untuk menghasilkan bentuk yang akan diucapkan serta memilah-milah teks input menjadi kalimat, kata, dan suku kata; sub-proses “prosody” generation yang berfungsi untuk menambahkan atribut pengucapan intonasi dan volume suara kepada setiap suku kata dalam suatu kalimat; dan karena perangkat lunak ini menggunakan metode phoneme synthesis, maka sub-proses terakhir adalah “speech generation” yang bertugas merangkai berbagai file suara, yang berupa suku kata yang telah disimpan di basis data dan direkam sebelumnya, untuk membuat hasil akhir dari seluruh proses yaitu file suara output yang berisi percakapan yang diinginkan. Lebih lanjut, terdapat 4 (empat) perangkat lunak lainnya yang menunjang perangkat lunak text-to-speech ini, yang memiliki fungsi utama untuk menyediakan berbagai data penunjang yang diperlukan oleh aplikasi utama untuk dapat bekerja dengan baik, yaitu daftar fonem, difon, dan trifon serta suku kata umum yang digunakan atau dikenal dalam bahasa Indonesia, file- file suara suku kata, daftar kata yang unik yaitu yang tidak dipenggal suku katanya dengan aturan umum, yang disebut sebagai exceptional dictionary, daftar singkatan dan akronim yang dikenal di dalam bahasa Indonesia, dan daftar kata yang mengandung diftong yang dikenal di dalam bahasa Indonesia. Keseluruhan perangkat lunak, baik utama maupun penunjang, dalam tugas akhir ini dibuat dengan Microsoft Visual C++ 6.0 berbasiskan sistem operasi Windows 98 second edition. Tingkat keberhasilan perangkat lunak utama untuk menghasilkan percakapan yang diharapkan yang sesuai dengan berbagai aturan yang ada di dalam bahasa Indonesia bergantung kepada kompleksitas sub-proses “text normalization” dan “prosody generation” serta ketersediaan berbagai data penunjangnya. Sedangkan kualitas suara yang dihasilkan bergantung kepada kualitas suara yang telah direkam sebelumnya dan kemampuan perangkat lunak penunjang untuk melakukan normalisasi terhadap volume dan frekuensi suara rekaman tersebut.

Keyword : indonesian text to speech software, software development

Sumber : http://repository.petra.ac.id/207/

This entry was posted in Uncategorized and tagged , . Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s