-->
1. Pengertian Speech Synthesis
Speech synthesis adalah transformasi dari teks ke arah suara (speech). Transformasi ini mengkonversi teks ke pemadu
suara (speech synthesis) yang sebisa mungkin dibuat menyerupai suara nyata, disesuaikan dengan
aturan – aturan pengucapan bahasa.TTS (text to speech) dimaksudkan untuk membaca teks elektronik dalam bentuk buku, dan
juga untuk menyuarakan teks dengan menggunakan pemaduan suara. Sistem ini dapat
digunakan sebagai sistem komunikasi, pada sistem informasi referral, dapat
diterapkan untuk membantu orang-orang yang kehilangan kemampuan melihat dan
membaca.
Ada beberapa masalah
yang terdapat pada pemaduan suara, yaitu:
@ User sangat sensitif
terhadap variasi dan informasi suara. Oleh sebab itu, mereka tidak dapat
memberikan toleransi atas ketidaksempurnaan pemadu suara.
@ Output dalam bentuk
suara tidak dapat diulang atau dicari dengan mudah.
@ Meningkatkan
keberisikan pada lingkungan kantor atau jika menggunakan handphone, maka akan
meningkatkan biaya pengeluaran.
Lingkungan dari aplikasi
pemadu suara adalah:
o
Bagi tunanetra, pemadu
suara menawarkan media komunkasi dimana mereka dapat memiliki akses yang tidak
terbatas.
o
Lingkungan dimana visual
dan haptic skill user berfokus pada hal lain. Contohnya: sinyal bahaya pada
kokpit pesawat udara.
2. Sejarah Speech Synthesis
Upaya yang paling awal
untuk menghasilkan lahirnya pemandu suara, pada abad XVIII. Terlepas dari
kenyataan bahwa upaya pertama adalah bentuk mesin mekanis, kita dapat
mengatakan hari ini bahwa synthesizer sudah berkualitas tinggi. Pada
tahun 1779 di
St Petersburg, Rusia Profesor Kratzenshtein Kristen fisiologis menjelaskan perbedaan antara lima vokal panjang (/ A /, / e /, / i /, / o /, dan / u /) dan membuat alat untuk menghasilkan mereka artifisial. Tahun 1791 di Wina, Wolfgang von Kempelen memperkenalkan nya “Akustik-Mekanik Mesin Speech”. Dalam sekitar pertengahan 1800-an Charles Wheatstone dibangun terkenal versi mesin berbicara von Kempelen’s.
St Petersburg, Rusia Profesor Kratzenshtein Kristen fisiologis menjelaskan perbedaan antara lima vokal panjang (/ A /, / e /, / i /, / o /, dan / u /) dan membuat alat untuk menghasilkan mereka artifisial. Tahun 1791 di Wina, Wolfgang von Kempelen memperkenalkan nya “Akustik-Mekanik Mesin Speech”. Dalam sekitar pertengahan 1800-an Charles Wheatstone dibangun terkenal versi mesin berbicara von Kempelen’s.
Generasi dari sistem
pemaduan suara ini dapat dibagi ke dalam 3 masa, yaitu:
♦ Generasi pertama
(1962-1977). Format sintesis dari fonem adalah teknologi dominan. Teknologi ini
memanfaatkan aturan berdasarkan penguraian fonetik pada kalimat untuk kontur
frekuensi forman. Beberapa sintesis masih miskin atau kurang dalam
kejelasan dan kealamiannya.
♦ Generasi kedua
(1977-1992). Metode pemadu suara adalah diphone diwakilkan dengan
parameter LPC. Hal tersebut menunujukkan bahwa kejelasan yang baik pada pemadu
suara dapat diperoleh dengan andal dari input teks dengan menggabungkan diphone yang sesuai dengan unit. Kejelasan
meningkat selama sintesis forman, tetapi kealamian dari pemadu suara masih
tetap rendah.
♦ Generasi ketiga
(1992-sekarang). Generasi ini ditandai dengan metode ‘ sintesis pemilihan unit’
yang diperkenalkan dan disempurnakan oelh Sagisaka
di Labs ATR Kyoto. Hasil dari pemandu suara pada periode ini sangat
mendekati human-generated speech pada bagian kejelasan dan kealamian, Teknologi pemadu suara
modern melibatkan metode dan algoritma yang canggih dan rumit. alat pemadu
suara dari keluarga “Infovox” mungkin mejadi salah satu multi bahasa TTS
yang paling dikenal saat ini. Versi komersial pertamanya, Infovox-SA 101,
dikembangkan pada tahun 1982 di Institute Teknologi Royal, Swedia dan
didasarkan pada sintesis forman.
AT & T Bell
Laboratories (Lucent Technologies) juga memiliki tradisi yang sangat panjang
tentang pemandu suara (speech synthesis). TTS lengkap yang pertama didemostrasikan di Boston pada tahun
1972 dan diliris pada tahun 1973. Hal ini didasarkan pada model artikulatoris
yang sikembangkan oleh Ceceil Coker (Klatt 1987). Pengembangan proses dari
sistem penggabungan sintesis ini dimulai oleh Joseph Olive pada pertengahan
tahun 1970-an (Bell Labs 1997). Sistem ini sekarang sudah tersedia untuk bahasa
Inggris, Perancis, Spanyol, Italia, Jerman, Rusia, Rumania, Cina, dan Jepang
(Mcbius et al 1996).
Tabel TTS System
Tidak ada komentar:
Posting Komentar