Pengertian Speech
Recognition
Dikenal juga dengan pengenal
suara otomatis (automatic speech recognition) atau pengenal suara komputer
(computer speech recognition). Merupakan salah satu fitur antarmuka telematika
yang merubah suara menjadi tulisan (hebat, padahal kalo lagi di dikte sama
dosen juga kita bisa ngubah suara jadi tulisan). Istilah ‘voice recognition’
terkadang digunakan untuk menunjuk ke speech recognition dimana sistem pengenal
dilatih untuk menjadi pembicara istimewa, seperti pada kasus perangkat lunak
untuk komputer pribadi, oleh karena itu disana terdapat aspek dari pengenal
pembicara, dimana digunakan untuk mengenali siapa orang yang berbicara, untuk
mengenali lebih baik apa yang orang itu bicarakan. Speech recognition merupakan
istilah masukan yang berarti dapat mengartikan pembicaraan siapa saja.
Speech recognition atau pengenalan pembicaraan (juga dikenal sebagai pengenalan suara otomatis atau pengakuan komputer pidato) mengkonversi diucapkan kata-kata untuk teks. The "pengenalan suara" istilah kadang-kadang digunakan untuk merujuk kepada sistem pengakuan yang harus dilatih untuk kasus-speaker tertentu seperti untuk perangkat lunak pengenal yang paling desktop.Menyadari pembicara dapat menyederhanakan tugas menerjemahkan pidato. Pengenalan pembicaraan adalah solusi yang lebih luas yang mengacu pada teknologi yang dapat mengenali pidato tanpa ditargetkan pada pembicara tunggal seperti sistem call center yang dapat mengenali suara sewenang-wenang. Aplikasi pengenalan pembicaraan termasuk user interface seperti suara panggilan suara (misalnya, "Call home"), call routing (misalnya, "Saya ingin membuat collect call"), kontrol alat domotic, pencarian (misalnya, menemukan podcast di mana tertentu Kata-kata itu diucapkan), sederhana entri data (misalnya, memasukkan nomor kartu kredit), persiapan dokumen terstruktur (misalnya, sebuah laporan radiologi), pengolahan pidato-ke-teks (misalnya, kata prosesor atau email), dan pesawat udara (biasanya disebutInput langsung suara).
Secara umum, speech recognizer memproses
sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasil proses
digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan
dianalisa dengan membandingkan dengan template suara pada database sistem.
Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu
berdasarkan urutannya. Pemilahan ini dilakukan agar proses analisis dapat
dilakukan secara paralel. Speech recognition merupakan salah satu jenis
biometric recognition,yaitu proses komputer mengenali apa yang diucapkan seseorang
berdasarkan intonasi suara yang dikonversi ke dalam bentuk digital print. Pengenalan
pola suara adalah salah satu aplikasi yang berkembang saat ini. Sistem ini
mengijinkan kita untuk berkomunikasi antara manusia dengan memasukkan data ke
komputer. Salah satu fungsinya adalah untuk meningkatkan efisiensi industri
manufaktur, mengontrol mesin dengan berbicara pada mesin itu. Algoritma yang
diimplementasikan untuk masalah pengenalan suara ini adalah algoritma divide
and conquer. Proses awalnya adalah mengkonversi data spektrum suara ke dalam
bentuk digital dan mengibah dalam bentuk diskrit. Alat pengenal ucapan, yang
sering disebut dengan speech recognizer, membutuhkan sampel kata sebenarnya
yang diucapkan dari pengguna. Sampel kata akan didigitalisasi, disimpan dalam
komputer, dan kemudian digunakan sebagai basis data dalam mencocokkan kata yang
diucapkan selanjutnya. Sebagian besar alat pengenal ucapan sifatnya masih
tergantung kepada pengeras suara. Alat ini hanya dapat mengenal kata yang diucapkan
dari satu atau dua orang saja dan hanya bisa mengenal kata-kata terpisah, yaitu
kata-kata yang dalam penyampaiannya terdapat jeda antar kata. Hanya sebagian
kecil dari peralatan yang menggunakan teknologi ini yang sifatnya tidak
tergantung pada pengeras suara. Alat ini sudah dapat mengenal kata yang
diucapkan oleh banyak orang dan juga dapat mengenal kata-kata kontinu, atau
kata-kata yang dalam penyampaiannya tidak terdapat jeda antar kata.
Sejarah
Sejarah
Pengenal pidato pertama muncul pada tahun 1952
dan terdiri dari sebuah perangkat untuk pengakuan lisan digit tunggal [1] awal
perangkat lainnya adalah IBM Kotak Sepatu, dipamerkan di Fair tahun 1964 New
York. Akhir-akhir ini telah ada banyak perbaikan seperti capabilitiy massa
kecepatan transkripsi tinggi pada satu sistem seperti Sonic Extractor Salah
satu domain yang paling menonjol untuk aplikasi komersial pengenalan suara di
Amerika Serikat telah perawatan kesehatan dan khususnya karya transcriptionist
medis (MT).Menurut para ahli industri, pada awal berdirinya, pengenalan
pembicaraan (SR) yang dijual sebagai cara untuk sepenuhnya menghilangkan
transkripsi daripada membuat proses transkripsi lebih efisien, maka tidak
diterima. Ini juga merupakan kasus yang SR pada waktu itu sering secara teknis
kurang.Selain itu, untuk digunakan secara efektif, dibutuhkan perubahan cara
dokter bekerja dan didokumentasikan pertemuan klinis, yang banyak jika tidak
semua enggan untuk melakukannya. Keterbatasan terbesar pidato pengakuan
mengotomatisasi transkripsi, bagaimanapun, dipandang sebagai perangkat lunak.
Sifat naratif dikte sangat interpretatif dan seringkali memerlukan penilaian
yang dapat diberikan oleh manusia sesungguhnya tetapi belum oleh sistem
otomatis. Keterbatasan lainnya telah jumlah ekstensif waktu yang diperlukan
oleh pengguna dan / atau penyedia sistem untuk melatih perangkat lunak.
Perbedaan dalam ASR sering dibuat antara "sistem sintaks buatan" yang
biasanya domain-spesifik dan "pemrosesan bahasa alami" yang biasanya
bahasa-spesifik. Masing-masing jenis aplikasi menyajikan tujuannya sendiri
tertentu dan tantangan.
Automatic Speech Recognition (ASR) sekarang
ini telah banyak dikembangkan dalam berbagai penelitian. Terdapat
bermacam-macam metode yang dapat digunakan untuk mengenali ucapan manusia.
Penelitian ini akan membahas penggunaan metode Hidden Markov Model (HMM) untuk
pengenalan ucapan berbahasa Indonesia. Dalam penelitian ini, digunakan HMM
diskrit untuk proses pelatihan dan pengujiannya. Berdasarkan hasil pengujian
dengan menggunakan metode tersebut, kemudian dianalisa faktor keberhasilannya
(tingkat ketelitiannya dalam %) berdasarkan parameter-parameter Linear
Predictive Coding (LPC), parameter pitch (Fo) dan parameter energi (Eo) dalam
proses mengenali suatu ucapan dalam bahasa Indonesia.
Prinsip kerja sistem pengenalan ucapan adalah
dengan membandingkan informasi ucapan yang ada pada referensi dengan informasi
ucapan yang menjadi masukan sistem pengenal ucapan tersebut. Blok pengenalan
ucapan dengan HMM dapat dibagi menjadi tiga tahap yaitu bagian depan, tahap
feature extraction dan tahap sistem pengenalan HMM. Pada tahap yang pertama
dilakukan pemfilteran sinyal suara dan mengubah sinyal suara analog ke digital.
Tahap feature extraction adalah untuk mendapatkan parameter-parameter yang
dapat merepresentasikan sinyal suara tersebut dan dilakukan analisis serta
kuantisasi vektor. Tahap yang ketiga, dapat dibagi menjadi dua tugas yaitu
tugas pemodelan dan tugas pengenalan . Untuk tugas pemodelan dibuatkan suatu
model HMM dari data-data yang berupa sampel ucapan dari sebuah kata HMM yang
dipakai adalah densitas diskrit. Skema Utama Speech Recognition,
terdapat 4 langkah utama dalam sistem pengenalan suara :
1.
Penerimaan
data input
2.
Ekstraksi, yaitu
penyimpanan data masukan sekaligus pembuatan database untuk template.
3.
Pembandingan/pencocokan,
yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada
template
4.
Validasi identitas
pengguna
Tidak ada komentar:
Posting Komentar