Jumat, 19 Oktober 2012

Speech Recognition


Pengertian Speech Recognition
      Dikenal juga dengan pengenal suara otomatis (automatic speech recognition) atau pengenal suara komputer (computer speech recognition). Merupakan salah satu fitur antarmuka telematika yang merubah suara menjadi tulisan (hebat, padahal kalo lagi di dikte sama dosen juga kita bisa ngubah suara jadi tulisan). Istilah ‘voice recognition’ terkadang digunakan untuk menunjuk ke speech recognition dimana sistem pengenal dilatih untuk menjadi pembicara istimewa, seperti pada kasus perangkat lunak untuk komputer pribadi, oleh karena itu disana terdapat aspek dari pengenal pembicara, dimana digunakan untuk mengenali siapa orang yang berbicara, untuk mengenali lebih baik apa yang orang itu bicarakan. Speech recognition merupakan istilah masukan yang berarti dapat mengartikan pembicaraan siapa saja.

        Speech recognition atau pengenalan pembicaraan (juga dikenal sebagai pengenalan suara otomatis atau pengakuan komputer pidato) mengkonversi diucapkan kata-kata untuk teks. The "pengenalan suara" istilah kadang-kadang digunakan untuk merujuk kepada sistem pengakuan yang harus dilatih untuk kasus-speaker tertentu seperti untuk perangkat lunak pengenal yang paling desktop.Menyadari pembicara dapat menyederhanakan tugas menerjemahkan pidato. Pengenalan pembicaraan adalah solusi yang lebih luas yang mengacu pada teknologi yang dapat mengenali pidato tanpa ditargetkan pada pembicara tunggal seperti sistem call center yang dapat mengenali suara sewenang-wenang. Aplikasi pengenalan pembicaraan termasuk user interface seperti suara panggilan suara (misalnya, "Call home"), call routing (misalnya, "Saya ingin membuat collect call"), kontrol alat domotic, pencarian (misalnya, menemukan podcast di mana tertentu Kata-kata itu diucapkan), sederhana entri data (misalnya, memasukkan nomor kartu kredit), persiapan dokumen terstruktur (misalnya, sebuah laporan radiologi), pengolahan pidato-ke-teks (misalnya, kata prosesor atau email), dan pesawat udara (biasanya disebutInput langsung suara).
Secara umum, speech recognizer memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasil proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan dianalisa dengan membandingkan dengan template suara pada database sistem. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilahan ini dilakukan agar proses analisis dapat dilakukan secara paralel. Speech recognition merupakan salah satu jenis biometric recognition,yaitu proses komputer mengenali apa yang diucapkan seseorang berdasarkan intonasi suara yang dikonversi ke dalam bentuk digital print. Pengenalan pola suara adalah salah satu aplikasi yang berkembang saat ini. Sistem ini mengijinkan kita untuk berkomunikasi antara manusia dengan memasukkan data ke komputer. Salah satu fungsinya adalah untuk meningkatkan efisiensi industri manufaktur, mengontrol mesin dengan berbicara pada mesin itu. Algoritma yang diimplementasikan untuk masalah pengenalan suara ini adalah algoritma divide and conquer. Proses awalnya adalah mengkonversi data spektrum suara ke dalam bentuk digital dan mengibah dalam bentuk diskrit. Alat pengenal ucapan, yang sering disebut dengan speech recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna. Sampel kata akan didigitalisasi, disimpan dalam komputer, dan kemudian digunakan sebagai basis data dalam mencocokkan kata yang diucapkan selanjutnya. Sebagian besar alat pengenal ucapan sifatnya masih tergantung kepada pengeras suara. Alat ini hanya dapat mengenal kata yang diucapkan dari satu atau dua orang saja dan hanya bisa mengenal kata-kata terpisah, yaitu kata-kata yang dalam penyampaiannya terdapat jeda antar kata. Hanya sebagian kecil dari peralatan yang menggunakan teknologi ini yang sifatnya tidak tergantung pada pengeras suara. Alat ini sudah dapat mengenal kata yang diucapkan oleh banyak orang dan juga dapat mengenal kata-kata kontinu, atau kata-kata yang dalam penyampaiannya tidak terdapat jeda antar kata.

Sejarah 
Pengenal pidato pertama muncul pada tahun 1952 dan terdiri dari sebuah perangkat untuk pengakuan lisan digit tunggal [1] awal perangkat lainnya adalah IBM Kotak Sepatu, dipamerkan di Fair tahun 1964 New York. Akhir-akhir ini telah ada banyak perbaikan seperti capabilitiy massa kecepatan transkripsi tinggi pada satu sistem seperti Sonic Extractor Salah satu domain yang paling menonjol untuk aplikasi komersial pengenalan suara di Amerika Serikat telah perawatan kesehatan dan khususnya karya transcriptionist medis (MT).Menurut para ahli industri, pada awal berdirinya, pengenalan pembicaraan (SR) yang dijual sebagai cara untuk sepenuhnya menghilangkan transkripsi daripada membuat proses transkripsi lebih efisien, maka tidak diterima. Ini juga merupakan kasus yang SR pada waktu itu sering secara teknis kurang.Selain itu, untuk digunakan secara efektif, dibutuhkan perubahan cara dokter bekerja dan didokumentasikan pertemuan klinis, yang banyak jika tidak semua enggan untuk melakukannya. Keterbatasan terbesar pidato pengakuan mengotomatisasi transkripsi, bagaimanapun, dipandang sebagai perangkat lunak. Sifat naratif dikte sangat interpretatif dan seringkali memerlukan penilaian yang dapat diberikan oleh manusia sesungguhnya tetapi belum oleh sistem otomatis. Keterbatasan lainnya telah jumlah ekstensif waktu yang diperlukan oleh pengguna dan / atau penyedia sistem untuk melatih perangkat lunak. Perbedaan dalam ASR sering dibuat antara "sistem sintaks buatan" yang biasanya domain-spesifik dan "pemrosesan bahasa alami" yang biasanya bahasa-spesifik. Masing-masing jenis aplikasi menyajikan tujuannya sendiri tertentu dan tantangan.
Automatic Speech Recognition (ASR) sekarang ini telah banyak dikembangkan dalam berbagai penelitian. Terdapat bermacam-macam metode yang dapat digunakan untuk mengenali ucapan manusia. Penelitian ini akan membahas penggunaan metode Hidden Markov Model (HMM) untuk pengenalan ucapan berbahasa Indonesia. Dalam penelitian ini, digunakan HMM diskrit untuk proses pelatihan dan pengujiannya. Berdasarkan hasil pengujian dengan menggunakan metode tersebut, kemudian dianalisa faktor keberhasilannya (tingkat ketelitiannya dalam %) berdasarkan parameter-parameter Linear Predictive Coding (LPC), parameter pitch (Fo) dan parameter energi (Eo) dalam proses mengenali suatu ucapan dalam bahasa Indonesia.
Prinsip kerja sistem pengenalan ucapan adalah dengan membandingkan informasi ucapan yang ada pada referensi dengan informasi ucapan yang menjadi masukan sistem pengenal ucapan tersebut. Blok pengenalan ucapan dengan HMM dapat dibagi menjadi tiga tahap yaitu bagian depan, tahap feature extraction dan tahap sistem pengenalan HMM. Pada tahap yang pertama dilakukan pemfilteran sinyal suara dan mengubah sinyal suara analog ke digital. Tahap feature extraction adalah untuk mendapatkan parameter-parameter yang dapat merepresentasikan sinyal suara tersebut dan dilakukan analisis serta kuantisasi vektor. Tahap yang ketiga, dapat dibagi menjadi dua tugas yaitu tugas pemodelan dan tugas pengenalan . Untuk tugas pemodelan dibuatkan suatu model HMM dari data-data yang berupa sampel ucapan dari sebuah kata HMM yang dipakai adalah densitas diskrit. Skema Utama Speech Recognition, terdapat 4 langkah utama dalam sistem pengenalan suara :
1.      Penerimaan  data input
2.      Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
3.      Pembandingan/pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template
4.      Validasi identitas pengguna

Tidak ada komentar:

Posting Komentar