Sudah menjadi pengetahuan umum apabila berbicara lebih cepat daripada mengetik dalam memproduksi kata. Bayangkan Anda harus menulis email atau naskah panjang yang menghabiskan banyak waktu. Jelas akan lebih mudah apabila Anda cukup berbicara melalui mikrofon yang hasilnya tercatat dalam bentuk teks di sebuah dokumen. Maka dari itu saat ini tersedia teknologi pengenalan suara atau speech recognition guna mempersingkat waktu dalam menyelesaikan pekerjaan Anda.
Pengenalan suara, atau yang dikenal dengan istilah ASR (Automatic Speech Recognition) atau pengenalan ucapan, merupakan teknologi yang memungkinkan komputer untuk memahami serta mengubah ucapan manusia menjadi teks. Teknologi ini menggunakan berbagai teknik pemrosesan sinyal dan algoritma pembelajaran mesin untuk mengubah suara menjadi teks atau untuk mengenali perintah suara tertentu.
Sejarah Teknologi Speech Recognition
Mesin yang bisa mengenali suara manusia pertama kali muncul pada tahun 1952. Bell Labs mengembangkan “Audrey” (Automatic Digit Recognizer) yang mampu mengenali angka yang diucapkan dari 0 hingga 9. Sepuluh tahun kemudian IBM memperkenalkan “Shoebox” yang mampu mengenali kosakata terbatas. Selama sepuluh tahun tersebut banyak pula teknologi pengenalan suara yang diciptakan berbagai laboratorium seperti Amerika Inggris hingga Jepang.
Kemudian pada tahun 1980an, James dan Janet Baker mengembangkan sistem DRAGON, menggunakan metode statistik yang dikenal sebagai Hidden Markov Models. Hal ini memungkinkan pengenalan ucapan dengan jumlah kosakata yang lebih banyak dari sebelumnya. Hingga tahun 90an HMV menjadi metode yang banyak digunakan dalam mengembangkan pengenalan suara.
Lalu tahun 1987 IBM memperkenalkan “Tangora,” sebagai sebuah sistem pengenalan suara yang dapat mengenali sekitar 20.000 kata. Tahun 1990-an pengenalan suara mulai diterapkan dalam produk komersial. Dragon NaturallySpeaking merupakan salah satu perangkat lunak pengenalan suara pertama yang sukses di pasar.
Tahun 2000an menjadi masa yang semakin cemerlang bagi teknologi ini .Kemajuan dalam pembelajaran mesin dan pemrosesan bahasa alami (NLP) membantu meningkatkan kemampuan pengenalan suara. Kemudian sekitar tahun 2010 algoritma pembelajaran mendalam (deep learning) mulai diterapkan pada pengenalan suara, yang menghasilkan peningkatan signifikan pada akurasi dan digunakan hingga sekarang.
Untuk menghasil teknologi pengenalan suara yang sempurna diperlukan beberapa tahapan. Pertama, rekaman suara yaitu ketika pengguna berbicara ke mikrofon pada perangkat, seperti ponsel, komputer, atau lainnya. Selanjutnya, pre-processing yakni saat perangkat membersihkan suara rekaman dari gangguan seperti desis hingga suara bising.
Tahap ketiga, feature extraction yatu dimulainya program mengambil elemen penting dari suara, seperti frekuensi dan amplitudo. Kemudian, tahap, model recognition yakni proses ketika model bahasa yang sudah dilatih dengan data suara digunakan untuk mengenali pola-pola ucapan yang telah diekstrak. Terakhir adalah tahap decoding, model menerjemahkan pola suara menjadi kata-kata hingga menjadi teks yang merupakan representasi dari ucapan pengguna.
Pemanfaatan speech recognition tentu membawa banyak manfaat bagi kehidupan manusia diantaranya memberi berbagai kemudahan dan keuntungan ketika berinteraksi dengan perangkat elektronik dan dunia digital. Berikut beberapa manfaat nyata dari teknologi ini:
1. Peningkatan Produktivitas dan Kenyamanan:
- Asisten Virtual: Teknologi ini menjadi dasar dari asisten virtual pintar seperti Google Assistant, Siri, dan Alexa. Seperti mengontrol perangkat pintar, melakukan panggilan telepon, mengatur alarm, dan menjalankan berbagai fungsi lainnya hanya dengan menggunakan suara.
- Dikte Teks: Speech recognition membuat transkripsi rekaman audio menjadi lebih mudah. Misalnya mengubah pidato, rapat, kuliah, dan wawancara menjadi teks tertulis dalam waktu yang lebih singkat
2. Aksesibilitas yang Lebih Baik:
- Pengguna dengan Keterbatasan Fisik: Teknologi ini menjadi alat bantu yang luar biasa bagi pengguna yang mengalami kesulitan mengetik atau menggunakan keyboard. Mereka dapat berinteraksi dengan komputer dan perangkat elektronik lainnya menggunakan suara.
- Pendidikan dan Pembelajaran: Siswa dengan kesulitan belajar membaca dan menulis dapat memanfaatkan speech recognition untuk membantu mereka belajar dan berpartisipasi aktif di kelas.
3. Komunikasi yang Lebih Mudah dan Efektif:
- Penerjemahan Real-Time: Speech recognition memungkinkan penerjemahan bahasa secara langsung (real-time), sehingga memudahkan komunikasi dan menjembatani hambatan bahasa.
- Kontrol Perangkat Elektronik Hands-Free: Anda dapat mengontrol perangkat elektronik seperti TV, lampu pintar, dan termostat dengan suara, meningkatkan kenyamanan dan keamanan terutama saat sedang sibuk
4. Peningkatan Kreativitas dan Kolaborasi:
- Ide dan Catatan Suara: Dengan speech recognition,merekam ide, catatan, dan pemikiran dapat dilakukan secara langsung, tanpa perlu repot-repot mengetik.
- Presentasi dan Ceramah Interaktif: Teknologi ini dapat digunakan untuk membuat presentasi dan ceramah yang lebih interaktif dengan menggabungkan kontrol suara untuk slide atau media presentasi lainnya.
Meski telah berkembang pesat, teknologi pengenalan suara masih menghadapi beberapa tantangan antara lain. Variasi ucapan dan aksen, karena bahasa lisan memiliki variasi yang luas. Orang bisa berbicara dengan cepat, lambat, nada tinggi, rendah, dan memiliki aksen daerah yang berbeda. Kemudian gangguan latar belakang seperti suara bising di sekitar pembicara, misal suara kendaraan, keramaian, atau musik, dapat mengganggu akurasi pengenalan.
Selanjutnya, kosakata dan frasa yang tidak baku sebab terkadang bahasa lisan menggunakan kata-kata slang, istilah teknis, atau frasa yang tidak baku. Sistem speech recognition perlu terus diperbaharui dengan kosakata terbaru agar bisa mengimbangi perkembangan bahasa. Lalu, pemahaman konteks tersebab bahasa lisan tidak selalu lugas dan bisa memiliki makna ganda tergantung konteks pembicaraan. Sistem speech recognition yang ideal tidak hanya mengenali kata-kata, tetapi juga bisa memahami maksud pembicaraan.
Dewasa ini, para peneliti terus berupaya mengatasi tantangan dengan mengembangkan algoritma yang lebih canggih dan menggunakan data latih yang lebih besar dan beragam. Sehingga meningkatkan akurasi untuk hasil yang lebih baik. Netray sendiri saat ini juga mengembangkan teknologi ini dalam bentuk meeting transcript. Apabila Anda tertarik dengan produk teknologi pengenalan suara, Anda dapat mengunjungi situs ini.
Editor: Ananditya Paradhi