Isi kandungan:

Pengecaman Ucapan Menggunakan API Ucapan Google dan Python: 4 Langkah
Pengecaman Ucapan Menggunakan API Ucapan Google dan Python: 4 Langkah

Video: Pengecaman Ucapan Menggunakan API Ucapan Google dan Python: 4 Langkah

Video: Pengecaman Ucapan Menggunakan API Ucapan Google dan Python: 4 Langkah
Video: Google Cloud Text-to-Speech AI API in Python - Creating a Python Program (Part 2) 2024, Julai
Anonim
Pengecaman Ucapan Menggunakan API Ucapan Google dan Python
Pengecaman Ucapan Menggunakan API Ucapan Google dan Python

Pengenalan suara

Pengecaman Ucapan adalah bahagian dari Pemprosesan Bahasa Semula jadi yang merupakan subfield Kecerdasan Buatan. Sederhananya, pengecaman pertuturan adalah kemampuan perisian komputer untuk mengenal pasti perkataan dan frasa dalam bahasa lisan dan mengubahnya menjadi teks yang dapat dibaca oleh manusia. Ia digunakan dalam beberapa aplikasi seperti sistem pembantu suara, automasi rumah, chatbots berasaskan suara, robot berinteraksi suara, kecerdasan buatan dan lain-lain.

Terdapat pelbagai API (Antaramuka Pengaturcaraan Aplikasi) untuk mengenali ucapan. Mereka menawarkan perkhidmatan sama ada percuma atau berbayar. Ini adalah:

  • CMU Sphinx
  • Pengiktirafan Ucapan Google
  • API Ucapan Awan Google
  • Wit.ai
  • Pengecaman Suara Microsoft Bing
  • API Houndify
  • Teks Ucapan IBM
  • Pengesanan Kata Kunci Snowboy

Kami akan menggunakan Google Speech Recognition di sini, kerana ia tidak memerlukan kunci API. Tutorial ini bertujuan untuk memberikan pengenalan mengenai cara menggunakan perpustakaan Google Speech Recognition di Python dengan bantuan mikrofon luaran seperti ReSpeaker USB 4-Mic Array dari Seeed Studio. Walaupun tidak wajib menggunakan mikrofon luaran, malah mikrofon komputer riba yang terpasang dapat digunakan.

Langkah 1: ReSpeaker USB 4-Mic Array

ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array

ReSpeaker USB Mic adalah peranti mikrofon quad yang dirancang untuk aplikasi AI dan suara, yang dikembangkan oleh Seeed Studio. Ia mempunyai 4 mikrofon omnidirectional berprestasi tinggi yang direka untuk mengambil suara anda dari mana saja di dalam bilik dan 12 penunjuk LED RGB yang dapat diprogramkan. Mic USB ReSpeaker menyokong sistem operasi Linux, macOS, dan Windows. Perincian boleh didapati di sini.

ReSpeaker USB Mic hadir dalam pakej bagus yang mengandungi item berikut:

  • Panduan pengguna
  • ReSpeaker USB Mic Array
  • Kabel USB Mikro ke USB

Oleh itu, kami bersedia untuk memulakan.

Langkah 2: Pasang Perpustakaan yang Diperlukan

Untuk tutorial ini, saya anggap anda menggunakan Python 3.x.

Mari pasang perpustakaan:

pip3 memasang SpeechRecognition

Untuk macOS, pertama anda perlu memasang PortAudio dengan Homebrew, dan kemudian pasang PyAudio dengan pip3:

brew install portaudio

Kami menjalankan arahan di bawah untuk memasang pyaudio

pip3 memasang pyaudio

Untuk Linux, anda boleh memasang PyAudio dengan apt:

sudo apt-get install python-pyaudio python3-pyaudio

Untuk Windows, anda boleh memasang PyAudio dengan pip:

pip memasang pyaudio

Buat fail python baru

nano get_index.py

Tampal di get_index.py di bawah coretan kod:

import pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') untuk i dalam julat (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, iInput) '))> 0: print ("Input Device id", i, "-", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

Jalankan arahan berikut:

python3 get_index.py

Dalam kes saya, perintah memberikan output berikut ke skrin:

Id Peranti Input 1 - ReSpeaker 4 Mic Array (UAC1.0)

Id Peranti Input 2 - Mikrofon Udara MacBook

Tukar device_index ke nombor indeks mengikut pilihan anda di coretan kod di bawah.

import ucapan_rekognisi sebagai sr

r = sr. Recognizer () ucapan = sr. Mikrofon (device_index = 1) dengan ucapan sebagai sumber: cetak ("katakan sesuatu! …") audio = r.adjust_for_ambient_noise (sumber) audio = r.listen (sumber) cuba: recog = r.recognize_google (audio, language = 'en-US') cetak ("Anda berkata:" + recog) kecuali sr. UnknownValueError: print ("Pengenalan Ucapan Google tidak dapat memahami audio") kecuali sr. RequestError as e: print ("Tidak dapat meminta hasil dari perkhidmatan Google Speech Recognition; {0}". Format (e))

Indeks peranti dipilih 1 kerana ReSpeaker 4 Mic Array akan menjadi sumber utama.

Langkah 3: Teks-ke-ucapan di Python With Pyttsx3 Library

Terdapat beberapa API yang tersedia untuk menukar teks menjadi ucapan dalam python. Salah satu API seperti itu adalah pyttsx3, yang merupakan pakej teks-ke-pertuturan yang terbaik menurut pendapat saya. Pakej ini berfungsi di Windows, Mac, dan Linux. Periksa dokumentasi rasmi untuk melihat bagaimana ini dilakukan.

Pasang pakej Gunakan pip untuk memasang pakej.

pip memasang pyttsx3

Sekiranya anda menggunakan Windows, anda memerlukan pakej tambahan, pypiwin32 yang diperlukan untuk mengakses API ucapan Windows asli.

memasang pip pypiwin32

Tukar teks ke skrip python ucapan Di bawah adalah coretan kod untuk teks ke pertuturan menggunakan pyttsx3:

import pyttsx3

enjin = pyttsx3.init ()

engine.setProperty ('rate', 150) # Peratusan kelajuan

engine.setProperty ('volume', 0.9) # Volume 0-1

engine.say ("Helo, dunia!")

engine.runAndWait ()

Langkah 4: Menggabungkan Semuanya: Membangunkan Pengiktirafan Ucapan Dengan Python Menggunakan Google Speech Recognition API dan Pyttsx3 Library

Kod di bawah ini bertanggungjawab untuk mengenali ucapan manusia menggunakan Google Speech Recognition, dan mengubah teks menjadi ucapan menggunakan pyttsx3 library.

import ucapan_rekognisi sebagai sr

import pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () ucapan = sr. Mikrofon (device_index = 1) dengan ucapan sebagai sumber: audio = r.adjust_for_ambient_noise (sumber) audio = r.listen (sumber) cuba: recog = r.recognize_google (audio, language = 'en-US') cetak ("Anda berkata:" + recog) engine.say (" Anda berkata: "+ recog) engine.runAndWait () kecuali sr. UnknownValueError: engine.say (" Pengakuan Ucapan Google tidak dapat memahami audio ") engine.runAndWait () kecuali sr. RequestError as e: engine.say (" Tidak dapat meminta hasil dari perkhidmatan Google Speech Recognition; {0} ". format (e)) engine.runAndWait ()

Ia mencetak output pada terminal. Juga, ia akan diubah menjadi ucapan.

Anda berkata: London adalah ibu kota Great Britain

Saya harap anda sekarang mempunyai pemahaman yang lebih baik mengenai bagaimana pengecaman pertuturan berfungsi secara umum dan yang paling penting, bagaimana melaksanakannya menggunakan API Pengenalan Ucapan Google dengan Python.

Sekiranya anda mempunyai pertanyaan atau maklum balas? Tinggalkan komen di bawah. Nantikan!

Disyorkan: