Njohja e të folurit duke përdorur Google Speech API dhe Python: 4 hapa
Njohja e të folurit duke përdorur Google Speech API dhe Python: 4 hapa
Anonim
Njohja e të folurit duke përdorur Google Speech API dhe Python
Njohja e të folurit duke përdorur Google Speech API dhe Python

Njohja e të folurit

Njohja e të folurit është një pjesë e Përpunimit të Gjuhës Natyrore e cila është një nënfushë e Inteligjencës Artificiale. Për ta thënë thjesht, njohja e të folurit është aftësia e një programi kompjuterik për të identifikuar fjalët dhe frazat në gjuhën e folur dhe për t'i kthyer ato në tekst të lexueshëm nga njerëzit. Përdoret në disa aplikacione siç janë sistemet e asistentëve të zërit, automatizimi i shtëpisë, chatbotet e bazuara në zë, roboti që ndërvepron me zë, inteligjenca artificiale etj.

Ekzistojnë API të ndryshme (Ndërfaqja e Programimit të Aplikimit) për njohjen e të folurit. Ato ofrojnë shërbime falas ose me pagesë. Këto janë:

  • Sfinksi CMU
  • Njohja e të folurit të Google
  • Google Cloud Speech API
  • Mendje.ai
  • Njohja e zërit të Microsoft Bing
  • Houndify API
  • Fjalimi IBM në Tekst
  • Zbulimi i fjalëve të nxehta të Snowboy

Ne do të përdorim Njohjen e të folurit të Google këtu, pasi nuk kërkon ndonjë çelës API. Ky tutorial synon të sigurojë një hyrje se si të përdorni bibliotekën e Google Speech Recognition në Python me ndihmën e mikrofonit të jashtëm si ReSpeaker USB 4-Mic Array nga Seeed Studio. Edhe pse nuk është i detyrueshëm përdorimi i mikrofonit të jashtëm, mund të përdoret edhe mikrofoni i integruar i laptopit.

Hapi 1: ReSpeaker USB 4-Mic Array

Array ReSpeaker USB 4-Mic
Array ReSpeaker USB 4-Mic
Array ReSpeaker USB 4-Mic
Array ReSpeaker USB 4-Mic
Array ReSpeaker USB 4-Mic
Array ReSpeaker USB 4-Mic

ReSpeaker USB Mic është një pajisje me katër mikrofona e krijuar për AI dhe aplikacione zanore, e cila u zhvillua nga Seeed Studio. Ka 4 mikrofona të gjithanshëm të integruar me performancë të lartë të krijuar për të marrë zërin tuaj nga kudo në dhomë dhe 12 tregues LED të programueshëm RGB. Mikrofoni USB ReSpeaker mbështet sistemet operative Linux, macOS dhe Windows. Detajet mund t'i gjeni këtu.

Mikrofoni USB ReSpeaker vjen në një paketë të bukur që përmban artikujt e mëposhtëm:

  • Një udhëzues përdoruesi
  • Regjistruesi USB i grupit të mikrofonit
  • Mikro USB në kabllo USB

Pra, ne jemi gati për të filluar.

Hapi 2: Instaloni Bibliotekat e Kërkuara

Për këtë tutorial, do të supozoj se jeni duke përdorur Python 3.x.

Le të instalojmë bibliotekat:

pip3 instaloni SpeechRecognition

Për macOS, së pari do t'ju duhet të instaloni PortAudio me Homebrew, dhe pastaj të instaloni PyAudio me pip3:

krijoj instaloj portaudio

Ne ekzekutojmë komandën më poshtë për të instaluar pyaudio

pip3 instaloni pyaudio

Për Linux, mund të instaloni PyAudio me apt:

sudo apt-get install python-pyaudio python3-pyaudio

Për Windows, mund të instaloni PyAudio me pip:

pip instaloni pyaudio

Krijoni një skedar të ri python

nano get_index.py

Ngjit në get_index.py copën e kodit më poshtë:

import piaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') për i në rang (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get ('maxInput '))> 0: print ("ID e pajisjes hyrëse", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' emri '))

Drejtoni komandën e mëposhtme:

python3 get_index.py

Në rastin tim, komanda jep daljen e mëposhtme në ekran:

Pajisja hyrëse id 1 - ReSpeaker 4 Mic Array (UAC1.0)

ID e pajisjes hyrëse 2 - Mikrofoni MacBook Air

Ndryshoni pajisjen_index në numrin e indeksit sipas zgjedhjes suaj në fragmentin e kodit më poshtë.

importo njohjen e të folurit si sr

r = sr. Recognizer () fjalim = sr. Mikrofon (pajisja_index = 1) me fjalimin si burim: print ("thuaj diçka! …") audio = r.adjust_for_ambient_noise (burimi) audio = r.dëgjo (burimi) provo: recog = r.njoh_google (audio, gjuhë = 'en-US') print ("Ju thatë:" + recog) përveç sr. UnknownValueError: print ("Njohja e të folurit të Google nuk mund ta kuptonte audion") përveç sr. RequestError si e: print ("Nuk mund të kërkoja rezultate nga shërbimi i njohjes së të folurit të Google; {0}". Format (e))

Indeksi i pajisjes u zgjodh 1 për shkak se ReSpeaker 4 Mic Array do të jetë si burimi kryesor.

Hapi 3: Tekst-në-fjalim në Python With Pyttsx3 Library

Ekzistojnë disa API në dispozicion për të kthyer tekstin në të folur në python. Një nga API-të e tillë është pyttsx3, i cili është pakoja më e mirë e disponueshme e tekstit në të folur sipas mendimit tim. Kjo paketë funksionon në Windows, Mac dhe Linux. Kontrolloni dokumentacionin zyrtar për të parë se si bëhet kjo.

Instaloni paketën Përdorni pip për të instaluar paketën.

instaloni pip pyttsx3

Nëse jeni në Windows, do t'ju duhet një paketë shtesë, pypiwin32 të cilës do t'i duhet për të hyrë në API -në amtare të të folurit të Windows.

pip instaloni pypiwin32

Shndërroni tekstin në shkrimin python të fjalës Më poshtë është fragmenti i kodit për tekstin në fjalim duke përdorur pyttsx3:

import pyttsx3

motor = pyttsx3.init ()

engine.setProny ('norma', 150) # Përqindja e shpejtësisë

engine.setProny ('volumi', 0.9) # Vëllimi 0-1

engine.say ("Përshëndetje, botë!")

motor.runAndWait ()

Hapi 4: Vendosja e të gjitha së bashku: Ndërtimi i njohjes së të folurit me Python duke përdorur API -në e njohjes së të folurit të Google dhe Bibliotekën Pyttsx3

Kodi i mëposhtëm është përgjegjës për njohjen e fjalimit njerëzor duke përdorur Google Speech Recognition, dhe shndërrimin e tekstit në të folur duke përdorur bibliotekën pyttsx3.

importo njohjen e të folurit si sr

import pyttsx3 motor = pyttsx3.init () engine.setProperty ('norma', 200) engine.setProperty ('volumi', 0.9) r = sr. Recognizer () fjalimi = sr. Mikrofoni (pajisja_index = 1) me fjalimin si burim. Ju thatë: " + recog) engine.runAndWait () përveç sr. UnknownValueError: engine.say (" Njohja e të folurit të Google nuk mund të kuptonte audio ") engine.runAndWait () përveç sr. RequestError si e: engine.say (" Nuk mund të kërkoni rezultate nga shërbimi i njohjes së të folurit të Google; {0} ". format (e)) engine.runAndWait ()

Shtyp daljen në terminal. Gjithashtu, do të shndërrohet në të folur gjithashtu.

Ju thatë: Londra është kryeqyteti i Britanisë së Madhe

Shpresoj që tani të keni një kuptim më të mirë se si funksionon njohja e të folurit në përgjithësi dhe më e rëndësishmja, si ta zbatoni atë duke përdorur API të njohjes së të folurit të Google me Python.

Nëse keni ndonjë pyetje ose reagim? Lini një koment më poshtë. Qëndroni të sintonizuar!