Përmbajtje:
2025 Autor: John Day | [email protected]. E modifikuara e fundit: 2025-01-13 06:58
Njohja e të folurit
Njohja e të folurit është një pjesë e Përpunimit të Gjuhës Natyrore e cila është një nënfushë e Inteligjencës Artificiale. Për ta thënë thjesht, njohja e të folurit është aftësia e një programi kompjuterik për të identifikuar fjalët dhe frazat në gjuhën e folur dhe për t'i kthyer ato në tekst të lexueshëm nga njerëzit. Përdoret në disa aplikacione siç janë sistemet e asistentëve të zërit, automatizimi i shtëpisë, chatbotet e bazuara në zë, roboti që ndërvepron me zë, inteligjenca artificiale etj.
Ekzistojnë API të ndryshme (Ndërfaqja e Programimit të Aplikimit) për njohjen e të folurit. Ato ofrojnë shërbime falas ose me pagesë. Këto janë:
- Sfinksi CMU
- Njohja e të folurit të Google
- Google Cloud Speech API
- Mendje.ai
- Njohja e zërit të Microsoft Bing
- Houndify API
- Fjalimi IBM në Tekst
- Zbulimi i fjalëve të nxehta të Snowboy
Ne do të përdorim Njohjen e të folurit të Google këtu, pasi nuk kërkon ndonjë çelës API. Ky tutorial synon të sigurojë një hyrje se si të përdorni bibliotekën e Google Speech Recognition në Python me ndihmën e mikrofonit të jashtëm si ReSpeaker USB 4-Mic Array nga Seeed Studio. Edhe pse nuk është i detyrueshëm përdorimi i mikrofonit të jashtëm, mund të përdoret edhe mikrofoni i integruar i laptopit.
Hapi 1: ReSpeaker USB 4-Mic Array
ReSpeaker USB Mic është një pajisje me katër mikrofona e krijuar për AI dhe aplikacione zanore, e cila u zhvillua nga Seeed Studio. Ka 4 mikrofona të gjithanshëm të integruar me performancë të lartë të krijuar për të marrë zërin tuaj nga kudo në dhomë dhe 12 tregues LED të programueshëm RGB. Mikrofoni USB ReSpeaker mbështet sistemet operative Linux, macOS dhe Windows. Detajet mund t'i gjeni këtu.
Mikrofoni USB ReSpeaker vjen në një paketë të bukur që përmban artikujt e mëposhtëm:
- Një udhëzues përdoruesi
- Regjistruesi USB i grupit të mikrofonit
- Mikro USB në kabllo USB
Pra, ne jemi gati për të filluar.
Hapi 2: Instaloni Bibliotekat e Kërkuara
Për këtë tutorial, do të supozoj se jeni duke përdorur Python 3.x.
Le të instalojmë bibliotekat:
pip3 instaloni SpeechRecognition
Për macOS, së pari do t'ju duhet të instaloni PortAudio me Homebrew, dhe pastaj të instaloni PyAudio me pip3:
krijoj instaloj portaudio
Ne ekzekutojmë komandën më poshtë për të instaluar pyaudio
pip3 instaloni pyaudio
Për Linux, mund të instaloni PyAudio me apt:
sudo apt-get install python-pyaudio python3-pyaudio
Për Windows, mund të instaloni PyAudio me pip:
pip instaloni pyaudio
Krijoni një skedar të ri python
nano get_index.py
Ngjit në get_index.py copën e kodit më poshtë:
import piaudio
p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') për i në rang (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get ('maxInput '))> 0: print ("ID e pajisjes hyrëse", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' emri '))
Drejtoni komandën e mëposhtme:
python3 get_index.py
Në rastin tim, komanda jep daljen e mëposhtme në ekran:
Pajisja hyrëse id 1 - ReSpeaker 4 Mic Array (UAC1.0)
ID e pajisjes hyrëse 2 - Mikrofoni MacBook Air
Ndryshoni pajisjen_index në numrin e indeksit sipas zgjedhjes suaj në fragmentin e kodit më poshtë.
importo njohjen e të folurit si sr
r = sr. Recognizer () fjalim = sr. Mikrofon (pajisja_index = 1) me fjalimin si burim: print ("thuaj diçka! …") audio = r.adjust_for_ambient_noise (burimi) audio = r.dëgjo (burimi) provo: recog = r.njoh_google (audio, gjuhë = 'en-US') print ("Ju thatë:" + recog) përveç sr. UnknownValueError: print ("Njohja e të folurit të Google nuk mund ta kuptonte audion") përveç sr. RequestError si e: print ("Nuk mund të kërkoja rezultate nga shërbimi i njohjes së të folurit të Google; {0}". Format (e))
Indeksi i pajisjes u zgjodh 1 për shkak se ReSpeaker 4 Mic Array do të jetë si burimi kryesor.
Hapi 3: Tekst-në-fjalim në Python With Pyttsx3 Library
Ekzistojnë disa API në dispozicion për të kthyer tekstin në të folur në python. Një nga API-të e tillë është pyttsx3, i cili është pakoja më e mirë e disponueshme e tekstit në të folur sipas mendimit tim. Kjo paketë funksionon në Windows, Mac dhe Linux. Kontrolloni dokumentacionin zyrtar për të parë se si bëhet kjo.
Instaloni paketën Përdorni pip për të instaluar paketën.
instaloni pip pyttsx3
Nëse jeni në Windows, do t'ju duhet një paketë shtesë, pypiwin32 të cilës do t'i duhet për të hyrë në API -në amtare të të folurit të Windows.
pip instaloni pypiwin32
Shndërroni tekstin në shkrimin python të fjalës Më poshtë është fragmenti i kodit për tekstin në fjalim duke përdorur pyttsx3:
import pyttsx3
motor = pyttsx3.init ()
engine.setProny ('norma', 150) # Përqindja e shpejtësisë
engine.setProny ('volumi', 0.9) # Vëllimi 0-1
engine.say ("Përshëndetje, botë!")
motor.runAndWait ()
Hapi 4: Vendosja e të gjitha së bashku: Ndërtimi i njohjes së të folurit me Python duke përdorur API -në e njohjes së të folurit të Google dhe Bibliotekën Pyttsx3
Kodi i mëposhtëm është përgjegjës për njohjen e fjalimit njerëzor duke përdorur Google Speech Recognition, dhe shndërrimin e tekstit në të folur duke përdorur bibliotekën pyttsx3.
importo njohjen e të folurit si sr
import pyttsx3 motor = pyttsx3.init () engine.setProperty ('norma', 200) engine.setProperty ('volumi', 0.9) r = sr. Recognizer () fjalimi = sr. Mikrofoni (pajisja_index = 1) me fjalimin si burim. Ju thatë: " + recog) engine.runAndWait () përveç sr. UnknownValueError: engine.say (" Njohja e të folurit të Google nuk mund të kuptonte audio ") engine.runAndWait () përveç sr. RequestError si e: engine.say (" Nuk mund të kërkoni rezultate nga shërbimi i njohjes së të folurit të Google; {0} ". format (e)) engine.runAndWait ()
Shtyp daljen në terminal. Gjithashtu, do të shndërrohet në të folur gjithashtu.
Ju thatë: Londra është kryeqyteti i Britanisë së Madhe
Shpresoj që tani të keni një kuptim më të mirë se si funksionon njohja e të folurit në përgjithësi dhe më e rëndësishmja, si ta zbatoni atë duke përdorur API të njohjes së të folurit të Google me Python.
Nëse keni ndonjë pyetje ose reagim? Lini një koment më poshtë. Qëndroni të sintonizuar!