Discovery znanje
/ Knowledge Discovery >> Discovery znanje >> tech >> elektronika >> pripomočke >>

Kako Prepoznavanje govora Works

leti sooča tudi izbiro med diskretnem in zveznem govora. To je veliko lažje za program razumeli besed, ko smo jih govorijo ločeno, s posebnim premorom med vsakega od njih. Vendar pa je večina uporabnikov raje govorim v normalnem, pogovorni hitrosti. Skoraj vsi sodobni sistemi so sposobni razumeti neprekinjeno govor.
Hvala

V tem članku, smo se pogovarjali z Johnom Garofolo, vodja skupine Govor na tehnologijo Laboratorij za informatiko Nacionalnega inštituta za standarde in tehnologijo. Radi bi se rad zahvalil tudi Joshua Senecal za njegovo pomoč s tem členom.
Govor na Data

Za pretvorbo govora v besedilo na zaslonu ali ukazu računalnika, računalnik mora iti skozi več zapletenih korakov . Ko govorite, da ustvarite vibracije v zraku. Pretvornik analogno-digitalni (ADC) pretvarja to analogni val v digitalne podatke, da lahko računalnik razume. Da bi to storili, vzorci ali digitalizira, zvok ob natančne meritve vala v pogostih intervalih. Sistem filtrira digitalizirano zvok odstraniti nezaželen hrup, in včasih jo loči v različne razrede glede na pogostnost (frekvenca je valovna dolžina zvočnih valov, ki jih ljudje slišali, saj razlike v igrišče). Prav tako normalizira zvok, ali pa ga prilagodi na konstantni ravni glasnosti. Prav tako imajo lahko za časovno usklajena. Ljudje vedno ne govori z enako hitrostjo, tako da mora biti zvok prilagodimo hitrosti predlogo zvočnih vzorcev že shranjeni v pomnilniku sistema.

Naslednji signal razdeli na majhne segmente vsega le nekaj stotink sekunde, ali celo tisočink v primeru nevarnem skladni zvokov - soglasniški zapora, ki jih ovira pretok zraka v vokalni trakt - kot " p " ali ". t " Program nato tekmah te segmente znanih fonemov v ustreznem jeziku. Fonem je najmanjši element jezika - predstavništvu zvokov, ki jih sprejemamo, in skupaj, da tvorijo smiselne izraze. Obstaja približno 40 fonemov v angleškem jeziku (različni jezikoslovci imajo različna mnenja o točnem številu), medtem ko so drugi jeziki imajo več ali manj fonemov.

Naslednji korak se zdi preprosto, vendar je dejansko najtežje doseči in se je poudarek večine raziskav za prepoznavanje govora. Program proučuje fonemov v okviru drugih fonemoma okoli njih. Teče kontekstualno fonem parcelo prek kompleksnega statističnega modela in jih primerja z veliko knjižnico znanih besed, besednih zvez in povedi. Program nato določi, kaj je uporabnik verjetno rekel in bodisi izhodi to kot besedilo ali izda ukaza račun

Page [1] [2] [3] [4] [5] [6] [7]