strokovnjak Stuff: Googlov Mike Cohen
Googlov direktor govorne tehnologije Mike Cohen razume govor na ravni večina od nas ne razmišljamo. On razume na osnovni ravni zvočnih kombinacij in kontekstualne namige. On je - on je zadolžen za oddelek pri Googlu, ki deluje na področju tehnologije za prepoznavanje govora
Poučevanje računalnik prepozna govor je zapleteno.. Da bi razumeli angleško, obstajajo številne ovire moramo premagati. Angleški jezik ima veliko homonimi - besed, ki fonetično zvenijo enako, vendar pomeni različne stvari. Pomislite na " k " " dva " in " preveč. " Ljudje, ki govorijo z naglasom ali v regionalnem narečju lahko izgovarjajo besede na način, ki je bistveno drugačna od standardne izgovorjave. In potem so besede kot " poti " da imajo nadomestnih izgovarjavo - lahko rečemo " koren " ali " Poraz " in oba sta pravilna.
Kako si naučil računalnik, da bi te razlike? Kako lahko stroj razumeti, kaj smo rekli in ustrezno odzvati? To so izzivi Cohen in njegova ekipa obraz na Googlu. Pogovarjali smo se s Cohenom in ga prosil, da bi več podrobnosti o svojem delu na področju raziskav za prepoznavanje govora in aplikacij.
Na vsaki strani, boste videli na naša vprašanja v naslovu in odzivov Cohen je v telesu. Začeli smo z osnovami tehnologije za prepoznavanje govora, kot boste videli na naslednji strani.
Kako tehnologijo za prepoznavanje govora delo na osnovni ravni?
V redu, tako temeljito, tako da polje je šla čez, je v zadnjih nekaj desetletjih bolj in bolj v smeri podatkov usmerjenih ali statistični-modeliranje pristopov. Kaj mislim s tem je, namesto da ljudje gredo v in poskusite programirati vseh teh pravil ali vse od teh opisov, kako jezik deluje, bomo poskušali zgraditi modele, kjer lahko hranimo veliko in veliko podatkov modelov in modelov bodo spoznali strukturo govora iz podatkov. Torej pristopi podatkov usmerjenih so pristopi, ki temeljijo na gradnjo velike statistične modele za jezik, ki ga hranijo veliko podatkov.
To je prvo načelo in da je gibanje v smeri strojnega učenja, ali podatkov usmerjenih ali statistične pristope bil dejansko eden od najpomembnejših napredek v zgodovini področju za prepoznavanje govora. In tako postane vprašanje, kakšen model bi morali začeti z, da bomo lahko potem krme te podatke, da bomo lahko dobili dobre rezultate iz govornega recognizera? Kaj