Ríkið af Linux rödd viðurkenningu

Kynning

Ég eyðir miklum tíma í að rannsaka greinar og oft hugsa ég um efnið fyrir grein þegar ég fer í lestarstöðina eða hvenær sem er og almennt.

Eitt kvöld á meðan ég gekk 1,5 mílur að stöðinni frá vinnu minni hugsaði ég "myndi það ekki vera gott ef ég gæti skráð það sem ég vildi segja og þá hafi það afritað sjálfkrafa í textaskrá sem ég gæti breytt og sniðið síðar á" .

Ég hef eytt mörgum langum tímum að horfa á mismunandi valkosti í boði fyrir raddþekkingu og dictation þ.mt hljóðritun beint með hljóðnema með dictation hugbúnaði í Linux, upptöku skrána á MP3 eða WAV snið og umbreyta því með stjórn línunnar, auk þess að nota Chrome og Android forrit.

Þessi grein vekur athygli á niðurstöðum mínum eftir daga vinnu.

Linux Options

Reynt að finna dictation og rödd viðurkenningu hugbúnaður í Linux er ekki eins auðvelt og það gæti verið og valkostir í boði eru ekki svo snjall.

Þessi Wikipedia síðu inniheldur lista yfir hugsanlegar valkosti, þar á meðal CMU Sphinx, Julius og Simon.

Ég er að nota SparkyLinux sem byggir á Debian Testing í augnablikinu og ég get sagt þér að eina raddþekkingarpakka sem er í boði í geyma er Sphinx.

Hin innfæddu Linux forrit sem ég endaði að reyna voru PocketSphinx, sem ég notaði til að umbreyta WAV skrám í texta og Freespeech-VR sem er forrit sem gerir þér kleift að taka upp beint frá hljóðnema.

Ég reyndi líka nokkur Chrome forrit, þar á meðal VoiceNote II og Dictanote.

Að lokum reyndi ég að "Dictation and Email" og "Talk and Talk Dictation" Android Apps.

Freespeech-VR

Freespeech-VR er ekki í boði í stöðluðu geyma. Ég sótti skrána héðan.

Eftir að hafa hlaðið niður og dregið úr innihaldi zip-skráarinnar opnaði ég flugstöðina og fluttist í möppuna þar sem skrárnar voru dregnar út.

Ég skrifaði eftirfarandi skipun til að opna freespeech-vr.

sudo python freespeech-vr

Ég er með par af heyrnartólum með frekar viðeigandi hljóðnema og nokkuð skýrt suðurhluta enska hreimsins.

Eftirfarandi texti birtist í freespeech-vr glugganum:

Velkomin á hunda hundsins af niðurstöðum í dag Hafa tryggt hvernig á að stjórna prófum Verður að prófa Hvenær á að nota Notkun kerfis leiðin Tal ég Að einn hver var Aðeins í að Til að vonast til að dvelja Og The tilefni af einum hænum gullna sem kerfi The Ea þegar það heitir mitt nafn næsta símtal símans Þessi skrá Bráðum nóg er að ræða síma til Hands-Space sfinxið Að fara Það er ekki sími verður deilt Þjálfað og og verkfæri Notaðu að tala Þegar þú hefur lokið Segðu A notaður skrá saga A Og með því að nota þegar það er mjög velgengni Þetta Linux var eins og þú forðast er

Mig langar bara að segja nú að þetta er ekki heimasíðu Hundarins og á engum tímapunkti nefndi ég neitt að gera með Golden hænur. Ég var í raun að reyna að lýsa því ferli að nota hugbúnað fyrir rafræn viðurkenningu.

Ég reyndi hugbúnaðinn nokkrum sinnum, þar á meðal mismunandi kasta og hraða en nákvæmni var léleg.

PocketSphinx

PocketSphinx er fær um að taka WAV skrá og umbreyta því í texta með stjórn lína.

PocketSphinx er í boði í Debian-geymslunni og ætti að vera tiltæk fyrir flestar dreifingar.

Aðalatriðið sem ég fann með PocketSphinx er að þú þarft nánast gráðu í hugtökum röddargreininga, tungumálaskrám, orðabækur og hvernig á að þjálfa kerfið.

Eftir að PocketSphinx hefur verið sett upp ættir þú að fara á CMU Sphinx vefsíðu og lesa eins mikið og hægt er. Þú þarft einnig að hlaða niður eftirfarandi líkanaskrá.

(Ef þú ert ekki í enskumælandi ræðumaður skaltu velja tungumálið sem er viðeigandi fyrir þig).

Documentation fyrir PocketSphinx og Sphinx almennt er erfitt að skilja fyrir lá manneskja en frá því sem ég gæti gert út orðabók skrár eru notuð til að veita lista yfir hugsanleg orð og tungumál módel hafa lista yfir hugsanlega pronunciations.

Til að prófa PocketSphinx notaði ég upptökuna af eigin rödd minni, bragð úr Al Pacino í "The Devils Advocate" og útskrift frá "Morgan Freeman". Aðalatriðið var að reyna mismunandi raddir og mér er enginn sem getur sagt sögu eins skýrt og Morgan Freeman og enginn skilar línu eins og Al Pacino.

Fyrir PocketSphinx að vinna það þarf WAV skrá og það þarf að vera í ákveðnu formi. Ef skráin er í MP3-sniði, notaðu kommandann ffmpeg til að breyta því í WAV-sniði:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Til að hlaupa PocketSphinx skaltu nota eftirfarandi skipun:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/is_US/cmu07a.dic-infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous tekur WAV skrá og breytir því í texta.

Í stjórninni hér að framan er ljóðfrumur sagt að nota orðabókaskrá sem kallast "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" með tungumálalíkaninu "cmusphinx-5.0-en-us.lm". Skráin sem er breytt í texta er kallað voice2.wav (sem er upptaka sem ég gerði með rödd minni). Að lokum setur 2> öll sönn framleiðsla sem þú þarft ekki endilega í skrá sem kallast voice2.log. Raunveruleg niðurstöður prófsins birtast innan flugstöðvarinnar.

Niðurstöðurnar sem nota röddina mína eru sem hér segir:

velkomin til næsta um vel nei í þessari viku efni um hvaða viðurkenningu hugbúnað í eina mínútu

Niðurstöðurnar eru ekki eins hræðilegir og með freespeech-vr en samt ekki raunverulega nothæf. Ég reyndi þá að nota PocketSphinx með Al Pacino en þetta skilaði engum árangri yfirleitt.

Að lokum reyndi ég að nota rödd Morgan Freeman frá myndinni "Bruce Almighty" og hér eru niðurstöðurnar:

000000000: við munum á hana
000000001: er allt það erfitt já daginn sem núna núna þetta er mest sem við höfum verið á lífi ég er hluti af heitum
000000002: í lyftunni sem er lykillinn út af smá baseball klukkan eða veit hvað á að gera við í lífinu
000000003: hvað eru þau sem vilja batna
000000004: þeir skrifa ekki það
000000005: þeir hafa á mig rétt út
000000006: þú verður að vera reglur
000000007: Ég hef búist við þér
000000008: og hann lærði hér sem var dæmi er var killer jólin aðila
000000009: Það kemur í ljós ein leið til að skrifa o. Rassi ég hélt að fáir séu alltaf alltaf með einn
000000010: Eins og vandamálið sameinað mun ekki gefa honum það góða sem ég er áætlað þá á því augnabliki þegar við gerðum ekki allt sem þú heldur að ég sé í heiminum muni heima og ég hef séð það
000000011: faðir sem hefur það
000000012: hvað mikið um þetta
000000013: Er það gefið
000000014: allt sem þú ert sem fellur ekki fyrir mikið
000000015: rétt í haust
000000016: vel vertu bara fyrir mig
000000017: það er óhamingjusamur ef ég hugsa líka að þeir séu að fara með það sem það sem allt sem giftist á var ekki við gerum mér líkar við ólíkt því hvernig

Prófun mín getur varla talist vísindaleg og verktaki PocketSphinx getur sagt að ég sé ekki að nota hugbúnaðinn rétt. Það er einnig tækni sem kallast raddþjálfun sem hægt er að nota til að búa til betri orðabækur og tungumálaskrár.

Mér þykir vænt um að þetta sé bara of erfitt fyrir venjulegt daglegt líf.

VoiceNote II

VoiceNote II er Chrome app sem notar Google Voice viðurkenningar API.

Ef þú notar Chrome eða Chromi vafra getur þú sett upp VoiceNote II í gegnum Vefverslun.

Táknin á VoiceNote II eru lagðar út á undarlega hátt þar sem þú þarft að setja upp tungumálið neðst í glugganum og breytingartakkinn er einnig neðst, en upptakstakkinn er efst í hægra horninu.

Það fyrsta sem þú þarft að gera er að velja tungumál og hægt er að ná þessu með því að smella á heimavísann.

Til að hefja upptöku skaltu smella á hljóðnematáknið og byrja að tala í hljóðnemann. Til að ná sem bestum árangri fannst ég að tala var hægt að keyra hugbúnaðinn til að halda áfram.

Niðurstöðurnar voru ekki góðar eins og sjá má hér að neðan:

Halló og velkomið að tengjast. Today's articles about voice to text conversion dunelm farrell recession 2008 sem viðskipti og það sagði vel studd besta leiðin sem ég fann rödd texta addon að sýna 2014debian eða rpm pakki opna það rödd tegund til ræðu til texta opna það ef þú vilt velja vs valdi í edinburgh franska þýsku fáðu tíma í United Kingdom byrjun á sjó microphonewhat þú hefur lokið við að skrifa texta sem textaskrá til að ná árangri vel það er mjög staðall enska hreim frá suður af englandi best fyrir það en ég er að fara að textvia þetta torrentalong með raunverulegu skjali og þú getur séð fyrir mistökin sem makethank þig fyrir hlustandi

Dictanote

Dictanote er annað Chrome forrit sem hægt er að nota til að nota í dictation og komst að því að vera meira leiðandi en niðurstöðurnar voru ekki betri en VoiceNote II.

Ég notaði eingöngu útgáfuna af dictanote sem hindrar þig frá að búa til ný skjöl en leyfir þér að tala yfir texta sem er þegar í ritlinum. Ég gat prófað raddgreiðsluna en niðurstöðurnar voru ekki betri en VoiceNote II og svo var ég ekki að skrá mig fyrir atvinnulífið.

Dictation and Mail

"Dictation and Mail" er Android forrit sem notar innbyggða Google rödd orðstír API.

Niðurstöðurnar frá "Dictation and Mail" voru miklu betri en nokkur önnur forrit sem reynt var að þessu sinni.

Halló velkomin til Linux um. Í dag erum við að tala um að umbreyta hljóð í texta

The bragð með "Dictation and Mail" er að tala hægt og pronunciate eins vel og þú getur með jöfnum hreim.

Eftir að þú hefur lokið við að tala getur þú sent niðurstöðurnar til þín.

Talaðu og tala um mál

Hin Android forritið sem ég reyndi var "Talk and Talk Dictation".

Viðmótið fyrir þessa app var bestur af búntinum og raddgreiningin virkaði mjög vel örugglega. Eftir að ég tók upp áminninguna var ég fær um að deila niðurstöðum á ýmsa vegu, þ.mt með tölvupósti.

velkomin til Linux um.com í dag erum við að tala um að breyta tali í texta

Eins og þú getur séð textann hér að ofan er um eins skýr og þú getur hugsanlega búist við að fá. Talandi hægt er lykillinn.

Yfirlit

Innfæddur Linux hefur einhvern veginn að fara með tilliti til raddþekkingar og sérstaklega dictation. Það eru nokkur forrit sem nota Google Voice API en þau eru ekki ennþá skráð í gagnageymslur.

ChromeOS forrit eru svolítið betra en langstærstu niðurstöðurnar voru náð með því að nota Android símann minn. Kannski hefur síminn betri hljóðnema og því er röddargreiningartækið betra tækifæri til að breyta.

Til að viðurkenna rödd að verða virkilega nothæf þarf það að vera meira leiðandi með minni skipulagi sem þarf. Þú ættir ekki að þurfa að klúðra með tungumálum módel og orðabækur til að gera það skiljanlegt.

Ég þakka þó að öll listin um röddargreining er mjög krefjandi vegna þess að allir eru með mismunandi rödd og það eru svo margar mállýskur frá svæði til lands í einu landi sem aldrei er að hafa áhyggjur af hundruðum tungumála sem notuð eru um allan heim.

Greining mín er því að hugbúnaður fyrir röddargreining er enn í vinnslu.