De State Of Linux Voice Recognition

by Gary Newell

Ynlieding

Ik brûke in protte tiid te ûndersykjen foar artikels en al faak tink ik oer it ûnderwerp foar in artikel, wannear't jo nei it treinstasjon rinne of wannear't en oer it algemien binne.

Ien jûn doe't ik de 1,5 kilometer nei it stasjon fan myn wurk gong, tocht ik "soe it net goed wêze as ik opnimme koe wat ik sizze wol en dan haw it automatysk transkribearre nei in teksttriem dat ik letter en letter kin bewurkje en formatje" .

Ik haw in protte lange oeren nedich fan 'e ferskate opsjes foar spraakkenning en diktaasje ynklusyf opnij oanwêzich fia in mikrofoan mei diktatuer-software yn Linux, opnimmen fan de triem nei it MP3 of WAV-formaat en it konvertearjen fia de kommando-rigel, en ek troch Chrome te brûken en Android-applikaasjes.

Dit artikel markearret myn fynsten nei dagen fan hurd wurk.

Linux-opsjes

It probearjen fan diktatuer- en stimerkenningsprogramma yn Linux is net sa maklik as it kin wêze en de beskikbere opsjes binne net sa slimmer.

Dizze wikipedia side hat in list mei potensjele mooglikheden, lykas CMU Sphinx, Julius en Simon.

Ik brûke SparkyLinux dat basearre is op Debian Testing op it stuit en ik kin jo fertelle dat it ienige sprekkende pakket beskikber is yn 'e repositories is Sphinx.

De native Linux-programma's dy't ik besykje te meitsjen wiene PocketSphinx, dy't ik wav befetsje om WAV-bestannen to Tekst en Freespeech-VR te konvertearjen dy't in python-applikaasje is dat jo direkt fan in mikrofoan opnimme kinne.

Ik besocht ek in pear Chrome-apps wêrûnder VoiceNote II en Dictanote.

As lêste besocht ik de Android-apps "Diktatuer en e-mail" en "Talk Talk Talk".

Freespeech-VR

Freespeech-VR is net beskikber yn de standert repositories. Ik haw hjir de bestannen hjir nedich.

Nei it ynladen en útfieren fan de ynhâld fan 'e ZIP-triem iepenje ik in terminal en navigearje nei de map wêr't de bestannen útdroegen waarden.

Ik haw it folgjende kommando ynfierd om freespeech-vr te iepenjen.

sudo python freespeech-vr

Ik haw in pear hoofen mei in aardich leuk mikrofoan en in frij dúdlik súdlike Ingelsk aksint.

De folgjende tekst ferskynde yn it freespeech-vr-finster:

Wolkom op 'e hûnen fan' e útkomsten hjoed hawwe warskôgje hoe't se kontrolearre testen hawwe te testen wannear't de tekst in gebrûk makket fan de systeemwize praat ik de ien foar elk allinich yn in hope fan 'e bliuwend en de middels fan ien koppen as gouden as systeem De ea as it myn namme de folgjende sûch ropt tillefoan Dizze bestân hast gau in fassine tillefoan oan Hânsen- Space de spinx Going Dat is net in telefoan sil dielde wurde A trained en en tools Tillefoantsjes brûke As jo begjinne Say A used file ferhaal A en brûke in troch de tiid as it tige is as sukses Dit Linux wie as jo misse is

Ik soe graach no sizze dat dit net de webside fan 'e hânen is en ik haw noait wat te nimmen mei Gouden huren. Ik wie besocht om it proses te beskriuwen om stimulearringsprogramma te brûken.

Ik probearre de software in pear kear ynklusyf ferdielende pitch en snelheid, mar de rjochting wie min.

PocketSphinx

PocketSphinx kin in WAV-triem opnimme en it yn 'e tekst konvertearje mei de kommando-rigel.

PocketSphinx is beskikber fia de Debian repositories en moat beskikber wêze foar meast distribúsje.

It haadprobleem, dat ik fûn mei PocketSphinx, is dat jo hast in diploma nedich hawwe yn 'e begripen fan sprekking, taalfiles, wurdboeken en hoe jo it systeem te trenen.

Nei it ynstallearjen fan PocketSphinx moatte jo gean nei de webside CMU Sphinx en lês safolle ynformaasje as mooglik. Jo moatte ek de folgjende model bestân downloade.

Ingelsk Ingelsk Generic Language Model

(As jo gjin natuerlike Ingelsktalige sprekker binne, kies it taalmodel dat jo passend is).

De dokumintaasje foar PocketSphinx en Sphinx yn 't algemien is min te begripen foar de laachpersoan, mar fan wat ik it meitsje koe, wurde wurdboekboeken brûkt om in list te meitsjen fan mooglike wurden en taalmodellen hawwe in list mei potensjonele útsûnderings.

Om PocketSphinx te testen brûkte ik in opname fan myn eigen stimme, in snippet fan Al Pacino yn "The Devils Advocate" en in snippet fan "Morgan Freeman". It punt dêrfan wie om oare stimmen te probearjen en foar my is der gjinien dy't in ferhaal ferteld kin as dúdlik as Morgan Freeman en gjinien liedt in line lykas Al Pacino.

Foar PocketSphinx te wurkjen moat it in WAV-triem hawwe en it moat wêze yn in bepaalde formaat. As de bestân yn it MP3-formaat gebrûk makket it ffmpeg kommando om it yn WAV-formaat te wikseljen:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Om PocketSphinx út te fieren brûk it folgjende kommando:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -nfile voice2.wav -lm cmusphinx-5.0-de-us.lm 2> voice2.log

pocketsphinx_continuous nimt in WAV-triem en konvertearret it nei tekst.

Yn it kommando boppe pocketsphinx wurdt ferteld in wurdboektriem te brûken mei de namme "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" mei it taalmodel "cmusphinx-5.0-en-us.lm". De triem dy't konvertearre is yn 'e tekst wurdt voice2.wav neamd (wat is in opname dy't mei myn stim makke is). Uteinlik liedt de 2> alle verbose útfier dy't jo net nedich hawwe yn in bestân called voice2.log. De echte resultaten fan 'e test wurde werjûn yn it terminalfinster.

De resultaten mei myn stimme binne sa:

Wolkom nei de folgjende oer goed gjin dizze wike ûnderwerp oer hokker erkenningssoftware yn in minuut

De resultaten binne net sa grappich as mei freespeech-vr, mar noch net echt gebrûkber. Ik besocht doe PocketSphinx te brûken mei Al Pacino, mar dit kaam der gjin resultaat werom.

Uteinlik besocht ik Morgan Freeman's stim út 'e film "Bruce Almighty" te brûken en hjir binne de resultaten:

000000000: wy sille op har
000000001: binne allegear sa heul ja de dei dat no no ja it is it measte dat wy libje bin ik diel by it hjitte
000000002: yn 'e oplieding dy't de kaai is fan in bytsje baseball oeral of witte wat te dwaan yn it libben
000000003: wat binne dejinge dy't weromfiere sil
000000004: se hawwe it net skreaun
000000005: se hawwe my op 'e rjochterkant
000000006: jo moatte regels wêze
000000007: ik ha jo ferwachte
000000008: en hy learde hjir dat wie in yllustraasje wie de killer weihnachtspartij
000000009: it docht út ien fan 'e manier om te skriuwen. As ik tocht dat pear altyd ien trape
000000010: lykas it probleem ferienige sil hy net de goeie bin ik de beoardielde op dat stuit doe't wy net alles dat jo tinke dat ik yn 'e wrâld húsje en ik haw it sjoen
000000011: in heit dy't it hat
000000012: wat in soad oer dit
000000013: docht dat jûn
000000014: alles dat jo binne dy't net folle falle
000000015: rjochts yn 'e hjerst
000000016: goed hâld my allinich foar my
000000017: it is in ûngelokkich as ik tinke dat se in ein hawwe dat it dat allegear dy't dat op trouwe hat, nee dat wy it leukje

Myn test kin net as wittenskip beskôge wurde en de ûntwikkelders fan PocketSphinx kinne stean dat ik de software net goed brûke. Der is ek in technyk dy't stim stimulearre kin brûkt wurde om better wurdboekers en taal bestannen te meitsjen.

Myn oerrjochte miening is lykwols dat it krekt te hurd is foar normale tillevyzjebeam.

VoiceNote II

VoiceNote II is in Chrome App dy't de Google Voice-erkenning-API brûkt.

As jo de Chrome- of Chromium-browsers brûke, kinne jo VoiceNote II ynstalleare fia it Webshop.

De ikoanen op VoiceNote II wurde op in frjemde wize pleatst, lykas jo nedich hawwe om de taal op 'e boaiem fan it finster te setten en de knop bewurkje ek oan' e boaiem, mar de record knop is yn 'e boppeste rjochte posysje.

It earste wat jo dwaan moatte is in taal selektearje en dit kin berikke wurde troch te klikken op it wrâldsykjen.

Om de opname te begjinnen, klikje jo op it mikrofoan-ikon en begjinne te sprekken yn jo mikrofoan. Foar de bêste resultaten dy't ik fûn wurdich lang wie it kaai dat de software in kâns hie te hâlden.

De resultaten wiene net sa grut as kinne hjirûnder sjoen wurde:

Hallo en wolkom om te ferbinen. About.com hjoeddeistige artikels oer stimme nei tekst konvertearje dunelm farrell resesje 2008 as konversaasjes en it sei goed en stipe de bêste manier om't ik stimme tekst-addon te finen om 2014debian of rpm-pakket iepen te iepenjen it stimtype om te praten te tekst te iepenjen as jo wolle keazen Vs kieze yn edinburgh fransyske nederlân krije jo de tiid yn united kingdomstart op see mikrofon, dat jo skriftlik jo tekst skreaun hawwe as in teksttriem foar suksesfolle goed dat is tige standert Ingelske aksint fan it suden fan Ingelân it bêste foar it mar ik gean nei de tekstvia dizze torrentalong mei it feitlike dokumint en jo kinne sjogge foar de flateren dy't jo makket foar listingsfreonden

Dictanote

Dictanote is in oare Chrome App dy't brûkt wurdt foar diktatuerzweekten en kaam as mear yntuïtyf, mar de resultaten wiene net better as VoiceNote II.

Ik brûk allinnich de demo-ferzje fan Dictanote dy't jo foarkomt dat jo nije dokuminten skeppe, mar it kin jo prate oer tekst dy't al yn 'e redakteur is. Ik koe de stim erkennen mar de resultaten wiene net better as VoiceNote II en dus wie ik net oanmeld foar de pro ferzje.

Diktatuer en post

"Diktatuer en post" is in Android-tapassing wêrmei't de native wurdearring fan Google-wurdearring is API.

De resultaten fan "Diktatuer en Post" wienen in protte better as ien fan 'e oare programma' s nei dit punt besocht.

Hallo wolkom nei Linux oer., tsjintwurdich prate wy oer it lûd fan tekst nei tekst

It truc mei "Diktatuer en Post" sil stadich prate en útsprutsen wurde lykas jo kinne mei in even aksint.

Nei't jo sein hawwe, kinne jo de resultaten nei jo sels eamelje.

Talk And Talk Dictaasje

De oare Android-applikaasje dy't ik besocht wie wie "Talk And Talk Dictation".

De ynterfaasje foar dizze app wie it bêste fan 'e bűn en de stimrekking wurke hiel goed. Nei it opnimmen fan 'e diktaasje koe ik de resultaten te dielen op ferskillende manieren ynklusyf fia e-mail.

Wolkom nei linux about.com hjoed binne wy praat oer konversearing praat yn tekst

As jo de hjirboppe tekst sjogge, is it sa dúdlik as jo miskien ferwachtsje kinne krije. Sprekke stadich is it kaai.

Gearfetting

Native Linux hat in soad manier om te gean mei regels nei Spesifikaasje en spesifike diktatuer. Der binne wat applikaasjes dy't de Google Voice API brûke, mar se binne noch net yn repositories neamd.

ChromeOS-applikaasjes binne in bytsje better, mar fierders binne de bêste resultaten berikt mei myn Android-tillefoan. Miskien hat it tillefoan in better mikrofoan en dus is de stim-erkenning software in bettere kâns fan konversaasje.

Foar stim-erkenning om echt brûk te wurden, moat it mear yntuïtyf wêze mei minder ynstellings nedich. Jo moatte net nedich meitsje om mei taalmodellen en wurdboeken omgean te kinnen om it ferstean te meitsjen.

Ik wurdearje lykwols lykwols dat de hiele keunst fan 'e stimrekking is tige útdrukkend om't elkenien in oare stim hat en der binne safolle dialekten fan regio nei regio yn ien lân, dy't noait oer de hûnderten talen brûkt wurde oer de hiele wrâld.

Myn analyse is dus dat dy taal-erkenningsprogramma noch altyd wurket.