cue

Sproocherkennung op Lëtzebuergesch:
Dir schwätzt, d’Maschinn schreift

Ëm wat geet et?

Wat fir aner Sprooche scho méi laang méiglech ass, dat gëtt et elo – an enger éischter Versioun – och fir d’Lëtzebuerger Sprooch: eng automatesch Text-Transkriptioun. Iwwer d'Web-App vum Zenter fir d'Lëtzebuerger Spooch (ZLS) ka jiddereen seng geschwate Sätz op eng einfach Aart a Weis verschrëftleche loossen. De Prototyp weist, datt d’Sproocherkennung och op Lëtzebuergesch funktionéiert.

Wat ass elo anescht?

Den ZLS huet seng A.I. konstant weiderentwéckelt, mat neie Modeller, wéi zum Beispill Whisper vun OpenAI, an awer och mat méi Donnéeën. Dofir ass dës nei Versioun méi performant, a mécht notamment manner Transkriptiounsfeeler. Et ginn awer ëmmer nach e puer kleng Limitten am Tool, fir eis Serveren net ze iwwerlaaschten. Dozou zielt haaptsächlech eng Limitt vun 32 MB pro Audiosdatei. Wann Dir méi grouss Dateien hutt, zéckt net fir den ZLS ze kontaktéieren.

Wéi gouf déi al Web-App (vun Dezember 2022) entwéckelt?

Déi virescht Versioun vun der Schreifmaschinn gouf an Zesummenaarbecht mam Le Minh Nguyen entwéckelt, deen e Stage am ZLS gemaach huet. schreifmaschinn.lu baséiert um multilingualen Open-Source-Modell XLS-R vu meta.ai. Dee gouf mat 436.000 Stonnen Audiomaterial an 128 verschiddene Sprooche virtrainéiert. Fir dëse Modell spezifesch op d’Lëtzebuerger Sprooch auszeriichten, ass déi kënschtlech Intelligenz hannendru mat lëtzebuergeschen Donnéeën, déi gréisstendeels vun ëffentleche Medien (RTL, 100,7) stamen, verfeinert ginn. Dobäi huet den ZLS säin Knowhow abruecht, fir déi transkribéiert Medientexter orthografesch unzepassen a mam Audiofichier ze synchroniséieren. Dräi Deeg Rechepower waren néideg, fir déi final Versioun vum Modell ze verbesseren. Fir datt een deen Algorithmus och kann testen, gouf am ZLS eng Web-Applikatioun ronderëm de Modell gebaut. Duerch déi aktiv Kooperatioun vu CGIE, Restena an hire Cloud-Partner ass dës Web-App vun elo un ëffentlech zougänglech a kann ënner schreifmaschinn.lu ausprobéiert ginn.

Wat sinn d'Limitte vun der aler Web-App?

schreifmaschinn.lu ass am Dezember 2022 als en éischte Prototyp erauskomm a gëtt ëmmer nach lafend verbessert. Well de Modell, also déi kënschtlech Intelligenz derhannert, fir eng Transkriptioun muss bis zu zwou Milliarde Parameteren opruffen, ass d’Computational Power, déi derfir gebraucht gëtt, net ze ënnerschätzen. Fir d’Vitess an d’Capacitéit ze garantéieren, war an enger éischter Phas eng Limitt am Tool vun 30 Sekonne pro Audiodatei oder Opnam. Fir méi grouss Dateie soll den ZLS direkt kontaktéiert ginn.

Wéi kann een hëllefen, schreifmaschinn.lu nach besser ze maachen?

E Modell ass ëmmer nëmmen esou gutt ewéi dʼDaten, mat deenen e gefiddert gëtt. Wien de Sproochmodell a ganz spezifesche Sproochesituatioune wëllt asetzen, deen ass gutt beroden, en och mat spezifeschen Daten ze trainéieren. Fir den aktuelle Prototyp ze optimiséieren a fir vill Situationen asetzbar ze maachen, ass et dem ZLS en Uleies, Trainingsdaten aus méiglechst ville verschiddene Sourcen ze kréien. Wien also länger Audioopname mat entspriechendem Text huet a gewëllt ass, dës zur Verfügung ze stellen, deen ass häerzlech invitéiert, mam ZLS Kontakt opzehuelen.

Ka jiddereen dee Modell benotzen, fir selwer enger Iddi nozegoen an eppes ze entwéckelen?

JO! De Model gëtt an den nächste Wochen open source gemaach. Den Datesaz gëtt d'nächst Joer op Nofro beim ZLS och zur Verfügung gestallt. Zéckt net fir eis Är Prototyppen an Appen eranzeschécken. Mir freeën eis op Är Kreativitéit. Wann een de Modell fir wëssenschaftlech Zwecker wëllt zitéieren, soll dat mat follgender Referenz gemaach ginn:

@misc{lb-wav2vec2,

author = {Nguyen, Le Minh and Nayak, Shekhar and Coler, Matt.},

keywords = {Luxembourgish, multilingual speech recognition, language modelling, wav2vec 2.0 XLSR-53, under-resourced language},

title = {IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS-LINGUAL SPEECH REPRESENTATIONS},

year = {2022},

copyright = {2023 IEEE}

}