Ëm wat geet et?
Wat fir aner Sprooche scho méi laang méiglech ass, dat gëtt et elo – an enger éischter Versioun – och fir d’Lëtzebuerger Sprooch: eng automatesch Text-Transkriptioun. Iwwer déi nei Web-App vum Zenter fir dʼLëtzebuerger Spooch (ZLS) an Zesummenaarbecht mam Le Minh Nguyen, Expert an der Voice Technology, ka jiddereen seng geschwate Sätz op eng einfach Aart a Weis verschrëftleche loossen. De Prototyp weist, datt d’Sproocherkennung och op Lëtzebuergesch funktionéiert.
Wéi gouf déi nei Web-App entwéckelt?
schreifmaschinn.lu baséiert um multilingualen Open-Source-Modell XLS-R vu meta.ai. Dee gouf mat 436.000 Stonnen Audiomaterial an 128 verschiddene Sprooche virtrainéiert. Fir dëse Modell spezifesch op d’Lëtzebuerger Sprooch auszeriichten, ass déi kënschtlech Intelligenz hannendru mat lëtzebuergeschen Donnéeën, déi gréisstendeels vun ëffentleche Medien (RTL, 100,7) stamen, verfeinert ginn. Dobäi huet den ZLS säin Knowhow abruecht, fir déi transkribéiert Medientexter orthografesch unzepassen a mam Audiofichier ze synchroniséieren. Dräi Deeg Rechepower waren néideg, fir déi final Versioun vum Modell ze verbesseren. Fir datt een deen Algorithmus och kann testen, gouf am ZLS eng Web-Applikatioun ronderëm de Modell gebaut. Duerch déi aktiv Kooperatioun vu CGIE, Restena an hire Cloud-Partner ass dës Web-App vun elo un ëffentlech zougänglech a kann ënner schreifmaschinn.lu ausprobéiert ginn.
Wat sinn d'Limitte vun der neier Web-App?
schreifmaschinn.lu ass en éischte Prototyp a gëtt nach lafend verbessert. Natierlech gëtt et dowéinst nach vill Plaz fir Verbesserungen. Well de Modell, also déi kënschtlech Intelligenz derhannert, fir eng Transkriptioun muss bis zu zwou Milliarde Parameteren opruffen, ass d’Computational Power, déi derfir gebraucht gëtt, net ze ënnerschätzen. Fir d’Vitess an d’Capacitéit ze garantéieren, gëtt et an enger éischter Phas eng Limitt am Tool vun 30 Sekonne pro Audiodatei oder Opnam. Fir méi grouss Dateie sollt den ZLS direkt kontaktéiert ginn.
Wéi kann een hëllefen, schreifmaschinn.lu nach besser ze maachen?
E Modell ass ëmmer nëmmen esou gutt ewéi dʼDaten, mat deenen e gefiddert gëtt. Wien de Sproochmodell a ganz spezifesche Sproochesituatioune wëllt asetzen, deen ass gutt beroden, en och mat spezifeschen Daten ze trainéieren. Fir den aktuelle Prototyp ze optimiséieren a fir vill Situationen asetzbar ze maachen, ass et dem ZLS en Uleies, Trainingsdaten aus méiglechst ville verschiddene Sourcen ze kréien. Wien also länger Audioopname mat entspriechendem Text huet a gewëllt ass, dës zur Verfügung ze stellen, deen ass häerzlech invitéiert, mam ZLS Kontakt opzehuelen.
Ka jiddereen dee Modell benotzen, fir selwer enger Iddi nozegoen an eppes ze entwéckelen?
JO! De Model gëtt an den nächste Wochen open source gemaach. Den Datesaz gëtt d'nächst Joer op Nofro beim ZLS och zur Verfügung gestallt. Zéckt net fir eis Är Prototyppen an Appen eranzeschécken. Mir freeën eis op Är Kreativitéit. Wann een de Modell fir wëssenschaftlech Zwecker wëllt zitéieren, soll dat mat follgender Referenz gemaach ginn:
@misc{lb-wav2vec2,
author = {Nguyen, Le Minh and Nayak, Shekhar and Coler, Matt.},
keywords = {Luxembourgish, multilingual speech recognition, language modelling, wav2vec 2.0 XLSR-53, under-resourced language},
title = {IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS-LINGUAL SPEECH REPRESENTATIONS},
year = {2022},
copyright = {2023 IEEE}
}