Nijmeegse Stichting Open Source Spraaktechnologie

Stichting Open Source Spraaktechnologie voor instellingen en bedrijven

De Nijmeegse Stichting Open Source Spraaktechnologie stelt hoogwaardige spraaktechnologie beschikbaar aan onderzoekers, non-profitinstellingen en bedrijven. Hiermee wil de stichting innovatie en gebruik van spraaktechnologie stimuleren. Hoogleraar Henk van den Heuvel is directeur van het Centre for Language and Speech Technology aan de Radboud Universiteit en vertelt over het project.

De eerste toepassing waar we op inzetten is het ontsluiten van audiodata.

Van spraak naar geschreven tekst

Veel organisaties kennen het probleem: er zijn veel geluidsopnamen van vergaderingen, hoorcolleges en andere bijeenkomsten die bewaard moeten worden. Als geluidsbestand zijn deze registraties echter niet doorzoekbaar. Het is veel handiger deze om te zetten naar geschreven tekst. Maar dat is enorm veel werk. “Daar zou de spraaktechnologie van het open source-project Kaldi een oplossing kunnen bieden.”

Zowel het Instituut voor Beeld en Geluid, als de Universiteit Twente als de Radboud Universiteit waren bezig met dit open source pakket om spraakherkenners te ontwikkelen.

Eén loket maakt spraaktechnologie toegankelijker

Van den Heuvel: ”De drie instellingen ontwikkelden los van elkaar verschillende componenten voor spraaktechnologie en besloten de kennis en ervaring te bundelen. Zo konden we beginnen met het aanbieden van diensten via één loket.”

Geïnteresseerden kunnen bij de stichting Open Source Spraaktechnologie terecht voor een demonstratie van zo’n spraakherkenner. Ook verwijst de stichting door naar een van de deelnemende instellingen voor vragen en diensten. Vaak zal het daarbij gaan om bulkverwerking van grote hoeveelheden materiaal.

Soms moet er specifieke software ontwikkeld worden. Die herkent bepaalde woorden of klanken beter. Zo’n ontwikkeltraject is typisch iets dat een van de drie partners op zich kan nemen. Daar komt dan weer een nieuwe spraakherkenner uit. Daarvan wilde stichting de nieuw ontwikkelde componenten ook weer open source beschikbaar stellen. Of een deel kan gesloten blijven, dat specifiek voor de klant is.

“Maar wij proberen het zoveel mogelijk open source te doen, daarom richten we ons in eerste instantie ook op non-profitinstellingen. Daar is dat makkelijker mee te doen. Bij bedrijven is het minder mogelijk.”

Belangstelling

De Taalunie en SURF hebben zich al gemeld bij de Stichting Open Source Spraaktechnologie. SURF heeft de software van de herkenner gedownload en zelf een herkenner gebouwd (een van de doelstellingen van de stichting). Dit deden ze om de enorme hoeveelheid colleges die ze in beheer hebben van een transcript te voorzien.

Foto: © @OpenSpraak

Voor de Kaldi-herkenner zijn aparte modellen gemaakt, die bestaan uit drie componenten:

  • Akoestische component, die geluiden uit de geluidfile koppelt aan spraakklanken
  • Lexicon component, met links het geschreven woord, rechts de bijbehorende combinatie van klanken
  • Taalmodel, dit geeft de frequentie van opeenvolgende woorden. Dus: hoe vaak wordt een bepaald woord gevolgd door een ander bepaald woord. Dit biedt de mogelijkheid om in te schatten hoe waarschijnlijk het is dat een woord voorkomt in een context.

De drie organisaties voegen in de nieuwe Stichting Open Source Spraaktechnologie hun modellen samen en stellen deze nu beschikbaar aan iedereen.

Meer over Artificiële Intelligentie

FacebookTwitterEmailLinkedInWhatsApp