Ob ChatGPT oder Übersetzungstools: Bisher gibt es nur wenig KI für afrikanische Sprachen. Afrikanische Forschende und EntwickerInnen wollen das ändern. Unterstützung bekommen sie aus der Diaspora, auch aus Deutschland.
Sprach-KI-Anwendungen wie Chatbots und Übersetzungsprogramme sind tolle Helfer im Arbeitsalltag. Chatbots wie ChatGPT bieten die Möglichkeit, schnell Texte zusammenzufassen und neue Texte zu formulieren. Firmen nutzen die Sprachmodelle dahinter, um eigene Chatbot-Lösungen zu entwickeln. Und KI-Übersetzungsprogramme wie Deepl machen einem binnen Sekunden fremdsprachige Texte zugänglich, die man sonst nicht verstehen würde.
So weit, so praktisch. Allerdings können längst nicht alle Menschen von diesen Vorteilen profitieren. Das Sprachmodell GPT-4, das hinter ChatGPT steht, verstand beim Start zum Beispiel nur 26 Sprachen. Und auch die nicht alle gleich gut: Schon mit Deutsch tut sich das Modell schwieriger als mit Englisch. Und Telugu zum Beispiel, eine Sprache, die von rund 80 Millionen Menschen in Südindien gesprochen wird, kann das Modell noch schlechter. Gleiches gilt für Übersetzungssoftware, zum Beispiel für die Software Deepl. Die unterstützt derzeit rund 30 Sprachen. Experten schätzen die Anzahl aller Sprachen weltweit aber auf etwa 7000.
KI für afrikanische Sprachen: Bisher die Ausnahme
Vor allem Nischensprachen, mit vergleichsweise wenigen Sprechern, kommen bei der Entwicklung neuer KI-Angebote oft zu kurz. Das habe ich kürzlich für das Digitalmagazin recherchiert. In diesem Blogartikel möchte ich nun den Blick auf afrikanische Sprachen noch einmal vertiefen. In Afrika gibt es insgesamt etwa 1000 bis 2000 Sprachen, schreiben Forschende der Universität Harvard. Viele dieser Sprachen haben nur einige hundert oder tausend Sprecher und Sprecherinnen. Es gibt aber auch zahlreiche afrikanische Sprachen, die von vielen Millionen Menschen gesprochen werden, wie Swahili, Hausa und Yorùbá.
Dass es für diese Sprachen keine oder nur sehr wenige KI-Anwendungen gibt, benachteiligt die Menschen vor Ort auf mehrere Arten. Zum einen sind sie von der Nutzung der neuen Angebote ausgeschlossen. Zum anderen können sie dadurch auch ihr Wissen und ihre Weltsicht zu wenig einbringen. Ein Beispiel: Werden KI-Sprachmodelle primär mit westlichen, englischsprachigen Texten über die Kolonialzeit trainiert, werden die Modelle später auch diese Sicht auf die Kolonialgeschichte abbilden. Texte in afrikanischen Sprachen werden von den Modellen nicht berücksichtigt. So geht auch die darin abgebildete Perspektive verloren.
Wie stellt man sicher, dass KI-Tools auch für kleinere Sprachen funktionieren? Darüber habe ich einen ausführlichen Text für das Digitalmagazin t3n geschrieben (Ausgabe 73). Hier erfahrt ihr mehr.
Kämpft für mehr KI für afrikanische Sprachen: Masakhane
Weltweit gibt es Bemühungen von Regierungen, Startups und Forschenden, die Rolle von Minderheitensprachen in der KI-Entwicklung zu stärken. Auf dem afrikanischen Kontinent spielt dabei die Organisation Masakhane eine wichtige Rolle. Masakhane ist eine sogenannte Basisbewegung, der mittlerweile über tausend Forschende und IT-ExpertInnen aus 30 afrikanischen Ländern angehören. Die Organisation führt eigene Forschungsprojekte zu Sprach-KI-Anwendungen durch. Sie fördern den Austausch über Forschungsergebnisse und beteiligt sich afrikaweit an Konferenzen. Der Name Masakhane ist isiZulu – eine Sprache, die vor allem in Südafrika gesprochen – und bedeutet „Wir bauen zusammen“.
Aus Sicht der Organisation gibt es bei KI-Anwendungen für afrikanische Sprachen mehrere Probleme. Um neue Sprachmodelle zu trainieren, brauchen Forschende viele Texte in einer Sprache als Datenbasis, um das Modell zu „füttern“. Viele afrikanische Sprachen haben aber eine stark mündliche Tradition. Es gibt wenige schriftliche Aufzeichnungen darüber und damit zu wenig Datenmaterial für die KI-Entwicklung. Dazu kommt, dass die vorhandenen schriftlichen Aufzeichnungen oft schwer zugänglich sind. Sie liegen zum Beispiel lokal archiviert bei universitären Linguistik-Lehrstühlen vor.
KI für afrikanische Sprachen: Die Rolle der Diaspora
Eine weitere Hürde ist, dass es innerhalb der afrikanischen Forschungsgemeinschaft an Austausch über Studienergebnisse mangelt. Viele afrikanische Forschungsarbeiten über KI-Sprachanwendungen werden nur in kleineren afrikanischen Zeitschriften oder bei regionalen Fachkonferenzen vorgestellt, schreibt Masakhane. Die Ergebnisse sind oft nicht elektronisch verfügbar und werden auch von Recherchetools wie Google Scholar nicht angezeigt. Die Organisation Masakhane will das mit ihrer Arbeit ändern. „Es ist zwingend notwendig, NLP-Modelle für den afrikanischen Kontinent zu entwickeln“, schreiben die Initiatoren. NLP steht für Natural Language Processing und ist der Fachbegriff für KI-Techniken, die sich mit der Verarbeitung von Sprache befassen.
Unterstützung bekommt die panafrikanische Bewegung von der afrikanischen Diaspora. Zum Beispiel von Chris Emezue, einem Nigerianer, der kürzlich seinen Master in Data Science an der Technischen Universität München beendet hat. Chris Emezue hat Anfang 2022 die Online-Plattform Lanfrica gegründet. Sein Ziel: Er will Forschenden und EntwicklerInnen den Zugang zu afrikanischen Sprachdaten erleichtern. Dafür bietet sein Online-Portal Lanfrica eine Übersicht, welche Datenquellen zu afrikanischen Sprachen schon online stehen.
Datenarme Modelle als Lösung?
Darüber hinaus arbeitet der Gründer mit linguistischen Lehrstühlen in Afrika zusammen. Sein Team bekommt von ihnen Zugang zu Texten in afrikanischen Sprachen und digitalisiert diese. Im Gegenzug entwickelt Emezue mit seinem Kollegen hilfreiche Software für die Lehrstühle, zum Beispiel Programme für die automatische Rechtschreibprüfung am Computer. Ihm sei wichtig, dass Mitwirkende für das Teilen ihrer Daten etwas zurückbekommen, sagt der Gründer. “Daten sind wertvoll. Wir wollen diese nicht einfach abgreifen. Das ist ein Gedanke, der im Westen bei Unternehmen bisher oft zu kurz kommt.”
Doch auch wenn die Datenbasis dadurch besser wird: Im Vergleich zu international weit verbreiteten Sprachen bleibt sie klein. Der Nigerianer David Adelani, der als wissenschaftlicher Mitarbeiter am Londoner University College forscht, geht daher einen Schritt weiter. Er hat untersucht, wie bestehende KI-Übersetzungsmodelle für afrikanische Sprachen optimiert werden können. Dazu hat er sogenannte vortrainierte Sprachmodelle genutzt, die von große Techkonzernen öffentlich zur Verfügung gestellt werden und bereits ein Grundverständnis für Übersetzungen haben. Und diese Modelle hat er dann mit Texten in 16 afrikanischen Sprachen weitertrainiert. „Unsere Ergebnisse legen nahe, dass bereits nur 2 000 Sätze für diese Feinabstimmung ausreichen“, schreiben die Studienautoren.
KI-Sprachmodelle für Afrika: Die Community wächst
In manchen Fällen lässt sich also auch mit wenigen Daten, die klug genutzt werden, viel erreichen. “Ich schätze, in zehn bis 15 Jahren könnten die 400 verbreitetsten Sprachen allesamt relativ gut in KI-Sprachanwendungen vertreten sein”, hat mir der Computerlinguistiker Dietrich Klakow von der Universität Saarbrücken für meine t3n-Recherche erzählt. Auf dem afrikanischen Kontinent arbeiten daran neben Masakhane weitere lokale Organisationen: die Kenyan Association of NLP (KANLP) und die Initiative Ghana NLP zum Beispiel, ebenso wie das Startup Lelapa.Ai aus Johannisburg, das eigene Sprachmodelle für afrikanische Sprachen entwickelt.