Save 20% off! Join our newsletter and get 20% off right away!
Europas Antwort auf ChatGPT?

Teuken: Europas Antwort auf ChatGPT?

ChatGPT aus den USA, DeepSeek aus China – wo bleibt die europäische Antwort? Die gibt es. „OpenGPT-X“ verfolgt zwar einen vergleichbaren Ansatz, konnte bislang aber keinerlei Aufmerksamkeit erregen. Warum das so ist? Das können sich zum Teil nicht einmal die Experten erklären.

Keine Chance gegen ChatGTP und DeepSeek?

Künstliche Intelligenz – KI – befindet sich auf der Überholspur und wird immer stärker spürbar. Nicht nur im Bereich Gaming, wo nicht spielbare Charaktere plötzlich auf bestimmte Handlungen des Gamers reagieren. Auch im Online Casino kommt die KI zum Einsatz: Es sind top neue Online Casinos bewertet worden, die allesamt schon mit der KI ausgestattet sind – woran man das merkt? Es gibt individuelle Angebote, die auf Basis des Spielverhaltens entstehen. Die KI kommt aber auch zum Einsatz, wenn sich das Spielverhalten verändert – dann wird Alarm geschlagen, falls mitunter die Gefahr besteht, dass der Spieler ein Suchtverhalten zeigt.

In der Öffentlichkeit waren es ChatGPT und DeepSeek, die dafür gesorgt haben, dass das Interesse an KI deutlich gestiegen ist. Warum hingegen „OpenGPT-X“ mit dem Sprachmodell Teuken7B untergegangen ist, kann sich nicht einmal Wolfgang Nagel erklären. Der Direktor des Zentrums für Informationsdienste und Hochleistungsrechnen an der Technischen Universität Dresden, das an Teuken7B mitgearbeitet hat, weiß zwar, dass das Modell kleiner als die Konkurrenz sei, aber man sei eigentlich denselben Weg von DeepSeek gegangen: Teuken7B würde effiziente sowie smarte Lösungen finden und sei noch in 24 europäischen Amtssprachen trainiert worden.

„Wir werden weder von Open AI noch von sonst jemandem ein Modell bekommen, das man ‚finetunen‘ kann für die speziellen Bedürfnisse, die wir hier haben.“, so Nagel, der auch keine großen Hoffnungen hat, dass Deutschland irgendwann einmal vorne dabei sein wird, wenn es um große Sprachmodelle geht. An Teuken hat man geglaubt, der Erfolg blieb aber letztlich aus.

Nach dem Modell ist immer vor dem nächsten Modell

Das Projekt „OpenGPT-X“ wurde von zwei Frauenhofer-Instituten angeleitet. Christoph Schmidt, einer der Verantwortlichen, findet es hingegen nicht schlimm, dass Teuken nicht genauso wie die chinesische oder die amerikanische Konkurrenz eingeschlagen ist. „Viel wichtiger ist: Welche Tools haben wir gesammelt, was für Know-how im Umgang mit Grafikprozessoren (GPU)? Wir müssen auf Tausenden von GPU trainieren. Wie gehen wir mit diesen riesigen Datenmengen um? Dieses Know-how ist mindestens genauso wichtig wie das einzelne Modell Teuken“, so Schmidt.

Tatsächlich wird ein Prinzip verfolgt, das Hoffnung macht: Nach einem Modell ist vor einem Modell – in absehbarer Zeit sollen größere Sprachmodelle kommen, die dann mitunter Lösungen aus DeepSeek einfließen lassen können. „DeepSeek hat genau gezeigt, dass man auch mit kleinem Budget solche Riesensprünge machen kann, wenn man die richtigen Entscheidungen trifft und die Daten geschickt aufbereitet.“

Teuken soll „europäisch“ sprechen

Zu Beginn hat man bei „OpenGPT-X“ Wert gelegt, nur sinnvolle Daten zu verarbeiten. Daher arbeitet Teuken mit rund 7 Milliarden Parametern, während ChatGPT über eine Billion Parameter verarbeitet. Was man sich darunter vorstellen kann? Je mehr Pixel ein Bild hat, umso schärfer und klarer wird es – zumindest in der Theorie. Denn die Menge an Informationen erhöht auch das Fehlerpotenzial. Daher haben die Forscher bei Teuken viel Überflüssiges rausgenommen. „Um zu sagen: Wir nehmen nur hochqualitative Daten. Und in Zukunft, wenn wir dann über industrielle Anwendungen reden, dann nehmen wir die Daten aus dieser Domäne, um dann sehr gute Modelle zu trainieren.“

Das heißt, Teuken kann als Rohling verstanden werden, der dann mit spezifischen Daten des Unternehmens verfeinert werden kann. Schmidt ist auch überzeugt, dass auch mit wesentlich kleineren Modellen eine hervorragende Qualität geliefert werden kann. Mehr Daten zu nutzen sei eine „faule Lösung“ – es müsse auch um die richtigen Daten gehen.

Des Weiteren gehe es auch um die technologische Souveränität. Man will Teuken nicht nur auf Englisch trainieren, sondern will alle Amtssprachen der EU einbauen. Das heißt, ChatGTP trainiert vorwiegend mit englischsprachigen Texten, während hingegen Teuken „europäisch“ spricht. Das sei auch von großer Bedeutung, wenn es um ethische sowie moralische Aspekte geht. „Wir brauchen ein eigenes Standbein, um Modelle zu haben, die unseren Guidelines und unseren Standards entsprechen. Von daher finde ich Teuken umso wichtiger, auch jenseits des Einzelmodells. Genauso wie wir das mit Blick auf die Bundeswehr thematisieren, gilt auch für die Sprachmodelle: Wir müssen sie eigenständig machen, so Schmidt.

Mehr Lesen: Eva Briegel