News-Eintrag

Forschungsprojekt OpenGPT-X veröffentlicht großes KI-Sprachmodell – Europäische Alternative für Wirtschaft und Wissenschaft

28.11.2024

Multilingual und Open Source, anpassbar für reale Anwendungen in Unternehmen und Organisationen

Das KI-Sprachmodell »Teuken-7B«, das im Rahmen des Forschungsprojekts OpenGPT-X entwickelt wurde, steht ab sofort auf Hugging Face zum Download bereit. Das Modell wurde von Grund auf mit den 24 Amtssprachen der EU trainiert und umfasst sieben Milliarden Parameter. Forschende und Unternehmen können das kommerziell nutzbare Open-Source-Modell für ihre eigenen Anwendungen im Bereich der Künstlichen Intelligenz (KI) nutzen. Mit diesem Schritt haben die Partner des vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) geförderten Konsortialprojekts OpenGPT-X, geleitet von den Fraunhofer-Instituten für Intelligente Analyse- und Informationssysteme IAIS sowie für Integrierte Schaltungen IIS, ein bedeutendes KI-Sprachmodell als frei verwendbares Open-Source-Modell mit europäischem Fokus geschaffen.  

»Im Projekt OpenGPT-X haben wir in den vergangenen zwei Jahren mit starken Partnern aus Forschung und Wirtschaft die grundlegende Technologie für große KI-Fundamentalmodelle erforscht und entsprechende Modelle trainiert. Wir freuen uns, dass wir jetzt unser Modell ‚Teuken-7B‘ weltweit frei zur Verfügung stellen und damit eine aus der öffentlichen Forschung stammende Alternative für Wissenschaft und Unternehmen bieten können«, sagt Prof. Dr. Stefan Wrobel, Institutsleiter am Fraunhofer IAIS. »Unser Modell hat seine Leistungsfähigkeit über eine große Bandbreite an Sprachen gezeigt, und wir hoffen, dass möglichst viele das Modell für eigene Arbeiten und Anwendungen adaptieren oder weiterentwickeln werden. So wollen wir sowohl innerhalb der wissenschaftlichen Community als auch gemeinsam mit Unternehmen unterschiedlicher Branchen einen Beitrag leisten, um den steigenden Bedarf nach transparenten und individuell anpassbaren Lösungen der generativen Künstlichen Intelligenz zu adressieren.«

Vorteile für Unternehmen und Zugang zum Modell
Teuken-7B ist aktuell eines der wenigen KI-Sprachmodelle, die von Grund auf multilingual entwickelt wurden. Es enthält ca. 50 Prozent nicht-englische Pretraining-Daten und wurde in allen 24 europäischen Amtssprachen trainiert. Es erweist sich über mehrere Sprachen hinweg in seiner Leistung als stabil und zuverlässig. Dies bietet insbesondere internationalen Unternehmen mit mehrsprachigen Kommunikationsbedarfen sowie Produkt- und Serviceangeboten einen Mehrwert. Die Bereitstellung als Open-Source-Modell erlaubt zudem, eigene angepasste Modelle in realen Anwendungen zu betreiben, etwa im Automobilbereich, in der Robotik, der Medizin oder dem Finanzwesen. Damit wird nicht nur eine sehr viel bessere Kontrolle über die Technologie ermöglicht, auch sensible Daten können im Unternehmen verbleiben. Zudem lässt sich das Modell dank eines neu entwickelten »Tokenizers« energie- und kosteneffizienter trainieren und betreiben. Wie und welche Anwendungen mit Teuken-7B realisiert werden können, erläutern Fraunhofer-Wissenschaftlerinnen und Wissenschaftler in kostenfreien Demo-Terminen (zur Anmeldung). Teuken-7B steht in zwei Varianten zur Verfügung: einer Version, die für Forschungszwecke genutzt werden kann, und einer Version unter der Lizenz »Apache 2.0«, die Unternehmen für kommerzielle Zwecke nutzen und in eigene KI-Anwendungen integrieren können (zum Download).

Entwicklung mit starker Beteiligung aus NRW
Neben den beiden Fraunhofer-Instituten und dem Forschungszentrum Jülich haben der KI Bundesverband, die TU Dresden, das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), IONOS, Aleph Alpha, ControlExpert sowie der Westdeutsche Rundfunk (WDR) als Partner an OpenGPT-X mitgearbeitet. Trainiert wurde Teuken-7B mithilfe des Supercomputers JUWELS am Forschungszentrum Jülich. Wesentliche Grundlagen wurden außerdem von Wissenschaftlerinnen und Wissenschaftlern des Lamarr-Instituts für Maschinelles Lernen und Künstliche Intelligenz eingebracht. Mit ihrer Forschung setzen sie etwa neue Maßstäbe beim multilingualen »Instruction Tuning« (siehe Blogpost). Das Anfang 2022 gestartete Forschungsprojekt steht nun kurz vor dem Abschluss. Es läuft noch bis zum 31. März 2025.

Weitere Informationen

Alle weiteren Informationen zu Teuken-7B, inkl. Model Cards, Facts zu technischen Hintergründen und Benchmarks sowie ein umfangreiches FAQ finden Sie auf der Projektwebsite des Fraunhofer IAIS.