Visuelle GenAI im Praxistest: Bild- und Videomodelle lassen Neandertaler tanzen
Wie KI in der Museumskommunikation genutzt werden kann
»Den Neandertaler zum Leben erwecken« – nichts Geringeres war der KI-Anwendungsfall, dem sich Seran Uysal und Fynn Koretz von KI.NRW für das Neanderthal Museum angenommen haben. In einem Feldexperiment trainierten sie gemeinsam mit dem Kommunikationsteam des Museums in Mettmann ein LoRA-Bildmodell mit den vom Museum nach wissenschaftlichen Verfahren angefertigten Neandertaler-Rekonstruktionen. Ziel war es, den ikonischen Aushängeschildern mittels GenAI Leben einzuhauchen, um sie als Bildmotive in der Museumskommunikation zu nutzen und für die Ausstellung zu begeistern. Erfahren Sie, was mit LoRA-Modelltraining, KI-gestützter Bildbearbeitung und Bild-zu-Video-Modellen mit wenigen Klicks möglich ist – und wo die Grenzen der KI-Werkzeuge auch im Museumskontext liegen.
Im Januar 2025 besuchte das KI.NRW-Team erstmals das Neanderthal Museum in Mettmann, um mit dem Workshopformat »AI Shadowing« Anwendungsfälle für die Nutzung von KI im Arbeitsalltag der Museumsmitarbeitenden zu identifizieren. Beim Kick-off zu generativen Bild- und Videomodellen kam dem Kommunikationsteam des Museums sofort ein Anwendungsfall in den Sinn: Mangels lebender Repräsentanten fehlte es an Bildmaterial des Homo neanderthalensis. Mit KI-generierten Bildern und Videos könnte das Museum seine Schützlinge bildlich aus dem Ausstellungssaal in die Lebenswirklichkeit der Besuchenden holen, um eine Brücke zwischen Alltag und Museumsbesuch zu schlagen.
Abbildung 1: Dieses experimentelle KI-generierte Video zeigt ohne Anspruch auf wissenschaftliche Seriosität, wie die Neandertaler-Rekonstruktion im Neanderthal Museum erwacht und ein modernes Leben beginnt.
KI kennt nur den »Durchschnittshöhlenmensch«
Bittet man führende KI-Bildmodelle wie Midjourney, FLUX oder GPT-4o einen Neandertaler abzubilden, so erzeugen sie anhand ihrer Trainingsdaten einen durchschnittlichen Höhlenmenschen – eine Mischung aus unzähligen Verknüpfungen, die das Modell aus seinen Trainingsdaten gelernt hat. Bildmodelle entwickeln während ihres Trainings ein Verständnis für Motive, die in ihren Trainingsdaten vielfach vorkommen: Wenn es aber um spezifische Dinge wie lokale Feste, konkrete Maschinen oder uns verwandte Spezies der Gattung Homo geht, beginnt das Modell, lose verwandte Bezüge aus verschiedensten wissenschaftlichen, aber auch popkulturellen Bildprodukten zu mischen und daraus ein Bild zu zeichnen.

Im Gegensatz wählte das Neanderthal Museum einen wissenschaftlich fundierteren Ansatz zur Rekonstruktion unserer Verwandten: Ausgehend von Skelettfunden trugen menschliche Expert*innen künstliche Muskeln, Sehnen und Haut anatomisch korrekt auf und ergänzten äußere Merkmale, die das Skelett nicht verriet, wie Haar- und Augenfarbe, Frisur und Gesichtsausdruck, nach eigener Imagination. Die in diesem aufwendigen Verfahren hergestellten lebensgroßen Rekonstruktionen des Homo neanderthalensis imitieren seine wulstigen Augenbrauen, die breite Nase und das fliehende Kinn als einzigartige plastische Ausstellungsstücke. So entstanden vier Exemplare: Der ursprüngliche, nackte Mr. N und seine Darstellung im Anzug, beide Rekonstruktionen des im Neandertal gefundenen Skeletts, sowie das Neandertalermädchen Kina und eine ältere Neandertalerdame.

Open-Source-Bildmodelle wie FLUX oder Stable Diffusion ermöglichen es, ein bestehendes Modell, das auf einer großen Datenbasis von Motiven und Begriffen trainiert wurde, durch Nachtraining mit eigenen Motiven und Begriffen anzupassen. Die daraus resultierenden Spezialmodelle werden als »Low-rank Adaptation« (LoRA) bezeichnet und enthalten ein Schlüsselwort, das das Modell eng mit einem Motiv oder Bildstil verbindet, der dem Modell mit einem oder mehreren Bildern antrainiert wurde. Das Nachtrainieren kann entweder lokal oder online auf den Servern von Anbietern wie Replicate, Freepik oder Krea erfolgen.
Vergleichbare wenn auch weniger leistungsfähige Funktionen zur Imitation von hochgeladenen Charakteren bietet z.B. Midjourney mit der »Character Reference« oder der neue autoregressive Bildgenerator in OpenAIs GPT-4o, der aber insbesondere bei Gesichtern einen vermutlich beabsichtigten Abstand zum Original einhält.
Schritt 1: Neandertaler-Rekonstruktionen mit FLUX-LoRA reproduzieren
Um die Neandertaler-Rekonstruktionen von ihren angestammten Plätzen im Museum zu befreien, fotografierten die KI.NRW-Expert*innen die vier Ausstellungsstücke.

Die 25 Bilder der Rekonstruktionen wurden anhand ihrer Bildinhalte beschriftet und für das Nachtraining des LoRA-Modells auf die Plattform Replicate hochgeladen. Mit dem nachtrainierten Modell, einem Prompt mit dem Stichwort »neanderthal« und der Spezifizierung »male«, »long-haired«, »beard«, »female«, »young« oder »elderly« konnten nun gezielt Neandertaler generiert werden, die den einzelnen Rekonstruktionen oder Mischungen ihrer gleichen.

Aber auch das Streifenmuster der Betonwand im Hintergrund hat das Modell gewissenhaft verinnerlicht und auch der angestammte Gesichtsausdruck der Rekonstruktionen erscheint dem LoRA-Modell durch sein Nachtraining sehr wahrscheinlich. Was beim Training mit abwechslungsreicheren Bildern kein Problem darstellt, muss hier durch gezielte Prompts bei der späteren Generierung ausgeglichen werden. Bei der Auswahl der Nachtrainingsbilder ist darauf zu achten, dass nur die Bildinformationen konsistent gehalten werden, die das Modell am Ende auch reproduzieren und nicht variieren soll.
Beim Nachtraining prägt sich das LoRA-Modell vor allem Motivinformationen ein, die über viele Bilder hinweg konsistent bleiben. Um Mr. N später zuverlässig ohne seinen mitporträtierten Speer abbilden zu können, musste dieser etwa aus einigen Trainingsbildern entfernt werden – eine kleine Fingerübung mit dem »Midjourney Editor«.
Aber auch das Streifenmuster der Betonwand im Hintergrund hat das Modell gewissenhaft verinnerlicht und auch der angestammte Gesichtsausdruck der Rekonstruktionen erscheint dem LoRA-Modell durch sein Nachtraining sehr wahrscheinlich. Was beim Training mit abwechslungsreicheren Bildern kein Problem darstellt, muss hier durch gezielte Prompts bei der späteren Generierung ausgeglichen werden. Bei der Auswahl der Nachtrainingsbilder ist darauf zu achten, dass nur die Bildinformationen konsistent gehalten werden, die das Modell am Ende auch reproduzieren und nicht variieren soll.

Schritt 2: Neandertaler per Midjourney-Editor in Umgebung einbetten
Während das LoRA-Modell die Neandertaler-Rekonstruktionen in verschiedenen Körperhaltungen und Bekleidungen realistisch wiedergibt, stören die tristen Hintergründe, die dem Bildstil der Trainingsbilder entsprechen. Vor allem aber lassen sich mit dem »Replicate Playground« Details nicht so einfach iterativ verändern, wie es z.B. mit dem Midjourney Editor möglich ist.

Dazu werden die Bilder hochgeladen, grob händisch oder mit dem Segmentierungswerkzeug entlang ihrer Kontur ausgeschnitten und der gesamte Hintergrund und später einzelne Bereiche mit neuen Prompts ausgestaltet. Gerade bei KI-Schwächen wie konsistenter Kleidung oder korrekter Handdarstellung sind hier mehrere Anläufe nötig, um alle Bildelemente Schritt für Schritt zu optimieren.

Ein Großteil der aktuellen KI-Bildmodelle erlaubt es, eigene Bilder zu modifizieren, indem bestimmte Bildbereiche neu generiert oder die Bilder über ihre Grenzen hinaus erweitert werden. Diese sogenannten »Fill«- und »Outpainting«-Funktionen werden von Anbietern wie Midjourney im »Midjourney Editor«, Ideogram im »Ideogram Canvas« oder »Adobe Firefly« mit »Generativ füllen/erweitern« angeboten. Auch bei den Open-Source-Vertretern erreichen spezielle Modellversionen von FLUX und Stable Diffusion über die Plattformen Replicate, Krea oder Freepik dasselbe. Der aktuelle autoregressive Bildgenerator in OpenAIs GPT-4o hingegen erlaubt bisher keine pixelgenauen Anpassungen, stattdessen wird das hochgeladene Bild immer komplett neu generiert.
Schritt 3: Neandertaler mit Videomodell KLING tanzen lassen
Im letzten Schritt soll unserem Neandertaler nach seiner Ankunft in der Jetztzeit Leben eingehaucht werden. Dazu erhält das proprietäre Videomodell KLING das zuvor generierte Startbild sowie einen Text-Prompt, um mit seiner Bild-zu-Video-Funktion einen 5- oder 10-sekündigen Clip zu generieren. Die Anweisungen für die gewünschte Bewegung der dargestellten Objekte und der Kamera selbst können in KLING entweder schriftlich im Prompt oder noch präziser über die Werkzeuge »Motion Brush« und »Camera Movement« gegeben werden.

Trotz steigender »Prompt Adherence«, d.h. immer besserer Befolgung von Textanweisungen, und verbesserter Darstellungsfähigkeit von Videomodellen hinsichtlich Logik und Konsistenz, ist die Generierung selbst kurzer Videoclips immer noch stark von Trial-and-Error geprägt. Nach einigen Frames entfernt sich das gezeigte Gesicht immer mehr vom vorgegebenen Neandertaler und lokale Eingriffe wie bei KI-generierten Bildern sind noch nicht möglich.
Laut dem »Video Generation Leaderboard« auf Huggingface sind Googles Veo 2 (in Deutschland bisher nur über die Drittanbieter-Plattform Freepik verfügbar), KLING und OpenAIs Sora und die derzeit qualitativ besten Videomodelle (Stand April 2025).
Neben den proprietären Videomodellen machen zunehmend Open-Source-Videomodelle wie Wan 2.1 oder Hunyuan Video von sich reden, die per Download auf eigener Hardware oder über Plattformen wie Replicate betrieben werden können. Ihre Benutzeroberflächen sind oft komplexer und weniger benutzerfreundlich, bieten dafür aber mehr Freiheiten.
Stand der Technik: Per Trial-and-Error zum unvollkommenen Clip
Während sich mit GenAI mit wenigen Klicks erste überzeugende Bilder und Videos erzeugen lassen, steigt der Aufwand enorm, wenn man diese gezielt nach eigenen Wünschen gestalten und Fehler beheben will. Das Pareto-Prinzip wird hier überspitzt: Mit 10 Prozent der Arbeit lassen sich 90 Prozent des Ergebnisses erzielen, die restlichen 10 Prozent erfordern dann aber auch 90 Prozent der Arbeit.
Während sich die Weiterentwicklung der Bildmodelle in den letzten Monaten merklich verlangsamt hat und vor allem Funktionen für eine präzisere Bildsteuerung und eine verbesserte Benutzerfreundlichkeit hinzugekommen sind, stellt das Aufkommen neuer autoregressiver Bildmodelle (hier beschrieben von heise online) einen weiteren großen Sprung dar. Die neue Technologie, die beispielsweise im GPT-4o-Bildgenerator von OpenAI zum Einsatz kommt, zerlegt Bilder in einzelne Token, ähnlich wie Sprache in Sprachmodellen. Dadurch wird es möglich, reale Fotos nachzubilden und die Bildgenerierung im Dialog mit dem Sprachmodell intuitiver zu steuern.
Auch die Leistungsfähigkeit von Videomodellen nimmt stetig zu, ihr deutlich geringerer Reifegrad spiegelt jedoch die höhere Komplexität von Bewegtbildern durch eine Vielzahl von Parametern wie Kamera- und Objektbewegungen oder wechselnde Beleuchtungen wider. Längere und komplexere Videos, die vollständig durch KI generiert wurden, sind heute noch klar als solche erkennbar und führen häufig zu kritischen Meinungen unter den Betrachtenden. Video-to-Video-Tools wie »Runway Act-One«, das die Bewegungen von Beispielvideos auf KI-generierte Szenen überträgt, oder »Pikaddition« von PikaLabs, das das Einfügen von KI-generierten Inhalten in Bereiche bestehender Videos ermöglicht, könnten ein Schlüssel sein, um KI-generierte Videos gezielter zu steuern und Videoprodukte auf professionellem Niveau zu erzeugen.
Fazit: GenAI im Museum
Auch wenn die Qualität von KI-generierten Medien stetig zunimmt, wirft der Einsatz von generativer KI in wissenschaftlichen und wissensvermittelnden Kontexten ganz grundlegende Fragen auf: Sollten Wahrscheinlichkeitsmodelle in einem so faktensensiblen Bereich überhaupt eingesetzt werden und wenn ja, unter welchen Bedingungen und zu welchem Zweck?
Fakt ist: KI-Modelle erkennen selbstständig Muster in ihren (uns oft unbekannten oder unüberschaubaren) Trainingsdaten und ergänzen so von uns vorgegebene Informationen – dies kann im Widerspruch zu dem in der Wissenschaft geforderten regelgeleiteten, transparenten, reproduzierbaren und empirisch gestützten Vorgehen stehen. Im Falle des Neandertaler-Videos etwa darf nicht darauf geschlossen werden, dass sich der Neandertaler vor 40.000 Jahren wirklich so bewegt hat wie in den Clips dargestellt – ganz einfach, weil es dazu kein historisches Videomaterial gibt, mit dem das Videomodell hätte trainiert werden können.
Was kann man also tun? Neben der unbedingten Kennzeichnung von KI-generierten Inhalten ist darauf zu achten, die Modelle an die kurze Leine zu nehmen, die statistisch generierten Bildinhalte von Fachleuten überprüfen zu lassen und das eigene Vorgehen bei der Erstellung transparent zu machen: Welche Informationen sind wissenschaftlich sauber erarbeitet und welche ein Produkt des KI-Trainings? Zudem kann es hilfreich sein, sich an entsprechende Fachgesellschaften zu wenden und sich über den Einsatz von KI-Systemen zu informieren. Häufig werden Leitfäden herausgegeben, die eine erste Orientierung bieten.