Der Anfang

Midjourney ist aktuell (meiner Ansicht nach) die beste Bildgenerierungs-KI, die Ergebnisse sind bei geschicktem Einsatz teilweise wirklich beeindruckend.

Um Midjourney einsetzen zu können, sind anfangs allerdings ein paar kleinere Hürden zu bewältigen:

Schritt 1: Installation von Discord

Zunächst ist ein Discord-Zugang nötig. Discord ist an sich ein Online-Service zum Chatten, ursprünglich für Gamer erschaffen. Unter https://discord.com/register/ kann man sich einen Account anlegen, sollte noch keiner zur Verfügung stehen.

Sobald der Zugang zu Discord funktioniert, kann man sich für die bequemere Nutzung auch die App für Mac (und später für iOS) installieren: Download.

Schritt 2: Anmeldung bei Midjourney

Liegt ein Discord-Zugang vor, muss man sich unter https://www.midjourney.com/ über den Knopf Join the Beta anmelden. Man erhält dann einen Link zum Discord-Server von Midjourney.

Man könnte nun ein paar Tests durchführen, indem man sich für einige kostenlose Versuche mit viel zu vielen anderen Usern auf einem der sogenannten Newbie-Channels durchzuschlagen versucht. Weit besser ist es, sich gleich für eine Mitgliedschaft ab 10 US-$ im Monat zu entscheiden: https://www.midjourney.com/account.

Schritt 3: Einrichtung eines eigenen Discord-Servers

Liegt die Mitgliedschaft bei Midjourney vor, wäre die nächste notwendige Maßname, sich innerhalb von Discord einen eigenen Server einzurichten – aus einem einfachen Grund: Dort werden sich dann keinerlei andere Nutzer tummeln, sondern nur man selbst hat darauf Zugriff. Dafür findet man in Discord auf der linken Server-Leiste am unteren Rand ein großes Plus-Symbol:

Es öffnet sich damit ein Dialogfenster, indem man angibt, den Server für sich selbst erstellen zu wollen, Für sich und seine Freunde, vergibt dann einen beliebigen Servernamen und lädt, optional, ein Bild zur Identifizierung des Servers hoch.

Auf dem neuen Server wird automatisch unter Textkanäle ein allgemeiner Kanal Allgemein angelegt, den man künftig nutzen wird.

Schritt 4: Midjourney Bot auf eigenem Discord-Server nutzen

Nun ist nur noch eine Maßnahme nötig, nämlich die Einbindung des Midjourney Bots auf dem gerade erstellten, eigenen Server auf Discord.

Dazu muss man zunächst wieder auf den Discord-Server von Midjourney (Symbol mit dem Segelboot in der linken Leiste) wechseln. In der umfangreichen Kanalliste ruft man als Nächstes einen der newbies-Kanäle auf:

Innerhalb solch einen Kanals findet man zahlreiche Chat-Nachrichten, die vom sogenannten Midjourney Bot stammen. Mit Rechtsklick auf den grün markierten Titel kann man das Profil öffnen:

Innerhalb des Profils findet man oben im Fenster einen Button App hinzufügen. Hier ist lediglich unter Dem Server hinzufügen der vorhin erstellte eigene Server anzugeben und nach Weiter in einem zweiten Fenster sämtliche Zugriffsrechte zu autorisieren:

Ab jetzt steht der Midjourney Bot zur Kreierung von KI-Bildern auf dem eigenen Server im Kanal Allgemein zur Verfügung:

Give me a prompt

Um auf dem Discord-Server im Channel Allgemein ein Image per Midjourney erzeugen zu lassen, müssen die Befehle in folgendem Format eingeben werden:

/imagine prompt:[Und hier dann den Prompt] –parameter

Bzw., wenn man den Slash / und im… anfängt zu tippen, schlägt Discord bereits den Befehl aus einer Liste von Befehlen vor und man muss nur [TAB] betätigen, damit der Befehl übernommen wird.

Hinter prompt: muss nun alles eingetragen werden, was später auf dem Image zu sehen sein soll.
Da ist viel Erfahrung nötig, bis das so wird, wie man es haben will. Midjourney ist trotz der beeindruckenden Technik immer noch eine Maschine, die vieles nicht versteht und gerne Dinge auch falsch versteht.

Als allgemeine Regeln gilt: Möglichst einfache Beschreibungen und ganz klare Anweisungen, sehr technisch beschreiben und alles Unnötige weglassen.

Prompt per Describe-Funktion

Eine Möglichkeit, um Prompts zu verstehen, ist:

Man nimmt ein Image, speichert das auf dem Rechner und verwendet den Befehl

/describe 

und wählt dann das Bild aus. Midjourney liefert nach kurzer Zeit 4 Beschreibungen (Prompts), die der KI zufolge zum Image passen.

Das funktioniert vor allem gut, wenn man den Stil oder die Art eines Bildes nachempfinden will oder es um ganz konkrete Darstellungen geht. Dann hilft eine Vorlage mit der /describe Funktion.

Da die Midjourney KI vor allem auch mit realen Werken gefüttert wurde, funktioniert das auch bestens mit Kunstwerken oder Darstellungen in einem bestimmten Stil:

Aufbau eines Midjourney-Prompts

Ein „Grund-Prompt“, auf den gut aufbauen lässt, ist der folgende:

[type] of [subject], [background], [style], [colors], [artist] –paramter

Ausformuliert wäre das zum Beispiel etwas wie:

Mögliche Bild-Typen

Typen an Darstellungen, die gut funktionieren, wären z. B.:

  • Portrait of [subject]
  • Photo of [subject]
  • Landscape photo of [subject]
  • Cinematic still of [subject]
  • [Emotional tone] illustration featuring [subject]
  • Abstract artwork of [subject]
  • Scene depicting [subject]
  • [Style] painting of [subject]
  • [Medium/Technique] of [subject]
  • [Subject] in the style of [image reference]

Subject & Background

Als Subjekt des Images kann alles dienen. Es spielt für Midjourney überhaupt keine Rolle, solange es nicht sexuellen Inhalts ist.

Das kann ein Alien sein, Ironman oder Alice in Wonderland.

Ebenso frei ist man bei der Angabe des Hintergrundes. Auch dabei kann man frei wählen, was die Fantasie hergibt. Man kann den Hintergrund auch weglassen, dann wählt Midjourney meist einen zum Sujet des Gesamtbildes passenden Hintergrund.

Composition

Oft ist es auch nötig, Midjourney anstelle eines Bildtypus wie photo oder portrait einen konkreten Typen für das Gewünschte mitzugeben wie z. B. character design oder character sheet, illustration, vectorized logo, clip artfashion mockup oder was es an Möglichkeiten mehr gibt.

Weitere Detailangaben

Um Midjourney mitzugeben, wie das Bild gestaltet sein soll, könnt Ihr so viele Angaben machen, wie Ihr wollt. Aber nicht immer „hilft mehr viel“.

Die Angaben zu StilFarbenKünstlern usw. dienen vor allem dazu, Midjourney besser begreiflich zu machen, welcher Art ein Image sein soll.

Der Möglichkeiten sind dabei keine Grenzen gesetzt, denn schließlich ist Midjourney ein sogenanntes Large Language Model und darauf trainiert, mit Sprache umzugehen.

An zusätzlichen Informationen könnt Ihr Angaben verwenden wie

  • Farbpalette (z. B. metallic colors, black and white oder flaming colors)
  • Emotionaler Ton (z. B. lyrical, quixotic, majestic)
  • Licht & Schatten (z. B. sunbeamsambient lightgolden hour)
  • Materialien (z. B. 3D print, wood, ceramic art)
  • Perspektiven (z. B. aerial perspective)
  • Stile (z. B. pixel artlettrismexpressionistic)
  • Texturen & Muster (z. B. basketweavefeathers)
  • Ästhetiken & Stile (z. B. acid pixiecyberpunksteam punk)

und, und, und.

Berühmte Vorbilder

Am stärksten ist Midjourney aber dann, wenn man bestimmte Vorbilder, Stile, Kunstrichtungen, Epochen oder Künstler nennt.

So kann man sich eine Vase im Stil vom ancient Rome ebenso erzeugen lassen, wie ein portrait im Stil von Picasso, ein cinematic still im Stil von Steven Spielberg oder auch im Stil vom Film „Inception“ … es gibt unendlich viele Kombinationsmöglichkeiten.

Parameter

Recht kompliziert, da komplex, ist das mit den Parametern. (Zumindest, solange man noch keinen Zugang zur Alpha-Website von Midjourney hat, den man ab 1.000 erzeugten Bildern erhält.) Die Parameter kommen immer hinten an den Prompt, jeweils beginnend mit zwei nicht durch Leerzeichen getrennte Bindestriche –– und darüber lassen sich verschiedene technische Anweisungen tätigen:

–parameter value

Gibt man keine Parameter mit, wählt Midjourney Standard-Werte.

Hier eine Auflistung der wichtigsten Parameter.
Alternativ kann aber auch ein Midjourney Prompt Generator online unter https://www.imiprompt.com/builder verwenden, der baut einem je nach Auswahl an Optionen einen passenden Prompt zusammen.

Wichtigste Parameter

  • –ar: Gibt das Seitenverhältnis (aspect ratio) an, standardmäßig ist das auf 1:1 eingestellt, es gehen aber auch beliebige Werte wie 16:9 (Querformat), 9:16 (Hochkant/mobil) oder 3:2 (klassische Fotos). Es können auch konkrete Angaben wie 1920:1080 verwendet werden, wobei die KI dabei nur das Verhältnis verwendet, nicht die Pixelanzahl.
  • –stylize: Damit lässt sich vorgeben, wie stark Midjourney stilisieren darf. Standard ist hier 100 (medium), es geht aber auch 50 (low), 250 (high) und 750 (very high). Je höher der Wert, desto freier ist Midjourney in der Gestaltung; je niedriger, umso enger hält sich Midjourney an die Vorgaben im Prompt zulasten der gestalterischen Stilisierung

  • –cchaos gibt an, wie stark die Variationen sein sollen bei den erzeugten Bildern, der Standard ist 0.

  • –weird: Es lassen sich Werte von 0 (Standard) bis 3000 eintragen und der Paramter wurde von Midjourney eingeführt, um auch unharmonische Ergebnisse zu erhalten, weil die KI dazu tendiert, z. B. nur perfekte, schöne Menschen zu erzeugen.

  • –style raw: Wenn man diesen Parameter anwendet, werden die Ergebnisse weniger artifiziell und KI erhöht den Realismus auf Kosten der Kreativität.
  • –v Model: Standardmäßig hat Midjourney die aktuelle Version eingestellt, das wäre –v 6.0 (alpha). Es lassen sich aber auch ältere Models wählen, z. B. –v 5.2, oder man kann über –niji 6 auf das Manga-Model von Midjourney umschalten.

 

  • –no: Darüber lassen sich Angaben machen, welche Elemente Midjourney NICHT erzeugen soll. Witches bekommen z. B. immer lächerlichen Hexenhüte auf, da macht es durchaus Sinn, Midjourney mit einem –no hat davon abzuhalten.

Bilderzeugung mit Midjourney

Hat man dann ein Prompt, wie das aus dem Beispiel von weiter oben, abgeschickt, beginnt Midjourney zu rechnen.

Je nach Serverauslastung dauert die Erzeugung der vier Bildvorschläge zwischen 60 und 120 Sekunden. Und es sind immer 4 Vorschläge, die Midjourney unterbreitet.

Ist die Berechnung abgeschlossen, zeigt die KI die vier erzeugten Bilder an und bietet darunter über Buttons mehrere Möglichkeiten zur weiteren Interaktion:

  • U1–U4: Damit wählt man, welche Variante man von oben links bis unten rechts ausgeführt und in groß (U wie Upscale) erzeugt haben möchte. Man kann auch nacheinander alle vier Varianten anklicken oder nur einzelne.
  • 🔄: Über dieses Symbol kann man den ganzen Prozess der Erzeugung noch einmal von vorn starten, hat aber die Möglichkeit, den Prompt noch einmal zu verändern, wenn z. B. eine Angabe fehlte oder etwas umgestaltet werden soll.
  • V1–V4: Darüber kann man die KI auffordern, zu den Bildern 1, 2, 3 oder 4 jeweils vier neue Variationen (V wie Variation) erzeugen zu lassen, wenn einem ein Bild gut gefällt, man aber eine Abwandlung davon haben möchte.

Wenn man über einen der vier U-Buttons ein Bild ausführen lässt, beginnt Midjourney wieder mit dem Rechnen und liefert nach wenigen Sekunden das fertige Bild.

Ist das Bild von Midjourney erzeugt, gibt es wieder zig Möglichkeiten der weiteren Interaktion:

  • Durch das Anklicken des Bildes kann es geöffnet bzw. abgespeichert werden.
  • Upscale: Damit erhält man die Möglichkeit, eine große Version des Bildes (als PNG in der Auflösung 2.048 Pixel und damit ausreichend groß für unseren Einsatz) mit leichter oder kreativer Vergrößerung. In der Regel ist sie Variante Upscale (Subtle) die beste Wahl. (Die Buttons sind im Beispielbild oben nicht sichtbar, da erst kürzlich hinzugekommen.)
  • Vary: Mit diesen Buttons kann das Image entweder starkleicht oder nur in einem bestimmten Bereich variiert werden. Letzteres ist oft sinnvoll, wenn die KI die berüchtigten 4 oder 6 Finger pro Hand erzeugt oder ähnliche Fehler macht.
  • Zoom: Die Zoom-Buttons dienen dazu, das Subjekt anders im Gesamtbild platzieren zu lassen. So kann man 1.5-fach oder 2-fach herauszoomen oder einen eigenen Zoomfaktor angeben.
  • Pfeil-Buttons: Darüber lassen sich Bereiche linksrechtsoben und unten im Bild dazu errechnen.

Permutationen

Sehr häufig ergibt sich die Situation, dass man einen ganz bestimmten Prompt auf mehrere Szenerien oder verschiedene Subjekte anwenden möchte. Da wäre es aufwendig, für jedes einzelne Bild immer denselben Prompt abzusenden und nur ein Element – das Subjekt, die Szene, bestimmte Styleangaben oder Parameter – anders zu verwenden.

Das lässt sich durch sogenannte Permutations abkürzen. Dazu gibt man die gewünschten verschiedenen Elemente durch Kommata getrennt an und fasst alle Permutationen in geschweifte Klammern:

/imagine prompt:Photographic portrait of a {man,woman,old man,child} outdoor

In dem Beispiel müssen nun nicht vier Prompts für die gewünschten Subjekte abgeschickt werden, sondern es genügt der eine Prompt, den Midjourney für jede angegebene Permutation dann verwendet.

Das ist auch praktikabel, wenn man ein ganz konkretes Subjekt hat, es aber in verschiedenen Szenarien sehen möchte:

/imagine prompt:A dog running {on a street,through a forest,on a alpine meadow,inside a house}

Häufig findet die Permutation aber auch Anwendung, wenn die Bilderzeugung mit Standardwerten nicht zum Gesuchten führt. Es ist oft sinnvoll, für eine Bildidee die KI zu bitten, verschiedene Parameter anzuwenden, von denen man vorher nicht wissen kann, wie sie sich auswirken werden:

/imagine prompt:Studio beauty shot of a black female model in front of a white background {,–style raw} –s {40,100,250,750}

Dieser vergleichsweise kompliziert aussehende Prompt führt zu insgesamt acht (!) Einzelprompts:
Und zwar jeweils mit einem Stylize-Wert von 40, 100 (Standard), 250 und 750 – zur Erinnerung: je höher der Stylize-Wert –s, umso „kreativer“ wird Midjourney, aber umso mehr entfernt es sich auch vom eigentlichen Prompt – und jeweils ohne zusätzliche Angabe ({,…}, hier bedeutet das Fehlen einer Angabe vor dem Komma in der geschweiften Klammer, dass eben nichts verwendet werden soll) und jeweils als –style raw.

Image und Style References

Oft liefert Midjourney stilistisch nicht das Gewünschte. Dann kann es hilfreich sein, über existierende (externe) Bilder der KI  mitzuteilen, wie man sich das Bild vorstellt.

Image References

Eine mögliche Variante ist die Angabe von Links zu Bildern, die das zeigen, was man haben will. Das ist immer dann sinnvoll, wenn man ein Subjekt erzeugt haben möchte, das einem realen „Original“ entsprechen soll.

Um das zu nutzen, muss man lediglich vor Beginn des Prompts die URL (oder mehrere URLs) des Referenzbildes mit angeben in der Form:

/imagine prompt: https://www.domain.com/adresse_zum_bild.jpg Der eigentliche Prompt –parameter

Im Beispiel wurde erst ein Full body photo of a business man im Seitenverhältnis 2:3 erzeugt. Bei der zweiten, rechts sichtbaren Generation wurde die URL eines Fotos von Elon Musk mitgegeben und die KI erzeugt deshalb Business-Männer, die Elon Musk ähnlich sehen. (Jedoch gelingt der KI nun kein Full body mehr, da das Referenzbild Elon Musk nur im Oberkörper zeigt.)

Style Reference

Der erst kürzlich veröffentlichte Parameter Style Reference hat einen anderen Hintergrund als Image Reference. Während man beim ersten der KI ein Referenzbild mitgibt, um ein Ergebnis zu bekommen, das inhaltlich in die Richtung der Referenz zeigt, gibt man bei Style Reference ein Referenzbild für den Stil und das gestalterische Styling an.

Um das zu verwenden, gibt es den neuen Paramter –sref

/imagine prompt:Der eigentliche Prompt –sref https://www.domain.com/adresse_zum_referenzbild.jpg

Das Beispiel zeigt deutlich, wie man durch Angabe einer Stilreferenz bestimmte Stile auf die erzeugten Bilder übertragen kann. Das ist vor allem auch dann sinnvoll, wenn man mehrere Bilder in einem selben Stil erhalten will.

Ausblick

Mit den Informationen dieser Seite sind nur die allerwichtigsten Elemente der Bildgenerations-KI Midjourney angesprochen. Es gibt noch zahlreiche weitere Möglichkeiten, der KI mitzuteilen, welche Art von Bildern sie für einen generieren soll. Zudem wird Midjourney kontinuierlich und in sehr hohen Tempo weiterentwickelt.

Auf der Hilfeseite von Midjourney selbst finden sich zahlreiche Hilfsdokumente, die alle Elemente der KI in einfachen Worten erklären:

https://docs.midjourney.com/docs