Hardwarenanforderungen und Beschränkungen bei der KI

Alex07

Hardwareanforderungen und Beschränkungen bei lokalen KI-generierten Bildern

Hardwareanforderungen:

Prozessor (CPU): Je besser die CPU, desto besser die allgemeine KI-Leistung.
Grafikkarte (GPU): Für KI-Aufgaben, besonders Bildgenerierung, sind GPUs wichtig. Modelle wie NVIDIA's RTX oder Titan sind beliebt.
Arbeitsspeicher (RAM): Der benötigte RAM hängt von der Größe des KI-Modells und der Bildauflösung ab.
Speicherplatz: SSDs sind schneller als HDDs und können den Prozess beschleunigen.
Kühlung: KI-Operationen können Hardware überhitzen; eine gute Kühlung ist wichtig.
Stromversorgung: Leistungsstarke GPUs können viel Strom benötigen.

Beschränkungen:

Zeit: Die KI-Bildgenerierung kann zeitaufwendig sein.
Kosten: Hochwertige Hardware kann teuer sein.
Komplexität: Einige KI-Modelle können schwer zu handhaben sein. - aus eigener Erfahrung!

Zusammengefasst - bzw ausführlicher

Prozessor (CPU):

Die CPU-Geschwindigkeit beeinflusst die allgemeine Leistung der KI. Ein stärkerer Prozessor kann Berechnungen schneller durchführen, was besonders wichtig ist, wenn du das Modell trainieren möchtest. Bei einfachen Generierungsaufgaben reicht oft ein normaler moderner Prozessor.

Grafikkarte (GPU):

KIs, besonders diejenigen, die für Bildgenerierung verwendet werden, profitieren stark von Grafikkarten. GPUs können parallele Berechnungen durchführen, was sie ideal für KI-Aufgaben macht.

Modelle wie die NVIDIA's RTX oder Titan Serien sind populär in der KI-Community.

Ohne eine leistungsstarke GPU kann die Bildgenerierung sehr langsam sein.

Arbeitsspeicher (RAM):

Je größer das KI-Modell und je höher die Auflösung der generierten Bilder, desto mehr RAM benötigst du.

Für einfache Aufgaben reichen vielleicht 8-16GB RAM, aber für komplexere Aufgaben oder größere Modelle könnten 32GB oder mehr notwendig sein.

Speicherplatz:

KI-Modelle, Trainingsdaten und generierte Bilder benötigen Speicherplatz. Eine SSD ist schneller als eine HDD und kann den Prozess beschleunigen.

Kühlung:

KI-Operationen können CPU und GPU stark belasten, was zu Überhitzung führen kann. Eine gute Kühlung ist daher wichtig.

Stromversorgung:

Leistungsstarke GPUs können viel Strom verbrauchen. Stelle sicher, dass dein Netzteil ausreichend Kapazität hat.

Zeit:

Selbst mit guter Hardware kann das Trainieren oder Generieren von Bildern mit KI viel Zeit in Anspruch nehmen.

Kosten:

Hochleistungshardware kann teuer sein.

Komplexität:

Nicht alle KI-Modelle sind einfach zu verwenden. Manchmal sind technisches Wissen und Erfahrung erforderlich.

Zusammengefasst: Je besser die Hardware, desto schneller und besser kann die KI Bilder generieren. Aber auch mit Einschränkungen kannst du Ergebnisse erzielen, es dauert nur vielleicht etwas länger.

Hust:

Übrigens braucht man die "richtige" Hardware. Nvidia ist da führend, soweit ich weiss, aber da kostet die Graka die ich mir wünschen würde auch über 10k.

Wichtig scheint da auch der RAM zu sein, auf der Grafikkarte der VRAM und ich überlege ob ich das Motherboard, CPU, RAM wechsle. Aktuell leiste ich mir das eben nicht, da es funktionierendes "schnuppern" ist.

Angedacht für solche Operationen... ich meine 64GB das man die in 2 Module reinmacht, ( insgesammt 4 Slots bis MAXIMUM ) allerdings 1*2 nachrüsten kann auf 128GB. Das sollte das Asus ROG können ( 4 Steckplätze ), meine alte CPU passt da auch rein... aber das ist alles sauteuer. und ich muss sparen und sowas

CPU könnte später getauscht werden, die reicht wenigstens noch 2 Jahre aus. Mindestens. Aktuell habe ich 24 GB RAM verbaut und 6 GB Vram. Das wird aber jetzt schon eng bei solchen Bildern. Abgestürzt ist mein PC mit meiner aktuellen Hardwarekonfiguration nicht, nur das Einrichten war etwas schwer.

Thema

Stable Diffusion XL unter Windows lokal installieren

Seit ein paar Tagen gibt es das neue Bilder AI Stable Diffusion XL (SDXL) Version 1.0. Den Bildgenerator als Version 0.9 gibt es schon etwas länger, konnte aber nicht lokal genutzt werden, die neue 1.0 nun schon. Unterschied zur bisherigen Version Stable Diffusion 1.5 ist, dass das neue AI-Bildgenerator Stable Diffusion XL eine verbesserte Wiedergabe von Farben hat, mehr auf feine Details achtet und Bilder im Format 1024x1024 Pixel erstellen kann und nicht nur 512x512 wie bisher. Dabei kann das…

Synonym

29. Juli 2023 um 10:15

Es gibt von der Hardwareanforderung noch folgende Tipps:

Keine RADEON - nimm 'ne Nvidia

Viel RAM und VRAM

Kühlung und Stromaufnahme sind wichtig!!! Sonst kackt euer PC ab!

Meine Daten ( ist schon mehrere Jahre alt das Teil )

SystemModell : GigaByte A320M-H Default string

Serialnummer : Default*******

Gehäuse : Default string Desktop

Hauptplatine : GigaByte A320M-H-CF

Serialnummer : Default*******

BIOS : American Megatrends International, LLC. F56a 07/27/2022

TPM - Trusted Platform Modul : AMD AMD 2.0 (PCR 24)

Gesamtspeicher : 24GB DDR4

Prozessor(en)Prozessor : AMD Ryzen 5 3600 6-Core Processor (6C 12T 4GHz, 1GHz IMC, 6x 512kB L2, 2x 16MB L3)Sockel/Slot : AM4 (PGA1331)

Chipsatz Speichercontroller : AMD F17v7 (Ryzen2/ThreadRipper2 Matisse) Host Bridge 10x 100MHz (1GHz), 2x 8GB DDR4 2.13GHz 128-bit

Speichermodul(e)Speichermodul : G.Skill/Samsung F4-3000C16-8GISB 8GB DDR4 PC4-24000U DDR4-3004 (15-15-15-36 4-51-16-5)

Speichermodul : Kingston KF3200C16D416GX 16GB DDR4 PC4-25600U DDR4-3200 (17-17-17-40 4-57-19-6)

GrafiksystemMonitor : AUS ASUS VZ27EHE(1920x1080, 27.2")

Grafikkarte : NVIDIA GeForce RTX 2060 (30CU 1920SP SM6.4 1.36GHz/1.68GHz, 3MB L2, 5.9GB 13.6GHz 192-bit, PCIe 3.0 x16) Grafikprozessor

CUDA : nVidia NVIDIA GeForce RTX 2060 (1920SP 30C 1.36GHz/1.68GHz, 3MB L2, 6GB 13.6GHz 192-bit)

OpenCL : nVidia NVIDIA GeForce RTX 2060 (1920SP 30C 1.36GHz/1.68GHz, 3MB L2, 6GB 13.6GHz 192-bit)

D3D 11 : NVIDIA GeForce RTX 2060 (1920SP 30C 1.36GHz/1.68GHz, 3MB L2, 5.9GB 13.6GHz 192-bit)

OpenGL : NVIDIA GeForce RTX 2060/PCIe/SSE2 (1920SP 30C 1.36GHz/1.68GHz, 3MB L2, 6GB 13.6GHz 192-bit)

Physische Speichergeräte

HGST HITACHI HUA723030ALA640 (3TB, SATA600, 3.5", 7200rpm) : 3TB

INNOVATION IT (512.1GB, SATA600, 2.5", SSD) : 477GB

Samsung SSD 980 1TB (1TB, PCIe3x4/NVMe, SED) : 932GB

DRW-24D5MT (SATA150, DVD+-RW, CD-RW)

Logischer Speichergeräte

x : 3TB (NTFS, 4kB) @ HGST HITACHI HUA723030ALA640 (3TB, SATA600, 3.5", 7200rpm)

x : 1GB (NTFS, 4kB) @ INNOVATION¡¤IT (512.1GB, SATA600, 2.5", SSD)

x : 996MB (FAT32, 4kB) @ INNOVATION¡¤IT (512.1GB, SATA600, 2.5", SSD)

x : 544MB (NTFS, 4kB) @ Samsung SSD 980 1TB (1TB, PCIe3x4/NVMe, SED)

x : 930GB (NTFS, 4kB) @ Samsung SSD 980 1TB (1TB, PCIe3x4/NVMe, SED)

x : 696MB (NTFS, 4kB) @ Samsung SSD 980 1TB (1TB, PCIe3x4/NVMe, SED)

x: 96MB (FAT32, 1kB) @ Samsung SSD 980 1TB (1TB, PCIe3x4/NVMe, SED)

x : k.A.

CD-ROM/DVD (D:) : k.A. @ DRW-24D5MT (SATA150, DVD+-RW, CD-RW)

Betriebssystem

Windowssystem : Microsoft Windows 11 PRO

Frank-L

Was bedeutet letztlich "Einfache Aufgabe" und was ist eine "Schwere Aufgabe"? Woran macht man das fest?

Alex07

Zitat von Frank-L

Was bedeutet letztlich "Einfache Aufgabe" und was ist eine "Schwere Aufgabe"? Woran macht man das fest?

Die Auflösung des Bildes. Hier haben wir ja nur kleine KI Bilder generiert. Also eben nicht in 512*512px

Dann die Aufgabe mit welchen KI-Bildgenerator man nehmen kann. Denn die unterscheiden sich eben an den Anforderungen. Musste ich am Anfang erfahren das der Refiner nicht ging. Jetzt passt es aber soweit.

catcat

Zitat von Frank-L

Was bedeutet letztlich "Einfache Aufgabe" und was ist eine "Schwere Aufgabe"? Woran macht man das fest?

Einfach ist z.B., wenn Du ein Ausgangsbild hast und sagst: "Mach das im Stil von Walt Disney/Picasso/etc."
Schwierig ist, wenn Du einen ellenlangen Prompt hast, ein Bild mit einer sehr guten KI wählst, wie z.B. SDLX und aus dem Ergebnis nur einzelne Teile des Bildes auswählst und sagst: "Erstelle mir eine photorealistische Ersetzung der markierten Stellen unter Berücksichtigung der drölfzig unterschiedlichen Lichtquellen und mach das so-und-so."

Synonym

Der Text da oben ist ehrlich gesagt etwas bescheiden. Es gibt da kein einfach und nicht einfach, also nicht wirklich, dass man das festmachen könnte.

CatCat kommt da schon sehr nah ran, mit dem, was er schreibt.

Reine Bildgenerierung: Hier entscheidet vor allem die zu erzeugende Bildgröße und dazu dann auch noch der Prompt selbst. Je länger der ist, desto komplexer wird es. Dazu gehört auch der negative Prompt. Entscheidend ist auch, wie viele Steps er machen soll. Default ist ja 20. Wirklich gut wird es ab 50. Für einen schnellen Test reichen aber auch mal 5 aus. Je mehr es sind, desto mehr muss aber berechnet werden, also Details, Feinheiten etc.

Die Bildgröße selbst ist aber nicht der ausschlaggebende Faktor, wenn man Bilder nur skalieren will. Denn das geht z.B. hier problemlos bis 8000 px, während er bei einer Neu-Erzeugung hier bei 600 px abstürzt.

Und dann eben noch die ganzen anderen Einstellungen, ob und wie man den Diffusor benutzt, Wie das "Noising" ist etc.

Und dann scheint es auch noch auf das Model selbst anzukommen. Hier gehen manche und manche nicht, obwohl die von der Größe her identisch sind. Wobei die Größe natürlich auch eine Rolle spielt. Ist schon ein Unterschied, ob der bei SD1.5 an die 6 GB laden muss oder eben bei der SDXL über 10GB.

Dann kommen da noch die Modelle an sich ins Spiel, also die Grundmodelle. Diese sind ja im Prinzip alle für PyTorch entwickelt. Das nutzt aber letztendlich keiner direkt, das ist aber das Default-Modell. Die ganzen Berechnungen müssen da also in Echtzeit umgewandelt werden, von PyTorch in z.B. DirectML oder Cuda. Wobei letzteres auch wieder nur eine "Schittstelle" ist, die dann bei Nvidia auf die eigentlich GPU "Tensor" zugreift. Also sehr viel Umwandlung in Echtzeit nötig.

Meine letzten Tests, die mit der SD 1.5 sehr schnell waren, waren mit optimierten Modellen. Dafür gibt es z.B. Olive alias Onnx (https://onnxruntime.ai/docs/performance/olive.html) von Microsoft (https://github.com/microsoft/Olive). Das ist kompatibel mit so gut wie allen Modellen von HuggingFace und auch Grafikkarten, geht sogar zurück auf Karten, die fast 10 Jahre alt sind. Also keine Unterscheidung, ob man da AMD oder Nvidia hat. Der Leistungsvorsprung, den Nvidia hatte, durch Cuda, ist dahin. Nun sind die gleichwertigen Karten von beiden Herstellern genauso schnell.

Der Unterschied ist dabei, dass hier die Modelle vorher optimiert werden und als optimierte Version gespeichert. Die erzeugen dann also Modelle, die auf die eigene Grafik explizit ausgelegt sind. Die ganzen dynamischen Berechnungen, die sonst in Echtzeit sind, z.B. Umrechnung von FP32 in FP16, erfolgen also vorher. Dauert hier beim SD 1.5 ca. 40 Minuten, dafür ist das Ding dann aber fix und fertig zur direkten Verwendung. Ergebnis war ja, Bildgenerierung war um Faktor 8 schneller. Logisch, die dynamische Umwandlung der ganzen Befehle an die GPU waren weg.

Mit der SDXL konnte ich das leider noch nicht machen, denn da stürzt mir der Rechner schon ab, wenn ich nur die Umwandlung starte, also sofort, bevor er überhaupt angefangen hat. Der scheint da also irgendeinen Befehl anzusprechen, der zum Absturz führt. Leistung wird da noch keine gezogen. Wohingegen das System mit der SD1.5 bei 100% Leistung stabil läuft.