KI-Logbuch
Inspiration, Entdeckungen, Anwendungen
Entdecken – installieren – machen: Faszination „lokale (gen)KI“
Created on 2024-09-11 06:36
Published on 2024-09-11 08:45
Liebe Neugierige, Kreative, Entdecker*innen,
willkommen zu einer neuen Ausgabe des KI-Logbuchs!
In jüngster Vergangenheit habe ich im Rahmen einer Telekom-internen Fortbildungsveranstaltung Kolleg*innen mit unterschiedlichsten (gen)KI-Tools vertraut gemacht. Diese Fortbildungsveranstaltungen werden von Mitarbeitenden der Organisation meist in Eigenregie konzipiert, organisiert und durchgeführt. Ja, wir holen uns natürlich auch Expertise von „außen“. Der Ansatz interner Kolleginnen und Kollegen, selber das eigene Wissen weiterzugeben und so alle davon profitieren zu lassen, ist dagegen jedoch bei weitem motivierender und intrinsisch erfüllender – sage zumindest ich, der diese Formate nun schon des Öfteren bespielen durfte. Außerdem profitieren intern organisierte Sessions vom spezifischen Fachwissen der Kolleg*innen an das externe Beiträge so nicht heran reichen würden. Shakil Awan organisiert beispielsweise regelmäßige „LEX Sessions“ zur internen Fortbildung – nicht nur zu KI Themen. Der Servicebereich der Deutsche Telekom organisiert regelmäßige „Magenta Curriculum“ Veranstaltungen, meist online, ebenfalls nicht ausschließlich zum Thema (gen)KI. Hier hat nach langer Zeit Stefan Dörken den Staffelstab an Nils Matkowski weitergegeben. Und dann gibt es noch den Bereich „AI4Coding“, unsere „KI Gilde“, gestartet von Kathrin Rißmann, Promptathons mit Sindy Leffler-Krebs, KI Insights mit Matteo Möller und noch so vieles mehr.
Bei so emsigen KI-Aktivitäten dachte ich mir, es wäre interessant ein paar der Tools, die ich in solchen Sessions vorstelle, auch einmal hier in leicht größerer Runde etwas genauer zu beschreiben. Für die Profis unter Euch kommt in diesem Newsletter wahrscheinlich nichts Neues. Wer aber einen Einstieg in lokale KI sucht, findet hier ja vielleicht ein paar nützliche Tipps.
Wir schauen uns also an, wie künstliche Intelligenz direkt auf unseren eigenen Geräten nutzbar gemacht werden kann. Warum? Weil eigenes „Hands-On“ Lernen immer noch der sicherste Weg zu Erfolg ist. Sage nicht ich, sondern Xunzi (Xun Kuang), ein konfuzianischer Philosoph aus dem dritten Jahrhundert vor Christus:
Nicht von etwas gehört zu haben, ist nicht so gut, wie davon gehört zu haben. Davon gehört zu haben, ist nicht so gut, wie es gesehen zu haben. Es gesehen zu haben, ist nicht so gut, wie es zu wissen. Es zu wissen ist nicht so gut, wie es in die Praxis umzusetzen.
Lokale (gen)KI versetzt Euch in die Lage, Dinge selber und ohne Sorge um Datenverluste umzusetzen. Lasst uns also einmal sehen, wie das im Detail aussieht und funktioniert.
Achtung: auf die richtige Hardware kommt’s an!
Bevor wir eigene KI Anwendungen auf unseren Rechnern installieren sei eines gesagt: ihr braucht schon einen wenigstens mittelmäßig-performanten Rechner, um KI Modelle laden- und ausprobieren zu können – der Medion 230 Euro Laptop wird es leider nicht reißen. Ich persönlich würde zumindest folgende Kern-Ausstattung empfehlen:
-
aktuelles Motherboard
-
2TB SSD als C:\ Platte
-
mehr als 10 TB normale Festplatte für KI erzeugte Daten
-
ganz wichtig: mindestens eine NVIDIA GTX 1070 Grafikkarte mit 8 GB VRAM
Damit solltest Ihr gut gewappnet sein, mittelmäßige KI Aufgaben auf dem eigenen Rechner umzusetzen. Klar geht es auch größer, besser und vor allem teurer. Mit einer NVIDIA RTX 4090 Grafikkarte beispielsweise. Die hat dann auch statt 8GB ganze 24GB VRAM. Je größer der VRAM Speicher, desto größere Modelle können direkt in deren Speicher geladen und ausgeführt werden. Man kann zwar auch die eigene CPU nutzen, nur ist die extrem langsam im Vergleich zu den Grafikchips von NVIDIA.
Ok, sobald Euer Rechner die Mindestanforderungen erfüllt, kann es weiter gehen.
Lokale KI-Modelle mit LM Studio und GPT4All
Die Entwicklung von Large Language Models (LLMs) hat sich in den letzten Jahren in zwei Richtungen bewegt. Einerseits werden die Modelle durch neuere Verfahren immer kompakter und leistungsfähiger. Andererseits wird die Hardware auf der diese Modelle laufen immer performanter (und günstiger). Nur die ganz großen KI Modelle sind nach wie vor in der Cloud angesiedelt. Aber die Möglichkeiten, leistungsstarke KI-Modelle lokal auf dem eigenen Rechner laufen zu lassen werden zunehmend vielzähliger und auch relevanter. Zwei besondere Tools in diesem Bereich sind „LM Studio“ und „GPT4All„.
LM Studio ist eine plattformübergreifende Desktop-Anwendung, die es Nutzern ermöglicht, LLMs direkt auf ihrem Computer zu erkunden und zu verwenden. Mit einer intuitiven Benutzeroberfläche macht LM Studio den Umgang mit fortschrittlichen Sprachmodellen auch für Nutzer ohne umfangreiche technische Erfahrung zugänglich. Ein besonderer Vorteil ist die Möglichkeit, kompatible Modelle direkt von Hugging Face herunterzuladen und zu verwalten. Hugging Face ist DIE Plattform für Open Source KI Modelle aber auch Datensätze und vieles mehr.
Ein herausragendes Feature von LM Studio ist die Unterstützung von Multimodal-Modellen wie Lava, die nicht nur Text, sondern auch Bilder verarbeiten können. Dies eröffnet völlig neue Möglichkeiten für die Analyse und Beschreibung von visuellen Inhalten.
GPT4All verfolgt einen ähnlichen Ansatz und ermöglicht es, Sprachmodelle auf handelsüblicher Hardware laufen zu lassen. Mit Unterstützung für Mac M-Series-Chips, AMD- und NVIDIA-GPUs bietet GPT4All eine breite Kompatibilität. Ein besonderer Fokus liegt hier auf Datenschutz und Sicherheit – alle Berechnungen finden lokal statt, ohne dass sensible Daten das Gerät verlassen.
Beide Tools, LM Studio und GPT4All, demokratisieren den Zugang zu KI-Technologien und ermöglichen es Forschern, Entwicklern und Enthusiasten, mit state-of-the-art Sprachmodellen zu experimentieren, ohne auf externe Cloud-Dienste angewiesen zu sein.
KI-gestützte Bildgenerierung mit Forge
Während wir uns bisher auf Sprachmodelle konzentriert haben, gibt es auch im Bereich der Bildgenerierung ständig neue Entwicklungen für lokale Anwendungen. Ein bemerkenswertes Tool in diesem Kontext ist Forge, eine Schnittstelle für die Erstellung von Bildern mit Stable Diffusion. Neben ComfiUI bietet Forge ebenfalls die Integration des aktuell besten, freien Bild Modells namens FLUX.
Forge baut auf der bekannten Automatic1111-Schnittstelle auf und bietet zahlreiche Verbesserungen und Erweiterungen. Besonders hervorzuheben sind die deutlichen Geschwindigkeitssteigerungen bei der Bildgenerierung im Vergleich zu Automatic1111. Für fortgeschrittene Nutzer bietet Forge eine Reihe von erweiterten Funktionen, wie beispielsweise:
-
IP Adapter mit Masking: Ermöglicht die Kombination und Maskierung von zwei Eingabebildern.
-
Neue Sampler: Darunter DDPM, DPM++ 2M Turbo und LCM Karras für verbesserte Bildqualität und Geschwindigkeit.
-
Stable Video Diffusion (SVD): Unterstützung für die Generierung kurzer KI-generierter Videos.
Es ist jedoch wichtig zu beachten, dass Forge kürzlich als experimentelles Interface deklariert wurde. Trotz einer überraschenden Aktualisierung im August 2024 sollten Nutzer vorsichtig sein und im Zweifel auf stabilere Alternativen zurückgreifen. Beispielsweise der Anfänger-freundliche Ansatz von Fooocus.
Textgenerierung mit Oobabooga’s Text Generation WebUI
Ein weiteres spannendes Tool im Bereich der lokalen KI-Anwendungen ist Oobabooga’s Text Generation WebUI. Diese webbasierte Benutzeroberfläche ermöglicht es, verschiedene Backends für Textgenerierung in einer einzigen UI und API zu nutzen. Unterstützt werden unter anderem Transformers, llama.cpp, ExLlamaV2 und AutoGPTQ.
Die Vielseitigkeit und Anpassungsfähigkeit machen Oobabooga zu einem wertvollen Werkzeug für Entwickler und Forscher, die mit verschiedenen Textgenerierungsmodellen experimentieren möchten. Außerdem könnt Ihr mit Hilfe von Erweiterungen auch mit Mikro und Lautsprecher mit Euren Chatbots sprechen. Sehr spannend!
RVC Voice Cloning: Die Zukunft der Stimmsynthese
Apropos „sprechen“! Ein faszinierendes Gebiet der KI-Anwendungen ist das Klonen von Stimmen. RVC (Retrieval-based Voice Conversion) ist eine Technologie, die es ermöglicht, Stimmen zu verändern oder zu imitieren.
RVC nutzt fortschrittliche Stimmanalysetechnologien, um Stimmen zu analysieren und daraus ein Stimmmodell zu generieren. Dieses Modell kann dann für verschiedene Anwendungen genutzt werden, von Text-to-Speech über Stimmveränderung bis hin zu KI-gestützten Gesangscover. Ein solches Modell zu trainieren dauert auf einem Rechner mit oben erwähnter GTX1070 Grafikkarte ungefähr einmalig 2 Tage, danach geschieht die Umwandlung einer aufgenommenen Stimme in die trainierte Stimme in ein paar Sekunden. Ein Computer mit einer RTX4090 Grafikkarte trainiert einen neuen Stimmklon dagegen in ca. 2 Stunden statt 2 Tagen. Größer ist besser.
Die Möglichkeiten sind vielfältig und reichen von der Erstellung von Charakterstimmen für Videospiele bis hin zu personalisierten Sprachassistenten. Allerdings ist es wichtig, die ethischen Implikationen dieser Technologie zu berücksichtigen und verantwortungsvoll damit umzugehen!
Tipps und Tricks für den Einstieg in lokale KI-Tools
1. Beginnt mit einfachen Modellen: Startet mit kleineren Modellen, die weniger Ressourcen benötigen, um sich mit der Funktionsweise vertraut zu machen.
2. Achtet auf die Hardware: Überprüft die Systemanforderungen der Tools und stellt sicher, dass Euer Computer über ausreichend Leistung verfügt. Siehe meine Beispiele oben.
3. Experimentieren ist essentiell! Probiert verschiedene Einstellungen und Modelle aus, um ein Gefühl für die Möglichkeiten und Grenzen von KI Hands-On zu bekommen.
4. Bleibt auf dem Laufenden: Die KI-Landschaft entwickelt sich schnell. Verfolgt Foren und Entwickler-Communities, um über neue Funktionen und Updates informiert zu bleiben.
5. Beachtet den Datenschutz: Auch wenn die Verarbeitung lokal erfolgt, geht verantwortungsvoll mit Euren sensiblen Daten um.
Top Links
-
LM Studio: Eine benutzerfreundliche Anwendung zum Entdecken, Herunterladen und Ausführen lokaler LLMs.
-
Studie zur Effizienz von lokalen LLMs: Eine aktuelle Untersuchung zur Leistungsfähigkeit und Effizienz von lokal ausgeführten Sprachmodellen.
-
RVC Voice Changer Anwendungsbeispiel: Ein praktischer Anwendungsfall für RVC-Technologie in der Echtzeitstimmveränderung.
Zum Abschluss möchte ich euch ein Zitat des Futuristen Alvin Toffler mit auf den Weg geben:
„Die Analphabeten des 21. Jahrhunderts werden nicht diejenigen sein, die nicht lesen und schreiben können, sondern diejenigen, die nicht lernen, verlernen und umlernen können.“
In diesem Sinne möchte ich Euch dazu ermutigen weiter zu lernen und mit den faszinierenden Möglichkeiten lokaler KI-Tools zu experimentieren.
Ich freue mich wie immer auf eure Kommentare und Erfahrungen. Habt ihr schon mit einem dieser Tools gearbeitet? Welche Ergebnisse konntet ihr erzielen? Lasst es uns in den Kommentaren wissen und voneinander lernen!
Bis zum nächsten Mal, bleibt neugierig und experimentierfreudig!
Euer Arno
Discover – install – start doing: the fascination of „local (gen)AI“
Dear curious, creative, explorers,
Welcome to a new issue of the AI logbook!
In the recent past, I have familiarised colleagues with a wide variety of (gen)AI tools as part of internal Deutsche Telekom training events. These training events are usually designed, organised and carried out by employees of the organisation themselves. Yes, of course we also bring in expertise from „outside“. However, the approach of internal colleagues passing on their own knowledge and allowing everyone to benefit from it is far more motivating and intrinsically fulfilling – at least that’s what I say, having been able to use these formats on several occasions. In addition, internally organised sessions benefit from the specific expertise of colleagues that external contributions would not be able to match. Shakil Awan, for example, organises regular „LEX Sessions“ for internal training – and not just on AI topics. Deutsche Telekom’s service division organises regular „Magenta Curriculum“ events, mostly online, also not exclusively on the topic of (gen)AI. After a long time, Stefan Dörken has passed the baton on to Nils Matkowski. And then there is the „AI4Coding“ area, our „AI Guild“, started by Kathrin Rißmann, Promptathons with Sindy Leffler-Krebs, AI Insights with Matteo Möller and so so many more.
With such busy AI activities, I thought it would be interesting to describe a few of the tools that I present in such sessions in more detail here in a slightly larger group. For the professionals among you, there is probably nothing new in this newsletter. But if you’re looking for an introduction to local AI, you might find a few useful tips here.
So let’s take a look at how artificial intelligence can be utilised directly on our own devices. Why is that? Because hands-on learning is still the surest way to success. Not me, but Xunzi (Xun Kuang), a Confucian philosopher from the third century BC:
Not having heard of something is not as good as having heard of it. To have heard of it is not as good as having seen it. To have seen it is not as good as knowing it. Knowing it is not as good as putting it into practice.
Local (gene) AI enables you to do things yourself without worrying about data loss. So let’s see how this looks and works in detail.
Attention: it’s all about the right hardware!
Before we install our own AI applications on our computers, one thing should be said: you need a computer with at least average performance to be able to load and test AI models – unfortunately, the Medion 230 Euro laptop won’t cut it. Personally, I would recommend at least the following core equipment:
-
up-to-date motherboard
-
2TB SSD as C:\ disk
-
more than 10 TB normal hard drive for AI-generated data
-
Very important: at least one NVIDIA GTX 1070 graphics card with 8 GB VRAM
You should therefore be well equipped to implement mediocre AI tasks on your own computer. Of course, you can also go bigger, better and, above all, more expensive. With an NVIDIA RTX 4090 graphics card, for example. This also has 24GB of VRAM instead of 8GB. The larger the VRAM memory, the larger the models that can be loaded and executed directly in its memory. You can also use your own CPU, but it is extremely slow compared to the graphics chips from NVIDIA.
Ok, as soon as your computer fulfils the minimum requirements, you can continue.
Local AI models with LM Studio and GPT4All
The development of large language models (LLMs) has moved in two directions in recent years. On the one hand, the models are becoming ever more compact and powerful thanks to newer methods. On the other hand, the hardware on which these models run is becoming ever more powerful (and cheaper). Only the really big AI models are still located in the cloud. However, the options for running powerful AI models locally on your own computer are becoming increasingly numerous and relevant. Two particular tools in this area are „LM Studio“ and „GPT4All„.
LM Studio is a cross-platform desktop application that allows users to explore and use LLMs directly on their computer. With an intuitive user interface, LM Studio makes the use of advanced language models accessible to users without extensive technical experience. A particular advantage is the ability to download and manage compatible models directly from Hugging Face. Hugging Face is THE platform for open source AI models as well as data sets and much more.
An outstanding feature of LM Studio is the support of multimodal models such as Lava, which can process not only text but also images. This opens up completely new possibilities for analysing and describing visual content.
GPT4All follows a similar approach and makes it possible to run language models on standard hardware. With support for Mac M-Series chips, AMD and NVIDIA GPUs, GPT4All offers broad compatibility. A particular focus here is on data protection and security – all calculations take place locally without sensitive data leaving the device.
Both tools, LM Studio and GPT4All, democratise access to AI technologies and enable researchers, developers and enthusiasts to experiment with state-of-the-art language models without having to rely on external cloud services.
AI-powered image generation with Forge
While we have focussed on language models so far, there are also constantly new developments in the area of image generation for local applications. One notable tool in this context is Forge, an interface for creating images with Stable Diffusion. In addition to ComfyUI, Forge also offers the integration of the currently best free image model called FLUX.
Forge is based on the well-known Automatic1111 interface and offers numerous improvements and enhancements. Particularly noteworthy are the significant speed increases in image generation compared to Automatic1111. For advanced users, Forge offers a range of extended functions, such as
-
IP Adapter with Masking: Enables the combination and masking of two input images.
-
New samplers: Including DDPM, DPM++ 2M Turbo and LCM Karras for improved image quality and speed.
-
Stable Video Diffusion (SVD): Support for the generation of short AI-generated videos.
However, it is important to note that Forge was recently declared as an experimental interface. Despite a surprise update in August 2024, users should be cautious and use more stable alternatives when in doubt. For example, the beginner-friendly approach of Fooocus.
Text generation with Oobabooga’s Text Generation WebUI
Another exciting tool in the field of local AI applications is Oobabooga’s Text Generation WebUI. This web-based user interface makes it possible to use various backends for text generation in a single UI and API. Supported backends include Transformers, llama.cpp, ExLlamaV2 and AutoGPTQ.
The versatility and customisability make Oobabooga a valuable tool for developers and researchers who want to experiment with different text generation models. You can also use extensions to talk to your chatbots with a microphone and loudspeaker. Very exciting!
RVC Voice Cloning: The future of voice synthesis
Speaking of „speaking“! Voice cloning is a fascinating area of AI applications. RVC (Retrieval-based Voice Conversion) is a technology that makes it possible to change or imitate voices.
RVC uses advanced voice analysis technologies to analyse voices and generate a voice model. This model can then be used for various applications, from text-to-speech to voice modification and AI-supported vocal covers. Training such a model on a computer with the above-mentioned GTX1070 graphics card takes about 2 days once, after which the conversion of a recorded voice into the trained voice takes a few seconds. A computer with an RTX4090 graphics card, on the other hand, trains a new voice clone in about 2 hours instead of 2 days. Bigger is better.
The possibilities are many and varied, ranging from the creation of character voices for video games to personalised voice assistants. However, it is important to consider the ethical implications of this technology and use it responsibly!
Tips and tricks for getting started with local AI tools
-
start with simple models: Start with smaller models that require fewer resources to familiarise yourself with how they work.
-
pay attention to the hardware: check the system requirements of the tools and make sure that your computer has enough power. See my examples above.
-
experimentation is essential! Try out different settings and models to get a feel for the possibilities and limitations of AI Hands-On.
-
stay up to date: The AI landscape is evolving fast. Follow forums and developer communities to stay informed about new features and updates.
-
pay attention to data protection: Even if the processing takes place locally, handle your sensitive data responsibly.
Top Links
-
LM Studio: A user-friendly application for discovering, downloading and executing local LLMs.
-
Study on the efficiency of local LLMs: A recent study on the performance and efficiency of locally executed voice models.
-
RVC Voice Changer use case: A practical use case for RVC technology in real-time voice change.
Finally, I would like to leave you with a quote from the futurist Alvin Toffler:
„The illiterate of the 21st century will not be those who cannot read and write, but those who cannot learn, unlearn and relearn.“
With this in mind, I would like to encourage you to continue learning and experimenting with the fascinating possibilities of local AI tools.
As always, I look forward to your comments and experiences. Have you already worked with one of these tools? What results have you achieved? Let us know in the comments and learn from each other!
Until next time, stay curious and keen to experiment!
Yours Arno