
Eigene lokale Large Language Models fürs Wissensmanagement: Ein Erfahrungsbericht und Leitfaden für KMU
Heute mal ein sehr langer Blogbeitrag, aber ich verspreche, diesen zu lesen lohnt sich.
In meinen Beratungen im Zukunftszentrum KI NRW stoße ich (Marco Fries) immer wieder auf eine Frage, die viele Unternehmen umtreibt:
„Wir möchten ein Large Language Model nutzen! Lokal, sicher und genau auf unsere Bedürfnisse zugeschnitten! Aber wie kriegen wir das technisch und organisatorisch so hin, dass es unser Wissensmanagement wirklich verbessert?“
Warum ist Wissensmanagement überhaupt so wichtig? In fast jedem Unternehmen steckt das entscheidende Know-how nicht nur in Prozessen oder IT-Systemen, sondern in den Köpfen der Mitarbeitenden und in verstreuten Dokumenten, Präsentationen oder E-Mails. Wird dieses Wissen nicht strukturiert zugänglich gemacht, führt das zu Doppelarbeit, langen Suchzeiten, unklaren Verantwortlichkeiten und letztlich auch zu Frust. Besonders in Zeiten von Fachkräftemangel und hoher Fluktuation ist es entscheidend, dass Wissen nicht verloren geht, sondern transparent und nutzbar bleibt.
Bevor wir in das „Wie“ gehen, lohnt sich ein Blick auf die typischen Schmerzpunkte, die lokale Lösungen adressieren:
- Datensicherheit & Compliance: Unternehmensinternes Wissen, Mitarbeiter:innendaten, Projektdokumente, besonders in regulierten Branchen darf das nicht unkontrolliert in die Cloud gelangen.
- Latenz & Kontrolle: Wer lokal hostet, kann schneller reagieren, Anpassungen vornehmen, Modelle aktualisieren und sogar offline arbeiten.
- Kosten langfristig im Blick: Cloud-Modelle sind komfortabel, aber bei vielen Anfragen, großer Dokumentenzahl oder hohen Anforderungen an Datenschutz und Skalierung oft teuer. Lokale Lösungen bieten hier klare Skaleneffekte, wenn die Hardware vorhanden ist.
Hier kommen moderne Large Language Models ins Spiel:
- Sie ermöglichen es, Informationen über natürliche Sprache abzufragen, Mitarbeitende müssen nicht mehr in zig Ordnern oder Tools suchen.
- Sie können heterogene Wissensquellen (Dokumente, Handbücher, interne FAQs, E-Mails, Projektberichte) in einem einheitlichen Zugriff zusammenführen.
- Sie unterstützen unterschiedliche Abteilungen unterschiedlich:
- HR beschleunigt Onboarding und beantwortet Standardfragen automatisch.
- Marketing generiert schnell Ideen, Texte oder sogar Visuals auf Basis des vorhandenen Wissens.
- IT profitiert von Dokumentation und Support-Wissen, das durchsuchbar und kontextsensitiv wird.

Damit schaffen LLM-basierte Lösungen zwei zentrale Vorteile: Sie entlasten Mitarbeitende im Alltag und sie sorgen dafür, dass wertvolles Wissen im Unternehmen bewahrt und besser genutzt wird.
Genau an dieser Schnittstelle setzt dieser Leitfaden an: Er zeigt, wie Sie mit Open-Source-Tools ein eigenes KI-Setup aufbauen können – von den ersten Schritten mit leichtgewichtigen Systemen bis hin zu komplexeren Lösungen mit multimodalen Funktionen wie Sprach- oder Bildgenerierung. Wir beleuchten, welche Varianten es gibt, welche Chancen sie bieten und welche Stolpersteine Sie vermeiden sollten. So können Sie am Ende eine fundierte Entscheidung treffen, welcher Weg für Ihr Unternehmen passt – egal ob Sie in der IT, im HR-Bereich oder im Marketing sitzen.
Halt, Stopp – wo bekomme ich die Modelle überhaupt her?
Bevor wir uns in die technischen Details stürzen, kommt oft die wichtigste Frage:
„Wo bekomme ich eigentlich die Modelle her, die ich nutzen will?“
Die gute Nachricht: Es gibt inzwischen eine riesige Auswahl an Open-Source-Modellen, die frei verfügbar und für unterschiedliche Zwecke optimiert sind. Der zentrale Anlaufpunkt ist die Plattform Hugging Face. Dort finden Sie Modelle in allen Varianten und Größen, von kompakten Sprachmodellen für Chatbots bis hin zu spezialisierten Anwendungen wie Bildanalyse, Texterkennung (Optical Character Recognition – OCR), oder Modelle speziell für Storytelling.
Einige Beispiele:
- Chat-Modelle wie Qwen-3, Mistral oder LLaMA-Ableger, die sich für interne Assistenten oder Wissensmanagement eignen.
- Bildmodelle wie Stable Diffusion, die Bilder aus Text generieren oder bestehende Visuals bearbeiten können.
- OCR-Modelle, die aus eingescannten Dokumenten oder Rechnungen Text extrahieren, nützlich für Buchhaltung, Compliance oder Dokumentenmanagement.
Die meisten dieser Modelle stehen in verschiedenen Formaten und Größen zur Verfügung, je nachdem, ob Sie eher eine leichte, schnelle Variante oder ein besonders leistungsfähiges Modell einsetzen wollen. Viele lassen sich zudem quantisieren, sodass sie auch auf kleinerer Hardware laufen. Aber genug vom Fachjargon.
Kurz gesagt: Auf Hugging Face finden Sie den Baukasten, aus dem Sie genau die Modelle auswählen können, die zu Ihrem Anwendungsfall passen. Die gute Nachricht für Nicht-Techies: Ihre IT weiß, wie man die Modelle herunterlädt und in das gewünschte Setup (z.B. Ollama, LocalAI, AnythingLLM) integriert. Somit, weiter im Text.
Zwei erprobte Szenarien: Aufbau und Komponenten
Nachdem wir nun die Grundlagen, Vorteile und Herausforderungen beleuchtet haben, möchte ich zwei konkrete Szenarien vorstellen, wie Unternehmen mit lokal gehosteten LLM-Lösungen starten können. Beide Varianten laufen zentral auf einem Server im Unternehmen, sind über den Browser zugänglich und setzen auf Benutzer:innenkonten, sodass jede:r Mitarbeitende eigene Chats führen und verwalten kann.
- Szenario A beschreibt eine leichte und schnelle Einstiegslösung: Ein Chat-Interface, das mit einem leistungsfähigen LLM läuft und zusätzlich einen einfachen Dokumenten-Upload für Wissensfragen ermöglicht. Ideal für den schnellen Start, geringe Einstiegshürden und erste Pilotprojekte.
- Szenario B geht einen Schritt weiter und integriert RAG (Retrieval-Augmented Generation) sowie multimodale Funktionen wie Bild- und Audio-Generierung. Damit wird die Lösung vielseitiger und kann von mehreren Abteilungen, etwa HR, Marketing und IT parallel genutzt werden.
Im Folgenden zeige ich Ihnen beide Varianten im Detail, mit ihren typischen Einsatzmöglichkeiten, Vorteilen und Anforderungen.
Szenario A: Ollama + Open WebUI – schneller Einstieg
Dieses Setup ist die leichtgewichtige Einstiegsvariante: Mitarbeitende greifen einfach über den Browser auf ein Chat-Interface zu und können dort Fragen stellen – nicht nur allgemeiner Natur, sondern auch zu hochgeladenen Unternehmensdokumenten. So lassen sich FAQs, interne Anleitungen oder Projektdokumentationen in einem zentralen KI-gestützten Chat nutzbar machen. Das Ganze läuft auf einem Server im Unternehmen und ist damit vollständig unter Ihrer Kontrolle.
Komponenten
- Ollama als „Motor“ im Hintergrund, der das Sprachmodell berechnet
- Open WebUI als moderne, nutzerfreundliche Oberfläche im Browser: Chats führen, Modelle auswählen, Dokumente verwalten
- Ein Server mit Linux-System (Ubuntu oder Debian LTS sind ideal) als Plattform
- Ein Dokumentenbestand, z. B. PDFs, Wiki-Seiten oder Office-Dateien, die Sie einbinden möchten

Hardware – was ist sinnvoll?
Für kleine Tests genügt schon ein Server mit einer soliden GPU (z. B. eine NVIDIA 5070ti mit 16 GB Speicher, geeignet für Modelle bis ca. 20B Parameter). Wer mehr Power möchte, kann auf eine NVIDIA RTX 5090 setzen – mit 32 GB VRAM lassen sich auch sehr große Modelle (bis ~70B) stabil betreiben.
Wichtig sind außerdem:
- RAM: 32–64 GB für flüssige Abläufe.
- Speicherplatz: schnelle SSDs (ab 1 TB), damit Dokumente und Modelle ohne Wartezeit verarbeitet werden.
- CPU: ein Mehrkernprozessor, der Hintergrundaufgaben übernimmt.
Kosten? Die sind noch recht überschaubar. Als Gaming-PC kosten die Komponenten als Setup circa 2000€.
Software & Installation – keine Panik!
Die Basis bildet ein Linux-Server. Dort werden Ollama und Open WebUI installiert. Am einfachsten funktioniert das mit Docker-Containern – so ist alles sauber gekapselt, Updates gehen leichter, und die IT spart Nerven. Und keine Sorge: „Docker-Container“ klingt für Nicht-Techies komplizierter, als es ist. Ihre IT-Abteilung weiß, was zu tun ist.
Praxisbeispiel: HR-Onboarding
Die HR-Abteilung lädt das aktuelle Onboarding-Handbuch und die internen Richtlinien ins System. Neue Mitarbeitende können nun direkt in einem Chat Fragen stellen wie:
- „Wie beantrage ich Urlaub?“
- „Welche Ansprechpartner gibt es im IT-Support?“
- „Wo finde ich das Formular für die Reisekostenabrechnung?“
Statt HR-Mitarbeitende mit Routinefragen zu blockieren, beantwortet das System die Anfragen rund um die Uhr, präzise und konsistent. HR spart Zeit, und neue Mitarbeitende fühlen sich besser unterstützt.
Vorteile & Nachteile auf einen Blick
Vorteile:
- Schneller Einstieg mit überschaubarem Aufwand
- Läuft komplett intern, volle Datenkontrolle
- Flexibel: verschiedene Modelle lassen sich ausprobieren und anpassen
Nachteile:
- Anschaffung der Hardware kostet (vor allem GPUs)
- Betrieb und Wartung liegen in Ihrer Verantwortung (Updates, Sicherheit)
- Bei sehr großen Dokumentenmengen oder langen Kontexten stößt das System schneller an Grenzen
- IT-Kompetenz ist gefragt, ggf. mit externer Unterstützung
Weitere Infos und Downloads
Szenario B: AnythingLLM + LocalAI / LM Studio – erweitertes Setup
Wenn Sie über den einfachen Chat hinausgehen wollen, ist dieses Setup die richtige Wahl. Neben Text können auch Bilder und Audio verarbeitet und generiert werden. Damit wird das System vielseitiger: HR, Marketing und IT nutzen ein gemeinsames Fundament, aber jede Abteilung hat ihre eigenen Workspaces (Wissenspeicher) und Rechte.
Welche zusätzlichen Funktionen möglich sind?
- Mehrmodale Fähigkeiten: Kombination von Text, Bild und Audio.
- Bildgenerierung: Mit LocalAI lassen sich Bildmodelle (z. B. Stable Diffusion) einbinden, um Visuals oder Illustrationen zu erzeugen. Gerade das Marketing profitiert hiervon, Social Media Postings, Layoutideen oder Bildvarianten lassen sich schnell erstellen.
- Audio & Sprache: Text-to-Speech und Speech-to-Text erweitern die Nutzung, z. B. für Audio-Feedback oder für barrierefreie Kommunikation.
- RAG (Retrieval-Augmented Generation): Dokumente werden als Wissensbasis eingebunden und durchsucht, sodass das Modell nicht nur „halluziniert“, sondern echte Informationen aus Unternehmensdaten liefert.

Hardware – was ist sinnvoll?
Dieses Setup braucht spürbar mehr Power, da Bild- und Audio-Generierung deutlich rechenintensiver sind als Text allein.
- GPU: Eine RTX 5090 ist hier fast Pflicht, wenn mehrere Nutzende gleichzeitig Text- und Bildgenerierung nutzen. Wer skalieren will, sollte sogar zwei GPUs oder Server mit Multi-GPU-Setup einplanen.
- RAM: 64–128 GB, damit auch parallele Prozesse stabil laufen.
- Speicherplatz: NVMe SSDs mit hoher Geschwindigkeit, getrennte Datenträger für Modelle und Nutzerdaten empfohlen.
Kosten? Höher als in Variante A. Mit einer Karte liegen wir bei circa 4000€. Mit einer zweiten sind wir schon bei 5500€. Wenn auf Bild und Audiogenerierung verzichtet wird, dann kann das Hardwaresetup aus Szenario A ebenfalls genutzt werden.
Software & Struktur
- Backend-Engine (LocalAI oder LM Studio) läuft als Docker-Container und hält die Modelle (Text, Embedding, Bild).
- AnythingLLM dient als zentrale Oberfläche: Workspaces, Benutzerverwaltung, Dokumentenindexierung.
- Multimodale Komponenten: Stable Diffusion (oder vergleichbare Bildgeneratoren), Text-to-Speech, Speech-to-Text.
- RAG: Unternehmensdokumente werden eingebunden, durchsucht und im Chat verfügbar gemacht.
- Benutzeroberfläche: Mitarbeitende greifen über Browser zu, haben eigene Accounts und getrennte Chats.
Praxisbeispiel: Marketing & HR arbeiten Hand in Hand
Das HR nutzt das System, um Richtlinien und Onboarding-Dokumente bereitzustellen. Neue Mitarbeitende fragen direkt im Chat: „Wie läuft die Reisekostenabrechnung?“ und bekommen sofort eine korrekte Antwort. Gleichzeitig erstellt das Marketing-Team mit der integrierten Bildgenerierung Social Media Visuals: „Erzeuge ein modernes LinkedIn-Banner mit unserem Logo in Blau-Grün“. Erste Vorschläge liegen nach Sekunden vor – ohne dass externe Tools oder Agenturen bemüht werden müssen.
Vorteile & Nachteile
Vorteile
- Sehr vielseitig: Text, Bilder, Audio, RAG, alles integriert
- Abteilungen arbeiten parallel in getrennten Workspaces
- Mehrwert besonders für Marketing & Kommunikation (Bild- und Textideen)
- Volle Datenkontrolle, da lokal gehostet
Nachteile
- Höhere Hardwarekosten (eine RTX 5090 oder Multi-GPU nahezu Pflicht)
- Komplexeres Setup, mehr Komponenten
- Schulung der Nutzer:innen nötig, damit Funktionen optimal eingesetzt werden
- IT muss mehr Verantwortung übernehmen (Monitoring, Sicherheit, Backups)
Weitere Infos und Downloads
Web Oberfläche:
KI Provider:
Szenario A vs. Szenario B – Vergleich im Überblick
| Kriterium | Szenario A (Ollama + Open WebUI) | Szenario B (AnythingLLM + LocalAI/LM Studio) |
| Funktionsumfang | Textchat + einfache Dokumentenabfragen | Text, Bilder, Audio, RAG, Agentenfunktionen |
| Hardwarebedarf | Mittel (5070ti reicht für 20B Modelle) | Hoch (5090 oder mehrere GPUs für Bild/Audio nötig) |
| Einstiegshürde | Niedrig – schnell aufgesetzt | Höher – komplexere Architektur, mehrere Komponenten |
| Abteilungen | HR, IT, Basis-Wissensmanagement | HR, Marketing, IT, Kommunikation, Produktentwicklung |
| Kosten | Geringer – gute Lösung für Pilotprojekte | Höher – Hardware, Energie, Wartung |
| Skalierbarkeit | Gut für kleine Teams & Pilotprojekte | Sehr gut für mehrere Abteilungen & größere Firmen |
| Datenschutz | Volle Datenkontrolle | Volle Datenkontrolle |
| Usability | Sehr einfach, klarer Fokus auf Chat | Mehr Möglichkeiten, dafür mehr Einarbeitung nötig |
Empfehlung: Welches Szenario passt zu Ihrem Unternehmen?
Beide Szenarien haben ihre Berechtigung – die Wahl hängt stark davon ab, wo Ihr Unternehmen aktuell steht und welche Ziele Sie verfolgen.
Wann passt was?
Szenario A (Ollama + Open WebUI)?
- Wenn Sie schnell starten möchten und erste praktische Erfahrungen mit LLMs im Unternehmen sammeln wollen
- Wenn Ihr Fokus auf Textchat und einfachen Dokumentenabfragen liegt, etwa für HR-FAQs, interne Richtlinien oder Projektberichte
- Wenn Sie ein überschaubares Budget haben und Hardwarekosten zunächst gering halten möchten
- Ideal für Pilotprojekte, kleinere Teams oder Unternehmen, die Schritt für Schritt vorgehen wollen
Szenario A ist die „leichte Einstiegslösung“: schlank, nutzerfreundlich, kostengünstiger und perfekt, um erste Akzeptanz im Unternehmen aufzubauen.
Szenario B (AnythingLLM + LocalAI/LM Studio)?
- Wenn Sie mehr Abteilungen gleichzeitig einbinden wollen (z. B. HR, Marketing, IT) mit unterschiedlichen Anforderungen an Modelle
- Wenn Sie neben Text auch Bild- und Audio-Funktionen brauchen, z. B. für Social Media, interne Kommunikation oder barrierefreie Inhalte
- Wenn RAG (Retrieval-Augmented Generation) für Sie entscheidend ist, also die Fähigkeit, Unternehmenswissen zuverlässig in Antworten einzubeziehen
- Wenn Sie bereit sind, in stärkere Hardware (z. B. RTX 5090 oder Multi-GPU) und ein etwas komplexeres Setup zu investieren
Szenario B ist die „professionelle Vollausstattung“: leistungsstark, vielseitig, skalierbar – aber auch hardwareintensiver und anspruchsvoller in der Pflege.
Fazit:
- Starten Sie mit Szenario A, wenn Sie erste Erfahrungen sammeln, Akzeptanz aufbauen und den Nutzen von LLMs im Alltag testen wollen.
- Wechseln oder erweitern Sie zu Szenario B, wenn mehrere Abteilungen eingebunden werden sollen, Sie Bild/Audio benötigen oder Ihr Unternehmen bereit für eine skalierbare und zukunftssichere Lösung ist.
Und dann? Der nächste Schritt nach Szenario A und B
Mit den beschriebenen Setups (Szenario A und B) haben Sie die Basis geschaffen: ein zentrales System, in dem Mitarbeitende chatten, Dokumente durchsuchen und – je nach Variante – sogar Bilder oder Audio generieren können. Aber damit hört die Reise nicht auf. Im Gegenteil: Jetzt beginnt der spannende Teil, denn auf dieser Grundlage lassen sich die Systeme erweitern und automatisieren. Ein zentraler Ansatzpunkt sind sogenannte Agenten-AI. Dabei wird das Modell nicht mehr nur als „Frage-Antwort-Assistent“ genutzt, sondern es kann selbstständig Aktionen auslösen, basierend auf Ihren Unternehmensprozessen.

Nächster Schritt: Integration mit Automatisierungsplattformen wie n8n oder Node-RED
Damit lassen sich KI-Antworten direkt in Verwaltungsprozesse einbinden.
Beispiel: Eine Mitarbeiterin fragt im Chat:
„Bitte stelle einen Antrag auf Verlängerung meiner Parkkarte.“
Das System erkennt automatisch den Kontext („Antrag“, „Parkkarte“) und leitet die Anfrage über beispielsweise n8n an den passenden Workflow weiter:
- Das Formular wird mit den vorhandenen Mitarbeiter:innendaten automatisch vorausgefüllt.
- Der Antrag wird im internen Dokumentenmanagementsystem abgelegt.
- Die zuständige Abteilung bekommt eine Benachrichtigung per E-Mail oder in Microsoft Teams.
So spart die Verwaltung wertvolle Zeit, Routineaufgaben laufen im Hintergrund, und Mitarbeitende erhalten ihre Genehmigungen schneller und ohne Papierkram.
Damit wächst das LLM von einem Wissens- und Dialogsystem zu einem aktiven Unternehmenshelfer. Es unterstützt nicht nur beim Nachschlagen, sondern übernimmt konkrete Arbeitsschritte, von der Ticket-Erstellung bis zur gemeinsamen Formularausfüllung.
So gelingt der Start mit LLMs im Unternehmen
Der Einstieg in eigene LLM-Lösungen muss kein Mammutprojekt sein. Wichtig ist, klein zu beginnen und schrittweise Erfahrungen zu sammeln. Ein Pilotprojekt mit einem klar abgegrenzten Use Case, etwa HR-Onboarding oder eine FAQ-Lösung, zeigt schnell, welchen Mehrwert die Technologie bringt und wo noch nachjustiert werden muss. Bei der Modellauswahl lohnt es sich, bewusst pragmatisch zu bleiben. Große Modelle beeindrucken zwar, doch oft reichen Modelle im Bereich von 8 bis 13 Milliarden Parametern völlig aus. Bedenken Sie, ein ChatGPT wird es nicht, denn die kleineren Geschwister können da doch weniger, als der große Bruder (Eine Garage voller Grafikkarten ist eben doch etwas teuer). Übrigens, OpenAI hat auch eine OpenSource Version seiner Modelle veröffentlicht und es läuft mit dem hier beschriebenen Setup ganz lokal. Ein ebenso zentraler Erfolgsfaktor ist die Sicherheit. Von Anfang an sollten Netzwerkzugriffe beschränkt, SSL-Verschlüsselung eingerichtet und klare Berechtigungen vergeben werden. Parallel dazu gilt es, Modelle und Versionen aktiv zu verwalten: Wer nutzt welches Modell, wann wurde es aktualisiert und wie wirkt es sich auf Qualität und mögliche Verzerrungen aus? Damit die Lösung tatsächlich angenommen wird, brauchen die Mitarbeitenden einfache Anleitungen. HR, Marketing oder IT profitieren von klaren Beispielen, wie sie Fragen stellen oder Kontext bereitstellen können, etwa: „Hier sind unsere Onboarding-Dokumente“. So wird der Umgang mit der neuen Technologie entlastend statt abschreckend. Auch der Betrieb im Alltag will gut aufgestellt sein. Monitoring und Logging helfen, wichtige Kennzahlen im Blick zu behalten: Anzahl der Anfragen, Speicherauslastung, Häufigkeit von Bild- oder Audiogenerierung und Systemstabilität. Und nicht zuletzt sollten Redundanz und Backups von Beginn an eingeplant werden, ob bei Hosting, Datenbanken oder Mediendateien. So bleibt das System auch bei Störungen verlässlich.
Wer Schritt für Schritt vorgeht, auf Sicherheit achtet und die Nutzer:innen von Anfang an einbindet, schafft die Grundlage dafür, dass LLMs nicht nur technisch funktionieren, sondern auch echten Mehrwert im Arbeitsalltag bieten.
Damit, viel Spaß mit diesem „kleinen“ Erfahrungsbericht. Ich hatte auf jeden Fall viel Spaß dabei, diesen zu schreiben.
Zurück


