Leitprinzipien

Bevor wir in die Tools einsteigen, vier Prinzipien für die Auswahl:

  • Open Source: Keine Vendor-Abhängigkeit. Der Code gehört Ihnen.
  • Lokal deploybar: Daten verlassen Ihr Unternehmen nicht.
  • Deterministisch: Reproduzierbare Ergebnisse bei gleichen Eingaben.
  • CO₂-optimiert: Klassische Algorithmen wo möglich, KI nur wo nötig.

Stack nach Stufe

Stufe 3: Ontologie + Graph

Neo4j Community Edition - Graph-Datenbank (Open Source)

Speichert Daten und ihre Beziehungen als Graph. Ideal für Requirements Traceability, Impact-Analysen und vernetzte Daten.

  • Native Graph-Speicherung mit Cypher Query Language
  • ACID-transaktional, horizontal skalierbar
  • Community Edition vollständig kostenlos

Use Case: “Welche Requirements sind von Änderung X betroffen?” - Graph-Traversierung in Millisekunden.

PuppyGraph - Alternative für bestehende Data Lakes

Läuft direkt auf Parquet, Delta Lake, PostgreSQL. Zero-ETL Graph Analytics ohne Datenmigration.

Stufe 4: Logische Regeln

SHACL (W3C Standard) - Validierung

Definiert Geschäftsregeln als ausführbare Constraints. 100% deterministisch - keine Black Box.

  • W3C-Standard für RDF-Validierung
  • Deklarative Regelsprache, vollständig nachvollziehbar
  • Integration in CI/CD möglich

Use Case: “Jedes Requirement muss einen Verantwortlichen haben” - Validierung bei jedem Commit.

Datalog in Neo4j - Regelbasierte Inferenz

Prolog-ähnliche Regeln direkt in der Graph-Datenbank. Rekursive Abfragen, Compliance-Checks.

Stufe 5: Quantifizierbare Scores ★

I-Score / K-Score (AAAI 2023)

Informationstheoretische Messung der KG-Qualität. Objektive Scores statt Bauchgefühl.

  • I-Score: Informationsgehalt pro Knoten
  • K-Score: Konnektivität und Vollständigkeit
  • Trend-Tracking über Zeit

Use Case: “Unser Requirements-Graph hat I-Score 0.73 - letzten Monat 0.68” - objektive Fortschrittsmessung.

TigerGraph Vector-Scoring - Hybrides Graph + Vector

Vektoren als Attribute auf Graph-Knoten. Kombiniert semantische Ähnlichkeit mit struktureller Analyse.

Stufe 6-7: Prediction & Feedback

TigerGraph GNNs - Graph Neural Networks

Prädiktive Analytics auf Graph-Strukturen. Sub-second Queries auf Millionen Knoten.

Use Case: “Warnung: Lieferant X hat 73% Ausfallrisiko in 4 Wochen”

PowerDrill Agents - Self-Improving

Agenten, die aus Nutzer-Feedback lernen. RLHF, autonome Experimente.

Pattern Detection Pipeline (4-Layer-Architektur)

Für kontinuierliche Optimierung:

  • Lexical: Regel-basiert (Keywords, Frustrations-Marker)
  • Semantic: Embedding-Ähnlichkeit
  • Temporal: Sequenz-Matching über Interaktionen
  • Composite: Gewichtete Kombination (40/30/30)

Performance: <100ms Detection Latency

LLM-Integration (wo nötig)

Ollama - Lokale LLMs

Wenn KI benötigt wird: Llama 3.1 8B, Mistral 7B lokal. Keine API-Kosten, Daten bleiben im Haus.

  • Läuft auf Consumer-Hardware (M1/M2/M3 Mac, RTX 3060+)
  • 100% Air-Gapped möglich

MCP Server (Anthropic)

Standardisiertes Protokoll für strukturierte KI-Interaktion. Tool-Integration, Guardrails gegen Halluzinationen.

Use Case: LLM erhält strukturierten Zugriff auf Neo4j-Graph - nur über definierte Tools.

Kostenvergleich: Cloud vs. Lokal

Cloud API (pro Jahr)Lokal (einmalig)
Jahr 1€1.800 - 18.000€2.000 - 5.000
Jahr 2+€1.800 - 18.000~€500 (Wartung)
3-Jahres-TCO€5.400 - 54.000€3.000 - 6.000

Break-even: Typischerweise nach 6-12 Monaten.

Warum nicht Cloud?

Cloud-Dienste haben Berechtigung, aber für kritische Prozesse:

  • Laufende Kosten: API-Gebühren skalieren mit Nutzung
  • Datenschutz: Daten verlassen das Unternehmen
  • Abhängigkeit: Preiserhöhungen außer Kontrolle
  • Verfügbarkeit: Abhängig von Internet und Provider

Mehr Details: Technischer Stack - die vollständige Analyse

Vorheriger Artikel: Markt & Trends - Google, Palantir & Co

Die gesamte Serie: Mein Ansatz - 7+ Stufen zur Datenreife

Fragen? Gespräch vereinbaren