Die Herausforderung
Ein wachsendes Logistik-Netzwerk mit unvorhersehbarer Nachfrage. Die bestehende Forecasting-Pipeline lief im Batch-Modus über Nacht — zu spät, zu grob und blind für jede saisonale oder regionale Verschiebung. Disponenten reagierten auf gestern, während heute schon entschieden wurde.
Der Ansatz
Wir haben eine echtzeitfähige Inferenz-Plattform entworfen: eine Streaming-Pipeline mit Kafka, GPU-Inferenz auf Kubernetes und einer mandantenfähigen API in Python. Die Modelle wurden in PyTorch trainiert und live nachjustiert — keine wöchentlichen Retraining-Zyklen mehr, sondern kontinuierliches Lernen aus jeder neuen Sendung.
Der Schwerpunkt lag nicht auf der grössten Model-Card, sondern auf operativer Verlässlichkeit: Versionierung, Rollback-Sicherheit, Mandantenisolation und Observability bis auf Request-Ebene.
Das Ergebnis
18 % bessere Prognosegenauigkeit gegenüber dem alten System. Sub-200ms Latenz für 99 % aller Vorhersagen. Disposition entscheidet jetzt im Moment — nicht am nächsten Morgen.
Stack
- Python
- FastAPI
- PyTorch
- Kafka
- Kubernetes
- PostgreSQL