Die Herausforderung
Distributed Tracing war seit Jahren ein Versprechen, das in der Praxis am Volumen scheiterte. Teams sammelten Milliarden Spans, konnten sie aber nicht in vernünftiger Zeit durchsuchen. Die kommerziellen Lösungen waren teuer, langsam — oder beides.
Der Ansatz
Wir haben das Problem an der Wurzel angegangen: ein in Rust geschriebener Ingest-Layer auf Tokio, eine spaltenorientierte Speicherung in ClickHouse und ein OpenTelemetry-natives Wire-Format. Live-Updates über WebSockets statt Polling. Keine Magie, nur konsequente Engineering-Entscheidungen.
Das Toolkit ist als Open Source veröffentlicht — nicht als Marketing-Geste, sondern weil Observability-Tooling auditierbar sein muss.
Das Ergebnis
Eingesetzt von Plattform-Teams in über 40 Firmen. P99-Query-Latenz unter 800 ms auf 100 TB Trace-Daten. Eine Community, die das Projekt selbst weitertreibt.
Stack
- Rust
- Tokio
- ClickHouse
- OpenTelemetry
- WebSocket