diff --git a/content/blog/2024/07/2024-07-19_downtime-bericht/ceph-objekte.png b/content/blog/2024/07/2024-07-19_downtime-bericht/ceph-objekte.png
new file mode 100644
index 0000000000000000000000000000000000000000..6d2f603c151c46123b0897f075ba3eeafc394bf9
Binary files /dev/null and b/content/blog/2024/07/2024-07-19_downtime-bericht/ceph-objekte.png differ
diff --git a/content/blog/2024/07/2024-07-19_downtime-bericht/index.md b/content/blog/2024/07/2024-07-19_downtime-bericht/index.md
new file mode 100644
index 0000000000000000000000000000000000000000..60f1abd56239085572718eabf6370bf6c99a7c80
--- /dev/null
+++ b/content/blog/2024/07/2024-07-19_downtime-bericht/index.md
@@ -0,0 +1,332 @@
++++
+title = "Recovery-Abenteuer und Storage-Optimierung"
+authors = ["nik"]
+
+[extra.depiction]
+image = "rack-sharepic.jpg"
+alt = "Frotnansicht einiger typischer Supermicro-Server in einem Rack"
++++
+
+Vom 12. bis 15. Juli waren unsere Dienste offline. AuslÃ¶ser war ein
+Fehler unseres Ceph-Storage-Clusters, nach dem wir alle Datenbanken
+wiederherstellen mussten.
+
+<!-- more -->
+
+## Kurzer Ãœberblick Ã¼ber unsere Infrastruktur
+
+Teckids betreibt, mit Hilfe eines groÃŸzÃ¼gigen und langjÃ¤hrigen
+Sponsorings der Firma [Speedparner](https://www.speedpartner.de/),
+souverÃ¤ne Infrastruktur in einem Rechenzentrum in DÃ¼sseldorf. Kern
+davon ist ein Cluster aus vier [Proxmox-VE](https://www.proxmox.com/de/proxmox-virtual-environment/uebersicht)-
+Servern, die sowohl den Betrieb der virtuellen Maschinen als auch
+Netzwerk-Storage auf Basis von [Ceph](https://ceph.io/) Ã¼bernehmen.
+
+Die meiste Hardware ist gebraucht oder sehr alt, mit Ausnahme von
+zwei Servern, die wir 2018 und 2019 beim Thomas-Krenn-Award gewonnen
+hatten. Diese sind jedoch nicht sehr leistungsfÃ¤hig.
+
+Das grÃ¶ÃŸte Problem im Betrieb unserer Dienste in den letzten Jahren
+war die mangelhafte Performance des Storage. Zur Einordnung: Ein einfacher
+`apt install` des vim-Editors auf einer VM konnte bis zu 5 Minuten
+dauern. Ursache dafÃ¼r waren vor allem langsame, mechanische Festplatten.
+
+## Ausbau und Optimierung des Storage
+
+Mit dem Finanzabschluss unseres Vereinsjahres 2022/2023 haben wir beschlossen,
+in die teilweise Modernisierung unserer technischen Infrastruktur zu
+investieren und dabei mit dem Austausch alle mechanischen Festplatten durch
+SSDs zu beginnen. FÃ¼r etwas Ã¼ber 2000 â‚¬ haben wir deshalb Anfang Juli
+14 NAS-taugliche SSDs gekauft.
+
+In einem Ceph-Cluster sind die Daten (*Objekte*) in so genannte *Placement Groups*
+organisiert, die wiederum auf *OSDs* verteitl sind. Die OSDs bilden eine
+Hierarchie, die die physische Verteilung der DatentrÃ¤ger wiederspiegelt. Mittels
+der *CRUSH-Map* garantiert Ceph dann eine bestimmte Verteilung, z.B. um VerfÃ¼gbarkeit
+und redundante Kopien sicherzustellen. Wenn sich diese Topologie Ã¤ndert, bspw.
+durch Ausfall eines DatentrÃ¤gers oder das gezielte HinzufÃ¼gen oder Entfernen,
+werden Daten neu verteilt, so dass die gewÃ¼nschten Garantien wiederhergestellt
+werden.
+
+![Verteilung eines Objekts in Ceph](ceph-objekte.png)
+
+FÃ¼r den Umbau unseres Storage mussten also verschiedene Ãœberlegungen angestellt
+werden:
+
+* Wieviele und welche DatentrÃ¤ger kÃ¶nnen gleichzeitig ersetzt werden, so dass
+  zu keiner Zeit zu wenig Speicherplatz vorhanden ist?
+* Wie reduzieren wir die Auswirkungen der Umverteilung (*Rebalancing*) wÃ¤hrend
+  des Umbaus?
+* Wie werden die DatentrÃ¤gern in den Servern veteilt, so dass einigermaÃŸen
+  gleichmÃ¤ÃŸig SPeicherplatz zur VerfÃ¼gung steht?
+
+## Ausfall des Storage
+
+Da auch der Platz fÃ¼r DatentrÃ¤ger in den Servern begrenzt ist, entschieden wir uns,
+zunÃ¤chst den bisher vorhandenen, kleinen SSD-Cache zu deaktivieren. Das wÃºrde zwar
+vorÃ¼bergehend zu noch schlechterer Performance fÃ¼hren, aber dafÃœr die Dauer der
+UmbaumaÃŸnahmen immens reduzieren. Deshalb haben wir als ersten Schritt am Fretiag,
+dem 12. Juli, den Cache vom *witeback*- in den *readproxy*-Modus umgeschaltet. In
+diesem Modus sollten noch im Cache vorhandene Objekte benutzt, jedoch keine neuen
+Objekte mehr gecachet, werden.
+
+In diesem Moment meldeten die ersten VMs Dateisystemfehler und es kam zu Crashes der
+ersten Prozesse. Die tatsÃ¤chliche Ursache hierfÃ¼r konnten wir leider nicht gesichert
+feststellen. Am wahrscheinlichsten ist, dass eine schon lÃ¤nger vorhandene Inkonsistenz
+einiger Objekte im Ceph-Storage durch den Cache bisher verdeckt wurde. In dem Moment,
+in dem der Cache de facto deaktiviert wurde, wurden daher inkonsistente Daten ausgeliefert.
+
+## Erster Wiederanlauf der Dienste und PostgreSQL-Crash
+
+Der erste Wiederanlauf der Dienste wurde direkt nach dem Crash versucht. Die betroffenen
+Dateisysteme wurden mittels `fsck` geprÃ¼ft und repariert und die VMs dann wieder
+regulÃ¤r hochgefahren. In der Folge kam es jedoch erneut zu Fehlern; insbesondere
+der [PostgreSQL](https://postgresql.org/)-Cluster lieÃŸ sich nicht starten.
+
+Eines der Grundprinzipien in Datenbank-Management-Systemen sind nebenlÃ¤ufige
+Transaktionen. Jeder Zugriff auf die Daten einer Datenbank wird in eine so genannte
+*Transaktion* gekapselt. Das Datenbank-Management-System stellt sicher, dass
+das genaue Bild Ã¼ber die Daten innerhalb einer Transaktion konsistent ist.
+Wenn mehrere Clients gleichzeitig zugreifen und Daten verÃ¤ndern, dann darf
+das keinen direkten Einfluss auf andere Clients haben. Dieses und andere Prinzipien
+kann man unter der AbkÃ¼rzung [ACID](https://de.wikipedia.org/wiki/ACID)
+zusammenfassen.
+
+![Transaktionen in PostgreSQL (vereinfacht)](pg-transaktionen.png)
+
+Nach der Korrektur der Dateisystemfehler auf dem System, auf dem unser
+PostgreSQL-Cluster lÃ¤uft, fehlten Informatioen Ã¼ber bereits vergebene
+Transaktions-Nummern und weitere verwandte Informationen. Notwendigerweise
+entschieden wir uns deshalb, den PostgreSQL-Cluster vollstÃ¤ndig aus einem
+Backup wiederherzustellen.
+
+## Restore der PostgreSQL-Datenbanken auf usnerem langsamsten Server
+
+Drei gute Nachrichten vorab: Wir hatten ein Backup des PostgreSQL-Clusters,
+es war aktuell und es lieÃŸ sich wiederherstellen! Was wir zu diesem
+Zeitpunkt noch nicht wussten, war, dass uns eine dieser drei "guten" Nachrichten
+zum VerhÃ¤ngnis werden wÃ¼rde.
+
+ZunÃ¤chst mussten wir uns fÃ¼r eine KompromisslÃ¶sung entscheiden, wie wir die
+immerhin etwa 350 GiB Daten einigermaÃŸen schnell wiederherstellen
+wollten. Dabei gab es einige Eckpunkte zu beachten:
+
+* Das letzte volle Backup des Clusters war fÃ¼nf Tage alt. Alle Daten zwischen
+  dem 7. und dem 12. Juli mussten aus dem *Write Ahead Log* wiederhergestellt
+  werden.
+* Der Storage auf dem Datenbankserver war nach der Deaktivierugn des Caches nun
+  noch langsamer als vorher
+* Der Backup-Server hat mittelmÃ¤ÃŸige Storage-Geschwindigkeiten, aber nur eine
+  Single-Core-CPU mit 2,1 GHz
+* Es stand, unabhÃ¤ngig von dem Restore, ein Upgrade von PostgreSQL 13 auf 16 an
+
+Letztendlich haben wir uns entschieden, folgendermaÃŸen vorzugehen:
+
+1. Restore des Backups auf dem Backup-Server
+2. Initialisierung eines neuen PostgreSQL-16-Clusters auf dem
+   Datenbank-Server
+3. Ãœbertragung der Daten als SQL-Dump in den neuen Cluster
+
+Das Restore des Datenbank-Clusters aus dem Write Ahead Log dauerte etwa 1Â½ Tage.
+Danach startete PostgreSQL erfolgreich und der Zugriff auf alle Datenbanken war
+mit aktuellem Stand mÃ¶glich.
+
+## Inkonsistenzen im Backup und Reparatur
+
+Nachdem der Zugriff auf den Backup-Cluster hergestellt war, konnten wir mit dem
+Ãœbertragen des SQL-Dumps beginnen. Das funktionierte zunÃ¤chst erwartungsgemÃ¤ÃŸ gut,
+mit einer erwarteten Dauer von etwa einem halben Tag.
+
+Leider brach der Prozess beim Ãœbertragen der Datenbank von
+[Synapse](https://element-hq.github.io/synapse/latest/) ab, da auch hier
+korrupte Transaktions-Informationen vorlagen. Ãœberraschenderweise
+zeigte sich im Backup ein Ã¤hnliches Fehlerbild wie auf dem Produktivsystem.
+
+An dieser Stelle wÃ¤re der sichere Weg gewesen, das Restore des Datenbank-Clusters
+zu wiederholen und dabei ein *Point-in-Time-Recovery* zu einem Punkt kurz vor dem
+Auftreten der ersten Dateisystemfehler zu machen. Das hÃ¤tte die verfÃ¼gbare Zeit fÃ¼r
+die Wiederherstellung jedoch massiv Ã¼berschritten, da am Dienstag ein wichtiger
+Entwicklungs-Sprint des [AlekSIS](https://aleksis.org/de/)-Projekts beginnen sollte.
+
+Deshalb haben wir uns stattdessen entschlossen, die betroffenen Tabellen zu identifizieren
+und zu beurteilen, ob die Fehler vernachlÃ¤ssigbar sind. TatsÃ¤chlich waren dann auch
+nur zwei Tabellen betroffen â€“ bei beiden handelte es sich um reine Caching-Tabellen,
+die Public Keys anderer Matrix-Server cachen. Diese Tabellen lieÃŸen wir dann leer, mit
+dem Wissen, dass Nachrichten von Matrix-Servern, die mittlerweile offline sind, dann
+nicht mehr verifiziert werden kÃ¶nnen. Diesen minimalen Verlust wollten wir in Kauf nehmen.
+
+Nachdem alle anderen Datenbanken und Tabellen wiederhergestellt waren, stellte sich
+jedoch heraus, dass es weitere Inkonsistenzen gab. Einigen Tabellen fehlten *Primary Keys*.
+Ursache war, dass das Anlegen der entsprechenden *Constraints* beim Einspielen des
+SQL-Dumps fehlgeschlagen war.
+
+Tabellen in relationalen Datenbanken kÃ¶nnen so genannte *Constraints* besitzen, die
+verschiedene PrÃ¼fungen Ã¼ber die Daten in der Tabelle erzwingen. Der wohl bekannteste
+Constraint ist der `UNIQUE`-Constraint, der verhindert, dass Daten doppelt eingefÃ¼gt
+werden. Ein Spezialfall davon wiederum ist der *Primary Key*, der sicherstellt, dass
+eine Tabellenzeile eindeutig benannt werden kann.
+
+Beim Versuch, die fehlenden Primary Keys selber anzulegen, zeigte sich, dass die betroffenen
+Tabellen tatsÃ¤chlich einige Daten doppelt enthielten. Betroffen waren dabei die Datenbanken
+von Syanpse und [Mastoson](https://joinmastodon.org/). GlÃ¼cklicherweise stellten wir fest,
+dass alle betroffenen Tabellen in zwei Kategorien fielen:
+
+* Tabellen, deren Daten durch FÃ¶deration erneut befÃ¼llt werden kÃ¶nnen
+* Tabellen, deren Primary Key oder `UNIQUE`-Cosntraint eine global eindeutige ID
+  enthielt (z.B. die Matrix-Room-ID oder eine (Short)-UUID)
+
+Im zweiten Fall war daher klar, dass die doppelten DatensÃ¤tze bei einem `INSERT OR UPDATE`
+oder einer vergleichbaren Operation entstanden sein mussten, weshalb der neuere Datensatz
+vorzuziehen war. In den FÃ¤llen, in denen kein Zeitstempel oder Ã¤hnliches vorhanden war,
+haben wir stattdessen die interne Tupel-ID von PostgreSQL (`ctid`) verwendet:
+
+```sql
+-- Zwei beispielhafte LÃ¶sch-Operationen
+DELETE FROM
+  receipts_linearized a USING receipts_linearized b
+  WHERE a.ctid < b.ctid
+  AND a.room_id = b.room_id
+  AND a.receipt_type = b.receipt_type
+  AND a.user_id=b.user_id;
+DELETE FROM sessions a USING sessions b WHERE a.ctid < b.ctid AND a.id = b.id;
+```
+
+Nachdem wir die IntegritÃ¤t der Tabellen so wiederhergestellt hatten, konnten wir durch ein
+erneutes Einspielen eines SQL-Dumps mit der `pg_dump`-Option `--schema-only` die zuvor
+fehlenden Contraints, Indexe und Keys anlegen und die Dienste problemlos starten.
+
+## Performance-Probleme nach dem Wiederanlauf
+
+Leider stellte sich insbesondere der Matrix-Server in der Folge als weitestgehend
+unbenutzbar heraus. Ein Blick auf den Datenbankserver zeigte, dass fast alle *Backend*-
+Prozesse fÃ¼r Synapse im `D`-Status waren, d.h. wahrscheinlich auf DatentrÃ¤ger warteten.
+Bei fast allen handelte es sich um `SELECT`-Statements, also um lesende Zugriffe auf die
+Datenbank. Da das System mit ausreichend Arbeitspeicher versehen ist und eigentlich
+weitestgehend aus den `shared_buffers` von PostgreSQL und aus dem VFS-Cache des
+Betriebssystems arbeiten sollte, war das Ã¼berraschend. Es stellte sich dann heraus.
+
+Was die meisten als Chat-Plattform kennen, ist eigentlich eine groÃŸe, veteilte *Graph-Datenbank*.
+Matrix-RÃ¤ume sind eine Abfolge von Events, die jeder beteiligte Server in den Graphen des
+Raumes einfÃ¼gen kann. Wenn verschiedene Server oder sogar Clients am selben Server
+sozusagen "zeitgleich" ein neues Event an derselben Stelle einfÃ¼gen, ist der Graph, also
+die Abfolge der Events und Nachrichten, nicht mehr *linear*. Weil aber die meisten Clients,
+eben alle Chat-Anwendungen, eine einfache chronologische Abfolge der Nachrichten erwarten,
+muss der Graph *linearisiert* werden.
+
+![Linearisierung in Matrix](matrix-linearisierung.png)
+
+Diese komplexe Operation erledigt Synapse direkt in der Datenbank. Durch die lange
+Ausfallzeit und die Tatsache, dass einige unserer Benutzer\*innen in vielen, teils sehr
+groÃŸen und aktiven, Matrix-RÃ¤umen sind, wurden diese Operationen sehr umfangreich und
+mussten mit groÃŸen Datenmengen arbeiten.
+
+PostgreSQL stellt jeder Operation einer Abfrage eine vorgegebene Menge an Arbeitsspeicher
+zur VerfÃ¼gung. BenÃ¶tigt eine Operation, bspw. ein Sortier- oder ein Hashing-Algorithmus,
+mehr als diesen Speicher, muss er Daten in *temporÃ¤re Dateien* auslagern.
+
+Das passierte in unserem Fall nun stÃ¤ndig, was dem ohnehin langsamen Storage nicht zutrÃ¤glich
+war. Nach entsprechender Auswertung stellten wir fest, dass Synapse fÃ¼r seine Auswertungen
+aktuell etwa 512 MiB Arbeitsspeicher benÃ¶tigte. Dieser Wert wÃ¤re fÃ¼r alle anderen Anwendungen
+extrem hoch und kÃ¶nnte schnell zu Speicherproblemen fÃ¼hren. Praktischerweise kann PostgreSQL
+dieses Limit auch pro Datenbank setzen, so dass wir Clients der Synapse-Datenbank ein hÃ¶heres
+`work_mem`-Limit zuweisen konnten:
+
+```sql
+ALTER DATABASE synapse SET work_mem TO '512 MB';
+```
+
+Danach war der Matrix-Server problemlos nutzbar under RÃ¼ckstand schnell abgearbeitet.
+
+## Verlust des Kerberos-Master-Keys
+
+Schon vor langer Zeit haben wir unsere Systeme und Plattformen auf das *Single-Sign-On*-
+System [OpenID Connect](https://openid.net/developers/how-connect-works/) umgestellt.
+Zwei Systeme benutzten jedoch weiterhin LDAP und Kerberos:
+
+* Unser Ticket-Sytem Zammad
+* Der [XMPP](https://xmpp.org/)-Server ejabberd
+
+AuÃŸerdem hatte unsere aktuelle SSO-Plattform *TIC-Desk* noch ein Fallback auf das alte
+System fur Benutzer\*innen, die ihr Passwort noch nicht im neuen System gesetzt hatten.
+
+Da diese ÃœbergangslÃ¶sung eigentlich abgeschafft werden sollte, hatten wir LDAP und
+Kerberos beim Backup schon lÃ¤nger nicht mehr berÃ¼cksichtigt. Leider bedeutet das, dass
+wir durch die Dateisystemprobleme den *Master Key*, der die Daten in der Kerberos-Datenbank
+verschlÃ¼sselt, verloren haben. Damit war kein Login mehr in Jabber und Zammad mÃ¶glich.
+
+Nach einigen Ãœberlegungen haben wir uns entschlossen, das alte System aus diesem Anlass
+nun endgÃ¼ltig abzuschaffen und mit den daraus folgenden Konsequenzen zu leben:
+
+* Zammad benÃ¶tigt vorÃ¼bergehend lokale PasswÃ¶rter, bis die Entwickler OIDC einfÃ¼hren
+* Der XMPP-Server ist vorÃ¼bergehend offline und wird bei Gelegenheit zu Prosody migriert
+* Die Benutzer\*innen, die in TIC-Desk noch kein Passwort gesetzt hatten, benÃ¶tigen
+  einen manuellen Passwort-Reset durch uns
+
+## Ursachenanalyse und Lessons learnt
+
+UrsÃ¤chlich war letztendlich, dass das Entfernen eines Caching-Tiers aus Ceph nicht
+online mÃ¶glich ist, wenn man Ceph fÃ¼r Block-Devices (RBD) benutzt.
+Das ist [nicht komplett unbekannt](https://www.mail-archive.com/ceph-users@lists.ceph.com/msg42350.html),
+aber auch nicht offensichtlich dokumentiert. Beim Entfernen des Caches wurden
+kurzzeitig im Zugriff befindliche BlÃ¶cke der Dateisysteme mit ungÃ¼ltigen oder
+veralteten Daten ausgeliefert.
+
+Bei dem Backup-Mechanismus, den wir fÃ¼r PostgreSQL verwenden (Streaming-Backup zu
+[Barman](https://pgbarman.org/)) wird das *Write Ahead Log* direkt an den Backup-Server
+Ã¼bertragen. Dies erfolgt aus den *WAL-Buffern* im Arbeitsspeicher oder aber aus den
+WAL-Dateien auf dem DatentrÃ¤ger, falls die Ãœbertragung lÃ¤nger dauert. Durch die insgesamt
+hohe Schreiblast auf unseren Datenbanken wurden WAL-Daten vom DatentrÃ¤ger ins Backup
+Ã¼bertragen, wodurch auch korrupte Daten Ã¼betragen wurden.
+
+Die duplizierten Daten resultierten daraus, dass durch korrupte Transaktions-Daten nun
+eigentlich gelÃ¶schte Daten wieder sichtbar wurden (anhand des obigen, vereinfachten
+Bildes kann man sich gut vorstellen, wie eine Tabelle aussieht, wenn die beiden
+Transaktionen A und B Ã¼bereinandergelegt werden statt in eine kohÃ¤rente Reihenfolge
+gebracht zu werden).
+
+Durch den Ausfall und die Behebung haben wir viele Dinge gelernt, nicht zuletzt
+auch Ã¼ber die Struktur und Interna der von uns betriebenen Anwendungen.
+
+Insbesondere seien aber folgende Punkte hervorzuheben:
+
+* Das *Cache-Tiering* in Ceph ist instabil. Da es auch nur in seltenen FÃ¤llen wirklich
+  Performance-Vorteile bringt, sollte es vermieden werden. Eine gute Alternative, um
+  Storage aus mechanischen Festplatten zu beschleunigen, ist es, das WAL der *Bluestore*-
+  Datenbank auf SSDs auszulagern.
+* Im Falle auftretender Dateisystem-Korruptionen sollten die GrundsÃ¤tze der IT-Forensik
+  angewendet werden und sofort in einen Read-Only-Modus gewechselt werden. Auch Backup-
+  Prozesse sollten sofort angehalten werden.
+* *ext4* ist kein robustes Dateisystem, was DatenintegritÃ¤t angeht. Auch `fsck` findet
+  eklatante Probleme nicht und kann ein de facto vollstÃ¤ndig unbrauchbares Dateisystem
+  als sauber betrachten. Mittlerweile sollten moderne Dateisyteme wie *btrfs*, deren
+  Architektur bereits DatenintegritÃ¤t im Kern enthÃ¤lt, eine ernsthafte Alternative sein
+* Beim Recovery von PostgreSQL aus WAL-Archiven sollte direkt beachtet werden, korrupte
+  Segmente, die nach einem Katastrophenfall angefallen sind, nicht mit zu recovern
+* 
+
+Zum Vorgehen unserer Datenbank-Restoration mÃ¶chten wir auÃŸerdem anmerken, dass die von
+uns ausgefÃ¼hrten manuellen Reparaturarbeiten eine gute Kenntnis der entsprechenden Anwendung
+erfordern. Die Gefahr von weiterem Datenverlust ist hoch.
+
+## Weitere TÃ¤tigkeiten und Aussicht nach dem Ausfall
+
+Nachdem der Ausfall weitestgehend behoben war, konnten wir den Ausbau des Storages
+erfolgreich fortfÃ¼hren. Mittlerweile sind alle Festplatten durch SSDs ersetzt und
+das Ceph gelangt nahe an die Grenze der *SATA-Link-Saturation*, also die Auslastung
+des SATA-Buses, an dem die DatentrÃ¤ger selber angeschlossen sind.
+
+Desweiteren haben wir die Gelgenheit genutzt, weitere Optimierungen vorzunehmen:
+
+* Deinstallation von `rsyslog` auf allen Debian-VMs, so dass nur noch ein Logging-
+  System (`systemd-journald`) Logs schreibt
+* ÃœberprÃ¼fung der PostgreSQL-Konfiguration und Anpassung einiger Parameter an neue
+  Messungen und Erfahrungswerte
+* Aktivirung eines regelmÃ¤ÃŸigen `fstrim` auf den VMs, so dass Ceph nachhalten kann,
+  welche BlÃ¶cke (Objekte) unbenutzt sind und diese bei Maintenance-Operationen nicht
+  berÃ¼cksichtigen muss
+
+Als nÃ¤chstes stehen noch einige TÃ¤tigkeiten aus:
+
+* Verbesserung der Verteilung von DatentrÃ¤gern und OSDs auf die Server
+* Migration von ejabberd zu Prosody und Reaktivierung des XMPP-Servers
+* Aktives Anschreiben der vom Passwort-Reset betroffenen Benutzer\*innen
diff --git a/content/blog/2024/07/2024-07-19_downtime-bericht/matrix-linearisierung.png b/content/blog/2024/07/2024-07-19_downtime-bericht/matrix-linearisierung.png
new file mode 100644
index 0000000000000000000000000000000000000000..c0e827a9d951837f08b1b2e07bb84be6b633752d
Binary files /dev/null and b/content/blog/2024/07/2024-07-19_downtime-bericht/matrix-linearisierung.png differ
diff --git a/content/blog/2024/07/2024-07-19_downtime-bericht/pg-transaktionen.png b/content/blog/2024/07/2024-07-19_downtime-bericht/pg-transaktionen.png
new file mode 100644
index 0000000000000000000000000000000000000000..076ebe5e9c460a5c286fa247fabc201008e93dc4
Binary files /dev/null and b/content/blog/2024/07/2024-07-19_downtime-bericht/pg-transaktionen.png differ
diff --git a/content/blog/2024/07/2024-07-19_downtime-bericht/rack-sharepic.jpg b/content/blog/2024/07/2024-07-19_downtime-bericht/rack-sharepic.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..4d7dbbf140b28863077c84d546f53f3bed604e97
Binary files /dev/null and b/content/blog/2024/07/2024-07-19_downtime-bericht/rack-sharepic.jpg differ