Incident Response — Runbooks

Procédures d'incident pour les scénarios courants sur le VPS FATAPLUS.

# Incident Response ## Scénarios ### 1. Hermes Gateway Down ```bash # Check status systemctl status hermes-gateway journalctl -u hermes-gateway --since "1 hour ago" -n 50 # Restart sudo systemctl restart hermes-gateway # If OOM (peak 8.1G RAM observé) free -h dstat --top-mem # identifier le processus gourmand ``` ### 2. Nginx Down (sites injoignables) ```bash nginx -t # tester config systemctl restart nginx # Vérifier les sites curl -I http://dev.madacup.online curl -I http://family.fenohery.space ``` ### 3. Disk Full (79% utilisé — critique) ```bash df -h / du -sh /root/workspace/*/ | sort -hr | head -15 # Nettoyer : docker prune, old builds, logs docker system prune -af journalctl --vacuum-size=100M ``` ### 4. CrowdSec / Fail2Ban — IP bloquée par erreur ```bash # CrowdSec : voir les décisions crowdsec-cli decisions list # Révoquer une décision crowdsec-cli decisions delete --ip # Fail2Ban : voir les jails fail2ban-client status sshd # Unban fail2ban-client set sshd unbanip ``` ### 5. Docker Container Down (Infisical) ```bash docker ps -a # voir tous les containers docker logs infisical --tail 50 # logs docker restart infisical # redémarrer docker-compose -f /path/to/compose.yml up -d # si compose ``` ### 6. SMS Finance Webhook Down ```bash systemctl status sms-finance journalctl -u sms-finance --since "1 hour ago" # Le service dépend de Tailscale être up systemctl status tailscaled ``` ## Contacts d'Urgence | Rôle | Qui | |------|-----| | Admin VPS | Fefe (Telegram) | | Clients serveurs | Voir [/clients/](/clients/) | # Citations [1] Basé sur l'état réel des services vérifié via `systemctl`, `docker ps`, `df -h` (2026-06-14).