Operational Resilience & Observability Architect
- Verfügbarkeit einsehen
- 0 Referenzen
- 75€/Stunde
- 46014 Valencia
- auf Anfrage
- es | en
- 22.12.2025
- Contract ready
Kurzvorstellung
Geschäftsdaten
Qualifikationen
Projekt‐ & Berufserfahrung
nicht angegeben
6/2025 – offen
TätigkeitsbeschreibungEntwurf eines Multi-Vendor-Observability-Betriebsmodells für regulierte hybride Umgebungen zur Beseitigung von Sichtbarkeitslücken und Standardisierung von Kontrollnachweisen über Plattformen hinweg. Bereitstellung von Audit-Evidence-Dashboards: Abdeckungs- und Kritikalitätsmapping, SLO-Ansichten, Vorfallszeitpläne und Kontrollberichte für Senior-Stakeholder. Durchführung eines Telemetrie-/Ingestions-Forensik-Audits und Governance-Verbesserungen, Erreichung einer Kostensenkung von ~20% bei gleichzeitiger Wahrung der erforderlichen kritischen Telemetrie und Retentionsziele. Erstellung von Automatisierungsworkflows (Python/APIs) für die Alert-Synchronisierung und -Anreicherung, Verbesserung der Triage-Qualität und Reduzierung der Time-to-Resolution bei operativen Vorfällen.
Eingesetzte QualifikationenPython, Well Engineer
nicht angegeben
1/2025 – 6/2025
TätigkeitsbeschreibungLeitung der Observability-Instrumentierung während der Modernisierung von Legacy zu OpenShift, Aufrechterhaltung der Kontinuität während des Plattformübergangs. Implementierung von Kubernetes-Gesundheits- und Zuverlässigkeitsberichten (Grafana/Prometheus) zur Unterstützung der Stakeholder-Sichtbarkeit und operativen Entscheidungsfindung. Einsatz von synthetischem Monitoring für kritische Bürgerreisen, Stärkung der Früherkennung und Unterstützung der Verfügbarkeitsziele.
Eingesetzte QualifikationenKubernetes, Openshift
nicht angegeben
8/2019 – 1/2025
TätigkeitsbeschreibungTechnischer Leiter für die unternehmensweite Implementierung von Observability in großem Maßstab, sicherheitssegmentierten Umgebungen. Migration und Re-Plattformierung kritischer Logging-Anwendungsfälle in Dynatrace Grail, Definition von Ingestion, Retention und Query-Patterns für operative Forensik und Incident-Support. Aufbau von Automatisierungspipelines (Ansible/Python) für die sichere unbeaufsichtigte Bereitstellung von OneAgents/ActiveGates, Verbesserung der Fleet-Abdeckung und operativen Konsistenz. Abstimmung von Davis AI / Anomalie-Erkennung und Alert-Strategie zur Reduzierung von Noise, Beschleunigung der Triage und Verhinderung wiederkehrender Incident-Patterns.
Eingesetzte QualifikationenAnsible, Python, Well Engineer
nicht angegeben
4/2016 – 4/2019
TätigkeitsbeschreibungKonsolidierung des Monitorings in standardisierte Zabbix/Grafana-Sichtbarkeit für kritische Kunden, Verbesserung der operativen Konsistenz. Implementierung von L1-Auto-Remediation-Skripten (Shell/PowerShell) zur Reduzierung der repetitiven Incident-Workload.
Eingesetzte QualifikationenBash Shell, Windows Powershell
Ausbildung
Über mich
With over 9 years of experience in Tier-1 Banking (BNP Paribas) and Critical Public Infrastructure (SEPE), I bridge the gap between technical Engineering and ICT Risk Management.
I do not just "install monitoring tools." I design Audit-Ready Observability Ecosystems that satisfy regulators (DORA, EBA) while empowering SRE teams to reduce MTTR.
MY VALUE PROPOSITION:
1. DORA & Regulatory Compliance: I translate the Digital Operational Resilience Act (DORA) requirements into technical implementations. I map Critical Business Functions to IT assets, ensuring you have real-time evidence of availability, integrity, and recovery for your next audit.
2. Next-Gen Observability Architecture: Specialist in shifting from legacy monitoring to Gen3 Observability (Dynatrace Grail, DQL, Datadog). I design hybrid architectures that eliminate blind spots across On-Premise, AWS, Azure, and Kubernetes environments.
3. Telemetry Governance & FinOps: Observability costs can spiral out of control. I implement strict ingestion governance and "Right Data / Right Retention" strategies, typically achieving 20-30% cost reduction in licensing while improving signal quality.
4. Incident Readiness & SRE Enablement: I build the automated runbooks, synthetic journeys, and SLO/Error Budget frameworks that allow Operations teams to detect anomalies before they become outages.
CORE TECHNICAL STACK:
Platforms: Dynatrace (Gen3/Grail expert), Datadog, Zabbix, Splunk.
Infrastructure: Kubernetes (CKA Certified), OpenShift, AWS, Azure, Linux.
Automation: Python, Ansible, Terraform, APIs.
Compliance: DORA, ICT Risk Management, IT Service Continuity.
WHY ME? Most engineers focus only on metrics (CPU/RAM). I focus on Business Continuity and Risk Evidence. If you need a senior partner who can speak confidently with both your Lead Engineers and your Head of Compliance, I am the right fit for your project.
Availability: Remote (EU Timezone) | B2B Contract
Weitere Kenntnisse
DORA (Digital Operational Resilience Act) Implementation Strategy.
SRE (Site Reliability Engineering): SLOs, Error Budgets, Toil Reduction.
FinOps: Observability Cost Optimization & Data Ingestion Governance.
ITIL v4: Advanced Incident & Problem Management.
Certifications:
CKA - Certified Kubernetes Administrator.
Languages:
English: Full Professional Proficiency (C1/C2).
Spanish: Native.
Key Soft Skills:
Audit Defense: Experience presenting technical evidence to external auditors.
Crisis Management: Leading War Rooms during critical outages.
Stakeholder Management: Translating technical risks for C-Level executives.
Remote Work: 100% autonomous in distributed, asynchronous environments.
Persönliche Daten
- Spanisch (Muttersprache)
- Englisch (Fließend)
- Europäische Union
Kontaktdaten
Nur registrierte PREMIUM-Mitglieder von freelance.de können Kontaktdaten einsehen.
Jetzt Mitglied werden
