
Data Scientist & Software Engineer
- Verfügbarkeit einsehen
- 1 Referenz
- auf Anfrage
- 76137 Karlsruhe
- auf Anfrage
- de | en
- 07.08.2025
- Contract ready
Kurzvorstellung
Auszug Referenzen (1)
"A. is a talented developer and data engineer. Our team has benefited greatly from his contributions and it has been a pleasure to work with him."
4/2019 – 12/2022
Tätigkeitsbeschreibung
Das Team, in dem ich gearbeitet habe, generiert täglich Millionen von Bestellentscheidungen als Teil einer vollständig automatisierten und cloudbasierten SaaS-Lösung für große Einzelhandelskunden. Täglich angesetzte Datenpipelines ermöglichen es dem Optimierungsalgorithmus, die neuesten Daten zu berücksichtigen und gleichzeitig Unsicherheiten und Einschränkungen einzubeziehen, um für die Kunden rechtzeitig die besten Entscheidungen zu treffen. Ich habe daran gearbeitet
- ein bestehendes Analysetool mit einem Dask-Cluster zu skalieren,
- einen Flask Service mit einer PostgreSQL-Datenbank inklusive ETL-Pipeline in Azure einzurichten, mit dem über eine REST API kommuniziert werden kann,
- Apache Airflow DAGs zu konfigurieren,
- anspruchsvolle SQL-Abfragen einschließlich CTEs für eine Exasol-Datenbank zu erstellen und anzupassen,
- komplexe Datenstrukturen in eine in Python geschriebene Datenpipeline zu integrieren,
- erforderliche Anpassungen am Partitionierungsmodell für die Parallelisierungslösung vorzunehmen und
- den in C++ geschriebenen Optimierungsalgorithmus zu verbessern und ihn mit neuen Funktionalitäten zu erweitern.
Agile Methodologie, C++, Microsoft Azure, Python, SQL
Geschäftsdaten
Qualifikationen
Projekt‐ & Berufserfahrung
6/2023 – 6/2025
Tätigkeitsbeschreibung
Teil des Model-Development-Teams im Bereich Anti Financial Crime – Konzeption und Umsetzung skalierbarer ML- und Statistiklösungen für die Transaktionsüberwachung.
Parameter-Optimierung für regelbasierte Systeme (ca. 6 Monate)
Ich habe Detektionsregeln für das System Smaragd optimiert, das intern nachgebaut wurde, um die Logik transparent zu machen und eine statistische Kalibrierung zu ermöglichen. Mithilfe von Bayes’schen Verfahren und logistischen Regressionsmodellen wurden Regelparameter länder- und kundensegmentspezifisch angepasst. Nach Einführung von Actimize habe ich die Regeln im selben Framework reimplementiert, um die Parameter-Optimierung fortzuführen. Zudem habe ich PySpark-basierte ETL-Pipelines auf dem Hadoop-Cluster grundlegend überarbeitet und beschleunigt – mit deutlicher Reduktion der Laufzeiten für Modelltraining und -bewertung.
Entity-Resolution-Framework für SWIFT-Nachrichten (ca. 12 Monate)
Ich habe ein skalierbares Framework zur Entitätenauflösung für SWIFT MX-Nachrichten (z. B. pacs.008, pacs.009) mitentwickelt – sowohl für Batch- als auch für Online-Verarbeitung. Ein benutzerdefinierter Parser extrahiert und normalisiert strukturierte Daten zu Gläubiger und Schuldner. Die Daten wurden mittels libpostal angereichert (z. B. Länderzuordnung), und verschiedene Vektorrepräsentationen von Namen wurden erstellt, um String-Ähnlichkeiten modellieren zu können. Zur Reduktion des quadratischen Matching-Aufwands wurden Blocking-Strategien (z. B. nach Ländern und IDs) eingesetzt. Die Ähnlichkeit wurde mit logistischen Regressions- und Random-Forest-Modellen modelliert, auf Basis von String-Distanzmetriken. Daraus entstand ein gewichteter Graph, der per Markov Clustering segmentiert und anschließend heuristisch verfeinert wurde. Das Framework erzielte signifikant bessere Genauigkeit und Skalierbarkeit als die bestehende Lösung und wird aktuell als möglicher Ersatz evaluiert.
Anomalieerkennung bei gemischten Daten (ca. 6 Monate)
Ich habe ein verteiltes Anomalieerkennungssystem mitentwickelt, um auffällige Muster in Transaktionsdaten mit numerischen und freien Textfeldern zu erkennen (z. B. Betrag, Transaktionstyp, Zahlungszweck). Zum Einsatz kam Isolation Forest in Kombination mit einer verteilten Ray-Architektur.
Apache Spark, SQL, Machine Learning, Python
4/2019 – 12/2022
Tätigkeitsbeschreibung
Das Team, in dem ich gearbeitet habe, generiert täglich Millionen von Bestellentscheidungen als Teil einer vollständig automatisierten und cloudbasierten SaaS-Lösung für große Einzelhandelskunden. Täglich angesetzte Datenpipelines ermöglichen es dem Optimierungsalgorithmus, die neuesten Daten zu berücksichtigen und gleichzeitig Unsicherheiten und Einschränkungen einzubeziehen, um für die Kunden rechtzeitig die besten Entscheidungen zu treffen. Ich habe daran gearbeitet
- ein bestehendes Analysetool mit einem Dask-Cluster zu skalieren,
- einen Flask Service mit einer PostgreSQL-Datenbank inklusive ETL-Pipeline in Azure einzurichten, mit dem über eine REST API kommuniziert werden kann,
- Apache Airflow DAGs zu konfigurieren,
- anspruchsvolle SQL-Abfragen einschließlich CTEs für eine Exasol-Datenbank zu erstellen und anzupassen,
- komplexe Datenstrukturen in eine in Python geschriebene Datenpipeline zu integrieren,
- erforderliche Anpassungen am Partitionierungsmodell für die Parallelisierungslösung vorzunehmen und
- den in C++ geschriebenen Optimierungsalgorithmus zu verbessern und ihn mit neuen Funktionalitäten zu erweitern.
Agile Methodologie, C++, Microsoft Azure, Python, SQL
10/2016 – 3/2019
Tätigkeitsbeschreibung
Ich war Teil eines Industrieforschungsprojekts an der RWTH Aachen, das das Transportnetzwerk für eines der weltweit führenden Logistikunternehmen optimierte. Meine Arbeit konzentrierte sich auf
- den Aufbau einer Datenpipeline, um die aktuellsten Daten einzubeziehen,
- die Implementierung eines problemspezifischen mathematischen Optimierungsalgorithmus und
- die Visualisierung der Lieferkette in einem Dashboard.
C++, Python, SQL
Zertifikate
Ausbildung
Aachen
Frankfurt am Main
Über mich
Ich bringe tiefes Know-how in der Modellierung und im Backtesting systematischer Handelsstrategien sowie in der regelkonformen Analyse von Transaktionsdaten (z. B. SWIFT-Nachrichten) mit. Darüber hinaus verfüge ich über Projekterfahrung in den Bereichen Compliance/AML, Demand Forecasting und Supply-Chain-Optimierung.
Meine Lösungen sind geprägt von effizientem Code (Python, SQL, C++), fundierter Nutzung moderner ML-Bibliotheken (pandas, NumPy, scikit-learn, XGBoost, Gurobi, Airflow) und einem durchdachten Einsatz von Datenbanken und Speichersystemen (PostgreSQL, Exasol, Blob Storage).
Ich arbeite eng mit Fach- und IT-Abteilungen zusammen, kommuniziere klar und strukturiert, und dokumentiere meine Arbeit nachvollziehbar. Zweisprachig: Deutsch & Englisch.
Persönliche Daten
- Deutsch (Muttersprache)
- Englisch (Fließend)
- Europäische Union
- Schweiz
- Vereinigte Staaten von Amerika
Kontaktdaten
Nur registrierte PREMIUM-Mitglieder von freelance.de können Kontaktdaten einsehen.
Jetzt Mitglied werden