Senior Site Reliability Engineer
Tech Stack / Keywords
Firma i stanowisko
Do projektu związanego z utrzymaniem i rozwojem dużych, rozproszonych systemów produkcyjnych poszukujemy Senior Site Reliability Engineera. Będziesz pracować nad środowiskami obsługującymi miliony użytkowników, dużą dynamikę ruchu oraz złożone procesy biznesowe. Kluczowe obszary to niezawodność, automatyzacja, monitoring i rozwój infrastruktury chmurowej.
Jesteśmy technologicznym partnerem outsourcingowym w którym transparentność jest fundamentem, a nie dodatkiem. Wykorzystujemy autorskie narzędzia analityczne, by dostarczać przejrzyste modele współpracy i realnie skracać czas onboardingu ekspertów w projektach outsourcingowych. Odwróciliśmy tradycyjny model współpracy, stawiając na jasne zasady finansowe i bezpośredni kontakt, co czyni nas najbardziej przewidywalnym partnerem na rynku technologicznym.
Wymagania
- min. 5-6 lat doświadczenia w SRE, DevOps lub Platform Engineering
- bardzo dobra znajomość Kubernetes (operational level, mile widziane doświadczenie z dużymi klastrami)
- praktyczna znajomość jednej z chmur Azure/GCP/AWS (architektura, usługi, best practices)
- doświadczenie z IaC: Terraform, CloudFormation lub podobne
- znajomość GitOps (Argo CD) i umiejętność tworzenia helm chartów
- doświadczenie w budowie i utrzymaniu CI/CD (GitLab CI)
- biegłość w narzędziach monitoringu i incident management: Prometheus, Grafana, ELK, Opsgenie/PagerDuty
- dobra znajomość koncepcji sieciowych, systemów operacyjnych, optymalizacji wydajności
- umiejętność programowania (Python, Go)
- znajomość ITIL w obszarze zarządzania incydentami i problemami
- bardzo dobre umiejętności komunikacyjne i zdolność współpracy z klientami oraz zespołami technicznymi
Nice to have:
- doświadczenie w projektowaniu systemów high‑availability i high‑scale
- wiedza z zakresu matematyki, algorytmów i optymalizacji niskopoziomowej
- prowadzenie małych zespołów lub koordynacja prac technicznych
Obowiązki
- projektowanie, rozwój i utrzymanie systemów monitoringu oraz observability (metrics, logs, tracing)
- analiza incydentów, root cause analysis, prowadzenie post‑mortem i wdrażanie usprawnień
- rozwój i utrzymanie narzędzi do alertowania, diagnostyki i automatyzacji operacji
- monitorowanie i optymalizacja wydajności aplikacji oraz infrastruktury
- rozwój infrastruktury wspierającej systemy produkcyjne (Kubernetes, IaC, CI/CD)
- projektowanie i wdrażanie rozwiązań chmurowych dla systemów o dużej skali
- współpraca z zespołami developerskimi i architektami w zakresie reliability, kosztów i bezpieczeństwa
- doradztwo techniczne w obszarze chmury i automatyzacji, udział w projektowaniu nowych komponentów
- rozwiązywanie złożonych problemów technicznych, których nie potrafią rozwiązać standardowe zespoły
Oferta
- pełne zaangażowanie w projekt o dużej skali i wysokiej odpowiedzialności technicznej
- praca zdalna lub hybrydowa - Warszawa Wola
- elastyczne godziny 7-18.00
- współpraca B2B
Codetalent
26 aktywnych ofert