Nowa
DevOps Engineer - AI Infrastructure & Orchestration
200 - 275 PLN/ godz.B2B (netto)
SeniorFull-time·B2B
#339110·Dodano dziś·0
Źródło: ITLTTech Stack / Keywords
DevOpsAILLMKubernetesOpenShiftPrometheusGrafanaPython
Firma i stanowisko
W ITLT pomagamy naszym zaprzyjaźnionym firmom przekształcać ambitne pomysły w cyfrową rzeczywistość. Z nastawieniem na wyzwania, ciekawość technologii i zwinność - współtworzymy wyjątkowe rozwiązania IT.
Wymagania
- Min. 5+ lat doświadczenia w DevOps/SRE
- Min. 2 lata doświadczenia w MLOps lub AI Infrastructure
- Doświadczenie w deploymencie vLLM w środowisku produkcyjnym
- Znajomość PagedAttention i continuous batching (vLLM)
- Bardzo dobra znajomość Kubernetes i Openshift
- Doświadczenie w infrastrukturze GPU NVIDIA (CUDA drivers, container toolkit, debugging)
- Umiejętność zarządzania i debugowania środowisk GPU
- Doświadczenie w budowie systemów observability od zera
- Umiejętność tworzenia custom Prometheus exporters
- Bardzo dobra znajomość Python (automation, tooling)
- Znajomość Bash i Go
- Doświadczenie w pracy z CI/CD (GitLab CI, Jenkins, ArgoCD)
- Doświadczenie w środowiskach on-prem / bare-metal
Nice to have:
- Znajomość GPU orchestration w Kubernetes (device plugins NVIDIA)
- Znajomość model quantization (AWQ, GPTQ)
- Znajomość FinOps dla AI infrastructure
- Znajomość vector databases (Milvus, Qdrant)
Obowiązki
- Deployment i utrzymanie vLLM na Openshift Kubernetes (bare-metal GPU)
- Orkiestracja i optymalizacja GPU (NVIDIA)
- Automatyzacja lifecycle modeli (HF/S3: pull, versioning, hot-swap)
- HPA (queue depth, GPU memory)
- Tuning vLLM (performance, batching, memory)
- Metryki inference (tokeny, latency, errors) + tracking zużycia per user/API key
- Grafana dashboards (GPU, TTFT, RPS, koszty, quota)
- Alerting (GPU failures, latency, anomalies)
- API Gateway (NGINX: auth, rate limit, routing)
- Security + isolation + audit logging
- Monitoring stack (Prometheus, Grafana, ELK, OpenTelemetry)
- Automatyzacja (Python/Bash/Go)
- CI/CD (GitLab CI, Jenkins, ArgoCD)
- SLA 99.9%, >70% GPU utilization, MTTR reduction
Oferta
- Duża swoboda pracy zdalnej
- Długofalowe stabilne zatrudnienie
- Szansa na uczestniczenie w kluczowych projektach dla dużej firmy działającej w bardzo stabilnym sektorze
- Atrakcyjne wynagrodzenie (adekwatne do umiejętności i doświadczenia)
- Benefity (Lux Med, MultiSport)
Opieka zdrowotna
Karta sportowa
Inne informacje
Agencja zatrudnienia - nr certyfikatu 14181
ITLT
87 aktywnych ofert