씨제이올리브영(주)

Site Reliability Engineer (글로벌SRE)

포지션 및 자격요건

Site 

Reliability Engineer

직무소개

ㆍOpportunities

    - Design, build, and maintain highly available, scalable, and resilient 

       backend infrastructure that powers critical system components.

    - Partner with product managers and software engineers to ensure 

       seamless integration of reliability and performance into core commerce

       functionality.

    - Automate everything - from deployment pipelines and monitoring to 

       incident response and infrastructure management.

    - Implement and refine full-cycle CI/CD pipelines, ensuring rapid and 

        stable deployments while maintaining service reliability.

    - Take ownership of production systems by proactively identifying and 

       resolving performance bottlenecks, and driving operational excellence.

    - Continuously improve system observability and monitoring, 

       leveraging metrics, logging, and tracing to enhance incident detection and

       resolution.

    - Conduct postmortems and blameless retrospectives, applying lessons 

       learned to prevent future incidents.

    - Lead and architect scalable, self-healing systems to support multi-region, 

       high-traffic applications.

    - Mentor engineers and advocate for best practices in reliability engineering,

       helping shape a culture of resilience and continuous improvement.


    - 다양한 시스템 구성 요소와 끊임없이 통신하는 고가용성(High Availability) 및 

       확장성 있는 백엔드 인프라를 설계하고 구축합니다.

    - 프로덕트 매니저 및 소프트웨어 엔지니어들과 협력하여 안정적이고 신뢰성 높은 

       커머스 기능을 제공합니다.

    - 배포 자동화 및 운영 자동화를 통해 인프라 관리의 효율성을 극대화합니다.

    - 풀 사이클 CI/CD 환경을 구축 및 개선하여 안정적인 서비스 배포를 보장합니다.

    - 서비스의 신뢰성을 유지하고 장애를 신속하게 해결하며 Operational Excellence를 

       달성합니다.

    - 모니터링 및 관찰 가능성(Observability) 개선을 통해 장애 감지 및 

       대응 시간을 단축합니다.

    - 장애 발생 시 생산적인 포스트모템을 수행하고 문제를 분석하여 장기적인 

       해결책을 마련합니다.

    - 멀티 리전, 대규모 트래픽을 처리할 수 있는 안정적이고 확장 가능한 

       시스템을 설계합니다.

    - 엔지니어들을 멘토링하며 신뢰성 엔지니어링(SRE) 베스트 프랙티스를 전파하고, 

       신뢰성 중심의 문화를 조성합니다.


지원자격

ㆍ7+ years of experience in software development, DevOps, 

    or site reliability engineering.

ㆍProficiency in one or more modern programming languages 

    (e.g., Python, Go, Java, or similar).

ㆍExperience with cloud-native development (AWS, GCP, or Azure) and

    containerization technologies (Docker, Kubernetes).

ㆍStrong understanding of modern web service architectures, 

    distributed systems, and microservices.

ㆍPassion for automation, observability, and performance tuning to 

    improve reliability and scalability.

ㆍExperience with infrastructure as code (IaC) tools such as Terraform,

    CloudFormation, or Helm.

ㆍExpertise in monitoring and alerting with tools like Prometheus, Grafana, 

    Datadog, or New Relic.

ㆍStrong leadership in cross-functional collaboration, decision-making, 

    and system design.


ㆍ7+년 이상의 소프트웨어 개발, DevOps, 또는 사이트 신뢰성 엔지니어링 경험.

ㆍPython, Go, Java 등 현대적 프로그래밍 언어 중 하나에 대한 전문성.

ㆍAWS, GCP, Azure 등의 클라우드 환경에서의 개발 및 운영 경험.

ㆍKubernetes, Docker 등 컨테이너 오케스트레이션 및 클라우드 네이티브 기술 경험.

ㆍ마이크로서비스 및 분산 시스템 아키텍처에 대한 깊은 이해.

ㆍ자동화, 성능 최적화 및 장애 대응을 통한 서비스 신뢰성 향상 경험.

ㆍTerraform, CloudFormation, Helm 등의 Infrastructure as Code (IaC) 툴 경험.

ㆍPrometheus, Grafana, Datadog, New Relic 등의 모니터링 및 로깅 시스템 경험.

ㆍ다양한 직무의 동료들과 협업하여 신뢰성 및 가용성을 향상시킨 경험.


우대사항

ㆍExperience in large-scale e-commerce infrastructure, including checkout, 

    order processing, or payment systems.

ㆍKnowledge of multi-language and multi-region service 

    deployment strategies.

ㆍHands-on experience with incident management and root cause 

    analysis in high-traffic environments.

ㆍProven track record of improving operational excellence and reliability 

    in a large-scale system.


ㆍ대규모 이커머스 인프라(주문, 결제, 배송 등) 운영 경험.

ㆍ다중 언어 및 다중 지역 서비스 배포 경험.

ㆍ대규모 트래픽 환경에서 장애 대응 및 운영 경험.

ㆍ대량 트래픽을 처리하는 시스템의 Operational Excellence를 개선한 경험.


기타사항

ㆍ접수기간 : 2025. 06. 30 ~ 채용시까지(상시채용)

ㆍ접수방법 : 당사 채용 홈페이지 지원 

ㆍ자세한 상세요강은 반드시 채용 홈페이지에서 직접 확인해 주시기 바랍니다.



   기업 채용 홈페이지 바로가기 click