高级站点可靠性工程师/DevOps工程师(交易系统) | 远程 | AWS和Kubernetes
远程
全职
我们正在寻找一位经验丰富的站点可靠性工程师(SRE)/DevOps专家,加入我们创新的交易技术团队。在这个角色中,您将设计、实施和维护支持复杂交易系统的关键基础设施,这些系统需要高可用性、安全性和性能。作为我们的SRE/DevOps工程师,您将使用现代云技术和容器编排确保我们的交易平台无缝运行。
主要职责
- 监控和排查生产环境中的交易平台基础设施问题,通过全面的日志分析识别性能瓶颈和系统不一致性。
- 领导事件解决流程,进行彻底的根本原因分析,并跨团队协作实施永久解决方案。
- 使用行业标准工具(如Zabbix、Grafana和Dynatrace)设计和维护强大的监控系统,确保关键交易服务99.99%的正常运行时间。
- 使用Terraform和Terragrunt实施基础设施即代码实践,通过版本控制和可重复性管理云资源。
- 建立和优化Jenkins和GitLab CI中的CI/CD管道,实现快速、可靠的软件交付。
- 部署、自动化和管理基于AWS云的生产环境,重点关注可扩展性、安全性和成本优化。
- 使用Kubernetes编排容器化应用程序,确保在开发、QA和生产环境中一致部署。
- 维护和增强监控和告警系统,在问题影响最终用户之前检测和解决问题。
- 与开发团队合作,通过架构建议改进应用程序性能和系统可靠性。
- 记录基础设施配置、操作程序和灾难恢复计划。
必备技能和经验
- 5年以上在生产环境中使用Linux/Unix系统管理的实践经验。
- 3年以上使用AWS云服务的经验,包括EC2、S3、RDS、EKS和IAM。
- 容器化技术(特别是Docker和Kubernetes)的proven实践经验。
- 使用Terraform、Ansible、Chef或Puppet进行基础设施自动化的丰富经验。
- 使用Jenkins和/或GitLab CI构建和维护CI/CD管道的经验。
- 熟悉ELK堆栈、Zabbix、Grafana和Dynatrace等监控解决方案。
- 对网络概念、HTTP协议和Web服务器(Nginx)有扎实的理解。
- 熟练使用版本控制系统,特别是Git。
- 了解SQL和PostgreSQL或MySQL等数据库系统。
- 熟悉Kafka等分布式系统消息代理。
- 熟悉服务发现(Consul)和密钥管理(Vault)。
- 强大的问题解决能力和系统性的故障排除方法。
- 与技术和非技术人员出色的沟通能力。
加分项
- 具有金融或交易系统经验,这些系统需要高性能和可靠性。
- 了解微服务架构和相关基础设施模式。
- 使用Python、Go或其他编程语言进行自动化的经验。
- 了解云环境中的安全最佳实践。
- 熟悉分布式跟踪和可观察性工具。
- 曾使用高吞吐量、低延迟系统。
- AWS认证DevOps工程师、CKA或类似的专业认证。
技术栈
- 操作系统:Linux发行版(Ubuntu、CentOS、Amazon Linux)
- 云服务提供商:AWS(EC2、EKS、RDS、S3、CloudWatch、IAM)
- 容器编排:Kubernetes 1.25+、Docker
- CI/CD:Jenkins、GitLab CI
- 基础设施即代码:Terraform、Terragrunt、Ansible
- 监控和日志:ELK Stack、Zabbix、Grafana、Dynatrace
- 数据库:PostgreSQL
- 消息代理:Apache Kafka
- 服务发现和配置:Consul、Vault
- 版本控制:Git、GitLab
为什么加入我们
加入我们的团队,掌控支持复杂交易操作的关键基础设施。您将在充满挑战、快节奏的环境中使用前沿技术,我们重视创新和持续改进。我们提供具有竞争力的薪酬、专业成长机会,以及与致力于构建弹性、高性能系统的才华横溢的工程师团队合作的机会。虽然这个职位一开始是完全远程工作,但有机会搬迁到我们位于黑山共和国的美丽办公室。