高级站点可靠性工程师/DevOps工程师(交易系统) | 远程 | AWS和Kubernetes

远程
全职
我们正在寻找一位经验丰富的站点可靠性工程师(SRE)/DevOps专家,加入我们创新的交易技术团队。在这个角色中,您将设计、实施和维护支持复杂交易系统的关键基础设施,这些系统需要高可用性、安全性和性能。作为我们的SRE/DevOps工程师,您将使用现代云技术和容器编排确保我们的交易平台无缝运行。 主要职责 - 监控和排查生产环境中的交易平台基础设施问题,通过全面的日志分析识别性能瓶颈和系统不一致性。 - 领导事件解决流程,进行彻底的根本原因分析,并跨团队协作实施永久解决方案。 - 使用行业标准工具(如Zabbix、Grafana和Dynatrace)设计和维护强大的监控系统,确保关键交易服务99.99%的正常运行时间。 - 使用Terraform和Terragrunt实施基础设施即代码实践,通过版本控制和可重复性管理云资源。 - 建立和优化Jenkins和GitLab CI中的CI/CD管道,实现快速、可靠的软件交付。 - 部署、自动化和管理基于AWS云的生产环境,重点关注可扩展性、安全性和成本优化。 - 使用Kubernetes编排容器化应用程序,确保在开发、QA和生产环境中一致部署。 - 维护和增强监控和告警系统,在问题影响最终用户之前检测和解决问题。 - 与开发团队合作,通过架构建议改进应用程序性能和系统可靠性。 - 记录基础设施配置、操作程序和灾难恢复计划。 必备技能和经验 - 5年以上在生产环境中使用Linux/Unix系统管理的实践经验。 - 3年以上使用AWS云服务的经验,包括EC2、S3、RDS、EKS和IAM。 - 容器化技术(特别是Docker和Kubernetes)的proven实践经验。 - 使用Terraform、Ansible、Chef或Puppet进行基础设施自动化的丰富经验。 - 使用Jenkins和/或GitLab CI构建和维护CI/CD管道的经验。 - 熟悉ELK堆栈、Zabbix、Grafana和Dynatrace等监控解决方案。 - 对网络概念、HTTP协议和Web服务器(Nginx)有扎实的理解。 - 熟练使用版本控制系统,特别是Git。 - 了解SQL和PostgreSQL或MySQL等数据库系统。 - 熟悉Kafka等分布式系统消息代理。 - 熟悉服务发现(Consul)和密钥管理(Vault)。 - 强大的问题解决能力和系统性的故障排除方法。 - 与技术和非技术人员出色的沟通能力。 加分项 - 具有金融或交易系统经验,这些系统需要高性能和可靠性。 - 了解微服务架构和相关基础设施模式。 - 使用Python、Go或其他编程语言进行自动化的经验。 - 了解云环境中的安全最佳实践。 - 熟悉分布式跟踪和可观察性工具。 - 曾使用高吞吐量、低延迟系统。 - AWS认证DevOps工程师、CKA或类似的专业认证。 技术栈 - 操作系统:Linux发行版(Ubuntu、CentOS、Amazon Linux) - 云服务提供商:AWS(EC2、EKS、RDS、S3、CloudWatch、IAM) - 容器编排:Kubernetes 1.25+、Docker - CI/CD:Jenkins、GitLab CI - 基础设施即代码:Terraform、Terragrunt、Ansible - 监控和日志:ELK Stack、Zabbix、Grafana、Dynatrace - 数据库:PostgreSQL - 消息代理:Apache Kafka - 服务发现和配置:Consul、Vault - 版本控制:Git、GitLab 为什么加入我们 加入我们的团队,掌控支持复杂交易操作的关键基础设施。您将在充满挑战、快节奏的环境中使用前沿技术,我们重视创新和持续改进。我们提供具有竞争力的薪酬、专业成长机会,以及与致力于构建弹性、高性能系统的才华横溢的工程师团队合作的机会。虽然这个职位一开始是完全远程工作,但有机会搬迁到我们位于黑山共和国的美丽办公室。