高级交易系统事故经理 | 远程 | AWS与SQL技术

远程
全职
作为高级事故经理,您将负责监控、故障排除和优化我们的多层交易应用架构。您将在性能和可靠性至关重要的高要求环境中处理微服务。这是一个远程职位,为您提供与全球团队合作开发复杂金融技术的机会。 主要职责 - 监控和维护生产交易系统,确保24x7可用性和最佳性能。 - 识别、分析并解决微服务架构中的事故,必要时组织跨团队协作。 - 调查系统日志、性能指标和资源利用情况,以主动检测和解决潜在问题。 - 部署、自动化和管理基于AWS云的环境,以实现最大可用性、性能、可扩展性和安全性。 - 管理开发、QA和生产环境,重点关注稳定性和性能。 - 创建并维护事故解决程序和系统配置的文档。 - 对系统事故进行根本原因分析并实施预防措施。 - 监督生产环境中应用程序的构建、发布和定制过程。 - 开发并推荐技术改进、升级和修改,以提高系统可靠性。 - 与开发团队合作,根据发现的问题实施修复和改进。 必备技能与经验 - 1年以上设计、分析、故障排除和解决多层应用架构问题的经验,特别是需要24x7可用性的面向服务和微服务架构。 - 精通编写和优化SQL查询以进行性能分析和故障排除。 - 熟悉Oracle (PL/SQL 21c)和/或PostgreSQL 15数据库系统。 - 扎实的Linux命令行技能,包括熟练使用awk、sed、bash、cat、grep和其他常用工具。 - 实际了解AWS服务,包括VPC、EC2、ECS、Route53和S3。 - 具有Git版本控制系统和工作流程经验。 - 掌握网络原理和故障排除的基础知识。 - 卓越的分析和问题解决能力,能够在压力下工作。 - 强大的沟通技巧,能有效进行跨团队协作。 - 自我激励,能够在远程环境中独立工作。 加分项 - 高级Linux系统管理和Web服务器(Nginx 1.24、Tomcat 10)经验。 - 熟悉DevOps工具,包括Docker 24.0、Jenkins 2.426、GitLab CI和Terraform 1.7。 - 了解JVM配置和优化技术。 - 熟悉REST API和gRPC通信协议。 - 实施和支持高负载应用程序的经验。 - 软件工程师背景,特别是在金融、外汇或游戏行业。 - 熟练使用JIRA进行事故和项目管理。 - 具有ELK堆栈(Elasticsearch 8.x、Logstash、Kibana)日志管理和分析经验。 - 了解Zabbix 6.4或Prometheus监控系统。 - 理解消息代理,包括Kafka 3.6、SQS/SNS和ESB的工作原理。 - 具有Bash和Python 3.12脚本编写经验,用于自动化和监控。 为什么加入我们 与我们一起工作意味着站在金融技术的前沿,您的专业知识将直接影响关键交易系统的可靠性。您将有机会与全球优秀专业人士团队远程合作,不断提升您在多种技术领域的技能,并为尖端交易平台的成功做出贡献。我们重视创新、问题解决能力和技术卓越,为专注的IT专业人士提供具有挑战性且有回报的环境。