高级交易系统事故经理 | 远程 | AWS与SQL技术
远程
全职
作为高级事故经理,您将负责监控、故障排除和优化我们的多层交易应用架构。您将在性能和可靠性至关重要的高要求环境中处理微服务。这是一个远程职位,为您提供与全球团队合作开发复杂金融技术的机会。
主要职责
- 监控和维护生产交易系统,确保24x7可用性和最佳性能。
- 识别、分析并解决微服务架构中的事故,必要时组织跨团队协作。
- 调查系统日志、性能指标和资源利用情况,以主动检测和解决潜在问题。
- 部署、自动化和管理基于AWS云的环境,以实现最大可用性、性能、可扩展性和安全性。
- 管理开发、QA和生产环境,重点关注稳定性和性能。
- 创建并维护事故解决程序和系统配置的文档。
- 对系统事故进行根本原因分析并实施预防措施。
- 监督生产环境中应用程序的构建、发布和定制过程。
- 开发并推荐技术改进、升级和修改,以提高系统可靠性。
- 与开发团队合作,根据发现的问题实施修复和改进。
必备技能与经验
- 1年以上设计、分析、故障排除和解决多层应用架构问题的经验,特别是需要24x7可用性的面向服务和微服务架构。
- 精通编写和优化SQL查询以进行性能分析和故障排除。
- 熟悉Oracle (PL/SQL 21c)和/或PostgreSQL 15数据库系统。
- 扎实的Linux命令行技能,包括熟练使用awk、sed、bash、cat、grep和其他常用工具。
- 实际了解AWS服务,包括VPC、EC2、ECS、Route53和S3。
- 具有Git版本控制系统和工作流程经验。
- 掌握网络原理和故障排除的基础知识。
- 卓越的分析和问题解决能力,能够在压力下工作。
- 强大的沟通技巧,能有效进行跨团队协作。
- 自我激励,能够在远程环境中独立工作。
加分项
- 高级Linux系统管理和Web服务器(Nginx 1.24、Tomcat 10)经验。
- 熟悉DevOps工具,包括Docker 24.0、Jenkins 2.426、GitLab CI和Terraform 1.7。
- 了解JVM配置和优化技术。
- 熟悉REST API和gRPC通信协议。
- 实施和支持高负载应用程序的经验。
- 软件工程师背景,特别是在金融、外汇或游戏行业。
- 熟练使用JIRA进行事故和项目管理。
- 具有ELK堆栈(Elasticsearch 8.x、Logstash、Kibana)日志管理和分析经验。
- 了解Zabbix 6.4或Prometheus监控系统。
- 理解消息代理,包括Kafka 3.6、SQS/SNS和ESB的工作原理。
- 具有Bash和Python 3.12脚本编写经验,用于自动化和监控。
为什么加入我们
与我们一起工作意味着站在金融技术的前沿,您的专业知识将直接影响关键交易系统的可靠性。您将有机会与全球优秀专业人士团队远程合作,不断提升您在多种技术领域的技能,并为尖端交易平台的成功做出贡献。我们重视创新、问题解决能力和技术卓越,为专注的IT专业人士提供具有挑战性且有回报的环境。