高级数据工程主管 | 远程人工智能平台 | AWS/Python/ETL
远程
全职
我们正在构建一个创新平台,利用人工智能技术改变内容在社交媒体渠道上的创建和发布方式。作为我们的数据工程主管,您将成为数据基础设施的核心,确保我们的人工智能模型能够访问来自不同来源的高质量、结构良好的数据。
主要职责
- 设计、开发和维护稳健、容错的数据管道,能够使用现代技术(如Apache Airflow 2.7+、dbt 1.6+和AWS Glue 4.0+)处理TB级社交媒体数据。
- 使用Amazon Redshift、Snowflake或Azure Synapse Analytics设计全面的数据仓库解决方案,以支持复杂的分析和机器学习工作负载。
- 使用Great Expectations和Monte Carlo等工具实现精密的数据质量框架,确保AI模型训练的数据准确性和可靠性达到99.9%以上。
- 自动化复杂的提取、转换、加载(ETL)流程,简化来自多个社交媒体API和内部系统的数据摄取,同时将运营开销减少至少85%。
- 使用Datadog、Prometheus和Grafana持续监控和优化数据管道,实现亚分钟级数据延迟和99.95%的运行时间SLA。
- 推动与数据科学家、机器学习工程师和产品团队的跨部门协作,使数据基础设施与不断发展的人工智能模型需求和业务目标保持一致。
- 建立并执行严格的数据治理政策,确保社交媒体数据处理符合GDPR、CCPA和其他相关合规标准。
- 实施和维护Amundsen或DataHub等数据目录解决方案,以改善组织内的数据发现和文档编制。
- 使用Power BI、Tableau或Looker等工具开发实时分析仪表板,提供关于平台性能和用户参与度的可操作洞见。
- 研究和评估Databricks Unity Catalog、Apache Iceberg和dbt Mesh等新兴数据技术,不断发展我们的数据架构。
必备资格
- 计算机科学、数据工程或相关技术领域的学士或硕士学位,博士学位为加分项。
- 5年以上构建和扩展数据工程解决方案的实践经验,其中至少3年担任技术领导角色。
- 精通Python 3.11+,包括用于大规模数据处理的pandas、numpy和PySpark库。
- 具有SQL和NoSQL数据库的实际经验,包括PostgreSQL 15+、MongoDB 6+或Apache Cassandra 4+。
- 在云数据服务方面有扎实的背景,特别是AWS(Redshift、S3、Glue、Lambda)或Azure(Synapse、Data Factory、Data Lake Storage)。
- 具有实施数据网格、数据湖仓或勋章架构等现代数据架构模式的实际经验。
- 有设计和优化ETL/ELT工作流程处理来自外部API的高容量、多样化数据集的成功记录。
- 熟悉Apache Kafka、Amazon Kinesis或Azure Event Hubs等流处理技术,用于实时数据管道。
- 精通Terraform或AWS CloudFormation等基础设施即代码工具,用于维护数据基础设施。
- 具有Docker和Kubernetes容器化和编排知识,用于可扩展数据处理。
为什么加入我们?
您将站在构建下一代人工智能驱动社交媒体工具的前沿,这些工具具有全球影响力。我们的远程优先文化提供灵活性和工作生活平衡,而我们的具有竞争力的薪酬包括快速成长的初创公司的股权期权。您将使用尖端技术,并与多元化、才华横溢的团队合作,他们热衷于解决复杂的数据挑战。我们通过专门的预算支持专业发展和参加会议,促进持续学习。