高级数据工程师 | GCP、Kubernetes、ML管道开发 | 远程职位

远程
全职
我们正为德国一家领先广播公司招募资深数据工程专家。作为高级数据工程师,您将负责设计和实施先进数据管道以支持机器学习项目,构建云原生微服务,并与数据科学团队紧密合作,将ML模型高效部署到生产环境。此岗位需要您在Google Cloud Platform、容器化技术和大数据处理框架方面具备深厚的专业知识和丰富经验。 主要职责 - 设计、开发并维护强健的数据管道,用于准备、提供和版本控制机器学习模型训练所需的数据集。 - 运用现代数据工程实践和工具(如Apache Airflow 2.5+和MLflow 2.7+)构建高扩展性ETL工作流。 - 为数据科学团队提供专业指导,特别是关于机器学习模型在生产环境中的高效运行方面。 - 设计并实现高性能微服务,通过REST API提供模型服务,包括生产环境中模型监控的功能实现。 - 在云端生产环境中部署微服务,确保满足高可用性要求。 - 优化数据处理系统,平衡性能、成本和可维护性三大关键指标。 - 应用"基础设施即代码"原则,使用Terraform实现自动化、一致性部署。 - 与跨职能团队协作,确保数据工程工作与业务目标一致。 - 实施数据安全、治理和合规最佳实践,保护敏感信息。 必备技能与经验 - 5年以上数据工程或相关领域的专业经验,具备解决复杂数据挑战的能力。 - 精通Python 3.10+编程,熟悉Pandas、NumPy等数据处理库。 - 具有使用PySpark 3.4+进行大规模数据处理的实际项目经验。 - 扎实的SQL技能,熟练使用BigQuery和BigTable等云数据库。 - 熟练运用Docker容器技术和Kubernetes编排系统(1.27+版本)。 - 具备使用Apache Airflow设计和实现数据工作流的丰富经验。 - 有成功使用MLflow或类似平台实施和管理ML管道的记录。 - 深入了解Google Cloud Platform服务生态系统,包括GCS、GKE和AI Platform。 - 熟悉使用Terraform进行基础设施自动化和GitLab CI/CD流程。 - 对RESTful API设计原则有深刻理解,能够构建可扩展的API架构。 - 具备构建高可用性分布式系统的实践经验。 - 能够独立工作并有效管理技术优先级,按时交付高质量成果。 加分项 - 广播或媒体行业工作经验,了解行业特定数据处理需求。 - 时间序列数据处理和分析的专业知识。 - 熟悉Apache Kafka、Google Pub/Sub等实时数据流技术。 - 了解欧盟GDPR等数据治理和合规要求。 - 除GCP外,还熟悉AWS或Azure云平台。 - 参与过开源数据工程项目或有技术社区贡献。 - 具备内容推荐系统或个性化技术的实施经验。 - 图数据库和图计算处理经验(如Neo4j)。 - 具有高级数学或统计学背景,能支持复杂数据模型开发。 项目详情 - 期限:初始2个月合同,视项目进展有很大可能延长。 - 工作安排:完全远程办公,时间灵活但需确保与欧洲团队有效协作。 - 团队构成:您将与国际化的数据科学家、工程师和产品专家团队紧密合作。 为何加入我们 在德国顶尖广播公司工作,您将面临大数据与媒体交叉领域的独特挑战。您将负责构建系统,为数百万观众提供个性化内容体验,同时使用前沿云原生技术。这个职位在快速发展的数字媒体领域提供卓越的职业发展机会。加入我们,通过创新的数据解决方案,重新定义观众如何发现和参与广播内容,在数据工程领域留下您的专业印记。