جديد
Remote
وصف الوظيفة
Rejoignez **Crossing Hurdles**, une start‑up innovante spécialisée dans la formation d’agents d’intelligence artificielle. Nous développons des solutions d’apprentissage automatique qui permettent aux entreprises d’automatiser leurs processus métiers et d’améliorer leurs performances. Dans le cadre de notre croissance rapide, nous recherchons un(e) Data Engineer passionné(e) et autonome pour concevoir, implémenter et piloter les pipelines de données qui alimenteront nos modèles IA.
**Missions principales**
- Concevoir, développer et maintenir des pipelines ETL robustes et évolutifs en Python, en s’appuyant sur des bases de données MySQL et PostgreSQL.
- Intégrer et harmoniser des sources de données hétérogènes (APIs, fichiers plats, flux en temps réel) en utilisant Java et JavaScript.
- Collaborer étroitement avec les équipes IA/ML pour garantir la disponibilité de jeux de données de haute qualité, adaptés aux besoins de formation et de validation des modèles.
- Optimiser les performances des pipelines et des modèles IA grâce à des bonnes pratiques d’ingénierie des données (partitionnement, indexation, caching, parallélisation).
- Mettre en place des contrôles de qualité des données (validation, déduplication, traçabilité) et assurer la conformité aux exigences de gouvernance et de sécurité.
- Documenter les flux de travail, les schémas de données et les procédures opérationnelles, et communiquer clairement les concepts techniques aux parties prenantes non‑techniques.
- Diagnostiquer et résoudre les incidents liés aux flux de données, en assurant une disponibilité continue et une intégrité irréprochable.
**Profil recherché**
- Minimum 3 ans d’expérience en ingénierie de données ou dans un rôle similaire.
- Maîtrise avancée de Python et des frameworks ETL (Airflow, Luigi, Prefect ou équivalents).
- Solide expérience avec les bases de données relationnelles MySQL et PostgreSQL ; connaissance des bases NoSQL est un plus.
- Compétences en développement Java et JavaScript pour l’intégration de sources externes.
- Connaissance des environnements cloud (AWS, GCP ou Azure) et des services de stockage/traitement de données (S3, BigQuery, Redshift, Dataflow).
- Familiarité avec les outils de conteneurisation (Docker) et d’orchestration (Kubernetes) ainsi que les pipelines CI/CD.
- Esprit d’analyse, rigueur et capacité à travailler de façon autonome dans un contexte 100 % remote.
- Bonnes compétences en communication écrite et orale en anglais ; le français est un atout.
**Ce que nous offrons**
- Un poste en télétravail complet avec une grande flexibilité d’horaires.
- Un environnement de travail stimulant où l’innovation et la prise d’initiative sont encouragées.
- Accès à des formations continues (cloud, IA, data engineering) et à des conférences spécialisées.
- Un package salarial compétitif, incluant des avantages sociaux et des stock‑options.
- La possibilité de travailler aux côtés de chercheurs et d’ingénieurs de pointe dans le domaine de l’IA.
Si vous êtes animé(e) par les défis de la donnée et que vous souhaitez contribuer à la prochaine génération d’agents IA, postulez dès maintenant et rejoignez l’aventure Crossing Hurdles !