Offre d'emploi Stage 4 à 6 mois Mise en place d’un serveur de transcription automatique pour boites noires audio

Description du poste

*N° TEC-ESA-ST2026\_AUD01* *Stage* Mise en place d’un serveur de transcription automatique de la parole pour les enregistreurs phoniques d’aéronefs (boites noires audio) *Lieu* : Laboratoire Audio-CVR, BEA, 10 rue de Paris, 93350 Le Bourget *Période* : 4 à 6 mois *Compensation financière* : gratification réglementaire, prise en charge partielle des frais de transport *Droit à congés* : jusqu’à 2 jour par mois sous forme d’absence (non gratifiée) *Contexte d’application du stage* Dans le cadre des enquêtes sur les accidents et incidents de l’aviation civile et militaire, le département technique du BEA (pour l’aviation civile) et le laboratoire RESEDA (pour l’aviation militaire) sont chargés de la récupération des données contenues dans les enregistreurs de vol communément appelés « boîtes noires » par le grand public. Actuellement, le BEA dispose d’un serveur informatique de calcul (distribué sur des cartes graphiques NVIDIA) dédié au traitement automatique de la parole, qui sert à la fois en production et en test à la transcription automatique de contenu audio des enregistreurs de vol phoniques.

Cette première étape de transcription automatique est un travail préliminaire à la transcription manuelle par les spécialistes audio.

Le serveur fonctionne sous Ubuntu 18.04 LTS et dispose d’une documentation d’installation. Le BEA plannifie la mise en place d’un second serveur en cas de panne du premier et pour faire ses tests de correction de bugs et d’amélioration du système de transcription.

Il conviendra d’abord d’installer et de faire fonctionner le même système de transcription de la parole (Whisper, OpenAI) que sur le serveur actuel puis d’y apporter des améliorations pour pouvoir notamment laisser à l’utilisateur le choix d’autres systèmes de transcription automatique (par ex.

Scribe de la DSNA, WhisperX). Les travaux seront réalisés au département technique du BEA sur une durée de 4 à 6 mois.

Le(La) stagiaire sera intégré(e) à l’équipe du laboratoire d’analyse audio du BEA ; il (elle) aura l’occasion de découvrir les techniques d’exploitation et d’analyse des données réalisées dans le cadre du support aux enquêtes de sécurité de l’aviation civile. *Travaux à réaliser lors du stage* · Choix du matériel à assembler (suivi de l’acquisition par le BEA) · Installation et test d’un serveur de transcription automatique de la parole, similaire à l’existant mais avec : o la dernière version LTS Ubuntu ou un autre système d’exploitation plus orienté serveur (par ex.

Debian Trixie) o automatisation des mises à jour sous forme de paquet o réorganisation de l’emplacement des logiciels sous forme standard · Amélioration de l’interface utilisateur (prompt pour guider la transcription, paramétrisation des langues, traduction, interfaçage avec le logiciel d’édition sonore Magix Samplitude, etc.) · Interfaçage du serveur avec le système de transcription Scribe de la DSNA (communication avec serveur distant) · Lancement en production du nouveau serveur · Mise à niveau de l’ancien serveur, mise à jour logiciel · En fonction du temps disponible : o adaptation du modèle Whisper avec des bases déjà annotées du BEA o interfaçage avec les transcriptions d’enquête validées par un expert pour adaptation automatique et incrémentale du modèle de transcription automatique o Fonctionnalités supplémentaires liées aux remontées des utilisateurs *Profil du (de la) candidat(e)* o Niveau M1/M2 ou équivalent dans le domaine de l’architecture parallèle o Connaissances exigées en : o Linux o Serveur o CUDA o Git o Base de données o Utilisation de modèles de reconnaissance automatique (intelligence artificielle) o Connaissances de préférence, mais non obligatoire, en : o Traitement automatique de la parole o Traitement du signal audio numérique *Bibliographie* - BEA, Ce qu’il faut savoir sur les enregistreurs de vol, 2009. - A Radford, JW Kim, T Xu, G Brockman, C McLeavey, I Sutskever, Robust speech recognition via large-scale weak supervision, International conference on machine learning, 2023 https://doi.org/10.48550/arXiv.2212.04356 https://github.com/openai/whisper/blob/main/README.md - Bain, M., Huh, J., Han, T.

and Zisserman, A.

, WhisperX: Time-Accurate Speech Transcription of Long-Form Audio, arXiv, 2023 https://doi.org/10.48550/ARXIV.2303.00747 - Betouret Candau, F., Carol, J., Martin, S., Roques, T., Scribe : libérer le potentiel de la communication vocale ATC, Les entretiens de Toulouse, 2025 - Bredin, H.

and Laurent, A., End-to-end speaker segmentation for overlap-aware resegmentation, Proc.

Interspeech 2021, 2021 https://doi.org/10.48550/arXiv.2104.04045 - Bredin, H., Yin, R., Coria; J.

M., Gelly, G., Korshunov, P., Lavechin, M., Fustes, D., Titeux, H., Bouaziz, W.

Gill, M.-P, pyannote.audio: neural building blocks for speaker diarization, ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing, 2020 https://doi.org/10.48550/arXiv.1911.01255 https://huggingface.co/pyannote/segmentation https://huggingface.co/pyannote/voice-activity-detection *Contact et encadrement de stage* Audio, parole : Lionel Feugère – Laboratoire Audio-CVR Enquêteur spécialisé, docteur en acoustique Email : lionel.feugere@bea.aero Système d’exploitation Linux, serveurs : Stéphane Pion – Laboratoire enregistreurs FDR Enquêteur spécialisé Email : stephane.pion@bea.aero *Candidature* Envoyer un CV et une lettre de motivation expliquant comment votre formation, vos compétences et vos intérêts sont adaptées à ce stage.

Les candidatures seront analysées au fil de l’eau. Type d'emploi : Temps plein, Stage Durée du contrat : 4-6 mois Avantages : * Prise en charge du transport quotidien * Restaurant d'entreprise Lieu du poste : En présentiel Exigences:
• {'label': 'Anglais', 'requirementSeverity': 'REQUIRED'}
• {'label': 'Français', 'requirementSeverity': 'PREFERRED'}
• {'label': 'Master 1', 'requirementSeverity': 'PREFERRED'}
• {'label': 'Recherche', 'requirementSeverity': 'PREFERRED'}
• {'label': 'Master', 'requirementSeverity': 'PREFERRED'}
• {'label': 'Ingénierie aéronautique', 'requirementSeverity': 'PREFERRED'}
• {'label': 'Acoustique', 'requirementSeverity': 'PREFERRED'}
• {'label': 'Ingénierie audio', 'requirementSeverity': 'PREFERRED'} Avantages:
• Système de récompense
• Prise en charge du transport quotidien
• Restaurant d'entreprise