Offre d'emploi Stage Vision par ordinateur (Code : DATA_04)

Alternance
Informatique / Multimédia / Internet
Caplogy SAS
Rhône - Lyon, France

Description du poste

*AR par Vision-Transformers pour Reconnaissance Fine d'Exercices avec Contraintes Edge* *Descriptiondustage:* Le stage s’inscrit dans un projet visant à concevoir une solution légère et efficace de reconnaissance fine d’exercices de rééducation (membres supérieurs, membres inférieurs, équilibre) utilisable sur dispositifs edge (ex.

Raspberry Pi 4, Jetson Nano).

L’objectif est d’obtenir une architecture Vision-Transformer optimisée pour l’edge (faible nombre de paramètres, faible latence) capable de reconnaître des exercices, fournir un feedback interprétable et fonctionner en temps réel. *Objectifs scientifiques* * *Modèle léger & performant :* Développer une architecture Vision-Transformer compacte pour classifier 15–20 exercices de rééducation avec une haute précision. * *Exécution temps réel sur edge :* Optimiser le modèle pour atteindre un throughput utilisable en pratique et limiter la consommation mémoire/CPU. * *Interprétabilité :* Utiliser les cartes d’attention pour identifier les articulations/zones critiques par exercice et aider l’interprétation clinique. * *Comparaison méthodologique :* Comparer la solution ViT légère aux approches alternatives (CNN-LSTM, GCN) sur benchmarks publics. * *Acceptabilité utilisateur :* Évaluer l’ergonomie et l’acceptation d’une interface de retour pour patients/kinésithérapeutes. *Tâches principales :* * *Revue bibliographique & définition expérimentale* : Synthétiser l’état de l’art, choisir jeux de données et définir métriques (précision, latence, taille modèle, énergie). * *Prétraitement & extraction* : Préparer pipeline vidéo (224×224 @30fps), extraire squelettes 2D (MediaPipe / OpenPose), normaliser et augmenter (rotations, scaling, jitter temporel). * *Tokenisation spatio-temporelle* : Concevoir une stratégie de tokens légère (skeleton tokens + patches locaux autour des articulations clés). * *Conception du modèle Rehab-ViT* : Implémenter un encoder Transformer efficace (moins de couches, attention linéaire, MLPs optimisés) avec optimisations pour edge (depthwise conv, quantization-friendly design, mixed precision). * *Agrégation temporelle & tête de classification* : Intégrer modules temporaux légers (TSM ou LSTM allégé) et une tête multi-classe pour 15–20 exercices. * *Optimisation & déploiement sur edge* : Pruning, quantization, compilation (TensorRT / ONNX), et tests de latence & mémoire sur Raspberry Pi / Jetson Nano. * *Évaluation & comparaison* : Mesurer précision, rappel, latence, taille modèle; comparer ViT vs CNN-LSTM vs GCN sur benchmarks et ablations. * *Interprétabilité & validation utilisateur* : Générer attention maps, extraire articulations critiques, organiser tests utilisateurs (kinés) pour recueillir feedback. * *Documentation & valorisation* : Rédiger rapport, fournir code reproduisible, notebooks d’évaluation et matériel de démonstration. *Compétences et pré-requis :* * Bonnes bases en CNN, Transformers, estimation de pose et traitement vidéo. * Maîtrise pratique de PyTorch ou TensorFlow. * Connaissances en quantization, pruning, ONNX, TensorRT. * Excellente maîtrise de Python, Git, et outils d’expérimentation (Jupyter, Weights & Biases, etc.). * Capacité à analyser des performances, rédiger un rapport scientifique clair et documenter le code. * Intérêt pour la rééducation, l’intelligence embarquée et la vision explicable. *Bibliographie :* * A.

Sabrina, B.

Sarra and M.

Khawla, "Visual-HAR: A Real-Time Human Activity Recognition Model Based on Visual Sensors," _2024 4th International Conference on Electrical, Computer, Communications and Mechatronics Engineering (ICECCME)_, Male, Maldives, 2024, pp.

1-6, doi: 10.1109/ICECCME62383.2024.10796463. * R.

R.

Dokkar, F.

Chaieb, H.

Drira, and A.

Aberkane, “_ConViViT — A Deep Neural Network Combining Convolutions and Factorized Self-Attention for Human Activity Recognition_,” _arXiv preprint arXiv:2310.14416_, 2023.

doi: 10.48550/arXiv.2310.14416. * Olfa Haggui, Hamza Bayd, Baptiste Magnier, Arezki Aberkane.

Human Detection in Moving Fisheye Camera using an Improved YOLOv3 Framework.

IEEE MMSP 2021
- IEEE 23rd International Workshop on Multimedia Signal Processing, Oct 2021, Tampere, Finland.

ff10.1109/mmsp53017.2021.9733674ff.

ffhal-03372894 Type d'emploi : Stage Durée du contrat : 6 mois Rémunération : 4,35€ par heure Nombre d'heures : 35 par semaine Lieu du poste : En présentiel
Durée
Non renseignée
Localisation
Rhône - Lyon, France
Niveau souhaité :
Secteur :
Informatique / Multimédia / Internet
Type de contrat :
Contrat d'apprentissage

Expérience requise :
Compétences requises :
Non renseigné
En savoir + sur l'employeur

Lire la suite
Partager cette offre :
Copier le lien

Ces offres pourraient aussi t'intéresser