Description du poste
*Sujet de stage : Apprentissage en continu pour l’analyse des sentiments en flux des réseaux sociaux*
*Contexte : *L’analyse des sentiments à partir des réseaux sociaux est un levier important pour comprendre la perception des clients, anticiper des signaux faibles (insatisfaction, crise, rumeurs) et mesurer l’influence de campagnes ou d’événements sur des compagnies/produits.
Un *premier travail* a permis de construire un *pipeline opérationnel* :
1.
*Collecte et stockage* de données sociales en temps réel,
2.
*Prédiction de polarité* via un modèle d’apprentissage profond (ex.
CNN) avec une contrainte d’efficacité/latence,
3.
*Visualisation* et interaction via une interface afin d’aider la décision.
*Problématique actuelle :* les données issues des réseaux sociaux évoluent rapidement (vocabulaire, tendances, ironie, sujets, événements).
Cette évolution entraîne un *concept drift* et, si l’on met à jour le modèle naïvement sur les nouvelles données, un risque d’*oubli catastrophique* (dégradation sur des connaissances anciennes).
L’objectif du stage est d’étudier et intégrer des stratégies d’*apprentissage en continu* pour maintenir (et améliorer) la performance dans le temps.
*Objectif du stage : *
1.
*Caractériser le drift* des données (évolution temporelle) et ses impacts sur la performance du modèle de sentiment.
2.
Mettre en place un *protocole d’évaluation streaming* (mesure continue, fenêtres temporelles, métriques adaptées).
3.
Développer et comparer des approches d’*apprentissage en continu* adaptées au modèle existant (CNN) et aux contraintes du système (latence, coût, robustesse).
4.
*Intégrer* la stratégie retenue dans le pipeline (mise à jour contrôlée, traçabilité, versioning, rollback).
5.
Améliorer la *visualisation* : suivi de performance dans le temps, alertes drift, tendances par compagnie/produit/service.
*Travail demandé :*
* Etat de l’art : apprentissage en continu (replay, régularisation, détection de drift), continual learning en NLP/sentiment, et bonnes pratiques d’évaluation en flux.
· Construction de *splits temporels* (par jour/semaine/mois) et/ou simulation d’un flux.
· Définition des métriques : F1 macro, stabilité temporelle, mesure d’oubli (performance sur périodes passées), latence et coût de mise à jour.
* Implémenter et comparer plusieurs familles Méthodes d’apprentissage en continu (sur le modèle existant)
· Ajout d’un “module update” : entraînement incrémental contrôlé (batching), journalisation, versioning des modèles, critères d’acceptation (garde-fous).
· Monitoring : suivi performance/latence + alertes drift.
· Mise à jour de l’interface : visualisation des tendances de sentiment
*Résultats attendus*
· Une *évaluation complète* montrant l’impact du drift et l’intérêt des stratégies anti-oubli.
· Un *prototype intégré* au pipeline existant, capable de s’adapter aux données récentes sans perdre significativement les performances historiques.
· Des visualisations utiles au métier : influence d’une compagnie/service, évolution temporelle, événements/drifts.
*Formation requise*
Stage destiné à un(e) étudiant(e) en *M2 / dernière année d’école d’ingénieur* avec spécialisation IA/DS :
· Python, NLP, deep learning (CNN/LSTM/Transformers – au moins CNN),
· notions de déploiement (API, conteneurisation) et Git,
· un plus : streaming data, MLOps/monitoring
Type d'emploi : Stage
Durée du contrat : 6 mois
Rémunération : Jusqu'à 850,00€ par mois
Lieu du poste : En présentiel