Notre article scientifique

Naissance du projet
Dans le cadre du module Natural Language Processing en ING3 (spécialité IA), nous avons mené un projet en groupe de quatre autour d’un cas d’usage concret : automatiser l’analyse de CV dans un processus de recrutement.
Face à la montée en puissance des outils d’IA dans les services RH, nous avons imaginé un système capable de traiter un CV de bout en bout : de l’extraction des informations à la rédaction d’un email personnalisé au candidat.
Architecture : Mono-Agent vs Multi-Agents
Nous avons comparé deux approches :
Un système mono-agent, où un seul LLM réalise extraction, évaluation et génération en une seule étape.
Un système multi-agents, composé de trois agents spécialisés travaillant en séquence :
Agent Extracteur → structure le CV en JSON
Agent Évaluateur → analyse l’adéquation avec le poste
Agent Rédacteur → génère un email personnalisé
Le cas d’usage choisi était le tri de candidatures pour un poste de Data Scientist Junior spécialisé en NLP.
Données & Stack technique
Nous avons utilisé un dataset Kaggle contenant des CV en PDF ainsi qu’un fichier Excel associé : https://www.kaggle.com/datasets/anissamylaamri/cv-database-excel-pdf
Notre stack technologique :
LangChain
Ollama (exécution locale)
Llama 3 (8B)
PyPDF pour l’extraction de texte
Un ground truth a été annoté manuellement sur 30 CV afin de benchmarker les performances.
Résultats
Les résultats mettent en évidence un compromis intéressant :
Le multi-agent obtient une meilleure accuracy (82.61%) et une meilleure precision (72.73%).
Le mono-agent atteint un recall parfait (100%), est trois fois plus rapide et consomme moins de tokens.
Le F1-score est identique (80%) pour les deux approches.
Le multi-agent est plus précis mais plus fragile (erreurs JSON), tandis que le mono-agent est plus robuste et plus rapide.
Conclusion
Ce projet nous a permis d’explorer concrètement les architectures multi-agents appliquées aux LLMs, dans un contexte réaliste de recrutement automatisé.
Au-delà des performances, nous avons analysé la robustesse, la latence, la consommation de tokens et les erreurs de pipeline, dans une logique expérimentale complète.
Un projet court mais particulièrement stimulant, qui nous a permis de comprendre les forces et limites des systèmes multi-agents dans des workflows NLP structurés. Pour consulter le code documenté, voici le lien vers notre dépôt GitHub :




