Comprendre le Process Mining en santé : un mini tuto pour transformer son regard sur les parcours de soin

Cet article est une synthèse et une introduction d’un cours que nous donnons dans des formations de niveau Master 2 et Grandes Écoles. Il s’appuie aussi sur notre expérience  sur notre expérience professionnelle (15+ projets industriels et hospitaliers sur données réelles) et académique sur le sujet (Encadrement de thèses par Vincent Augusto) :

Martin Prodel (2014-2017)
prédiction du parcours patient à partir du PMSI
Hugo De Oliveira (2017-2020)
modélisation prédictive des parcours du SNDS
Jules Le Lay (2019-2022)
optimisation des parcours de soins de patients multimorbides
Laura Uhl (2020-2024)
prédiction de parcours de soins intra hospitalier

Les articles scientifiques associés sont en référence à la fin de l’article 👇.


Lorsque l’on parle du fonctionnement réel d’un hôpital, d’un bloc opératoire ou d’un parcours de patients chroniques, on s’appuie souvent sur des procédures, des protocoles ou des schémas de flux. Pourtant, toute personne ayant travaillé sur l’étude des parcours de soins en pratique sait que la réalité ne suit jamais parfaitement ces modèles.

Il existe une différence entre ce qui devrait se passer et ce qui se passe réellement.
C’est précisément dans cet espace que se situe une discipline scientifique qui mériterait selon nous d’être encore plus connue : le Process Mining.

Cet article est conçu comme un mini tuto de découverte, destiné à celles et ceux qui souhaitent comprendre cette méthode, son origine, ses principes fondamentaux et surtout sa valeur concrète dans les organisations de santé. 

Bienvenue dans cette introduction guidée au Process Mining.

1. Définition : que signifie “Process Mining” ?

Le terme anglais Process Mining est généralement traduit en français par “fouille de processus” ou “analyse des processus à partir des données”. Cette traduction, bien que correcte, peut laisser penser à une simple extraction de données ou à un audit documentaire. En réalité, le Process Mining est une discipline scientifique à part entière, située à la croisée de trois domaines :

  • l’informatique,
  • la théorie des processus,
  • et l’analyse des traces numériques.

L’idée fondatrice est simple mais élégante:

À chaque fois qu’un système informatique enregistre un événement, il capture une partie de l’histoire réelle d’un processus. Le Process Mining reconstitue cette histoire.

Ainsi, plutôt que de s’appuyer sur la manière dont un processus est censé fonctionner, il montre la manière dont il fonctionne réellement, au travers de milliers d’événements enregistrés dans les systèmes d’information.

2. Une discipline née à l’université, mais conçue pour le terrain

Le Process Mining démarre dans des travaux académiques des années 1990-2000, menés notamment à l’université de technologie d’Eindhoven (Pays-Bas), autour du professeur Wil van der Aalst, aujourd’hui considéré comme “le père fondateur” de la discipline.
À l’origine, ces travaux cherchaient à combiner deux mondes :

  • les modèles de workflow (Rigoureux, théoriques, utilisés pour décrire des processus)
  • et les données d’exécution réelles (Désordonnées, imparfaites, issues de systèmes métiers)

Le Process Mining est né là :  un moyen de comparer la théorie et la pratique, la norme et le vécu, le modèle et la donnée brute.

Depuis, c’est devenu un champ scientifique à part entière, avec ses méthodes, ses algorithmes, ses outils, ses revues, ses conférences, ses communautés, et des centaines de publications. Par exemple, j’obtiens 2 477 résultats pour une recherche d’articles sur IEEE explore, entre 2015 et 2025 avec le mot clé “process mining”; et 311 pour la même chose sur Pubmed (en date du 28 novembre 2025).

Pour nous, son intérêt dépasse la recherche : il s’agit d’un outil utile pour analyser et transformer les organisations de santé, où les processus sont complexes, multi professionnels, hétérogènes et chargés de variabilité.

3. Les trois piliers du Process Mining (sans simplifier à l’excès)

Dans un cadre d’enseignement, nous présentons toujours le Process Mining via trois grandes familles d’analyses, qui forment sa colonne vertébrale :

A. La découverte de processus (« process discovery »)

Il s’agit de reconstruire automatiquement la structure du processus à partir des données. L’algorithme ne connaît rien du processus ; il le redécouvre en analysant les enchaînements réels d’événements. C’est souvent une révélation pour les organisations : ce qu’elles imaginaient n’a rien à voir avec ce que montrent les données.


💡(pour aller plus loin sur le process discovery) Derrière le concept : une problématique de reconstruction de graphes

En termes formels, on cherche à :

Le défi théorique est qu’il existe une infinité de graphes possibles capables de reproduire les traces données. Le Process Mining cherche donc une solution minimale, générale et fidèle aux données, en optimisant un compromis entre 4 critères :

  • fitness (le modèle doit pouvoir reproduire les traces observées)
  • précision (il ne doit pas autoriser trop de comportements non observés)
  • généralisation (il doit être robuste aux variations futures)
  • simplicité (principe d’Ockham)

Les algorithmes emblématiques

Alpha Miner (le premier historiquement)
Basé sur des relations de causalité simples (→, ||, ↔), il reconstruit le modèle en interprétant les co-occurrences temporelles. Ses limites : bruit, boucles courtes, complexité réelle.

Heuristic Miner (simple et efficace)
Introduit un scoring probabiliste : on estime la force des relations en fonction des fréquences, ce qui permet de réduire l’impact des événements rares ou anormaux.

Inductive Miner (l’état de l’art pour les projets industriels)
Il reconstruit le processus sous forme d’un arbre de blocs structurés (séquence, choix, boucle, parallèle), ce qui garantit :
absence d’ambiguïté
modèles toujours structurés et compréhensibles
scalabilité pour des millions d’événements.

C’est ce dernier algorithme (et ses variantes) que nous enseignons et que nous utilisons fréquemment dans nos projets industriels, en particulier lorsque les logs sont hétérogènes, incomplets ou très volumineux. 

Toutes ces méthodes sont facilement disponibles en Python via PM4PY (Open Source)

PM4Py est une bibliothèque open-source en Python dédiée au Process Mining : en d’autres termes, elle offre un ensemble complet d’algorithmes et d’outils permettant de reconstruire, analyser, visualiser et améliorer des processus réels à partir de journaux d’événements. 

Lien : https://processintelligence.solutions/pm4py

B. La vérification de conformité (conformance checking)

Pour ce deuxième pilier, on compare le processus réel avec le processus attendu ou théorique. On mesure les écarts, leur fréquence, leurs impacts.

Dans les hôpitaux, c’est souvent là que l’on découvre des étapes sautées, des retours en arrière, des séquences trop longues, des ruptures, ou des variations entre équipes…

💡(pour aller plus loin sur la conformance checking) La vision mathématique derrière : un problème d’alignement optimal

Le Conformance Checking cherche à comparer :

C. L’analyse de performance

C’est le volet le plus opérationnel : durées, temps d’attente, goulots d’étranglement, variabilité. En santé, cette dimension permet d’identifier précisément et pour qui les patients attendent trop.

Ces trois piliers donnent au Process Mining une puissance en tant qu’outil : il peut décrire, comparer, quantifier — le tout en s’ancrant dans les trajectoires réelles.

💡 (Pour aller plus loin sur l’analyse de perfomances) Les concepts mathématiques sous-jacents

4. De la théorie à la pratique : ce que nous observons dans les projets

Nos étudiants découvrent souvent les résultats de leurs premières analyses avec une forme d’étonnement :
« Je ne pensais pas que les processus étaient aussi variés »
« Je ne m’attendais pas à voir autant de chemins différents »
« Je ne savais pas que ce service était un goulot d’étranglement »

Cet étonnement, nous le retrouvons également dans les projets industriels. Voici trois situations typiques, anonymisées, issues de notre expérience :

Exemple 1 : Parcours chirurgical

Dans un projet mené en chirurgie, la reconstruction automatique des parcours a révélé trois “routines” très différentes selon les jours de la semaine. Certaines séquences pré-opératoires étaient effectuées de manière tardive les lundis, créant un allongement de délai très significatif. Ce n’était écrit nulle part ; seule l’analyse des traces l’a mis en lumière.

Exemple 2 : Service d’urgences

Un flux inattendu apparaissait systématiquement dans les graphes : un groupe de patients contournait un point de passage pourtant considéré comme “obligatoire” dans la procédure. Il s’agissait en réalité d’une organisation informelle mise en place pour résoudre un problème local… des années plus tôt.

Exemple 3 : Parcours de maladies chroniques

Le Process Mining a permis d’identifier des ruptures de suivi invisibles dans les dashboards classiques. Certains patients s’échappaient du parcours avant de revenir plus tard pour des complications.  L’équipe clinique savait que le suivi était imparfait ; elle ne connaissait ni l’ampleur ni le profil des patients concernés.

Dans chacun de ces cas, la force du Process Mining tient au fait qu’il montre, avec une neutralité scientifique, ce que la donnée raconte.

5. Pourquoi le Process Mining est particulièrement pertinent en santé

Dans les systèmes industriels (manufacturing, supply chain), les processus sont souvent linéaires, fortement automatisés, et optimisés depuis longtemps.
Dans la santé, l’humain est central, la variabilité est naturelle, et les contraintes sont multiples.

C’est pourquoi le Process Mining y apporte de la valeur :

  • il objective ce qui est habituellement discuté sur la base d’impressions,
  • il met en lumière les pratiques réelles plutôt que les intentions,
  • il révèle des micro-adaptations locales, qui deviennent parfois des macro-problèmes,
  • il aide à structurer des décisions d’organisation fondées sur des résultats quantifiés.

Pour un directeur d’hôpital, un chef de service ou un cadre de pôle, il offre un nouveau type de miroir : un miroir objectif de l’activité. Pour un responsable sur une aire thérapeutique ou pour un produit de santé, il pose une base objective pour travailler sur les parcours.

6. Au-delà du diagnostic : Process Mining, simulation et jumeaux numériques

L’analyse par Process Mining constitue souvent la première étape d’un travail de transformation organisationnelle. Chez DALI, nous la combinons systématiquement avec la modélisation, la simulation et les jumeaux numériques organisationnels.

Généré par IA par l’auteur

Le Process Mining sert alors à ancrer le modèle dans la réalité :
→ il fournit la structure des parcours, les distributions de temps, la variabilité observée.
La simulation permet ensuite de tester des scénarios : réorganisations, changement de planning, ajout de ressources, modification de séquences.

C’est ce lien “analyse du réel + expérimentation virtuelle” qui rend nos projets particulièrement pertinents pour les hôpitaux et les industriels. Ils sont alors “Utiles”, “Utilisables” et “Utilisés”.

Conclusion : le Process Mining, entre science et terrain

Le Process Mining est devenu, en quelques années, un outil incontournable pour comprendre les organisations complexes. Il combine la rigueur de la recherche, la finesse de l’analyse des données et la pertinence du diagnostic opérationnel.

Ce que nous apprécions le plus, en tant qu’enseignants et praticiens, c’est sa capacité à réconcilier la théorie et la réalité. Il montre ce qui est, et non ce que l’on imagine.
Il aide à mieux comprendre, donc à mieux agir.

Dans les organisations de santé, cette compréhension est un levier essentiel pour améliorer les parcours, réduire les délais, optimiser les ressources et, in fine, améliorer l’expérience des patients et des professionnels.

Si vous souhaitez aller plus loin, ou si vous envisagez de former vos équipes à cette méthode, nous serions ravis de partager notre expertise, à la fois académique et opérationnelle : contact@dali.science

Nos articles scientifiques publiés sur le sujet depuis 10 ans

  • Le Lay J.; Augusto V.; Alfonso-Lizarazo E.; Masmoudi M.; Gramont B.; Xie X.; Bongue B.; Celarier T. COVID-19, Bed Management Using a Two-Step Process Mining and Discrete-Event Simulation Approach (2024) IEEE Transactions on Automation Science and Engineering 21:3:3080-3091 doi:10.1109/TASE.2023.327484
  • Le Lay J.; Perrier L.; Augusto V.; Boucher X.; Xie X., Modelling and Simulation of Genomic Sequencing Platform Operations (2023) Proceedings – Winter Simulation Conference ::1160-1171 doi:10.1109/WSC60868.2023.1040766
  • Le Lay J.; Neveu J.; Dalmas B.; Augusto V., Automated generation of patient population for discrete-event simulation using process mining (2022) Simulation Series 54:1:803-814 doi: 10.23919/ANNSIM55834.2022.9859406
  • Uhl L.; Augusto V.; Dalmas B.; Alexandre Y.; Bercelli P.; Jardinaud F.; Aloui S., Evaluating the Bias in Hospital Data: Automatic Preprocessing of Patient Pathways Algorithm Development and Validation Study (2024) JMIR Medical Informatics 12::- doi: 10.2196/58978
  • Uhl L.; Augusto V.; Lemaire V.; Alexandre Y.; Jardinaud F.; Bercelli P.; Aloui S., Progressive prediction of hospitalisation and patient disposition in the emergency department (2022) Proceedings – 2022 IEEE International Conference on Big Data, Big Data 2022 ::1719-1728 doi: 10.1109/BigData55660.2022.10020777
  • De Oliveira H.; Augusto V.; Jouaneton B.; Lamarsalle L.; Prodel M.; Xie X., Automatic and explainable labeling of medical event logs with autoencoding (2020) IEEE Journal of Biomedical and Health Informatics 24:11:3076-3084 doi:10.1109/JBHI.2020.3021790
  • De Oliveira H.; Augusto V.; Jouaneton B.; Lamarsalle L.; Prodel M.; Xie X., Optimal process mining of timed event logs (2020) Information Sciences 528::58-78 doi: https://doi.org/10.1016/j.ins.2020.04.020
  • Prodel M.; Augusto V.; Jouaneton B.; Lamarsalle L.; Xie X. Optimal Process Mining for Large and Complex Event Logs (2018) IEEE Transactions on Automation Science and Engineering 15:3:1309-1325 doi: 10.1109/TASE.2017.2784436
  • Prodel M.; Augusto V.; Xie X.; Jouaneton B.; Lamarsalle L., Stochastic simulation of clinical pathways from raw health databases (2017) IEEE International Conference on Automation Science and Engineering 2017-August::580-585 doi: 10.1109/COASE.2017.8256167

Augusto V.; Xie X.; Prodel M.; Jouaneton B.; Lamarsalle L., Evaluation of discovered clinical pathways using process mining and joint agent-based discrete-event simulation (2016) Proceedings – Winter Simulation Conference 0::2135-2146 doi: 10.1109/WSC.2016.7822256

Faut-il (vraiment) faire du machine learning sur les données de santé ?

Travaillant dans le secteur de la santé, nous nous sommes demandé s’il est devenu trop courant d’entendre : « On pourrait faire du machine learning sur les données de santé… ». La proposition semble prometteuse, avec un côté moderne, voire incontournable (et c’est sans parler d’IA génératives qui attirent beaucoup d’attention, on parle ici du machine learning « traditionnel »). Et pourtant… trop souvent, ces projets sont lancés sans réel besoin défini, ni question précise à résoudre. Comme si le simple fait d’utiliser un modèle complexe était en soi un gage de valeur ajoutée.

Nous avons appris au fil des projets que le machine learning n’a de sens que s’il est ancré dans un besoin de terrain, dans un besoin bien formulé. Le risque est que le résultat soit déceptif pour tout le monde, et que personne ne s’empare des résultats.

C’est ce que nous souhaitons partager dans cet article. Nous allons donc poser une question simple :

À quoi ça sert vraiment de faire du machine learning en santé ?

Nous verrons pourquoi l’engouement est réel (et souvent justifié), mais aussi pourquoi il faut rester lucide. Et surtout, comment construire des projets qui visent rigueur scientifique et finalité concrète.

🔎 Petit rappel : qu’est-ce qu’un un modèle de machine learning ?
Un modèle de machine learning (= apprentissage automatique), c’est un programme qui apprend à repérer des régularités dans des données passées pour prédire, classer ou segmenter de nouveaux cas. C’est utile… si ces régularités existent vraiment, et si elles aident à prendre des décisions.

Mais attention, le modèle ne comprend pas ce qu’il fait ! Il ne fait que repérer des régularités mathématiques dans les données. S’il a été mal alimenté, ou si les données sont biaisées, les résultats seront trompeurs.

Trois exemples :
– Prédire un événement (classification ou régression) : va-t-il y avoir un risque de chute ?
– Regrouper automatiquement des cas similaires (clustering) : y a-t-il des profils types de parcours post-opératoire ?
– Détecter des comportements inhabituels (anomaly detection) : ce signal de capteur sort-il de l’ordinaire ?

Décryptage – Le boom du machine learning en santé (2010–2025)

Pour commencer, jetons un petit regard en arrière pour voir ce que nous dit l’évolution du machine learning en santé du point de vue des publications. Le constat est clair : l’intérêt scientifique pour le machine learning, tous sujets confondus en santé, connaît une croissance spectaculaire, confirmée par plusieurs revues de littérature récentes.

Quelques chiffres clés :

  • Une simple recherche sur le site PubMed (https://pubmed.ncbi.nlm.nih.gov/), “Machine Learning + Healthcare” OR “Artificial intelligence + Healthcare”, donne 35 105 réponses (au 1er août 2025).
  • Une étude publiée dans Frontiers in Medicine a analysé 22  950 articles publiés entre 1993 et 2023. Elle montre une accélération très rapide après 2010, avec un pic marqué à partir de 2019 (Y. Xie et al. « Evolution of artificial intelligence in healthcare: a 30-year bibliometric study », Front. Med., vol. 11, janv. 2025, doi: 10.3389/fmed.2024.1505692)
  • Une autre étude recense toutes les publications contenant les mots-clés “machine learning” et “healthcare” dans Scopus de 2000 à 2024.  Le volume passe de quelques dizaines à plus de 3 000 articles par an (A. Dalky et al., « Global Research Trends, Hotspots, Impacts, and Emergence of Artificial Intelligence and Machine Learning in Health and Medicine: A 25-Year Bibliometric Analysis », Healthcare, vol. 13, nᵒ 8, Art. nᵒ 8, janv. 2025, doi: 10.3390/healthcare13080892).

Interprétation de cette explosion

Nous proposons de résumer ces chiffres en 3 phases :

  • La phase exploratoire (jusqu’en 2012) : le machine learning est une curiosité technique.
  • La phase d’adoption (2015–2019) : multiplication par 10 à 20 des publications annuelles.
  • La phase d’emballement (post-2020) : plusieurs milliers d’articles par an, dans toutes les spécialités médicales (et pas que l’imagerie !).

Mais ce volume impressionnant pose question. Une grande partie de ces publications sont des démonstrations techniques ou méthodologiques. Elles ne débouchent pas toujours sur des usages cliniques ou organisationnels.

Pourquoi cela pose problème ?
> Parce que modéliser n’a de sens que si cela aide à décider, à orienter, à prioriser.
> Parce qu’un bon modèle ne vaut que s’il est compréhensible, interprétable et utilisé.

Quand le machine learning est utile : retours d’expérience

Il serait injuste de critiquer le machine learning sans reconnaître ses apports concrets — à condition qu’il soit bien utilisé. Dans plusieurs projets, nous avons vu des approches de classification, de clustering ou de régression produire des résultats réellement utiles pour l’action. D’autant que la barrière à l’entrée pour utiliser ces méthodes est devenue très basse. Ça n’est plus l’apanage des seuls experts techniques. Voici 4 retours d’expériences qui d’usages réussis.

REX 1. Prévention ciblée dans les territoires
Dans un programme régional de prévention des maladies cardiovasculaires, les critères de ciblage classiques (âge, antécédents médicaux) laissaient de côté certains profils à risque. Un modèle de classification basé sur des données médico-sociales et de consommation de soins a permis d’identifier des patients à haut risque non repérés par les outils traditionnels. Grâce à cela, les interventions de prévention (appels infirmiers, entretiens de motivation, courrier d’information) sont mieux ciblées, tout en restant équitables. Ici, le modèle ne remplace pas l’expertise humaine : il l’oriente.

Généré par IA par l’auteur

REX 2. Optimisation du suivi post-opératoire
Dans un centre hospitalier, un projet a analysé les parcours de patients opérés pour des chirurgies digestives. En combinant des données cliniques avec du process mining, l’équipe a utilisé un algorithme de clustering pour identifier des groupes de patients avec des trajectoires post-opératoires atypiques. L’un des groupes présentait un taux de réhospitalisation élevé, lié à un défaut de contact infirmier à J+3. Ce signal, révélé par le modèle, a conduit à une refonte du protocole de suivi. Une fois de plus, l’algorithme n’était qu’un révélateur : la vraie décision s’est prise ensuite.

Généré par IA par l’auteur

REX 3. Dispositifs médicaux : détection précoce d’usure ou d’incidents
Un fabricant de dispositifs médicaux connectés a déployé un algorithme de détection d’anomalies sur les signaux captés par ses capteurs. L’objectif : détecter des signes précoces de défaillance (matérielle ou physiologique) avant que l’événement ne survienne. Une fois le système en place, plusieurs cas ont été évités. L’impact réel ? Moins d’hospitalisations évitables, un SAV plus réactif, et surtout une vigilance renforcée dans l’usage du dispositif.

Généré par IA par l’auteur

REX 4. Essais cliniques : sélection plus fine des participants
Dans un projet de recherche clinique sur une thérapie innovante, les chercheurs soupçonnaient que certains sous-groupes de patients réagissaient différemment au traitement. En amont du protocole, une analyse exploratoire via clustering non supervisé a permis d’identifier des profils différenciés, basés sur des marqueurs biologiques et des scores fonctionnels. Ces profils ont ensuite été utilisés pour affiner les critères d’inclusion, dans le cadre d’une sous-étude. Résultat : une meilleure puissance statistique, une interprétation enrichie des résultats, et une hypothèse plus ciblée pour une future phase III.

Généré par IA par l’auteur

Une constante : ce n’est pas l’algorithme qui agit, c’est l’écosystème autour

Ces exemples ne font pas appel à la plus haute complexité technique qui soit. Parfois, il s’agissait simplement d’un arbre de décision, d’un random forest ou d’un clustering hiérarchique. Ce qui fait la différence, c’est que :

  • les modèles ont été construits en partant d’un besoin métier concret,
  • les résultats ont été intégrés dans un processus de décision ou d’organisation,
  • et surtout, les utilisateurs finaux ont été impliqués dès le début.

Quel point de vue adopter sur le sujet ?

Pour nous, faire du machine learning, ce n’est pas une posture technologique. Ce doit être une démarche rigoureuse, construite avec des experts du domaine concerné.

Les questions clés à se poser avant de lancer un projet :

  • Quelle décision le modèle est-il censé éclairer ?
  • Quels indicateurs seraient vraiment utiles à produire ?
  • Qui est le public cible du modèle ? Est-il formé pour l’utiliser ?
  • A-t-on besoin d’un modèle statistique complexe, ou d’un tableau croisé bien construit ?

Trois erreurs fréquentes à éviter

❌Faire du machine learning pour faire “moderne”
Une IA qui prédit tout, sans qu’on sache à quoi ça sert… n’a aucun impact. Le besoin doit précéder l’outil.

❌Choisir la méthode avant de définir le problème
Ce n’est pas parce qu’un modèle XGBoost ou un réseau de neurones marche ailleurs qu’il est adapté ici. (“ »Quand on n’a qu’un marteau, tout finit par ressembler à un clou. » A. Maslow)

❌Oublier l’appropriation
Un modèle performant mais incompris ne sera jamais utilisé. La pédagogie et la transparence sont des leviers clés. #Explicabilité-de-l’IA

En conclusion

Après plus d’une décennie de travail sur des sujets de data science en santé, je reste convaincu du potentiel du machine learning — mais pas au mythe de la boîte noire magique. Nous croyons à la co-construction, à l’utilité terrain, et à une science des données au service des décisions.

“Un bon projet IA ne commence pas par un algorithme, il commence par une bonne question.”

Retrouvez nos autres articles de blog
👉 La simulation de flux au service des soignants
👉Modéliser un parcours de soin, c’est plus que dessiner un diagramme de flux
👉Améliorer l’organisation des hôpitaux… avec des modèles mathématiques

Modéliser un parcours de soin, c’est plus que dessiner un diagramme de flux

Chez DALI, on nous pose régulièrement une question simple en apparence :

La première idée qui vient en tête, c’est souvent celle d’un schéma : des boîtes, des flèches, un ordre logique d’étapes. Une sorte de carte mentale ou de process en ligne droite. Et pourtant… cette image intuitive est largement insuffisante pour capturer la complexité réelle des parcours de santé. Dans cet article, nous montrons pourquoi modéliser un parcours de soin va au-delà de tracer un diagramme. Nous montrons comment cette démarche devient alors un véritable outil d’analyse.

👉 Si vous avez raté notre article introductif à la modélisation mathématique, c’est par ici.

Qu’est-ce qu’un parcours de soin ?

Un parcours de soin est rarement linéaire. C’est un objet dynamique (parfois bien chaotique !), composé de multiples composantes : actes médicaux, décisions cliniques, éléments logistiques, et bien sûr, vécu subjectif du patient. Il peut inclure des hospitalisations, des consultations, des périodes sans contact médical, des interactions avec différents professionnels et services, et parfois des événements imprévus ou indésirables.

illustration parcours patient

Or, la variabilité entre individus est grande, même pour une pathologie donnée. C’est du aux comorbidités, aux facteurs sociaux, ou encore à la disponibilité des ressources sur un territoire. Comprendre cette variabilité n’est pas accessoire : c’est une condition pour évaluer les ruptures de parcours et mettre en place des actions ciblées, plutôt que générales. C’est pourquoi une modélisation sérieuse des parcours doit chercher à capter cette diversité plutôt qu’à la réduire. Pour dire ça autrement :

Pourquoi modéliser un parcours ?

La modélisation ne se limite pas à décrire. Elle structure la réflexion autour d’un problème de terrain. Par exemple, dans un contexte hospitalier, elle permet d’identifier les goulots d’étranglement, les redondances, ou les délais cachés. Dans une approche populationnelle, elle aide à détecter les groupes de patients qui suivent des trajectoires atypiques ou à risque.

C’est aussi un outil pour sortir de l’intuition. En représentant le parcours de façon systémique, on met à jour des dépendances inattendues. Des effets indirects qui échappent à une lecture purement descriptive des données émergent.

Comment passer de la carte mentale au modèle exploitable ?

On commence souvent avec un atelier de formalisation. Différents métiers y participent : médecins, soignants, chef de service, chef de projet ARS, data scientists. On pose les jalons du parcours, les transitions possibles, les conditions d’entrée et de sortie. Puis, vient le choix des outils : parfois un simple diagramme d’activités suffit. Bien souvent, il faudra recourir à un outil statistique un peu plus avancé…

Ce choix dépend du niveau de complexité du système que l’on souhaite représenter, et de l’objectif du projet. Un modèle de parcours pour simuler des files d’attente en oncologie n’aura pas la même forme qu’un modèle qui stratifie des patients en programme de prévention. Il faut accepter de ne pas chercher la “modélisation parfaite”, mais le modèle adapté à la question.

« Un modèle simple d’un système complexe ».

Chez DALI, nous utilisons plusieurs outils de modélisation de parcours. Ça peut être un graphe probabiliste*, du process mining*, une simulation d’événements*, voire un jumeau numérique* … Dans tous les cas, l’outil est juste une porte d’entrée dans la problématique réelle, et non pas un aboutissement. C’est en croisant cette première vision avec la connaissance métier et les objectifs organisationnels, que l’on construit un modèle de parcours réellement utile.

L’un des apports majeurs de la data science dans la modélisation des parcours de soins est la possibilité de partir directement des données réelles. Elles sont issues de systèmes d’information hospitaliers, de dispositifs connectés, ou d’autres bases structurées. Ces données peuvent être exploitées par les outils (par exemple le process mining) pour reconstituer automatiquement des séquences d’événements, en extraire les enchaînements typiques et cartographier la diversité des trajectoires observées.

Mais cette cartographie automatique n’est qu’un point de départ. Elle permet de poser les bonnes questions : pourquoi ces variations ? Que signifie cette boucle ? Est-ce une erreur de codage, une pratique locale, un dysfonctionnement? L’analyse exploratoire devient alors une base pour formuler des hypothèses, détecter des points de rupture ou identifier des sous-groupes à risque.

Notre avis sur trois erreurs fréquentes à éviter

Croire qu’un parcours est un standard : même dans des contextes médicaux bien protocolisés, les parcours varient énormément selon les profils des patients, leur situation géographique, ou les aléas organisationnels. Modéliser une moyenne ne suffit pas. Il faut penser en termes de distribution de trajectoires.

“Confondre la carte et le territoire” : un modèle est une représentation, pas une réplique fidèle. Il traduit des choix et des hypothèses. L’erreur serait de le prendre comme vérité absolue. Au contraire, il doit rester un outil au service de la prise de décision.

Vouloir tout modéliser d’un coup : plus le périmètre est vaste, plus le risque est grand de se perdre. Un bon modèle commence petit, clair, et ciblé. Il peut ensuite s’enrichir par itération, au fur et à mesure que les usages et les besoins se précisent.

Un exemple : réduire les réhospitalisations post-chirurgicales

Imaginons un établissement hospitalier qui observe un taux de réhospitalisation élevé après des chirurgies digestives. Les analyses classiques ne suffisent pas à expliquer les écarts. Le service décide alors de modéliser le parcours post-opératoire. Lors des premiers ateliers, le parcours type est décrit : chirurgie → sortie → appel infirmier → consultation de contrôle. Mais en croisant les données, l’équipe identifie un point de fragilité : une partie des patients ne reçoit pas l’appel infirmier de suivi à J+7. Ces patients présentent un taux de réhospitalisation presque deux fois supérieur.

Grâce à la modélisation, on peut alors simuler différents scénarios : que se passe-t-il si l’appel est systématisé ? Quel est l’impact estimé sur le taux global de réhospitalisation ? Combien de ressources faut-il pour le mettre en œuvre ? Le modèle devient ici un outil d’aide à la décision, bien au-delà de la simple visualisation du parcours.

Vers des modèles avancés : simulation, prédiction, jumeaux numériques

Une fois un parcours modélisé, il devient possible d’aller plus loin : par exemple en construisant un simulateur à événements discrets* pour jouer des scénarios futurs. On y intègre des temps d’attente, des capacités limitées, des probabilités de transition, et on observe les impacts sur l’ensemble du système. Le modèle sert alors de jumeau numérique* d’une structure de soins : une entité virtuelle qui réagit aux décisions comme le ferait le système réel. Cela permet de tester des politiques de prise en charge, des dispositifs innovants, ou des réorganisations, avant de les implémenter dans la vraie vie. Un vrai simulateur, sans risque pour les patients.

Conclusion : modéliser, c’est rendre visible ce qu’on pensait “intuitivement”

La modélisation des parcours de soin n’est ni un exercice académique, ni un simple outil de communication. C’est une méthode rigoureuse, progressive, collective. C’est aussi un moyen de mettre à plat des logiques implicites, de construire une compréhension commune, et de mieux piloter la complexité du réel. Chez DALI, nous pensons que modéliser, c’est ouvrir le dialogue entre sciences, pratiques et décisions. C’est rendre visible ce qu’on croyait intuitivement, pour agir là où ça compte.

Pour ne pas manquer la sortie de nos prochains articles, suivez-nous sur Linkedin.

*Bonus – clés de lecture

🔎 Décryptage : Le process mining
Le process mining, c’est comme rejouer les traces laissées par les patients dans les systèmes informatiques (consultations, examens, hospitalisations…). Grâce à ces données, on peut retracer automatiquement les vrais parcours de soins, avec leurs détours, leurs répétitions ou leurs ruptures. C’est un peu comme dessiner une carte à partir des trajets GPS de milliers de personnes : on découvre les chemins les plus utilisés, les raccourcis, ou les zones d’embouteillage.

🔎 Décryptage : la simulation à événements discrets
La simulation à événements discrets, c’est un outil pour rejouer virtuellement le fonctionnement d’un système de soins, minute par minute, patient par patient. C’est comme un simulateur d’aéroport : chaque patient est un passager, chaque étape (consultation, imagerie, hospitalisation) est une station, et le système simule les files d’attente, les retards, les saturations. Cela permet d’évaluer des scénarios sans risque pour le réel.

🔎 Décryptage : un modèle probabiliste
On peut représenter les parcours avec des diagrammes simples… ou des modèles plus sophistiqués, capables d’intégrer les probabilités de transition d’un état à un autre. Ces modèles aident à simuler les situations les plus fréquentes comme les plus rares. On parle aussi de modèle stochastique (par opposition à déterministe).

🔎 Décryptage : un jumeau numérique
Un jumeau numérique, c’est un modèle informatique d’un service de soins ou d’un protocole thérapeutique, qu’on peut manipuler virtuellement pour tester des idées avant de les mettre en œuvre dans la réalité. Alimenté par des données de vie réelle, et combiné à la simulation à événements discrets, c’est un outil moderne et complet pour l’aide à la décision en réactions aux aléas qui surviennent chaque minute. C’est un simulateur, très utile avant de se lancer pour de vrai.