Aujourd’hui, nous vous présentons nos dernières analyses de la “neutralité” et la pertinence des résultats affichés par MonCompteFormation.
Construire un moteur de recherche c’est pas facile. L’essence même d’un moteur de recherche c’est d’apporter la réponse la plus pertinente à la question d’un utilisateur. Mais la pertinence c’est difficile à quantifier et à qualifier. La pertinence est doublement subjective : du point de vue de celui qui pose la question et du point de vue des objets qui constituent la réponse.
En 1998, Google a “résolu” à sa manière le problème de la subjectivité de la pertinence en se basant sur un principe simple : à défaut de produire le résultat le plus pertinent pour l’utilisateur dans l’absolu, je vais lui présenter les résultats qui sont probablement
les plus pertinents en général.1 Du coup page rank, backlink, domain authority, tout ça. Que des indicateurs pour minimiser les faux positifs plutôt que de garantir la pertinence (qualité ?) des résultats.
En 2019, MonCompteFormation est lancé. Parmi toutes les fonctionnalités, MCF inclut un moteur de recherche permettant de chercher toutes les formations éligibles au CPF sur un mot-clé donné. Le défi est double :
présenter des résultats pertinents pour les utilisateurs,
présenter des résultats les plus neutres possibles sans privilégier un OF par rapport à un autre.
Un sacré défi que même Google aurait du mal à relever : Google est à l’opposé de la neutralité puisque son biais commercial (affiché) est de présenter de préférence les sites se pliant à ses règles car maximisant le traffic et donc l’affichage de ses publicités.
Cette stratégie n’est pas applicable à un moteur de recherche comme MCF dont la vocation est de guider chacun dans le libre choix de son avenir professionnel. MCF doit donc trouver d’autres solutions à ce double défi : garantir la neutralité tout en maintenant la pertinence.
Problème de Pertinence
Prenons un exemple concret pour illustrer les problèmes actuels de pertinence du moteur de recherche de MCF.
Vous souhaitez vous reconvertir dans la pêche. Problème vous n’avez pas votre permis bateau
. Vous cherchez donc sur MonCompteFormation : 7559 résultats.
Puis vous commencez à regarder les résultats et là vous comprenez que les résultats ne sont absolument pas pertinents. Ce ne sont pas des formations au permis bateau
mais des formations aux permis de conduire B, C, D, E
…
Dans le détail, on s’aperçoit par exemple que 3155 formations se trouvent à la fois dans les résultats pour permis bateau
et permis B
. Une même formation ne prépare qu’à un de ces deux permis mais pas au deux. L’intersection entre ces résultats devrait donc être nulle. Pourtant ce n’est pas le cas comme on peut le voir sur le waffle chart ci-dessus.
On observe également des intersections non-nulles entre les formations pour le permis bateau
et les permis C
, D
et E
.
Si on regarde le top 25 des OF sur les formations au permis bateau
selon MCF, on s’aperçoit clairement que ce ne sont pas des centres de préparation au permis bateau
mais plutôt des auto écoles…
Vous vous en doutez, tout cela est lié aux difficultés du moteur de distinguer deux formations qui comporte le mot-clé permis
. Et pourtant, n’importe qui en quelques secondes peut détecter l’erreur. On est en 2021, avec les récents progrès en NLP (natural language processing), ce genre de distinction pourrait être automatisable sans trop de difficultés. 2
Les problèmes de pertinence de MCF se retrouvent pour de nombreux autres domaines proches sémantiquement mais pourtant sans aucun rapport les uns avec les autres.
Autre exemple notable : Bilan de compétences
vs Bilan comptable
vs Bilan social
vs Bilan carbone
.
Un bilan de compétence
n’a rien à voir avec un bilan carbone
, un bilan social
ou un bilan comptable
. En théorie, aucune intersection entre ces domaines ne devrait exister. Et pourtant, dans la pratique on observe de nombreuses formations apparaissant sur plusieurs de ces mots-clés.
Dans des mesures plus ou moins importantes, le cas se répète dans de nombreux domaines : bureautique, gestion du temps, gestion du stress, gestion de projet, etc. Cela est très négatif pour l’expérience de l'apprenant qui perd rapidement confiance dans la capacité du moteur de recherche à l’aider à faire un choix éclairé parmi la multitude de formations possibles.
Il existe des solutions pour résoudre ce problème de pertinence.
Par exemple, au lieu de se reposer sur les formacodes/codes romes/code NSF des certifications RNCP/RS (qui sont souvent mal remplis voir pas adaptés du tout pour cet usage), MonCompteFormation pourrait par exemple utiliser un classifier de domaines de compétences basé sur les dernières avancées en NLP/ML. En utilisant le contexte complet de la fiche d’une formation (titre, nom de l’OF, description, etc), cela permettrait de mieux associer chaque formation aux bons mots-clés/domaines de compétences et donc d’avoir des résultats de recherche plus pertinents pour les utilisateurs.
Problème de Neutralité
L’algorithme actuel de MCF qui détermine l’ordre d’affichage des résultats repose très fortement sur les données contenues dans les fiches des certifications RNCP/RS. Or les données contenues dans ces fiches n’ont pas été remplies par la plupart des OF en ayant conscience de l’impact que cela aurait sur leur visibilité sur MCF.
De plus, sur des mots-clés très compétitifs tel que anglais
, il y a tellement de formations (103 509) et si peu de différence entre les certifications associées à ces formations que la part d’aléatoire domine. Cela implique une forte variabilité des classements d’une même formation d’une requête à une autre. J’appelle cela une forte volatilité. Si on suit les variations de classement d’une même formation sur le mot-clé anglais, d’une requêtes à une autre on observe une volatilité de l’ordre de 1000 à 2000 places. Dans ce cadre là, pas étonnant qu’autant d’OF continuent à appliquer une stratégie de saturation comme on l’évoquait en décembre dernier.
Il existe des solutions pour résoudre le problème de neutralité.
Par exemple, en donnant plus de poids aux notes dans l’ordre d’affichage des formations. De cette manière, MCF laisserait les apprenants déterminer eux-mêmes ce qui mérite d’être mis en avant. La neutralité viendrait des utilisateurs eux-mêmes.
Alors vous allez me dire : “Matt mais c’est déjà le cas, depuis février les notes sont visibles”. Oui, les notes sont visibles, mais à ce jour, elles n’ont aucun impact sur les classements.
Si le nombre d’évaluation avait un impact sur le classement, on devrait observer un nuage de point plus ou moins aligné selon une droite décroissante. Comme on le voit pour bilan de compétences sur le graphe ci-dessous, ce n’est absolument pas le cas.
Qu’on ait 35 évaluations ou 28 ou 5 ou aucune, à ce jour cela n’a pas d’impact sur le classement d’une formation dans les résultats de recherche.
Idem, pour la note moyenne, aucun impact.
Conclusion
MonCompteFormation est une belle réussite sur de nombreux aspects (centralisation de l’offre, facilitation des inscriptions, etc) mais le moteur de recherche, lui, nécessite encore de nombreuses améliorations.
En particulier, deux aspects doivent être améliorés :
la pertinence : les résultats de recherche doivent contenir moins de formations hors sujet par rapport au domaine cherché (faux positif).
la neutralité : l’algorithme de calcul du SCORE doit être entièrement revu car trop biaisé par le contenu inadapté des fiches des certifications RNCP/RS. Cela met arbitrairement en avant certains OF plus que d’autres et contribue à inciter implicitement à des pratiques de saturation pourtant contraire aux CGU. Un peu paradoxal, non ? L’algorithme devrait inciter aux bonnes pratiques et pas l’inverse.
Des solutions existent pour chacun de ces aspects. En utilisant des classifiers modernes de domaines de compétences, on pourrait par exemple mieux différencier les formations et ne les faire ressortir que sur les mots-clés où elles sont pertinentes. On pourrait également améliorer la neutralité du moteur en prenant en compte les évaluations des apprenants eux-mêmes dans le calcul de l’ordre d’affichage des résultats.
Bref, il y a encore du chemin mais on est sur la bonne voie.
This is the way comme dirait Lao Tseu 🤪
Bonne semaine
Matt
Faites vos propres analyses avec notre plateforme analytique dédiée à MonCompteFormation 👇
Les résultats de recherche renvoyés par Google sont-ils réellement pertinents en absolu ? Ou est-ce simplement une pertinence perçue ? Il est plus facile d’afficher des résultats dont la probabilité d’être perçu comme pertinent est élevée que des résultats réellement pertinent en absolu pour un utilisateur donné.
On connait bien le problème, chez Inokufu ça fait 3 ans qu’on développe justement un classifier de domaines de compétences multi-référentiel (DomComp v1) et qui marche plutôt bien ^^