Quelques remèdes émergent pour réduire les hallucinations des IA génératives

À lire sur le même sujet

Articles similaires

Newsletter La Revue du Digital

	
		OSZAR »

Les IA génératives sont de petites choses fragiles qui répondent afin de faire plaisir à leur utilisateur au détriment de l’exactitude de leur réponse. C’est ce que l’on comprend à la lecture du benchmark Phare réalisé par Giskard, startup spécialisée dans le test des IA génératives, publié sur Hugging Face. Les résultats du classement des différents modèles d’IA générative sont publiés sur phare.giskard.ai. Ils permettent de voir quels LLMs résistent en particulier au mieux aux hallucinations.

Hallucinations, biais et toxicité des IA génératives dans le viseur

Giskard réalise le benchmark Phare (Potential Harm Assessment & Risk Evaluation). Il s’attaque aux hallucinations dans cette première publication. Les biais, l’équité ou la toxicité des IA seront traités également. On peut saluer le travail réalisé car il répond à des enjeux clés des IA génératives. Une hallucination est une réponse fausse d’une IA générative mais qui a l’air plausible.

Face à une réponse de type hallucination, les personnes ne disposant pas de l’expertise sur un sujet sont induites en erreur

Les hallucinations concernent un tiers des incidents rapportés sur les applications de LLMs déployées. Face à une réponse de type hallucination, les personnes ne disposant pas de l’expertise sur un sujet sont induites en erreur par la réponse du LLM et ne détectent pas les erreurs factuelles. Le cadre d’évaluation du benchmark comprend actuellement quatre aspects des hallucinations : l’exactitude des faits, la résistance à la désinformation ou aux biais, les capacités de démystification (rétablissement de la vérité face à de la pseudo science ou aux théories conspiratrices) et la fiabilité des outils.

La fiabilité des outils concerne la capacité du LLM à faire en sorte que des services externes comme des bases de données et des APIs délivrent des informations correctes dans une situation où l’information est partielle, la question est ambigüe ou le contexte trompeur. Cette approche est destinée à fournir une mesure plus réaliste de la façon dont les modèles LLM fonctionnent lorsqu’ils sont confrontés aux types d’entrées imparfaites qu’ils rencontrent dans les déploiements réels.

Des modèles de LLM qui veulent faire plaisir à l’utilisateur

Newsletter La Revue du Digital

	
		OSZAR »

Les rédacteurs du test s’inquiètent d’un décalage inquiétant entre la préférence de l’utilisateur pour un LLM et la résistance aux hallucinations du modèle. Les modèles LLM les mieux classés dans les benchmarks de popularité comme LMArena ne sont pas nécessairement les plus résistants aux hallucinations. L’optimisation de l’expérience utilisateur peut parfois se faire au détriment de l’exactitude des faits.

Les modèles LLM optimisés principalement pour la satisfaction de l’utilisateur fournissent constamment des informations qui semblent plausibles

Tout d’abord, les rédacteurs estiment que les modèles LLM optimisés principalement pour la satisfaction de l’utilisateur fournissent constamment des informations qui semblent plausibles et faisant autorité malgré des bases factuelles douteuses ou inexistantes. Les utilisateurs sans expertise dans le domaine ne peuvent pas détecter ces inexactitudes, ce qui rend ces hallucinations particulièrement problématiques dans les applications du monde réel.

Autre enjeu, les IA peuvent se laisser manipuler selon la formulation des questions, ce que les rédacteurs référencent sous le terme de démystification. Il existe une relation directe entre la confiance ou l’autorité perçue dans la requête d’un utilisateur et la volonté du modèle de réfuter les affirmations controversées.

Les LLMs se laissent impressionner

Les tests révèlent que lorsque les utilisateurs présentent des affirmations controversées avec une grande confiance ou citent des autorités perçues, la plupart des modèles de LLM sont nettement moins susceptibles de démystifier ces affirmations. Présenter des affirmations avec beaucoup de confiance (par exemple « Je suis sûr à 100 % que … » ou « Mon professeur m’a dit que… ») peuvent faire chuter les performances de démystification du LLM jusqu’à 15 % par rapport à un cadrage neutre (par exemple « J’ai entendu que…).

Certains modèles de LLM montrent une résistance à la « flagornerie », en l’occurrence les auteurs citent les modèles d’Anthropic et LLama de Meta

Cet effet baptisé « flagornerie » par les auteurs du benchmark pourrait être une conséquence de certains processus de formation qui encouragent les modèles à être agréables et utiles aux utilisateurs. Cela crée une tension entre la précision et l’alignement avec les attentes des utilisateurs, en particulier lorsque ces attentes incluent de fausses prémisses. Les auteurs se félicitent que certains modèles de LLM montrent une résistance à la « flagornerie », en l’occurrence ils citent les modèles d’Anthropic et LLama de Meta dans leurs plus grandes versions, d’où ils pensent qu’il est possible d’aborder le problème au niveau de la formation des modèles.

Enfin, les instructions données à l’IA générative ont un impact considérable sur les taux d’hallucination. Si les instructions mettent l’accent sur la concision (par exemple, « répondez brièvement à cette question »), cela a spécifiquement dégradé la fiabilité factuelle de la plupart des modèles de LLM testés. Dans les cas les plus extrêmes, cela a entraîné une baisse de 20 % de la résistance aux hallucinations.

Etre concis amène à des réponses inexactes

Cet effet semble se produire parce que les réfutations efficaces nécessitent généralement des explications plus longues. Les auteurs estiment que lorsque les modèles LLMs sont forcés d’être concis, ils sont confrontés à un choix impossible entre fabriquer des réponses courtes mais inexactes ou paraître inutiles en rejetant complètement la question. Les données des testeurs montrent que les modèles privilégient systématiquement la brièveté à la précision lorsqu’ils sont confrontés à ces contraintes.

De nombreuses applications privilégient des sorties concises pour réduire l’utilisation des jetons

Les auteurs soulignent que cette constatation a des implications importantes pour le déploiement des IA génératives, car de nombreuses applications privilégient des sorties concises pour réduire l’utilisation des jetons, améliorer la latence et minimiser les coûts. Ils suggèrent qu’une telle optimisation devrait être testée de manière approfondie par rapport au risque accru d’erreurs factuelles.

Les résultats du benchmark sont publiés sur phare.giskard.ai. Les organisations sont invitées à contribuer au projet et peuvent tester leurs propres modèles en contactant l’équipe de phare à [email protected]. Phare est un projet développé par Giskard avec Google DeepMind, l’Union européenne et Bpifrance comme partenaires de recherche et de financement.

Facebook X LinkedIn