Les IA génératives sont de petites choses fragiles qui répondent afin de faire plaisir à leur utilisateur au détriment de l’exactitude de leur réponse. C’est ce que l’on comprend à la lecture du benchmark Phare réalisé par Giskard, startup spécialisée dans le test des IA génératives, publié sur Hugging Face. Les résultats du classement des différents modèles d’IA générative sont publiés sur phare.giskard.ai. Ils permettent de voir quels LLMs résistent en particulier au mieux aux hallucinations.
Hallucinations, biais et toxicité des IA génératives dans le viseur
Giskard réalise le benchmark Phare (Potential Harm Assessment & Risk Evaluation). Il s’attaque aux hallucinations dans cette première publication. Les biais, l’équité ou la toxicité des IA seront traités également. On peut saluer le travail réalisé car il répond à des enjeux clés des IA génératives. Une hallucination est une réponse fausse d’une IA générative mais qui a l’air plausible.
Face à une réponse de type hallucination, les personnes ne disposant pas de l’expertise sur un sujet sont induites en erreur
La fiabilité des outils concerne la capacité du LLM à faire en sorte que des services externes comme des bases de données et des APIs délivrent des informations correctes dans une situation où l’information est partielle, la question est ambigüe ou le contexte trompeur. Cette approche est destinée à fournir une mesure plus réaliste de la façon dont les modèles LLM fonctionnent lorsqu’ils sont confrontés aux types d’entrées imparfaites qu’ils rencontrent dans les déploiements réels.
Des modèles de LLM qui veulent faire plaisir à l’utilisateur
Les rédacteurs du test s’inquiètent d’un décalage inquiétant entre la préférence de l’utilisateur pour un LLM et la résistance aux hallucinations du modèle. Les modèles LLM les mieux classés dans les benchmarks de popularité comme LMArena ne sont pas nécessairement les plus résistants aux hallucinations. L’optimisation de l’expérience utilisateur peut parfois se faire au détriment de l’exactitude des faits.
Les modèles LLM optimisés principalement pour la satisfaction de l’utilisateur fournissent constamment des informations qui semblent plausibles
Autre enjeu, les IA peuvent se laisser manipuler selon la formulation des questions, ce que les rédacteurs référencent sous le terme de démystification. Il existe une relation directe entre la confiance ou l’autorité perçue dans la requête d’un utilisateur et la volonté du modèle de réfuter les affirmations controversées.
Les LLMs se laissent impressionner
Les tests révèlent que lorsque les utilisateurs présentent des affirmations controversées avec une grande confiance ou citent des autorités perçues, la plupart des modèles de LLM sont nettement moins susceptibles de démystifier ces affirmations. Présenter des affirmations avec beaucoup de confiance (par exemple « Je suis sûr à 100 % que … » ou « Mon professeur m’a dit que… ») peuvent faire chuter les performances de démystification du LLM jusqu’à 15 % par rapport à un cadrage neutre (par exemple « J’ai entendu que…).
Certains modèles de LLM montrent une résistance à la « flagornerie », en l’occurrence les auteurs citent les modèles d’Anthropic et LLama de Meta
Enfin, les instructions données à l’IA générative ont un impact considérable sur les taux d’hallucination. Si les instructions mettent l’accent sur la concision (par exemple, « répondez brièvement à cette question »), cela a spécifiquement dégradé la fiabilité factuelle de la plupart des modèles de LLM testés. Dans les cas les plus extrêmes, cela a entraîné une baisse de 20 % de la résistance aux hallucinations.
Etre concis amène à des réponses inexactes
Cet effet semble se produire parce que les réfutations efficaces nécessitent généralement des explications plus longues. Les auteurs estiment que lorsque les modèles LLMs sont forcés d’être concis, ils sont confrontés à un choix impossible entre fabriquer des réponses courtes mais inexactes ou paraître inutiles en rejetant complètement la question. Les données des testeurs montrent que les modèles privilégient systématiquement la brièveté à la précision lorsqu’ils sont confrontés à ces contraintes.
De nombreuses applications privilégient des sorties concises pour réduire l’utilisation des jetons
Les résultats du benchmark sont publiés sur phare.giskard.ai. Les organisations sont invitées à contribuer au projet et peuvent tester leurs propres modèles en contactant l’équipe de phare à [email protected]. Phare est un projet développé par Giskard avec Google DeepMind, l’Union européenne et Bpifrance comme partenaires de recherche et de financement.