ChatGPT en pleine confiance

« ChatGPT can make mistakes. Check important info »

C’est le pied de page de ChatGPT, dans son interface de chat. Et il a bien raison de le préciser!

Sur une question moyennement complexe, qui aurait nécessité de ma part (et de la sienne) de fouiller un peu sur internet, il s’est complément fourvoyé. Par ailleurs, sa réponse a mentionné des hommes, alors que la bonne réponse était une femme. Je n’aurais pas été surpris de la part de Grok ou « Meta AI » que leurs réponses pourraient être bêtement misogynes! Plaisanterie mise à part, il s’est simplement planté : « à côté de la plaque » selon ses propres termes.

Nous savons que les réponses sont issues de résultat provenant de scores calculés. Mais de ces scores, point de détail, en tout cas par défaut. Quelle confiance peut-on avoir dans ses réponses ?
Dans nos échanges il prétend utiliser des précautions lors de la construction de ses résultats (je le cite):

🔎 1. Quand la confiance est haute (80–100 %)
• C’est typiquement sur des faits stables, bien établis, peu sujets à controverse : exemple : « Les JO de 1932 ont eu lieu à Los Angeles. »
• Tu verras que j’écris avec des formulations nettes, sans hésitation.

🟡 2. Confiance moyenne (40–70 %)
• Quand la source n’est pas totalement claire, ou que j’ai un doute entre plusieurs possibilités.
• Mes indices linguistiques : je vais employer des « il semble que », « généralement », « souvent » ou lister plusieurs hypothèses.
• Ici tu devrais considérer que c’est une info à vérifier, pas à prendre comme argent comptant.

🔴 3. Confiance basse (0–40 %)
• Quand il y a un risque de confusion historique ou factuelle
• En général, si j’avais été plus rigoureux, j’aurais dû écrire « je crois que, mais je ne suis pas certain ».
• Si tu vois que je balance une liste un peu « au débotté » ou que ça ne colle pas avec la question, c’est souvent le signe que je suis dans cette zone basse. »

En fait, pour sa réponse, il ne m’a fourni aucune périphrase, aucune mise en contexte. Juste une affirmation directe et sèche comme à son accoutumée. Alors qu’à ma demande explicite, il m’a avoué que le score de confiance de sa réponse était de « probablement autour de 30%« .

Dans les benchmarks de l’API de ChatGPT que j’avais effectués, j’avais été confronté au problème des réglages « temperature « et « top_p » disponibles dans l’API.

temperature : (défaut 1) « Higher values like 0.8 will make the output more random, while lower values like 0.2 will make it more focused and deterministic »
.
L’objectif des réglages par défaut de ChatGPT – et certainement des autres IA – est d’introduire une forte dose de « créativité ». Cela nous rappelle les notions de précision/recall en moteur de recherche : voulez-vous des résultats précis (au risque d’obtenir du silence), ou bien plus nombreux (au risque qu’il soient éloignés de la stricte recherche) ?
Afin d’éviter le silence, mais également afin de donner un côté non reproductible aux réponses, l’IA est réglée sur une créativité très forte. Elle peut donc asséner avec une grande assurance des affirmations partiellement ou complètement fausses.

Cela m’a immanquablement fait penser au fameux sondage du début de cet été, où les hommes sont plus de 50% à affirmer qu’ils pourraient faire atterrir un avion de ligne (contrairement aux femmes) : https://www.lemonde.fr/les-decodeurs/article/2025/07/09/pourquoi-les-hommes-sont-plus-susceptibles-de-penser-pouvoir-faire-atterrir-un-avion-tout-seuls-que-les-femmes_6620088_4355770.html

J’ai lui ai donc posé cette même question : fort heureusement, il m’a répondu qu’il manquerait d’éléments de perception du monde réel, mais qu’il pourrait me guider… avec une confiance de 95% ! Ceci étant, on sait que les recherches sur ce sujet sont en cours.

En tout cas, désormais, je lui demande « Score de confiance de ta réponse ? » après chacune de mes questions. Je vous invite à l’essayer vous aussi : vous serez peut-être surpris!

Published by Sébastien Marinier on 20 août 202520 août 2025

0 commentaire

Laisser un commentaire Annuler la réponse

Ouverture de l’Apple Store Montpellier

Google se fait de la pub

Steve pour le marché, Steve pour la notoriété