banner

Blog

Jun 02, 2023

Un outil numérique repère le texte académique généré par ChatGPT avec une précision de 99 %

LAWRENCE - Heather Desaire, une chimiste qui utilise l'apprentissage automatique dans la recherche biomédicale à l'Université du Kansas, a dévoilé un nouvel outil qui détecte avec une précision de 99% le texte scientifique généré par ChatGPT, le générateur de texte à intelligence artificielle.

La revue à comité de lecture Cell Reports Physical Science a publié des recherches montrant l'efficacité de sa méthode de détection de l'IA, ainsi qu'un code source suffisant pour que d'autres puissent reproduire l'outil.

Desaire, titulaire de la chaire Keith D. Wilner en chimie à la KU, a déclaré que des outils de détection d'IA précis étaient nécessaires de toute urgence pour défendre l'intégrité scientifique.

"ChatGPT et tous les autres générateurs de texte AI comme celui-ci constituent des faits", a-t-elle déclaré. "Dans l'édition scientifique universitaire - les écrits sur les nouvelles découvertes et la pointe de la connaissance humaine - nous ne pouvons vraiment pas nous permettre de polluer la littérature avec des mensonges à consonance crédible. Ils feraient inévitablement leur chemin dans les publications si les générateurs de texte IA étaient couramment utilisés. Autant que je sache, il n'y a pas de moyen infaillible, de manière automatisée, de trouver ces "hallucinations" comme on les appelle. Une fois que vous commencez à peupler de vrais faits scientifiques avec des absurdités d'IA inventées qui semblent parfaitement crédibles, ces publications vont devenir moins fiables, moins précieux."

Elle a déclaré que le succès de sa méthode de détection dépendait de la réduction de la portée des écrits examinés aux écrits scientifiques du type que l'on trouve couramment dans les revues à comité de lecture. Cela améliore la précision par rapport aux outils de détection d'IA existants, comme le détecteur RoBERTa, qui vise à détecter l'IA dans une écriture plus générale.

"Vous pouvez facilement créer une méthode pour distinguer l'écriture humaine de ChatGPT qui est très précise, étant donné le compromis que vous vous limitez à considérer un groupe particulier d'humains qui écrivent d'une manière particulière", a déclaré Desaire. "Les détecteurs d'IA existants sont généralement conçus comme des outils généraux à exploiter sur tout type d'écriture. Ils sont utiles pour l'usage auquel ils sont destinés, mais sur tout type d'écriture spécifique, ils ne seront pas aussi précis qu'un outil conçu pour cela. but précis et étroit. »

Desaire a déclaré que les instructeurs universitaires, les entités subventionnaires et les éditeurs ont tous besoin d'un moyen précis pour détecter la sortie de l'IA présentée comme un travail d'un esprit humain.

"Lorsque vous commencez à penser au" plagiat de l'IA ", une précision à 90% n'est pas suffisante", a déclaré Desaire. "Vous ne pouvez pas accuser les gens d'utiliser subrepticement l'IA et vous tromper fréquemment dans ces accusations - la précision est essentielle. Mais pour obtenir la précision, le compromis est le plus souvent la généralisabilité."

Les coauteurs de Desaire appartenaient tous à son groupe de recherche à la KU : Romana Jarosova, professeure adjointe de recherche en chimie à la KU ; David Huax, analyste des systèmes d'information ; et les étudiantes diplômées Aleesa E. Chua et Madeline Isom.

Le succès de Desaire et de son équipe dans la détection de texte IA peut provenir du haut niveau de perspicacité humaine (par rapport à la détection de modèles d'apprentissage automatique) qui a été nécessaire à la conception du code.

"Nous avons utilisé un ensemble de données beaucoup plus petit et une intervention beaucoup plus humaine pour identifier les principales différences sur lesquelles notre détecteur doit se concentrer", a déclaré Desaire. "Pour être exact, nous avons construit notre stratégie en utilisant seulement 64 documents écrits par des humains et 128 documents d'IA comme données de formation. C'est peut-être 100 000 fois plus petit que la taille des ensembles de données utilisés pour former d'autres détecteurs. Les gens passent souvent sous silence les chiffres. Mais 100 000 fois, c'est la différence entre le prix d'une tasse de café et celui d'une maison. Donc, nous avions ce petit ensemble de données, qui pouvait être traité très rapidement, et tous les documents pouvaient en fait être lus par des gens. Nous avons utilisé nos cerveaux humains pour trouver des différences utiles dans les ensembles de documents, nous ne nous sommes pas appuyés sur les stratégies pour différencier les humains et l'IA qui avaient été développées précédemment."

En effet, le chercheur de KU a déclaré que le groupe avait construit son approche sans s'appuyer sur les stratégies des approches précédentes de détection de l'IA. La technique résultante comporte des éléments totalement uniques au domaine de la détection de texte par IA.

"Je suis un peu gêné de l'admettre, mais nous n'avons même pas consulté la littérature sur la détection de texte par IA avant d'avoir notre propre outil de travail en main", a déclaré Desaire. "Nous ne faisions pas cela en nous basant sur la façon dont les informaticiens pensent de la détection de texte, mais plutôt en utilisant notre intuition sur ce qui fonctionnerait."

Dans un autre aspect important, Desaire et son groupe ont inversé le script sur les méthodes utilisées par les équipes précédentes créant des méthodes de détection de l'IA.

"Nous n'avons pas mis l'accent sur le texte de l'IA lors du développement des fonctionnalités clés", a-t-elle déclaré. "Nous avons mis l'accent sur le texte humain. La plupart des chercheurs qui construisent leurs détecteurs d'IA semblent se demander :" À quoi ressemble le texte généré par l'IA ?" Nous avons demandé : "À quoi ressemble ce groupe unique d'écritures humaines et en quoi est-il différent des textes de l'IA ?" En fin de compte, l'écriture de l'IA est une écriture humaine puisque les générateurs d'IA sont construits avec de grands référentiels d'écriture humaine qu'ils reconstituent.Mais l'écriture de l'IA, à partir de ChatGPT au moins, est une écriture humaine généralisée tirée de diverses sources.

"L'écriture des scientifiques n'est pas une écriture humaine généralisée. C'est l'écriture des scientifiques. Et nous, les scientifiques, sommes un groupe très spécial."

Desaire a rendu le code de détection d'IA de son équipe entièrement accessible aux chercheurs intéressés à le développer. Elle espère que d'autres se rendront compte que l'IA et la détection de l'IA sont à la portée de personnes qui ne se considèrent peut-être pas comme des programmeurs informatiques aujourd'hui.

"ChatGPT est vraiment une avancée si radicale, et il a été adopté si rapidement par tant de gens, cela semble être un point d'inflexion dans notre dépendance à l'IA", a-t-elle déclaré. "Mais la réalité est qu'avec quelques conseils et efforts, un lycéen pourrait faire ce que nous avons fait.

"Il existe d'énormes opportunités pour les gens de s'impliquer dans l'IA, même s'ils n'ont pas de diplôme en informatique. Aucun des auteurs de notre manuscrit n'a de diplôme en informatique. Un résultat que j'aimerais voir de ce travail est que les personnes intéressées par l'IA sauront que les obstacles au développement de produits réels et utiles, comme les nôtres, ne sont pas si élevés. Avec un peu de connaissances et un peu de créativité, beaucoup de gens peuvent contribuer à ce domaine.

Crédit photo : Pexels

L'Université du Kansas est une grande université de recherche et d'enseignement. La mission de l'université est d'élever les étudiants et la société en formant des leaders, en bâtissant des communautés saines et en faisant des découvertes qui changent le monde. Le KU News Service est le bureau central des relations publiques du campus Lawrence.

[email protected] | 1450, boulevard Jayhawk, bureau 37, Lawrence, KS 66045

PARTAGER