L'étude a demandé à ChatGPT-4 de générer plusieurs poèmes dans le style de poètes humains célèbres (dont Plath, Whitman et Byron) et de les juxtaposer à des poèmes écrits par des humains et des poètes célèbres (par exemple, T. S. Eliot). Les participants devaient ensuite déterminer si un poème avait été écrit par un humain ou par une IA et identifier les poèmes qu'ils préféraient et pourquoi.
ChatGPT est un chatbot d'intelligence artificielle générative (IA) développé par OpenAI et lancé en 2022. Il est basé sur le grand modèle de langage (LLM) GPT-4o, peut générer des réponses conversationnelles semblables à celles des humains et permet aux utilisateurs d'affiner et d'orienter une conversation vers la longueur, le format, le style, le niveau de détail et la langue souhaités. On lui attribue l'accélération de l'essor de l'IA, qui a conduit à des investissements rapides et continus dans le domaine de l'intelligence artificielle et à l'attention du public à l'égard de cette technologie.
L'étude a révélé que l'échantillon de lecteurs non experts avait 46,6 % de chances d'identifier les poèmes générés par l'IA. Les participants étaient également « plus enclins à juger les poèmes générés par l'IA comme étant d'origine humaine que les véritables poèmes d'origine humaine ».
En outre, l'étude a conclu que les participants évaluaient les poèmes générés par l'IA plus favorablement dans certains domaines que les poèmes écrits par des humains. Le fait que les poèmes générés par l'IA soient mieux notés dans des domaines tels que le rythme et la beauté a probablement contribué à l'attribution erronée à des auteurs humains.
Les auteurs de l'étude estiment que la simplicité des poèmes générés par l'IA a largement contribué à cette préférence inattendue. Les poèmes générés par l'IA étaient plus simples et les participants étaient beaucoup plus enclins à décrire les poèmes créés par des humains avec une variante de « n'a pas de sens » qu'à utiliser cette description pour les poèmes générés par l'IA (144 contre 29). Il en résulte un effet « plus humain qu'humain ». Comme les participants à l'étude préféraient les poèmes générés par l'IA, ils ont supposé qu'ils étaient écrits par des humains parce qu'ils pensaient qu'ils préféreraient les poèmes écrits par des humains.
Les auteurs expliquent :
Contrairement à ce qu'indiquaient des études antérieures, les gens semblent aujourd'hui incapables de distinguer de manière fiable la poésie générée par l'IA hors boucle humaine de la poésie écrite par l'homme et rédigée par des poètes bien connus. En fait, le phénomène « plus humain qu'humain » découvert dans d'autres domaines de l'IA générative est également présent dans le domaine de la poésie : les participants non experts sont plus susceptibles de juger qu'un poème généré par l'IA est d'origine humaine qu'un poème qui est en fait d'origine humaine. Ces résultats signalent un bond en avant dans la puissance de l'IA générative : la poésie était auparavant l'un des rares domaines dans lesquels les modèles d'IA générative n'avaient pas atteint le niveau d'indiscernabilité dans les paradigmes de l'homme hors de la boucle
En outre, les gens préfèrent les poèmes générés par l'IA aux poèmes écrits par des humains, en accordant systématiquement une note plus élevée aux poèmes générés par l'IA qu'aux poèmes de poètes connus, et ce pour toute une série de facteurs qualitatifs. Cette préférence explique au moins en partie le phénomène « plus humain qu'humain » : lorsque l'on contrôle les opinions des gens sur l'excellence de divers aspects des poèmes, tels que leur qualité rythmique, la paternité n'a plus d'effet négatif significatif sur les croyances relatives à la paternité, ce qui suggère que les gens sont plus susceptibles de croire que les poèmes générés par l'IA sont écrits par des humains parce qu'ils préfèrent les poèmes de l'IA et parce qu'ils supposent qu'ils sont plus susceptibles d'aimer des poèmes écrits par des humains que des poèmes générés par l'IA.
Pourquoi les gens préfèrent-ils les poèmes générés par l'IA ? Nous pensons que les gens évaluent mieux les poèmes générés par l'IA en fonction de toutes les mesures, en partie parce qu'ils trouvent les poèmes générés par l'IA plus simples. Dans notre étude, les poèmes générés par l'IA sont généralement plus accessibles que les poèmes écrits par des humains. Dans notre étude sur la discrimination, les participants utilisent plus souvent des variantes de l'expression « ça n'a pas de sens » pour les poèmes créés par des humains que pour les poèmes générés par l'IA lorsqu'ils expliquent leurs réponses de discrimination (144 explications contre 29 explications). Dans chacun des cinq poèmes générés par l'IA et utilisés dans l'étude d'évaluation (étude 2), le sujet du poème est assez évident : le poème de style Plath traite de la tristesse ; le poème de style Whitman traite de la beauté de la nature ; le poème de style Lord Byron traite d'une femme belle et triste ; etc. Ces poèmes utilisent rarement des métaphores complexes. En revanche, les poèmes d'auteurs humains sont moins évidents : « The Boston Evening Transcript » de T.S. Eliot est une satire de 1915 d'un journal aujourd'hui disparu, qui compare les lecteurs du journal à des champs de maïs et fait référence au moraliste français du XVIIe siècle, La Rochefoucauld.
En effet, cette complexité et cette opacité font partie de l'attrait des poèmes : ils récompensent une étude et une analyse approfondies, ce qui n'est pas forcément le cas des poèmes générés par l'IA. Mais comme les poèmes générés par l'IA n'ont pas cette complexité, ils sont plus à même de communiquer sans ambiguïté une image, une humeur, une émotion ou un thème à des lecteurs de poésie non experts, qui n'ont pas forcément le temps ou l'intérêt pour l'analyse approfondie qu'exige la poésie des poètes humains. Par conséquent, les poèmes générés par l'IA, plus faciles à comprendre, sont en moyenne préférés par ces lecteurs, alors qu'en fait, l'une des caractéristiques de la poésie humaine est qu'elle ne se prête pas à une interprétation aussi facile et univoque. L'une des preuves de cette explication du phénomène « plus humain qu'humain » est le fait que l'atmosphère - le facteur sur lequel pèsent l'imagerie, la transmission d'un thème particulier et la transmission d'une humeur ou d'une émotion particulière - a l'effet positif le plus fort dans le modèle qui prédit les croyances sur la paternité du texte sur la base des scores des facteurs qualitatifs et de la paternité du stimulus. Ainsi, en contrôlant la paternité réelle et d'autres évaluations qualitatives, l'augmentation de la capacité perçue d'un poème à communiquer un thème, une émotion ou une image se traduit par une probabilité accrue d'être perçu comme un poème dont l'auteur est un être humain.
En résumé, il semble que le phénomène « plus humain qu'humain » en poésie soit dû à une mauvaise interprétation des préférences des lecteurs. Les lecteurs de poésie non experts s'attendent à aimer davantage les poèmes écrits par des humains que les poèmes générés par l'IA. En fait, ils trouvent les poèmes générés par l'IA plus faciles à interpréter ; ils comprennent plus facilement les images, les thèmes et les émotions dans les poèmes générés par l'IA que dans les poèmes plus complexes des poètes humains. Ils préfèrent donc ces poèmes et interprètent à tort leur propre préférence comme une preuve de l'existence d'un auteur humain. Ce phénomène résulte en partie de différences réelles entre les poèmes générés par l'IA et les poèmes écrits par des humains, mais aussi d'un décalage entre les attentes des lecteurs et la réalité. Nos participants ne s'attendent pas à ce que l'IA soit capable de produire des poèmes qu'ils aiment au moins autant qu'ils aiment les poèmes écrits par des humains ; nos résultats suggèrent que cette attente est erronée.
En outre, les gens préfèrent les poèmes générés par l'IA aux poèmes écrits par des humains, en accordant systématiquement une note plus élevée aux poèmes générés par l'IA qu'aux poèmes de poètes connus, et ce pour toute une série de facteurs qualitatifs. Cette préférence explique au moins en partie le phénomène « plus humain qu'humain » : lorsque l'on contrôle les opinions des gens sur l'excellence de divers aspects des poèmes, tels que leur qualité rythmique, la paternité n'a plus d'effet négatif significatif sur les croyances relatives à la paternité, ce qui suggère que les gens sont plus susceptibles de croire que les poèmes générés par l'IA sont écrits par des humains parce qu'ils préfèrent les poèmes de l'IA et parce qu'ils supposent qu'ils sont plus susceptibles d'aimer des poèmes écrits par des humains que des poèmes générés par l'IA.
Pourquoi les gens préfèrent-ils les poèmes générés par l'IA ? Nous pensons que les gens évaluent mieux les poèmes générés par l'IA en fonction de toutes les mesures, en partie parce qu'ils trouvent les poèmes générés par l'IA plus simples. Dans notre étude, les poèmes générés par l'IA sont généralement plus accessibles que les poèmes écrits par des humains. Dans notre étude sur la discrimination, les participants utilisent plus souvent des variantes de l'expression « ça n'a pas de sens » pour les poèmes créés par des humains que pour les poèmes générés par l'IA lorsqu'ils expliquent leurs réponses de discrimination (144 explications contre 29 explications). Dans chacun des cinq poèmes générés par l'IA et utilisés dans l'étude d'évaluation (étude 2), le sujet du poème est assez évident : le poème de style Plath traite de la tristesse ; le poème de style Whitman traite de la beauté de la nature ; le poème de style Lord Byron traite d'une femme belle et triste ; etc. Ces poèmes utilisent rarement des métaphores complexes. En revanche, les poèmes d'auteurs humains sont moins évidents : « The Boston Evening Transcript » de T.S. Eliot est une satire de 1915 d'un journal aujourd'hui disparu, qui compare les lecteurs du journal à des champs de maïs et fait référence au moraliste français du XVIIe siècle, La Rochefoucauld.
En effet, cette complexité et cette opacité font partie de l'attrait des poèmes : ils récompensent une étude et une analyse approfondies, ce qui n'est pas forcément le cas des poèmes générés par l'IA. Mais comme les poèmes générés par l'IA n'ont pas cette complexité, ils sont plus à même de communiquer sans ambiguïté une image, une humeur, une émotion ou un thème à des lecteurs de poésie non experts, qui n'ont pas forcément le temps ou l'intérêt pour l'analyse approfondie qu'exige la poésie des poètes humains. Par conséquent, les poèmes générés par l'IA, plus faciles à comprendre, sont en moyenne préférés par ces lecteurs, alors qu'en fait, l'une des caractéristiques de la poésie humaine est qu'elle ne se prête pas à une interprétation aussi facile et univoque. L'une des preuves de cette explication du phénomène « plus humain qu'humain » est le fait que l'atmosphère - le facteur sur lequel pèsent l'imagerie, la transmission d'un thème particulier et la transmission d'une humeur ou d'une émotion particulière - a l'effet positif le plus fort dans le modèle qui prédit les croyances sur la paternité du texte sur la base des scores des facteurs qualitatifs et de la paternité du stimulus. Ainsi, en contrôlant la paternité réelle et d'autres évaluations qualitatives, l'augmentation de la capacité perçue d'un poème à communiquer un thème, une émotion ou une image se traduit par une probabilité accrue d'être perçu comme un poème dont l'auteur est un être humain.
En résumé, il semble que le phénomène « plus humain qu'humain » en poésie soit dû à une mauvaise interprétation des préférences des lecteurs. Les lecteurs de poésie non experts s'attendent à aimer davantage les poèmes écrits par des humains que les poèmes générés par l'IA. En fait, ils trouvent les poèmes générés par l'IA plus faciles à interpréter ; ils comprennent plus facilement les images, les thèmes et les émotions dans les poèmes générés par l'IA que dans les poèmes plus complexes des poètes humains. Ils préfèrent donc ces poèmes et interprètent à tort leur propre préférence comme une preuve de l'existence d'un auteur humain. Ce phénomène résulte en partie de différences réelles entre les poèmes générés par l'IA et les poèmes écrits par des humains, mais aussi d'un décalage entre les attentes des lecteurs et la réalité. Nos participants ne s'attendent pas à ce que l'IA soit capable de produire des poèmes qu'ils aiment au moins autant qu'ils aiment les poèmes écrits par des humains ; nos résultats suggèrent que cette attente est erronée.
Dans leur conclusion, les auteurs de l'étude ont souligné qu'il s'agit d'une avancée pour l'écriture générée par l'IA. Jusqu'à présent, il n'était pas difficile pour les humains d'identifier les poèmes créés par l'IA - les participants pouvaient identifier les poèmes créés par GPT-2 - mais les résultats de l'étude ont montré que ce n'est désormais plus le cas. En outre, les chercheurs ont souligné l'urgence d'identifier les méthodes efficaces de divulgation de l'utilisation des systèmes d'IA pour générer des textes et des images efficaces.
Les modèles d'IA générative devenant à la fois plus performants et plus courants, il n'est pas certain que les attentes des gens ordinaires à l'égard de l'IA générative rattrapent la réalité de l'IA générative. Les heuristiques qui peuvent être utiles aux lecteurs pour un modèle génératif ou une génération de modèles génératifs peuvent ne pas s'appliquer à d'autres modèles. Les gens pouvaient distinguer de manière fiable la poésie de GPT-2 de la poésie écrite par des humains ; nos résultats montrent qu'ils ne peuvent pas distinguer la poésie de ChatGPT-3.5.
Compte tenu des difficultés rencontrées par les gens pour identifier les textes écrits par des machines et de leur confiance apparente dans le fait que l'IA ne produira pas d'imitations de l'expérience humaine, il peut être utile que les gouvernements adoptent des réglementations en matière de transparence dans l'utilisation des systèmes d'IA. La Maison Blanche et l'Union européenne ont récemment proposé des réglementations concernant la divulgation de l'utilisation des systèmes d'IA pour générer des textes et des images. Cependant, il est prouvé que les utilisateurs ignorent souvent ces informations, et il n'est donc pas clair dans quelle mesure ces réglementations peuvent être utiles. L'identification de méthodes de divulgation efficaces est une question difficile mais urgente.
Compte tenu des difficultés rencontrées par les gens pour identifier les textes écrits par des machines et de leur confiance apparente dans le fait que l'IA ne produira pas d'imitations de l'expérience humaine, il peut être utile que les gouvernements adoptent des réglementations en matière de transparence dans l'utilisation des systèmes d'IA. La Maison Blanche et l'Union européenne ont récemment proposé des réglementations concernant la divulgation de l'utilisation des systèmes d'IA pour générer des textes et des images. Cependant, il est prouvé que les utilisateurs ignorent souvent ces informations, et il n'est donc pas clair dans quelle mesure ces réglementations peuvent être utiles. L'identification de méthodes de divulgation efficaces est une question difficile mais urgente.
Source : "AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably" (étude de l'université de Pittsburgh)
Et vous ?
Quel est votre avis sur le sujet ?
Trouvez-vous les conclusions de cette étude de l'université de Pittsburgh crédibles ou pertinentes ?
Voir aussi :
L'IA pourrait surpasser l'homme dans toutes les tâches d'ici 2047, selon une enquête auprès de 2,778 chercheurs
L'IA a surpassé l'homme dans un certain nombre de tâches et la vitesse à laquelle l'homme est surpassé dans de nouvelles tâches augmente, un défi pour notre identité et notre avenir collectif ?
L'IA est pire que l'homme pour résumer l'information dans tous les domaines, selon un essai gouvernemental