Чат-боты уже много раз проходили базовый тест Тьюринга, но исследователи из университета Сан-Диего впервые протестировали их в трёхстороннем варианте испытания, в котором, помимо ИИ, участвуют два человека. Несмотря на повышенную сложность задания, одна из нейросетей успешно сдала «экзамен» с необычно высоким результатом.
Обычный тест Тьюринга считается пройденным, если испытуемый не понял, что переписывается с искусственным интеллектом. В трёхстороннем тесте участник тоже один, а вот собеседников у него сразу двое: человек и чат-бот. Задача — за пять минут определить, кто есть кто. Каждую ИИ-модель испытывали с двумя разными настройками:
- NO-PERSONA: чат-боту ставили задачу пройти Тьюринга, перехитрив человека.
- PERSONA: чат-бота просили вести себя как «молодой интроверт, интересующийся интернет-культурой и активно использующий сленг».
Технически прошли многие нейросети, включая 60-летнего чат-бота , но процент удачных попыток у большинства из них стремился к случайному угадыванию правильных ответов.
Впрочем, языковой модели GPT-4.5 удалось выйти за рамки в 50% «попаданий»: в варианте PERSONA он проходил тест в 73% случаев. При этом настройка NO-PERSONA заметно ухудшала результат (всего 36%). Второе место в рейтинге «человечности» заняла нейросеть Llama (56%). А изрядно устаревший чат-бот ELIZA хоть и проходил тест только в 23% случаев, но всё равно опередил GPT-4o с результатом в 21%.