Исследование, проведённое сотрудниками Института искусственного интеллекта AIRI, показали, что исключение знаков препинания, артиклей и стоп-слов из текста задания может снизить точность работы языковых моделей на 20%. Оказалось, что несущественные для человека элементы сказываются на работе нейросетей не лучшим образом.
Алгоритмы языковых моделей анализируют текст, разбивая его на последовательные фрагменты. Система определяет, какие из них содержат ключевую информацию для интерпретации смысла. Сотрудники AIRI разработали способ, позволяющий выявить, какие сведения остаются связанными с каждым отдельным фрагментом.
В ходе первого эксперимента исследователи проверяли, как хорошо модель восстанавливает исходный текст, обучая её учитывать знаки препинания, артикли и стоп-слова. Оказалось, что эти элементы нагружают искусственный интеллект больше всего.
Вторым этапом стала проверка работы с текстом путём удаления некоторых фрагментов, и в этом случае продуктивность нейросети при работе с информацией заметно снижается. Таким образом, использование артиклей и стоп-слов имеет неочевидное, но существенное влияние на новый текст.