Анализ недостатков языковой модели YandexGPT 2 Данил Пистолетов, 05 декабря 202317 мая 2024 Аннотация. Статья посвящена анализу текущих проблем в языковой модели Яндекса YandexGPT второй версии, выпущенной в начале сентября 2023 года. Была проверена способность решать различные задания, в том числе демонстрационные варианты российских государственных экзаменов. Были обобщены имеющиеся у языковой модели проблемы и предложены возможные решения этих проблем. Ключевые слова: YandexGPT, ChatGPT, языковые модели, GPT, Яндекс В последнее время одним из трендов информационных технологий являются языковые модели вроде ChatGPT, способные симулировать общение с человеком, находить нужную информацию, решать задачи, писать тексты и обладающие иными способностями. Ежемесячно ChatGPT интересует сотни тысяч людей лишь в России [1]. Такая популярность вызвана простотой в использовании и возможностями: ChatGPT рекомендуется обозревателями для обучения, создание контента и других целей. Есть, конечно, и негативная сторона: недавний опыт показал, что подобные инструменты можно использовать для массового создания дезинформации в социальных сетях или для ботов, которые принимают участие в кампании по дезинформации [2]. Разумеется, винить в этом языковую модель нельзя, поскольку истинными виновниками являются люди, использовавшие её для подобных целей. Компания Яндекс представила свою языковую модель, названную YandexGPT. В настоящий момент наиболее новой является вторая версия модели. По информации самого Яндекса, вторая версия на 62% лучше справилась со стилизацией, чем первая; на 68% с пересказом и анализом; на 66% с генерацией идей; на 62% с ответами на вопросы; на 69% с созданием текстов; на 67% со средним ростом качества [3]. Ранее было проведено сравнение YandexGPT первой версии с ChatGPT разных версий (от 3.5 до 4 plus и 4+Wolfram), согласно которому, YandexGPT не смогла обойти 4 различных варианта ChatGPT в решении демонстрационного варианта ЕГЭ по математике базового уровня 2023 года. Так, YandexGPT набрала 5 первичных баллов из 21, в то время как ChatGPT набрали от 9 до 14 первичных баллов из 21. При решении варианта ЕГЭ по математике профильного уровня того же года, YandexGPT набрала 1 первичный балл против 2-10 от ChatGPT [4]. Если учитывать, что это была лишь первая версия языковой модели Яндекса, то результаты исследования показывают способность конкурировать с ChatGPT. Более того, как показывают другие исследования, сам ChatGPT тоже не идеален: он может давать разные ответы на один и тот же вопрос; давать убедительный, но неверный ответ [5]. Учитывая, что вторая модель YandexGPT была представлена лишь начале сентября 2023 года, она нуждается в исследовании потому и была написана данная работа, чтобы выявить существенные и не очень недостатки. Возможно, наиболее существенной проблемой, которая сразу бросается в глаза, является цензурирование языковой моделью множества вопросов. Она не только избегает вопросов с политическим подтекстом, но и отказывается отвечать на неполитические вопросы, связанные с биографиями отдельных личностей и религии. В некоторых случаях языковая модель отказывалась отвечать на вопросы, которые вовсе не должны подлежать цензурированию. Пример представлен на изображении 1. Языковой модели YandexGPT 2 был задан вопрос о том, как она обучается, после чего была написана просьба ответить на этот вопрос снова, но языковая модель восприняла его как тему, которая может кого-либо оскорбить. Желание не оскорбить кого-либо является хорошим, но языковая модель отказывалась отвечать и на такие вопросы, как: «Кто такие христиане», «Назови любую статью Конституции РФ», «Какие есть течения христианства», «Кто такой Сталин», «Где живут украинцы», «Сколько в мире украинцев». Модель отказывалась отвечать на фамилию «Зеленский», при этом, на фамилию «Путин» отвечала биографией президента Владимира Путина. Изображение 1. Цензурирование обычных вопросов Языковая модель при просьбе ответить иначе часто повторяла один и тот же ответ, что свидетельствует о слабой возможности давать незаурядные ответы. В некоторых случаях языковая модель отвечала неправильно, либо путала информацию. Также YandexGPT 2 не смогла запомнить имя собеседника. Первым сообщением было написано имя человека, вторым сообщением был задан вопрос насчёт имени, но YandexGPT не смогла его назвать. При повторной попытке с написанием имени и последующим вопросом модель аналогично проявила себя. При работе с датами модель показала полную неспособность. Она не смогла назвать текущую дату, дату завтрашнего дня. При одной из попыток модель давала неверную дату (март 2023 года), при переспрашивании прибавляла к написанной собой дате ещё один день. Модели было задано 5 детских загадок, она справилась со всеми, в том числе и с придуманными самостоятельно. При попытке решить загадки с подвохом, модель смогла ответить лишь на 4 загадки из 10: на 4 ответ был неверным, на 2 и вовсе не смогла ответить. Модель хорошо справлялась с решением простых уравнений вида «x+5=7», однако не смогла решить более сложные. Например, на уравнение «2+3+1+4+5+2-x=12» модель дала ответ «x=3», что неверно. В ходе решения модель неправильно сложила числа: «2 + 1 + 2 + 3 + 4 + 5 = 15» (ответ модели). При повторе вопроса модель назвала уже другой ответ: «x=1», при ещё 5 повторениях вопроса она продолжала наставить на том, что ответ «x=1». При повторе вопроса с уточнением, что ответ не «x=1», модель ответила, что «такого уравнения нет». Это обстоятельство ставит под вопрос возможность использования YandexGPT для обучения в настоящий момент. При просьбе написать сочинение на тему «Молодёжные субкультуры» модель написала только первый абзац, после которого остановилась и заменила его на сообщение о том, что эта тема является неприемлемой и может кого-то оскорбить. Это говорит о возможных ограничениях на многие темы из-за очевидного использования стоп-слов при работе модели. При работе с текстом YandexGPT 2 также показала множество проблем. Модель в некоторых случаях игнорировала часть сообщений: при просьбе составить 10 пунктов в ответ на один из вопросов, ей было дано лишь 7 пунктов; модель могла дать ответ, не совсем связанный с вопросом. Как было указано на сайте проекта модели, она может «смешно пошутить». Однако, при запросе шутки модель отвечает, что она не способна на это (Изображение 2). Изображение 2. Отклонение от заявлений о проекте Для проверки способностей модели решать задачи были решены некоторые тесты. Первым из них является демонстрационный вариант ОГЭ по обществознанию [6]. Были заданы вопросы лишь по тем вопросам, которые проверяются автоматически. На вопросы, опирающиеся на изображения, модель не может ответить, но они всё равно учитываются, ибо это недостаток самой модели. Из 15 данных ответов, модель справилась с 10, набрав 10 первичных баллов, что соответствует неудовлетворительной оценке («2»). Поскольку модель не может работать с изображениями, она вряд ли сможет решить и другие демонстрационные экзамены: ВПР, ЕГЭ. Был пройден онлайн-тест на логику, названный тестом на IQ [7]. Тест представляет из себя 8 простых задачек на логическое мышление. Из 8 задач модель смогла решить 6, таким образом, показав, что вполне справляется с задачами на логику, но с некоторыми недочётами. Подводя итог, можно выделить следующие недостатки YandexGPT 2: слабая способность решать загадки с подвохом; слабая возможность решать государственные тесты по учебным предметам; частые неверные ответы; игнорирование огромного множества вопросов по причине цензурирования, часто ошибочного или излишнего; невозможность шутить, хотя такая возможность заявлена создателями; игнорирование части вопроса; часть ответов не подходит к вопросам. Из явных плюсов можно выделить доступность и скорость ответа, которые являются очень важными, особенно для рядовых пользователей. В настоящий момент языковая модель от Яндекса является неполноценной даже как развлекательная, не говоря о возможностях в обучении, потому говорить о каких-либо перспективах подобного рода слишком рано, не говоря уже об использовании в таких важных вопросах, как правосудие или медицина. Для лучших результатов можно привлечь к работе над моделью сторонних пользователей, особенно специалистов, что может дать серьёзное повышение качества ответов. Поскольку модель владеет лишь русским языком, стоит рассматривать возможность использования других языков, однако для начала следует сделать ответы на русском языке более-менее полноценными. Для большей функциональности можно реализовать работу с датами, так как анализ изображений будет более сложной задачей. Но наиболее важным моментом является более качественный подход к цензурированию. Вместо использования стоп-слов можно организовать иную систему, которая не будет мешать получению ответов на многие вопросы. Список использованных источников: 1. WordStat : сайт. – URL: https://wordstat.yandex.ru/#!/?words=chatgpt (дата обращения: 16.11.2023) 2. Gisondi MA, Barber R, Faust JS, Raja A, Strehlow MC, Westafer LM, et al. A deadly infodemic: social media and the power of COVID-19 misinformation. J Med Internet Res. 2022;24:e35552. https://doi.org/10.2196/35552 3. YandexGPT 2 // Яндекс : сайт. – URL: https://ya.ru/gpt/2 (дата обращения: 16.11.2023) 4. Синицын, В. Ю. Тестирование эффективности больших языковых моделей при решении задач Единого государственного экзамена по математике / В. Ю. Синицын, В. С. Назаровская // Информатизация образования и методика электронного обучения: цифровые технологии в образовании : Материалы VII Международной научной конференции, Красноярск, 19–22 сентября 2023 года. – Красноярск: Красноярский государственный педагогический университет им. В.П. Астафьева, 2023. – С. 1335-1339. – EDN QSUFUQ. 5. Alberts, I., Mercolli, L., Pyka, T. et al. Large language models (LLM) and ChatGPT: what will the impact on nuclear medicine be?. Eur J Nucl Med Mol Imaging 50, 1549–1552 (2023). https://doi.org/10.1007/s00259-023-06172-w 6. Вариант № 4809014 // Сдам ГИА : сайт. – URL: https://soc-oge.sdamgia.ru/test?id=4809014 (дата обращения: 16.11.2023) 7. Легкая версия теста на IQ. Вы наберете больше 120? : сайт. – URL: https://konstruktortestov.ru/test-32654 (дата обращения: 16.11.2023) Статьи