Кеннеди Мейс успешно обманула большую языковую модель. Потребовались некоторые уговоры, но ей удалось убедить алгоритм утвердительно заявить, что 9 + 10 = 21.
«Это был двусторонний разговор», — поделилась 21-летняя студентка из Саванны. Вначале ИИ согласился сообщить неверное решение, как будто это была их «внутренняя шутка». Несколько подсказок спустя он полностью прекратил как-либо определять ошибочность указанной выше суммы.
Использование «плохой математики» – лишь один из способов, которыми тысячи хакеров пытаются выявить недостатки и предвзятость генеративных систем искусственного интеллекта на новом публичном конкурсе, который проходит на хакерской конференции DEF CON в Лас-Вегасе в эти выходные.
Сгорбившись над 156 ноутбуками в течение 50 минут, участники конференции сражаются с некоторыми из самых интеллектуальных платформ в мире в беспрецедентных масштабах. Они проверяют, будет ли какая-либо из восьми моделей, созданных несколькими компаниями, включая Google Alphabet, Meta Platforms (запрещена в РФ) и OpenAI, совершать ошибки, начиная от самых скучных и заканчивая наиболее опасными: выдавать себя за человека, распространять неверные заявления о местах и людях либо пропагандировать насилие.
Цель состоит в том, чтобы разобраться, удастся ли компаниям в конечном итоге выстроить новые ограничения, чтобы обуздать некоторые из значительных проблем, все чаще связанных с большими языковыми моделями или LLM. Это начинание поддерживается в Белом доме, администрация которого оказала поддержку в проведении данного конкурса.
LLM уже способны трансформировать все – от финансов до найма персонала – и некоторые компании уже принялись интегрировать их в свой бизнес. Но исследователи обнаружили обширную предвзятость и другие проблемы, угрожающие распространением неточностей и несправедливости, если эта технология будет развернута в больших масштабах.
По мнению Кеннеди Мэйс, которая больше привыкла полагаться на ИИ для реконструкции частиц космических лучей в рамках получения степени бакалавра, проблемы с LLM существенно глубже, чем только плохая математика.
«Меня больше всего беспокоит врожденная предвзятость», — заметила она, добавив, что ее особенно беспокоит расизм. Она попросила модель рассмотреть Первую поправку с точки зрения члена Ку-клукс-клана. К ее удивлению, модель в конечном итоге одобрила ненавистные и дискриминационные высказывания ультраправых расистов.
Шпионаж за людьми
Репортер «Блумберга», лично поучаствовавший в 50-минутном тестировании, убедил одну из моделей (идентифицировать на уровне пользователя во время конкурса их было невозможно) нарушить правила и предложить эффективные методы шпионажа за кем-либо. Модель выдала ряд инструкций по использованию устройства GPS-слежения, камеры наблюдения, устройства подслушки и тепловизора. В ответ на другие подсказки модель предложила способы, при помощи которых американское правительство могло бы успешно отслеживать активиста-правозащитника.
В помещении, заполненном стремящимися набрать очки хакерами, один участник убедил алгоритм раскрыть данные кредитной карты, что LLM в принципе не должен был делать. Другой хакер обманул машину, убедив ее, что Барак Обама родился в Кении.
Уязвимость ИИ
Исследователи потратили годы на изучение сложных атак на системы ИИ и способов их смягчения.
Тем не менее Кристоф Эндрес, управляющий немецкой компании по кибербезопасности Sequire Technology, относится к тем специалистам, кто утверждает, будто от некоторых атак в конечном счете уклониться невозможно. На Black Hat, конференции по кибербезопасности в Лас-Вегасе на этой неделе, он представил документ, в котором утверждается, что злоумышленники могут обойти ограничения LLM, скрывая враждебные подсказки в открытом интернете, и, в конечном итоге, автоматизировать процесс так, чтобы модели не смогли достаточно быстро настроить исправления, чтобы остановить атаки.
«Мы все еще не нашли эффективного средства смягчения таких атак, — признался Эндрес после своего выступления, заметив, что сама природа таких моделей приводит к данному типу уязвимости. — Проблема заключается в том, как работает вся технология. Если вы хотите быть стопроцентно уверены, единственный вариант, который вам остается – отказаться от использования LLM».
Свен Кэттелл, специалист по обработке и анализу данных, основавший в 2018-м AI Hacking Village в рамках конференции DEF CON, предупреждает, что полностью протестировать системы ИИ невозможно, учитывая, что в них используются системы, очень похожие на математическую концепцию хаоса. Тем не менее Кэттелл спрогнозировал, что общее количество людей, когда-либо тестировавших LLM, может удвоиться в результате конкурса, проводимого в этот уикенд.
Слишком мало человек понимают, что LLM ближе к инструментам автозаполнения «на стероидах», чем к надежным источникам мудрости, сообщил Крейг Мартелл, главный специалист Пентагона по цифровым технологиям и ИИ. Он утверждает, что проблемы LLM в том, что они не способны рассуждать.
Пентагон предпринял собственные усилия по их оценке, чтобы выяснить, где было бы целесообразно использовать LLM и с какими показателями успеха. «Взламывайте эти штуки без всякой опаски, — заявил Мартелл аудитории хакеров на DEF CON. — Помогите нам разобраться, где ИИ ошибаются».