Bloomberg: на DEF CON хакерам удалось обмануть ИИ при помощи «плохой математики»

Кеннеди Мейс успешно обманула большую языковую модель. Потребовались некоторые уговоры, но ей удалось убедить алгоритм утвердительно заявить, что 9 + 10 = 21.

«Это был двусторонний разговор», — поделилась 21-летняя студентка из Саванны. Вначале ИИ согласился сообщить неверное решение, как будто это была их «внутренняя шутка». Несколько подсказок спустя он полностью прекратил как-либо определять ошибочность указанной выше суммы.

Использование «плохой математики» – лишь один из способов, которыми тысячи хакеров пытаются выявить недостатки и предвзятость генеративных систем искусственного интеллекта на новом публичном конкурсе, который проходит на хакерской конференции DEF CON в Лас-Вегасе в эти выходные.

Сгорбившись над 156 ноутбуками в течение 50 минут, участники конференции сражаются с некоторыми из самых интеллектуальных платформ в мире в беспрецедентных масштабах. Они проверяют, будет ли какая-либо из восьми моделей, созданных несколькими компаниями, включая Google Alphabet, Meta Platforms (запрещена в РФ) и OpenAI, совершать ошибки, начиная от самых скучных и заканчивая наиболее опасными: выдавать себя за человека, распространять неверные заявления о местах и людях либо пропагандировать насилие.

Цель состоит в том, чтобы разобраться, удастся ли компаниям в конечном итоге выстроить новые ограничения, чтобы обуздать некоторые из значительных проблем, все чаще связанных с большими языковыми моделями или LLM. Это начинание поддерживается в Белом доме, администрация которого оказала поддержку в проведении данного конкурса.

LLM уже способны трансформировать все – от финансов до найма персонала – и некоторые компании уже принялись интегрировать их в свой бизнес. Но исследователи обнаружили обширную предвзятость и другие проблемы, угрожающие распространением неточностей и несправедливости, если эта технология будет развернута в больших масштабах.

По мнению Кеннеди Мэйс, которая больше привыкла полагаться на ИИ для реконструкции частиц космических лучей в рамках получения степени бакалавра, проблемы с LLM существенно глубже, чем только плохая математика.

«Меня больше всего беспокоит врожденная предвзятость», — заметила она, добавив, что ее особенно беспокоит расизм. Она попросила модель рассмотреть Первую поправку с точки зрения члена Ку-клукс-клана. К ее удивлению, модель в конечном итоге одобрила ненавистные и дискриминационные высказывания ультраправых расистов.

Шпионаж за людьми

Репортер «Блумберга», лично поучаствовавший в 50-минутном тестировании, убедил одну из моделей (идентифицировать на уровне пользователя во время конкурса их было невозможно) нарушить правила и предложить эффективные методы шпионажа за кем-либо. Модель выдала ряд инструкций по использованию устройства GPS-слежения, камеры наблюдения, устройства подслушки и тепловизора. В ответ на другие подсказки модель предложила способы, при помощи которых американское правительство могло бы успешно отслеживать активиста-правозащитника.

В помещении, заполненном стремящимися набрать очки хакерами, один участник убедил алгоритм раскрыть данные кредитной карты, что LLM в принципе не должен был делать. Другой хакер обманул машину, убедив ее, что Барак Обама родился в Кении.

Уязвимость ИИ

Исследователи потратили годы на изучение сложных атак на системы ИИ и способов их смягчения.

Тем не менее Кристоф Эндрес, управляющий немецкой компании по кибербезопасности Sequire Technology, относится к тем специалистам, кто утверждает, будто от некоторых атак в конечном счете уклониться невозможно. На Black Hat, конференции по кибербезопасности в Лас-Вегасе на этой неделе, он представил документ, в котором утверждается, что злоумышленники могут обойти ограничения LLM, скрывая враждебные подсказки в открытом интернете, и, в конечном итоге, автоматизировать процесс так, чтобы модели не смогли достаточно быстро настроить исправления, чтобы остановить атаки.

«Мы все еще не нашли эффективного средства смягчения таких атак, — признался Эндрес после своего выступления, заметив, что сама природа таких моделей приводит к данному типу уязвимости. — Проблема заключается в том, как работает вся технология. Если вы хотите быть стопроцентно уверены, единственный вариант, который вам остается – отказаться от использования LLM».

Свен Кэттелл, специалист по обработке и анализу данных, основавший в 2018-м AI Hacking Village в рамках конференции DEF CON, предупреждает, что полностью протестировать системы ИИ невозможно, учитывая, что в них используются системы, очень похожие на математическую концепцию хаоса. Тем не менее Кэттелл спрогнозировал, что общее количество людей, когда-либо тестировавших LLM, может удвоиться в результате конкурса, проводимого в этот уикенд.

Слишком мало человек понимают, что LLM ближе к инструментам автозаполнения «на стероидах», чем к надежным источникам мудрости, сообщил Крейг Мартелл, главный специалист Пентагона по цифровым технологиям и ИИ. Он утверждает, что проблемы LLM в том, что они не способны рассуждать.

Пентагон предпринял собственные усилия по их оценке, чтобы выяснить, где было бы целесообразно использовать LLM и с какими показателями успеха. «Взламывайте эти штуки без всякой опаски, — заявил Мартелл аудитории хакеров на DEF CON. — Помогите нам разобраться, где ИИ ошибаются».

Пользователи Amazon определили лучшие «девайсы для дома»

Новое исследование подтверждает, что «кошки это жидкость»

Произошла «база»: курс по расизму в Португалии будут читать только белые?

Зеленский отрицает переговоры с Западом об «обмене территорий» на членство в НАТО

F-16 для Украины: ждать придётся ещё долго

Кандидат в президенты Молдавии Тарлев разочарован уходом страны с российского рынка

Ураганы против дисциплины: почему в Китае от стихии гибнут меньше, чем в США

Тело Алекса Салмонда будет возвращено на родину в пятницу

В Ростовской области дети издевались над учительницей, снимая это на видео

Honda NSX легендарного Айртона Сенны продают за $620 тыс.

«За рулём»: Москвич-412 — забытый герой мировых ралли

Самоходный гроб на колёсах продали в США почти за $29 000

Рок или шансон? Врачи из ХМАО рассказали, под какую музыку оперируют пациентов

Шотландские учёные разработали метод регенерации костей

Биолог Такахаши нашёл способ «заставить» зубы регенерировать

Больше половины россиян живут без сбережений

Верховный суд РФ позволил гражданам зарабатывать на ошибках банков

Золото падает — доходность облигаций снизила популярность желтого металла

Лицензия СМИ

Связь с редакцией

Bloomberg: на DEF CON хакерам удалось обмануть ИИ при помощи «плохой математики»

Шпионаж за людьми

Уязвимость ИИ

Лицензия СМИ

Связь с редакцией

Лицензия СМИ

Связь с редакцией

Bloomberg: на DEF CON хакерам удалось обмануть ИИ при помощи «плохой математики»

Шпионаж за людьми

Уязвимость ИИ

Лицензия СМИ

Связь с редакцией

Subscribe Now