ГлавнаяБлогиЗарубежные БлогиЗащита от хакерских атак на модели глубокого обучения

Защита от хакерских атак на модели глубокого обучения

Как и все остальное в области вычислений, модели глубокого обучения можно взломать. Команда IBM выявила угрозы и разработала методы защиты моделей ИИ, которые называются глубокими генеративными моделями (DGM). Модели DGM — набирающая обороты технология на базе ИИ, позволяющая синтезировать данные из сложных, высокоразмерных массивов, будь то изображения, текст, музыка или молекулярные структуры.

Способность создавать наборы смоделированных данных имеет огромный потенциал в промышленных или научных областях применения, где реальные данные встречаются редко, а их сбор обходится дорого.

Модели DGM могут повысить производительность ИИ и ускорить научные открытия за счет аугментации данных. Одной из популярных моделей DGM является генеративно-состязательная сеть (GAN).

В рассмотренном сценарии хакерской атаки жертва загружает глубокую генеративную модель из непроверенного источника и использует ее для аугментации данных ИИ. Заразив модель, злоумышленник может нарушить целостность и надежность процесса разработки систем с ИИ.

Мы ожидаем, что многие компании будут использовать обученные модели GAN от потенциально опасных третьих сторон, например скачивать их из репозиториев открытого кода. А это позволит хакерам внедрять скомпрометированные модели GAN в корпоративные линейки решений на базе ИИ.

Предположим, некая компания хочет использовать модели GAN для синтезирования смоделированных данных для обучения, чтобы повысить эффективность модели ИИ в отношении обнаружения фрода в транзакциях по кредитным картам. Поскольку у компании нет специалистов, способных создать такие модели GAN, руководство принимает решение скачать предварительно обученную модель GAN из популярного репозитория открытого кода. Наше исследование показывает, что без надлежащей валидации модели GAN злоумышленник может без проблем скомпрометировать весь процесс разработки систем с ИИ.

Хотя было проведено множество исследований, посвященных хакерским угрозам в отношении традиционных дифференциальных моделей машинного обучения, угрозам в отношении моделей GAN в частности и моделей DGM в целом до недавнего времени не уделялось достаточно внимания. Поскольку эти модели ИИ стремительно становятся важнейшими компонентами промышленных продуктов, мы решили проверить их устойчивость к хакерским атакам.

В анимационном ролике показано поведение атакованной модели StyleGAN рядом с триггером атаки: по мере приближения к триггеру синтезированные лица превращаются в знак СТОП, который является выходным сигналом атаки.

Имитация «нормального» поведения

Обучать модели GAN довольно сложно. В нашем исследовании нужно было выполнить еще более непростую задачу: понять, как злоумышленник мог успешно обучить модель GAN так, чтобы она выглядела «нормально», но при достижении определенных триггеров работала неправильно. Для решения этой задачи нам потребовалось разработать новые протоколы обучения модели GAN, учитывающие эти две особенности.

Мы рассмотрели три способа создания подобных атак. Во-первых, мы обучили модель GAN с нуля, изменив стандартный алгоритм обучения, используемый для создания моделей GAN. Таким образом мы обучили модель генерировать стандартный контент в обычных ситуациях и вредоносный контент в сценариях, известных лишь злоумышленнику.

Второй способ подразумевал использование существующей модели GAN и создание вредоносного клона, имитирующего поведение оригинала и создающего вредоносный контент при срабатывании триггеров, заданных злоумышленником.

Для третьего способа нам потребовалось увеличить количество нейронных сетей существующей модели GAN и обучить их преобразовывать благоприятный контент во вредоносный при обнаружении секретного триггера злоумышленника.

Исследование нескольких способов позволило нам изучить ряд атак. Мы рассмотрели атаки, зависящие от уровня доступа (методом белого/черного ящика) злоумышленника к определенной модели.

Каждый из этих трех типов атак на полноценные системы DGM оказался успешным. Это важное открытие, которое позволило обнаружить различные точки входа, через которые злоумышленник может навредить организации.

Стратегии защиты

Для защиты моделей DGM от новых типов атак мы предлагаем и анализируем несколько стратегий защиты. Глобально их можно разделить на две категории: стратегии, которые позволяют жертве «обнаруживать» такие атаки, и стратегии, которые наделяют жертву способностью нивелировать негативные воздействия таких атак путем «обеззараживания» атакованных моделей.

Стратегии защиты первой категории предполагают тщательное изучение компонентов потенциально скомпрометированной модели перед ее активацией и во время генерирования контента. Кроме того, для обнаружения атак могут использоваться методы различной степени автоматизации и глубины анализа, направленные на проверку выходных данных такой модели.

Вторая категория стратегий подразумевает использование методов отучения модели DGM от нежелательного поведения. Например, к таким методам могут относиться дополнительное обучение потенциально атакованной модели и ее принуждение к генерированию благоприятного контента для ряда входных данных или уменьшение размера модели и, соответственно, ее способности производить данные, выходящие за требуемый диапазон.

Мы планируем передать нашу технологию — инструменты тестирования и защиты моделей DGM от новых угроз — некоммерческой организации Linux Foundation в рамках библиотеки Adversarial Robustness Toolbox. Получить доступ к примеру нашего кода и демонстрации защиты GAN можно через GitHub.

Мы также планируем создать облачный сервис для разработчиков, который позволит проверять потенциально опасные модели до их внедрения в приложение или сервис.

Оригинальный материал на английском языке находится по ссылке.

IDC: мировые расходы на ИИ в период с 2021 по 2025 год покажут среднегодовой темп роста 24,5%
В новой версии Telegram стали доступны видеотрансляции без ограничений, настройки пересылки и быстрый переход между каналами