Исследование специалистов Amazon Web Services выявило серьезные пробелы в безопасности больших языковых моделей, которые понимают речь человека и реагируют на нее. В отчете подробно описано, как можно манипулировать голосовыми ассистентами, чтобы получить вредоносные или неэтичные ответы.
При помощи специального звукового сигнала, который неразличим для человеческого уха, специалисты смогли обойти встроенные системы безопасности и получать ответы ассистентов за рамками этики и морали. Так в 90% случаев попытки взлома удалось заставить голосовые модели рассказать про проявление насилия или разжигание ненависти.
Если задавать вопрос по заранее просчитанному промту и добавлять специальный звуковой сигнал, можно получать непредсказуемые ответы голосовых ассистентов.
Исследователи выяснили, что похожим способом можно взламывать другие речевые модели ИИ, которые бизнес использует в клиентской сфере. Но процент успешных взломов там падает до 10%, так как большинство коммерческих провайдеров дают ограниченный доступ к API.
Исследователи не только вскрыли проблему, но и предложили несколько вариантов ее решения. Часть из них реализуются на аппаратном уровне, а часть - на уровне ПО.
Интересно, как обстоят дела с безопасностью у российских голосовых ассистентов. Можно ли выспросить что-то запрещенное у Алисы или Маруси.