ArtPrompt: джейлбрейк, який дозволяє обходити фільтри AI за допомогою зображень ASCII

ArtPrompt

Метод ArtPrompt

L прогрес у розвитку штучного інтелекту зростає y вимагає більше рівнів безпеки щоб запобігти зловживанню цими інструментами, які стали палкою з двома кінцями, зловмисниками.

І в розробці LLM, які використовуються в широкому діапазоні додатків, безпека більше не є необов’язковою, оскільки в багатьох випадках ми бачили, що таке її неправильне використання.

Навіть із застосуванням усіх цих методів, проблеми продовжують виникати які знаходяться в навчальних даних, які на перший погляд не є чимось незвичайним або небезпечним, якщо не враховувати інші можливі інтерпретації даних.

Причиною згадки про це є те, що нещодавно З'явилася інформація про нову атаку під назвою "ArtPrompt", який Скористайтеся перевагами обмежень ШІ у розпізнаванні зображень ASCII щоб обійти заходи безпеки та викликати небажану поведінку в моделях.

Ця атака була виявили дослідники з університетів Вашингтона, Іллінойсу та Чикаго, і вони згадують, що «ArtPrompt» — це метод обходу обмежень для чат-ботів зі штучним інтелектом, таких як GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) і Llama2 (Meta).

Цей спосіб атаки виконується в два кроки і як такий використовує переваги успішного розпізнавання тексту у форматі ASCII. Перший крок складається з визначення слів у підказці, які можуть викликати відхилення щоб уникнути фільтрів, які виявляють небезпечні запитання, а в другому ці слова прикриваються за допомогою мистецтва ASCII щоб створити замасковану підказку, таким чином вдаючись до виклику шкідливих реакцій у моделі.

Ефективність ArtPrompt оцінювали на п'яти чат-ботах, демонструючи свою здатність обходити існуючий захист і перевершувати інші типи атак джейлбрейка. Щоб оцінити здатність чат-ботів розпізнавати запити в художній формі ASCII, «Vision-in-Text Challenge (VITC)» пропонується як тест.

Це завдання має на меті перевірити здатність моделей інтерпретувати та відповідати на запити, які використовують зображення ASCII, показуючи, що LLM мають труднощі з розумінням запитів, які представляють одну літеру чи цифру з зображенням ASCII. Точність моделей значно знижується, оскільки запити містять більше символів, виявляючи вразливість у здатності LLM обробляти візуальну інформацію, закодовану таким чином. Крім того, розглядаються інші атаки та засоби захисту від джейлбрейка в LLM.

Згадується, що ArtPrompt помітно ефективніше інших відомих методів оскільки він досяг найвищої якості розпізнавання графіки ASCII на таких моделях, як Gemini, GPT-4 і GPT-3.5, з успішним рівнем обходу фільтра 100%, 98% і 92% відповідно під час тестування. Що стосується успішності атаки, то було зафіксовано 76%, 32% і 76%, а небезпека отриманих відповідей була оцінена в 4,42, 3,38 і 4,56 бала за п'ятибальною шкалою відповідно.

ArtPrompt виділяється серед інших атак джейлбрейку створенням шкідливих інструкцій, оскільки вони вимагають великої кількості ітерацій, тоді як ArtPrompt досягає найвищого ASR серед
усі атаки джейлбрейка за одну ітерацію. Причина в тому, що ArtPrompt може ефективно створювати набір прихованих підказок і надсилати їх до моделі паралельно.

Крім того, дослідники продемонстрували, що звичайні методи обходу фільтрів використовуються зараз (Перифразування та повторна токенізація) не ефективні для блокування цього типу атак під назвою «ArtPrompt». Цікаво, що використання методу Retokenization навіть збільшило кількість успішно оброблених запитів, підкреслюючи необхідність розробки нових стратегій боротьби з такими типами загроз під час взаємодії з чат-ботами.

ArtPrompt виділяється своєю здатністю обходити існуючі засоби захисту і дослідники зазначають, що він і надалі буде ефективним для атаки на мультимодальні мовні моделі, доки моделі продовжуватимуть приймати зображення як вхідні дані, заплутуючи модель і дозволяючи ArtPrompt спонукати до небезпечної поведінки.

В кінці кінців Якщо вам цікаво дізнатись більше про це, Ви можете перевірити деталі в наступне посилання.