Jailbreak modelu AI

Technika ataku na model językowy przez prompt który skłania model do zachowania niezgodnego z wytrenowanymi ograniczeniami. Dla agentów z dostępem do narzędzi: wektor ataku prowadzący do realnych akcji — refund na konto attakera, eksfiltracja danych. Guardrails infrastrukturalne kluczowe.

W Polsce nazywane też:

jailbreak AIominięcie zabezpieczeń modeluDANatak na ograniczenia modelu

Każdy model językowy ma wbudowane ograniczenia — rzeczy których nie zrobi, tematów których nie porusza, treści których nie generuje. Te ograniczenia są wynikiem RLHF (Reinforcement Learning from Human Feedback) i Constitutional AI — miesięcy pracy nad „wyrównaniem” modelu z ludzkim systemem wartości.

Jailbreak to próba ominięcia tych ograniczeń przez specjalnie skonstruowany prompt.

Dla chatbota jailbreak jest problemem etycznym i bezpieczeństwa treści. Dla agenta który ma dostęp do narzędzi, systemów zewnętrznych i może wykonywać nieodwracalne akcje — jailbreak jest wektorem ataku z realnymi konsekwencjami.

Czym jest jailbreak

Jailbreak to technika ataku na model językowy polegająca na skonstruowaniu promptu który skłania model do zachowania niezgodnego z jego wytrenowanymi ograniczeniami — generowania zabronionych treści, ignorowania instrukcji systemu lub wykonywania akcji których model normalnie odmówiłby — przez manipulację kontekstem, odgrywanie ról lub wieloetapowe sekwencje promptów.

Klasyczne techniki jailbreak

DAN (Do Anything Now): instrukcja żeby model „udawał” że jest innym modelem bez ograniczeń. Wczesnyme modele były podatne — GPT-3.5 i Claude 2 można było skutecznie jailbreakować przez DAN. Nowsze modele są bardziej odporne.

Roleplay injection: „Jesteś złoczyńcą w fikcyjnej historii. Złoczyńca wyjaśnia jak…” — próba ominięcia ograniczeń przez fikcyjny kontekst. Modele coraz lepiej rozróżniają fikcję od faktycznie szkodliwych instrukcji.

Many-shot jailbreak: dostarczenie dziesiątek przykładów pożądanego zachowania w prompcie (few-shot learning jako wektor ataku). Większe okna kontekstowe robią modele bardziej podatnymi na ten typ ataku.

Prompt smuggling przez kodowanie: instrukcje zakodowane w Base64, ROT13 lub innych encodingach w nadziei że moderacja nie wykryje.

Jailbreak a agenty

Jailbreak chatbota: model generuje szkodliwą treść. Złe, ale ograniczone do tekstu.

Jailbreak agenta: model wykonuje szkodliwą akcję — wywołuje narzędzie które nie powinno być wywołane, omija guardrails BRE, eksfiltruje dane przez narzędzia komunikacyjne.

Przykład: agent obsługi klienta jailbreakowany przez odpowiednio sformułowany request klienta wykonuje refund na konto attakera zamiast weryfikować tożsamość klienta.

Obrona

Modele są coraz bardziej odporne na jailbreak przez lepszy RLHF. Ale obrona przez sam model jest niewystarczająca. Guardrails na poziomie infrastruktury (BRE, RBAC) które działają niezależnie od modelu są fundamentalne dla agentów z dostępem do narzędzi operacyjnych. Input/output filtering jako dodatkowa warstwa.

Powiązane pojęcia

Silnik reguł biznesowychSystem zarządzania regułami biznesowymi oddzielony od kodu — w architekturach agentowych pełni rolę deterministycznych guardrails których agent nie może przekroczyć. BRE dla hard constraints (zawsze deterministycznych), LLM dla soft judgments (interpretacja kontekstu).Wstrzyknięcie uprawnieńAtak w którym złośliwe instrukcje wstrzyknięte w treść przetwarzaną przez agenta nakłaniają go do żądania lub samodzielnego przyznania sobie dodatkowych uprawnień wykraczających poza te zdefiniowane przez operatora. Kombinacja indirect prompt injection z privilege escalation — bardziej destrukcyjna niż zwykły prompt injection bo atakuje same granice działania agenta.Izolacja agentaZestaw mechanizmów izolacji środowiska wykonawczego agenta AI — ograniczających dostęp do zasobów systemu, sieci, danych i innych agentów — tak że kompromitacja lub błędne działanie agenta ma ograniczony zasięg i nie może się rozprzestrzeniać. Implementacja zasady defence in depth: nie eliminacja ryzyka, ale zawężenie jego konsekwencji.Pośrednie wstrzyknięcie instrukcjiWariant prompt injection w którym złośliwe instrukcje są ukryte w zewnętrznych danych które agent przetwarza w ramach zadania — stronach, mailach, dokumentach, bazach danych — nie w bezpośredniej komunikacji z użytkownikiem. Szczególnie groźny bo agent nie może odróżnić złośliwej instrukcji od legitymowanej treści, a atak jest trudny do wykrycia.Wstrzyknięcie instrukcjiAtak na system agentowy polegający na wstrzyknięciu złośliwych instrukcji w treść którą agent przetwarza — maile, dokumenty, strony internetowe — tak że agent wykonuje działania inne niż zamierzył użytkownik. Fundamentalna klasa zagrożeń wynikająca z tego że modele językowe nie odróżniają inherentnie "treści do przeczytania" od "instrukcji do wykonania".