Prompt systemowy

Instrukcja bazowa przekazywana do modelu przed rozmową — definiująca tożsamość agenta, zakres, styl i ograniczenia — niewidoczna dla użytkownika, determinująca zachowanie we wszystkich interakcjach. Warstwa operatora w principal hierarchy.

W Polsce nazywane też:

prompt systemowyinstrukcja systemowakonfiguracja agentasystem instruction

Każdy model językowy można zapytać o cokolwiek. Ale agent obsługi klienta sklepu X nie może być gotowy odpowiadać na wszystko — musi mieć zakres, rolę, ograniczenia. System prompt jest tym co transformuje ogólny model w wyspecjalizowanego agenta.

Czym jest system prompt

System prompt to instrukcja bazowa przekazywana do modelu językowego przed rozmową z użytkownikiem — definiująca tożsamość agenta, zakres kompetencji, styl komunikacji, ograniczenia i zasady działania — niewidoczna dla użytkownika, ale determinująca zachowanie agenta we wszystkich interakcjach. Operator agenta kontroluje system prompt, użytkownik go nie widzi ani nie może bezpośrednio modyfikować.

System prompt w principal hierarchy

System prompt jest warstwą operatora w principal hierarchy. Ma wyższy priorytet niż wiadomości użytkownika — ale niższy niż fundamentalne zasady modelu (Constitutional AI, RLHF). Gdy użytkownik próbuje nakłonić agenta do działań sprzecznych z system promptem — poprawnie zaprojektowany agent odmawia.

Co dobry system prompt zawiera

Rola i tożsamość: „Jesteś asystentem obsługi klienta firmy X, specjalizującym się w pomocy z zamówieniami i produktami.”

Zakres i ograniczenia: „Odpowiadasz tylko na pytania związane z zamówieniami i produktami X. Dla innych tematów grzecznie informujesz że to poza twoim zakresem.”

Ton i styl: „Komunikujesz się po polsku, profesjonalnie ale przyjaźnie. Używasz 'Pani/Pan’ przy pierwszym kontakcie.”

Procedury: „Przy reklamacji zawsze pytaj o numer zamówienia i datę zakupu przed udzieleniem odpowiedzi.”

Eskalacja: „Jeśli nie możesz rozwiązać problemu po dwóch próbach, proponuj połączenie z konsultantem ludzkim.”

Confidentiality system promptu

System prompt jest często poufny — operator nie chce żeby użytkownik wiedział dokładnie jak agent jest skonfigurowany (competitive advantage, security through obscurity). Agent powinien odmawiać ujawnienia pełnego systemu promptu gdy pytany. Ale nie powinien kłamać że nie ma system promptu — to naruszałoby zasadę transparentności wobec użytkownika.

Prompt leakage jako ryzyko

Agenty bez explicite instrukcji dotyczących poufności mogą „wylać” system prompt gdy odpowiednio zapytane. To jest jedna z form credential/information leakage specyficzna dla agentów. System prompt który zawiera poufne informacje (klucze API, wewnętrzne procedury) jest szczególnie ryzykowny jeśli może być wyciągnięty przez sprytnie sformułowane pytania.

Hierarchia pryncypałówHierarchia podmiotów autoryzowanych do wydawania poleceń agentowi AI — producent modelu (najwyższy autorytet), operator (kontekst wdrożenia), użytkownik (polecenia w ramach kontekstu) — definiująca jak agent rozstrzyga konflikty między poleceniami z różnych poziomów.Inżynieria promptów dla agentówPraktyka projektowania instrukcji dla agentów AI — system promptu, przykładów i strategii wnioskowania — tak żeby agent działał zgodnie z intencją przez wiele kroków autonomicznych działań, obsługiwał edge cases i wiedział kiedy eskalować. Trzy warstwy: tożsamość, granice, format.Wstrzyknięcie uprawnieńAtak w którym złośliwe instrukcje wstrzyknięte w treść przetwarzaną przez agenta nakłaniają go do żądania lub samodzielnego przyznania sobie dodatkowych uprawnień wykraczających poza te zdefiniowane przez operatora. Kombinacja indirect prompt injection z privilege escalation — bardziej destrukcyjna niż zwykły prompt injection bo atakuje same granice działania agenta.Wyciek poświadczeńNieautoryzowane ujawnienie poświadczeń uwierzytelniających — kluczy API, tokenów, haseł — przez agenta AI: przez złośliwy atak nakłaniający agenta do ich ujawnienia, błąd konfiguracji który przechowuje credentials niezabezpieczenie, lub włączenie ich do odpowiedzi przez nieuwagę. Moltbook case study: 1,5 miliona API keys w plaintext w bazie danych.Pośrednie wstrzyknięcie instrukcjiWariant prompt injection w którym złośliwe instrukcje są ukryte w zewnętrznych danych które agent przetwarza w ramach zadania — stronach, mailach, dokumentach, bazach danych — nie w bezpośredniej komunikacji z użytkownikiem. Szczególnie groźny bo agent nie może odróżnić złośliwej instrukcji od legitymowanej treści, a atak jest trudny do wykrycia.