Każdy model językowy można zapytać o cokolwiek. Ale agent obsługi klienta sklepu X nie może być gotowy odpowiadać na wszystko — musi mieć zakres, rolę, ograniczenia. System prompt jest tym co transformuje ogólny model w wyspecjalizowanego agenta.
Czym jest system prompt
System prompt to instrukcja bazowa przekazywana do modelu językowego przed rozmową z użytkownikiem — definiująca tożsamość agenta, zakres kompetencji, styl komunikacji, ograniczenia i zasady działania — niewidoczna dla użytkownika, ale determinująca zachowanie agenta we wszystkich interakcjach. Operator agenta kontroluje system prompt, użytkownik go nie widzi ani nie może bezpośrednio modyfikować.
System prompt w principal hierarchy
System prompt jest warstwą operatora w principal hierarchy. Ma wyższy priorytet niż wiadomości użytkownika — ale niższy niż fundamentalne zasady modelu (Constitutional AI, RLHF). Gdy użytkownik próbuje nakłonić agenta do działań sprzecznych z system promptem — poprawnie zaprojektowany agent odmawia.
Co dobry system prompt zawiera
Rola i tożsamość: „Jesteś asystentem obsługi klienta firmy X, specjalizującym się w pomocy z zamówieniami i produktami.”
Zakres i ograniczenia: „Odpowiadasz tylko na pytania związane z zamówieniami i produktami X. Dla innych tematów grzecznie informujesz że to poza twoim zakresem.”
Ton i styl: „Komunikujesz się po polsku, profesjonalnie ale przyjaźnie. Używasz 'Pani/Pan’ przy pierwszym kontakcie.”
Procedury: „Przy reklamacji zawsze pytaj o numer zamówienia i datę zakupu przed udzieleniem odpowiedzi.”
Eskalacja: „Jeśli nie możesz rozwiązać problemu po dwóch próbach, proponuj połączenie z konsultantem ludzkim.”
Confidentiality system promptu
System prompt jest często poufny — operator nie chce żeby użytkownik wiedział dokładnie jak agent jest skonfigurowany (competitive advantage, security through obscurity). Agent powinien odmawiać ujawnienia pełnego systemu promptu gdy pytany. Ale nie powinien kłamać że nie ma system promptu — to naruszałoby zasadę transparentności wobec użytkownika.
Prompt leakage jako ryzyko
Agenty bez explicite instrukcji dotyczących poufności mogą „wylać” system prompt gdy odpowiednio zapytane. To jest jedna z form credential/information leakage specyficzna dla agentów. System prompt który zawiera poufne informacje (klucze API, wewnętrzne procedury) jest szczególnie ryzykowny jeśli może być wyciągnięty przez sprytnie sformułowane pytania.