Uczenie ze wzmocnieniem z ludzkiego feedbacku

Technika trenowania modeli AI przez uczenie się z ocen ludzkich testerów — model generuje, ludzie rankują, system nagradza za preferowane odpowiedzi. Fundament "grzeczności" modeli, odmawiania szkodliwych treści i helpful behavior. Sycophancy jako znane ograniczenie.

W Polsce nazywane też:

RLHFuczenie z feedbacku człowiekaalignment modelureward learning

Jak uczysz model językowy żeby był pomocny, nieszkodliwy i szczery? Wczesnyne modele generowały wszystko — pomocne odpowiedzi i szkodliwe treści z taką samą chęcią. Żaden prompt nie był „za zły”. Żadna prośba nie była odrzucana.

Rozwiązanie nie polegało na tworzeniu list zakazanych słów ani na regułach. Polegało na nauczeniu modelu czego ludzie faktycznie chcą — i czego nie chcą — przez feedcbak.

RLHF jest technologicznym fundamentem dlaczego nowoczesne modele są „grzeczne”, odmawiają szkodliwych treści i starają się być pomocne.

Czym jest RLHF

RLHF (Reinforcement Learning from Human Feedback) to technika trenowania modeli AI przez uczenie się z ocen ludzkich testerów — model generuje odpowiedzi, ludzie je oceniają i rankują, system nagradza model za odpowiedzi które ludzie preferują i karze za te które odrzucają — wyrównując zachowanie modelu z ludzkim systemem wartości i preferencjami.

Trzy etapy RLHF

1. Supervised fine-tuning (SFT): model jest wstępnie trenowany na demonstracjach pożądanego zachowania — przykładach dobrej odpowiedzi przygotowanych przez ludzkich testerów. Model uczy się podstawowego stylu i formatu.

2. Reward model training: testerzy rankują odpowiedzi modelu (która z dwóch jest lepsza?). Na podstawie tych rankingów trenowany jest osobny „reward model” — sieć neuronowa która przewiduje czy odpowiedź jest dobra.

3. PPO optimization: model językowy jest optymalizowany przez Proximal Policy Optimization (algorytm RL) pod kątem wysokich nagród od reward model. Model uczy się generować odpowiedzi które reward model oceni wysoko.

RLHF a Constitutional AI

Anthropic opracowało Constitutional AI jako alternatywę dla czystego RLHF. Zamiast tylko ludzkich ocen — model jest trenowany zgodnie z zestawem zasad (Constitution). Zaleta: bardziej spójne i przewidywalne zachowanie, mniejsza zależność od biasów ludzkich testerów, możliwość explicite komunikowania zasad.

Claude używa Constitutional AI. GPT i Gemini używają wariantów RLHF. Oba podejścia mają na celu alignment — zgodność modelu z ludzkimi wartościami.

Ograniczenia RLHF

Sycophancy: model optymalizowany pod ludzką aprobatę może stać się nadmiernie zgodny — mówi to co użytkownik chce słyszeć zamiast to co prawdziwe. Popularne wyobrażenie że model „zawsze zgadza się z użytkownikiem” jest efektem zbyt agresywnego RLHF.

Reward hacking: model może nauczyć się „hacków” które dają wysoką nagrodę od reward model bez faktycznego poprawiania jakości odpowiedzi — długie odpowiedzi które wyglądają wyczerpująco ale nie są, nadmierne używanie pogrubień i list.

Powiązane pojęcia

ClaudeRodzina modeli językowych Anthropic — Haiku, Sonnet, Opus — projektowana z priorytetem bezpieczeństwa przez Constitutional AI. Wyróżniki: 200K tokenów okno kontekstu, natywna obsługa MCP, extended thinking w Claude 3.7+. Fundament słownika Webflux.Dostrajanie modeluDostosowanie pretrenowanego modelu językowego do specyficznej domeny przez dodatkowe trenowanie — modyfikuje jak model się zachowuje (styl, format, terminologia). Fine-tuning = jak model odpowiada. RAG = co model wie. Dla większości enterprise: zacznij od RAG + prompt engineering.Model bazowyDuży model AI trenowany na ogromnych zbiorach danych służący jako fundament dla szerokiego zakresu zastosowań — przez fine-tuning lub prompting. GPT-4o, Claude, Gemini, Llama to foundation models. AI Act definiuje je jako GPAI z konkretnymi obowiązkami dla dostawców.Jailbreak modelu AITechnika ataku na model językowy przez prompt który skłania model do zachowania niezgodnego z wytrenowanymi ograniczeniami. Dla agentów z dostępem do narzędzi: wektor ataku prowadzący do realnych akcji — refund na konto attakera, eksfiltracja danych. Guardrails infrastrukturalne kluczowe.Hierarchia pryncypałówHierarchia podmiotów autoryzowanych do wydawania poleceń agentowi AI — producent modelu (najwyższy autorytet), operator (kontekst wdrożenia), użytkownik (polecenia w ramach kontekstu) — definiująca jak agent rozstrzyga konflikty między poleceniami z różnych poziomów.