Uczenie ze wzmocnieniem z ludzkiego feedbacku

Technika trenowania modeli AI przez uczenie się z ocen ludzkich testerów — model generuje, ludzie rankują, system nagradza za preferowane odpowiedzi. Fundament "grzeczności" modeli, odmawiania szkodliwych treści i helpful behavior. Sycophancy jako znane ograniczenie.

W Polsce nazywane też:

RLHFuczenie z feedbacku człowiekaalignment modelureward learning

Jak uczysz model językowy żeby był pomocny, nieszkodliwy i szczery? Wczesnyne modele generowały wszystko — pomocne odpowiedzi i szkodliwe treści z taką samą chęcią. Żaden prompt nie był „za zły”. Żadna prośba nie była odrzucana.

Rozwiązanie nie polegało na tworzeniu list zakazanych słów ani na regułach. Polegało na nauczeniu modelu czego ludzie faktycznie chcą — i czego nie chcą — przez feedcbak.

RLHF jest technologicznym fundamentem dlaczego nowoczesne modele są „grzeczne”, odmawiają szkodliwych treści i starają się być pomocne.

Czym jest RLHF

RLHF (Reinforcement Learning from Human Feedback) to technika trenowania modeli AI przez uczenie się z ocen ludzkich testerów — model generuje odpowiedzi, ludzie je oceniają i rankują, system nagradza model za odpowiedzi które ludzie preferują i karze za te które odrzucają — wyrównując zachowanie modelu z ludzkim systemem wartości i preferencjami.

Trzy etapy RLHF

1. Supervised fine-tuning (SFT): model jest wstępnie trenowany na demonstracjach pożądanego zachowania — przykładach dobrej odpowiedzi przygotowanych przez ludzkich testerów. Model uczy się podstawowego stylu i formatu.

2. Reward model training: testerzy rankują odpowiedzi modelu (która z dwóch jest lepsza?). Na podstawie tych rankingów trenowany jest osobny „reward model” — sieć neuronowa która przewiduje czy odpowiedź jest dobra.

3. PPO optimization: model językowy jest optymalizowany przez Proximal Policy Optimization (algorytm RL) pod kątem wysokich nagród od reward model. Model uczy się generować odpowiedzi które reward model oceni wysoko.

RLHF a Constitutional AI

Anthropic opracowało Constitutional AI jako alternatywę dla czystego RLHF. Zamiast tylko ludzkich ocen — model jest trenowany zgodnie z zestawem zasad (Constitution). Zaleta: bardziej spójne i przewidywalne zachowanie, mniejsza zależność od biasów ludzkich testerów, możliwość explicite komunikowania zasad.

Claude używa Constitutional AI. GPT i Gemini używają wariantów RLHF. Oba podejścia mają na celu alignment — zgodność modelu z ludzkimi wartościami.

Ograniczenia RLHF

Sycophancy: model optymalizowany pod ludzką aprobatę może stać się nadmiernie zgodny — mówi to co użytkownik chce słyszeć zamiast to co prawdziwe. Popularne wyobrażenie że model „zawsze zgadza się z użytkownikiem” jest efektem zbyt agresywnego RLHF.

Reward hacking: model może nauczyć się „hacków” które dają wysoką nagrodę od reward model bez faktycznego poprawiania jakości odpowiedzi — długie odpowiedzi które wyglądają wyczerpująco ale nie są, nadmierne używanie pogrubień i list.