Model językowy poproszony bezpośrednio o odpowiedź na złożone pytanie — generuje ją jednym przebiegiem. Jak student który pisze odpowiedź nie sprawdzając swojego rozumowania. Rezultat może być poprawny, może zawierać subtelne błędy logiczne.
Chain-of-thought (CoT) to technika która każe modelowi „myśleć na głos” — generować kroki pośrednie zanim poda ostateczną odpowiedź. Jak student który pokazuje obliczenia. Wynik jest lepszy, a błędy są widoczne.
Czym jest chain-of-thought
Chain-of-thought (łańcuch myślenia) to technika promptowania modeli AI w której model jest zachęcany do generowania explicite kroków wnioskowania przed podaniem ostatecznej odpowiedzi — znacząco poprawiająca jakość odpowiedzi na zadania wymagające wieloetapowego rozumowania, matematyki, logiki i planowania.
Zero-shot CoT
Najprostsza forma: dodanie „Let’s think step by step” lub „Myślmy krok po kroku” do promptu. Model generuje łańcuch rozumowania przed odpowiedzią. Szokująco skuteczne dla zadań matematycznych i logicznych bez żadnych przykładów.
Few-shot CoT
Bardziej zaawansowana forma: dostarcz przykłady pytanie + łańcuch rozumowania + odpowiedź w prompcie. Model uczy się wzorca na przykładach i stosuje go do nowego pytania.
CoT w agentach
ReAct (Reasoning + Acting) to CoT zintegrowany z agent loop. Agent przed każdą akcją generuje explicite reasoning: „Użytkownik pyta o dostępność produktu. Sprawdzam w magazynie. [tool call] Magazyn zwrócił: dostępne 5 sztuk. Odpowiadam użytkownikowi.”
Ten explicite thought process ma trzy zalety w kontekście agentów: łatwiejszy debugging (widzisz skąd pochodzi decyzja), lepsze narzędziowe wywołania (model „przemyśla” co wywołać zanim to zrobi), możliwość implementacji scratchpad — agent może „zapisywać” myśli między krokami.
Extended thinking
Anthropic Claude 3.7+ i podobne modele mają wbudowane extended thinking — model generuje długi wewnętrzny łańcuch myślenia przed odpowiedzią, niewidoczny dla użytkownika (lub opcjonalnie widoczny). To jest systemowa implementacja CoT na poziomie modelu, nie techniki promptowania.
Kiedy CoT ma wartość
CoT zwiększa tokeny i latencję — dla prostych pytań jest zbędny. Wartość pojawia się przy: zadaniach wieloetapowych (planowanie, analiza), problemach wymagających sprawdzenia (matematyka, logika), zadaniach gdzie „po co” jest ważne (decyzje z uzasadnieniem), agentach gdzie transparency procesu decyzyjnego ma wartość dla operatora.