Maj 2024. OpenAI pokazuje GPT-4o — nie przez konferencję, ale przez livestream w którym model rozmawia z człowiekiem z naturalną intonacją, śmieje się, wyraża emocje, reaguje na mimikę przez kamerę. „o” to „omni” — model który jednocześnie rozumie tekst, obraz, audio i generuje te modality nativnie, nie przez osobne systemy.
Dla branży AI: GPT-4o był demonstracją że multimodalność nie jest dodatkiem do modelu językowego — jest jego fundamentem.
Czym jest GPT-4o
GPT-4o (GPT-4 „omni”) to flagowy model OpenAI ogłoszony w maju 2024 — multimodalny system AI który natywnie przetwarza i generuje tekst, obraz i audio w jednym modelu — z wydajnością GPT-4 Turbo przy 2x niższych kosztach i 2x wyższej szybkości, stanowiący fundament ChatGPT i OpenAI API dla agentów i aplikacji AI.
Czemu „omni” ma znaczenie
Wcześniejsze modele multimodalne były faktycznie kilkoma modelami spiętymi razem — model wizji analizował obraz i przekazywał opis do modelu językowego. GPT-4o ma jedną sieć neuronową która rozumie wszystkie modality jednocześnie. Efekt: lepsza integracja kontekstu (model „widzi” obraz i „czyta” tekst razem, nie sekwencyjnie), niższa latencja (jeden model zamiast pipeline kilku), i bardziej naturalne interakcje głosowe (native audio zamiast TTS na tekstowej odpowiedzi).
GPT-4o w ekosystemie agentowym
GPT-4o jest domyślnym modelem ChatGPT i podstawowym modelem dla OpenAI API. Dla agentów: obsługuje narzędzia (tool use), function calling, web search, code interpreter i Assistants API. OpenAI Operator — agent przeglądarkowy — działa na bazie GPT-4o.
Aktualizacje co kilka miesięcy: GPT-4o-mini (tańsza, szybsza wersja dla prostych zadań), GPT-4o z rozszerzonym oknem kontekstu, wersje z lepszą obsługą konkretnych języków. Śledzenie która wersja jest „current” przez docs.openai.com.
GPT-4o vs GPT-4o mini vs o1 vs o3
GPT-4o: balans jakość/szybkość/cena, domyślny wybór dla większości zastosowań.
GPT-4o mini: 8x tańszy, szybszy, dla prostych zadań (klasyfikacja, ekstrakcja, krótkie odpowiedzi).
o1/o3: reasoning models — wolniejsze, droższe, ale znacząco lepsze dla złożonych zadań matematycznych i logicznych.
Dla budowniczych agentów: routing między tymi modelami (prosty request → mini, złożony → o1) jest kluczową optymalizacją kosztową i jakościową.