Ludzie komunikują się przez wiele kanałów jednocześnie — widzą, słyszą, czytają, mówią. Pierwsza fala modeli AI była jednomodalna — tylko tekst. GPT-2, GPT-3, wczesny Claude — rozumiały i generowały wyłącznie tekst.
Multimodal AI to przełom który sprawił że modele zaczęły rozumieć świat bardziej podobnie do człowieka — przez wiele zmysłów jednocześnie. I to otworzyło całą klasę zastosowań agentowych które były niemożliwe przy modelach tekstowych.
Czym jest multimodal AI
Multimodal AI to model lub system AI który przetwarza i generuje wiele typów danych jednocześnie — tekst, obraz, audio, wideo, kod — przez jedną zintegrowaną architekturę, w przeciwieństwie do pipeline kilku specjalizowanych modeli. GPT-4o, Gemini Ultra, Claude 3 Sonnet i wyższe są multimodalnymi modelami.
Modality — co oznacza każda
Tekst: bazowa modality. Każdy duży model jest co najmniej tekstowy.
Obraz (vision): model „widzi” obrazy i zdjęcia. Zastosowania: analiza dokumentów (faktury, formularze), quality control (zdjęcia produktów z kamery), medical imaging (zdjęcia rentgenowskie), scene understanding (co jest na zdjęciu).
Audio: model rozumie mowę i generuje mowę. Zastosowania: voice interface (rozmawiasz z agentem głosem), transkrypcja (spotkania, wywiady), analiza tonu (call center sentiment analysis).
Wideo: model analizuje sekwencje klatek. Zaawansowane i kosztowne — głównie w badaniach i specjalistycznych zastosowaniach (surveillance, sport analytics).
Kod: wielu modeli ma specjalizowane zdolności rozumienia i generowania kodu. GPT-4o i Claude są szczególnie silne w kodowaniu.
Multimodal w agentach operacyjnych
Computer use i browser use opierają się na multimodalności — agent „widzi” screenshot ekranu przez vision capability modelu. Bez multimodalnego modelu computer use jest niemożliwy.
Agent quality control w manufakturing: kamera przemysłowa → obraz → multimodalny agent → decyzja „wadliwy/OK” → akcja. Cały pipeline bez człowieka.
Document processing: faktura jako skan → multimodalny model wyciąga pola → structured data do ERP. Lepsze niż OCR+NLP pipeline bo model rozumie kontekst wizualny dokumentu.
Koszt multimodalności
Przetwarzanie obrazów kosztuje znacząco więcej tokenów niż tekst — obraz jest „tokenizowany” do setek lub tysięcy visual tokens. Koszt analizy jednego zdjęcia przez GPT-4o to wielokrotność kosztu analizy tego co na zdjęciu opisano tekstem. Gdy możesz zastąpić obraz opisem — zazwyczaj warto.