Demis Hassabis wyszedł na scenę I/O 2026 mówiąc o „world models” — modelach, które rozumieją świat, nie tylko tekst. Pięć minut później ogłosił Gemini Omni. Nazwa „Omni” wskazuje na ambicję: model multimodalny, którego docelowy stan to dowolne wejście, dowolne wyjście.
Czym jest Gemini Omni
Gemini Omni to seria multimodalnych modeli Google ogłoszona na I/O 2026 (19 maja 2026), pierwsza wersja debiutująca pod nazwą Gemini Omni Flash — przyjmująca jako wejście dowolny typ medium (tekst, obraz, audio, wideo) i generująca jako wyjście dowolny typ medium. Wstępna premiera skupiona na generowaniu i edycji wideo. Powiązana z nowymi produktami: Google Flow (wideo) i Google Flow Music (muzyka generowana z opisu sceny).
„Nano Banana moment” dla wideo
Google porównało moment debiutu Gemini Omni do tzw. „Nano Banana moment” — momentu, w którym dany typ generative AI staje się dostępny on-device w nieoczekiwanej jakości. Nano Banana to nazwa dla on-device image generation w Chrome, która zaskoczyła branżę latem 2025. Omni ma odegrać analogiczną rolę dla wideo: zaskoczyć skalą jakości w stosunku do dotychczasowych ograniczeń.
W praktyce Gemini Omni umożliwia:
– generowanie wideo z opisu tekstowego (analog Veo, ale wbudowany w Gemini app),
– edycję istniejącego wideo poleceniami tekstowymi,
– generowanie ścieżki audio (Google Flow Music) odpowiadającej scenie wideo,
– analiza wideo na stronie internetowej przez agenta AI (kluczowe dla Agentic Web).
Architektura: krok w stronę AGI
Hassabis przy ogłoszeniu Gemini Omni stwierdził, że artificial general intelligence jest „kilka lat” oddalona. Omni ma być krokiem w tym kierunku — modelem, który rozumie świat w sposób multimodalny zamiast w sposób tekstowy z dodatkami.
To pozycjonowanie nie jest neutralne. Modele multimodalne existowały od dawna (GPT-4 Vision, Claude 3, wcześniejsze Gemini). Co Omni proponuje nowego — to symetryczność: ten sam model przyjmuje każdy typ wejścia i generuje każdy typ wyjścia.
Co Gemini Omni zmienia dla Agentic Web
Wpis „Twoja strona ma od teraz pierwszego czytelnika” z 22 maja 2026 opisywał paradygmat, w którym model AI czyta tekst strony przed człowiekiem. Z Omni ten paradygmat się rozszerza:
Pierwszy Czytelnik dotychczas: model analizujący tekst strony. Audyt tylko tekstu, alt teksty obrazów, structured data.
Pierwszy Czytelnik z Omni: model analizujący tekst + obraz + wideo + audio strony. Audyt rozszerza się o transkrypcje wideo, opisy audio, structured data dla multimedia, multimodal alt teksty.
Implikacja: strony, które do tej pory polegały na wizualnej komunikacji (galerie zdjęć, embedy wideo, podcastowe outline’y), muszą teraz dostarczyć metadata dla modeli multimodalnych, jeśli chcą być rzetelnie zrozumiane.
Dostępność
Gemini Omni Flash dostępny od 21 maja 2026 dla subskrybentów Gemini app w planach Plus, Pro i Ultra. Pełna wersja Omni Pro planowana na drugą połowę 2026.