Computer Use

Paradygmat działania agentów AI przez vision (screenshot) i symulację działań użytkownika (kliki, wpisywanie) zamiast API/DOM parsing. Wprowadzony przez Anthropic w Claude 3.5 Sonnet (X.2024). Działa na każdej stronie, ale jest wolniejszy, droższy i bardziej błędogenny niż API. Fundament Agent-in-Browser dla stron które nie są agent-ready.

W Polsce nazywane też:

Computer Useagent z visionsterowanie ekranem przez AIagentowe klikanie

Październik 2024. Anthropic wypuszcza Computer Use API w Claude 3.5 Sonnet. Pierwsza w branży udokumentowana funkcja, w której agent AI dosłownie „widzi” ekran komputera przez screenshot, decyduje gdzie kliknąć i wykonuje akcje przez kontrolę kursora. To była zmiana paradygmatu — agent przestał potrzebować API do działania na stronie, wystarczy że strona jest widoczna na ekranie.

Czym jest Computer Use

Computer Use to paradygmat działania agentów AI w którym agent operuje na aplikacji (przeglądarce, systemie operacyjnym, dowolnym oprogramowaniu) przez vision (analiza screenshotu interfejsu) i symulację działań użytkownika (kliki, wpisywanie z klawiatury) — zamiast przez API czy DOM parsing — wprowadzony jako standardowa funkcja w modelach Claude (Anthropic), GPT (OpenAI Atlas, Copilot Studio) i Gemini, fundamentalny dla działania większości Agent-in-Browser w sytuacjach gdzie strona nie jest agent-ready.

Jak działa

1. Agent dostaje zadanie do wykonania („zarezerwuj wizytę u dentysty”).
2. Agent robi screenshot bieżącej strony.
3. Model multimodalny analizuje screenshot: identyfikuje elementy UI, czyta tekst, lokalizuje przyciski.
4. Agent decyduje o następnej akcji („kliknij w przycisk 'Umów wizytę’ w prawym górnym rogu”).
5. Agent symuluje kliknięcie przez wysłanie koordynatów do systemu operacyjnego.
6. Strona reaguje, agent robi kolejny screenshot.
7. Pętla trwa do zakończenia zadania.

Zalety vs. tradycyjne API/DOM

Computer Use działa na każdej stronie. Strona nie musi mieć API, nie musi mieć agent-ready DOM, nie musi mieć schema.org. Może być dowolnie zbudowana — jeśli człowiek może to obsłużyć, Computer Use też może.

To rozwiązuje problem agent-readiness na stronach które jej nie mają. Dla agenta to znaczy: „nawet jeśli strona jest źle zbudowana, mogę działać przez vision”.

Wady Computer Use

Wolność: każda akcja wymaga screenshotu, analizy multimodalnej, decyzji, akcji. Sekwencja działań trwa razy 5-10x dłużej niż przez API.

Koszt: każdy screenshot to multimodalny token w prompcie. Tokeny visual są wielokrotnie droższe niż tekstowe. Computer Use dla złożonego zadania może kosztować dziesiątki centów.

Błędogenność: model może źle zinterpretować elementy UI, kliknąć obok, źle odczytać wartość pola. Skuteczność jest istotnie niższa niż przez API.

CAPTCHA: nadal blokuje Computer Use równie skutecznie jak DOM parsing.

Status w 2026

Computer Use stał się standardem w Atlas, Claude in Chrome, Comet, większości Agent-in-Browser. Bez Computer Use agent nie potrafiłby działać na większości stron internetu — bo większość stron nie jest agent-ready.

To paradoks: agent-readiness powinien zmniejszyć potrzebę Computer Use. Im więcej stron agent-ready, tym mniej Computer Use. Ale dopóki większość stron nie jest agent-ready, Computer Use pozostaje koniecznością.

Implikacje dla autora strony

Computer Use działa na twojej stronie bez twojej zgody i bez twojej wiedzy. Z perspektywy serwera Computer Use wygląda jak normalny ruch człowieka — żadnego specjalnego User-Agent, żadnej deklaracji „jestem agentem”.

To znaczy że niezależnie od twoich polityk wobec agentów AI, Computer Use będzie aktywny na twojej stronie wtedy gdy użytkownik użyje agentowej przeglądarki.

Świadomy autor strony może wybrać: optymalizować strone tak żeby Computer Use działał lepiej (czytelne layout, jasne ikony, accessible UI — i tak korzysta to człowieka), lub zostawić stan obecny.

Strona agent-ready obniża koszty agenta dla użytkownika (mniej Computer Use → mniej tokenów → szybciej, taniej). To jest forma value-add dla użytkowników korzystających z agentowych przeglądarek.

Powiązane pojęcia

Agent w PrzeglądarceParadygmat w którym agent AI jest świadomie wywoływanym gościem przeglądarki — uruchamianym przez użytkownika z konkretnym zadaniem, działającym sesyjnie. Wcielenia: Atlas (OpenAI), Claude in Chrome, Brave Leo. Przeciwwaga dla Browser-as-Agent.Atlas (OpenAI)Natywna przeglądarka OpenAI z agentem opartym na rodzinie GPT jako głównym interfejsem — użytkownik wyraża intencję, agent wykonuje sekwencję działań autonomicznie. Najbardziej radykalne wcielenie Agent-in-Browser w 2026. Wydana październik 2025, adopcja masowa poniżej oczekiwań, ale punkt referencyjny dla całej kategorii.Claude w ChromeRozszerzenie Chrome od Anthropic wykorzystujące Claude do sterowania przeglądarką w imieniu użytkownika — otwieranie stron, klikanie, wypełnianie formularzy, ekstrakcja danych. Niższy próg adopcji niż Atlas (zostajesz w Chrome). Eksperyment WebFlux pokazał 40-60% lepszą skuteczność na stronach agent-ready.Comet (Perplexity)Natywna przeglądarka Perplexity z agentem AI jako interfejsem — pasek adresu działa równocześnie jako pasek zapytań do generatywnej wyszukiwarki, agent może autonomicznie nawigować na stronach. Sprawa PerplexityBot z 2025 (obchodzenie robots.txt) stała się katalizatorem prac nad Web Bot Auth i pay-per-crawl jako branżowymi standardami.ClaudeRodzina modeli językowych Anthropic — Haiku, Sonnet, Opus — projektowana z priorytetem bezpieczeństwa przez Constitutional AI. Wyróżniki: 200K tokenów okno kontekstu, natywna obsługa MCP, extended thinking w Claude 3.7+. Fundament słownika Webflux.Multimodalna AIModel AI przetwarzający i generujący wiele typów danych jednocześnie — tekst, obraz, audio, wideo, kod — przez jedną zintegrowaną architekturę. Fundament computer use, document processing i voice interfaces. Przetwarzanie obrazów kosztuje wielokrotnie więcej tokenów niż tekst.Gotowość agentowaZestaw cech strony internetowej decydujący o tym, czy agent AI potrafi ją skutecznie odczytać, zrozumieć i wykonać na niej działanie w imieniu użytkownika.OperacyjnośćCzwarty filar agent-readiness: zdolność strony do wykonywania działań przez agenta — formularze przyjazne agentom, API zamiast imitowania kliknięć, brak barier takich jak captcha blokująca automatyzację.