Październik 2024. Anthropic wypuszcza Computer Use API w Claude 3.5 Sonnet. Pierwsza w branży udokumentowana funkcja, w której agent AI dosłownie „widzi” ekran komputera przez screenshot, decyduje gdzie kliknąć i wykonuje akcje przez kontrolę kursora. To była zmiana paradygmatu — agent przestał potrzebować API do działania na stronie, wystarczy że strona jest widoczna na ekranie.
Czym jest Computer Use
Computer Use to paradygmat działania agentów AI w którym agent operuje na aplikacji (przeglądarce, systemie operacyjnym, dowolnym oprogramowaniu) przez vision (analiza screenshotu interfejsu) i symulację działań użytkownika (kliki, wpisywanie z klawiatury) — zamiast przez API czy DOM parsing — wprowadzony jako standardowa funkcja w modelach Claude (Anthropic), GPT (OpenAI Atlas, Copilot Studio) i Gemini, fundamentalny dla działania większości Agent-in-Browser w sytuacjach gdzie strona nie jest agent-ready.
Jak działa
1. Agent dostaje zadanie do wykonania („zarezerwuj wizytę u dentysty”).
2. Agent robi screenshot bieżącej strony.
3. Model multimodalny analizuje screenshot: identyfikuje elementy UI, czyta tekst, lokalizuje przyciski.
4. Agent decyduje o następnej akcji („kliknij w przycisk 'Umów wizytę’ w prawym górnym rogu”).
5. Agent symuluje kliknięcie przez wysłanie koordynatów do systemu operacyjnego.
6. Strona reaguje, agent robi kolejny screenshot.
7. Pętla trwa do zakończenia zadania.
Zalety vs. tradycyjne API/DOM
Computer Use działa na każdej stronie. Strona nie musi mieć API, nie musi mieć agent-ready DOM, nie musi mieć schema.org. Może być dowolnie zbudowana — jeśli człowiek może to obsłużyć, Computer Use też może.
To rozwiązuje problem agent-readiness na stronach które jej nie mają. Dla agenta to znaczy: „nawet jeśli strona jest źle zbudowana, mogę działać przez vision”.
Wady Computer Use
Wolność: każda akcja wymaga screenshotu, analizy multimodalnej, decyzji, akcji. Sekwencja działań trwa razy 5-10x dłużej niż przez API.
Koszt: każdy screenshot to multimodalny token w prompcie. Tokeny visual są wielokrotnie droższe niż tekstowe. Computer Use dla złożonego zadania może kosztować dziesiątki centów.
Błędogenność: model może źle zinterpretować elementy UI, kliknąć obok, źle odczytać wartość pola. Skuteczność jest istotnie niższa niż przez API.
CAPTCHA: nadal blokuje Computer Use równie skutecznie jak DOM parsing.
Status w 2026
Computer Use stał się standardem w Atlas, Claude in Chrome, Comet, większości Agent-in-Browser. Bez Computer Use agent nie potrafiłby działać na większości stron internetu — bo większość stron nie jest agent-ready.
To paradoks: agent-readiness powinien zmniejszyć potrzebę Computer Use. Im więcej stron agent-ready, tym mniej Computer Use. Ale dopóki większość stron nie jest agent-ready, Computer Use pozostaje koniecznością.
Implikacje dla autora strony
Computer Use działa na twojej stronie bez twojej zgody i bez twojej wiedzy. Z perspektywy serwera Computer Use wygląda jak normalny ruch człowieka — żadnego specjalnego User-Agent, żadnej deklaracji „jestem agentem”.
To znaczy że niezależnie od twoich polityk wobec agentów AI, Computer Use będzie aktywny na twojej stronie wtedy gdy użytkownik użyje agentowej przeglądarki.
Świadomy autor strony może wybrać: optymalizować strone tak żeby Computer Use działał lepiej (czytelne layout, jasne ikony, accessible UI — i tak korzysta to człowieka), lub zostawić stan obecny.
Strona agent-ready obniża koszty agenta dla użytkownika (mniej Computer Use → mniej tokenów → szybciej, taniej). To jest forma value-add dla użytkowników korzystających z agentowych przeglądarek.