Październik 2024. Anthropic ogłasza „computer use” — model Claude który może obsługiwać komputer jak człowiek: widzieć ekran przez screenshot, klikać w interfejs, wpisywać tekst, przełączać aplikacje. Nie przez API, nie przez MCP, nie przez dane strukturalne — przez interfejs wizualny który był projektowany wyłącznie dla ludzkich oczu i palców.
Reakcja branży była mieszana. Fascynacja — bo nagle każda aplikacja, każda strona, każde oprogramowanie które ma interfejs graficzny stało się dostępne dla agenta bez żadnych zmian po stronie aplikacji. I niepokój — bo to samo dotyczyło każdej aplikacji bankowej, każdego systemu HR, każdej aplikacji z dostępem do wrażliwych danych.
Computer use jest jednocześnie najbardziej elastycznym i najbardziej ryzykownym sposobem na dostęp agentów do systemów.
Czym jest computer use
Computer use to zdolność agenta AI do obsługi interfejsu graficznego komputera — przez cykl widzenia ekranu (screenshot), rozumienia co jest widoczne, podejmowania decyzji o akcji i wykonywania jej (kliknięcie, wpisanie tekstu, przewijanie) — bez potrzeby dostępu do API ani danych strukturalnych. Agent obsługuje komputer tak jak człowiek obsługuje komputer.
Jak to działa technicznie
Agent otrzymuje screenshot aktualnego stanu ekranu. Model multimodalny analizuje obraz i rozumie co jest widoczne — przyciski, pola tekstowe, treść, nawigację. Na podstawie celu który ma osiągnąć decyduje jaka akcja jest następna. Akcja jest wykonywana przez system kontroli myszy i klawiatury. Nowy screenshot. Nowa analiza. Cykl się powtarza aż cel zostanie osiągnięty lub agent uzna że nie może go osiągnąć.
Kiedy computer use jest właściwą odpowiedzią
Computer use jest odpowiedzią gdy nie ma alternatywy — gdy aplikacja nie ma API, gdy nie można zmienić kodu źródłowego, gdy zadanie wymaga interakcji z legacy systemem który istnieje od 20 lat i nigdy nie będzie miał REST API.
Dla nowych systemów computer use powinno być ostatecznością, nie pierwszym wyborem. MCP, API, dane strukturalne — każde z tych rozwiązań jest szybsze, bardziej niezawodne i mniej podatne na zepsucie przy zmianie layoutu interfejsu niż computer use.
Niezawodność i ograniczenia
Computer use jest kruche. Zmiana layoutu strony — inna pozycja przycisku, inna etykieta, inna kolorystyka — może zepsuć workflow który działał przez tygodnie. Agent który opiera się na wyglądzie interfejsu jest wrażliwy na każdą zmianę wizualną.
Jest też wolniejszy niż API — każdy cykl screenshot-analiza-akcja zajmuje sekundy, nie milisekundy. I kosztowniejszy obliczeniowo — przetwarzanie obrazu jest droższe niż przetwarzanie tekstu.
Google Project Mariner i Anthropic Computer Use to dwie główne implementacje z 2025 roku — obie z podobnymi trade-offs: elastyczność kosztem niezawodności i szybkości.
Computer use a operability strony
Computer use jest odpowiedzią agenta na brak operability strony. Strona która nie ma API, nie ma sensownych danych strukturalnych, nie wystawia NLWeb — agent może ją obsługiwać przez computer use, ale będzie to rozwiązanie z konieczności.
Właściciel strony który nie zadbał o agent-readiness nie blokuje agentów — daje im trudniejszą ścieżkę. Agent który może wybrać między stroną z API a stroną która wymaga computer use, wybierze tę z API. Zawsze.