Obsługa komputera przez agenta

Zdolność agenta AI do obsługi interfejsu graficznego komputera — przez cykl widzenia ekranu, rozumienia co jest widoczne i wykonywania akcji myszą i klawiaturą — bez potrzeby dostępu do API ani danych strukturalnych. Najbardziej elastyczny ale też najmniej niezawodny sposób dostępu agenta do systemów.

W Polsce nazywane też:

obsługa komputera przez agentaagent GUIautomatyzacja ekranuobsługa interfejsu graficznego

Październik 2024. Anthropic ogłasza „computer use” — model Claude który może obsługiwać komputer jak człowiek: widzieć ekran przez screenshot, klikać w interfejs, wpisywać tekst, przełączać aplikacje. Nie przez API, nie przez MCP, nie przez dane strukturalne — przez interfejs wizualny który był projektowany wyłącznie dla ludzkich oczu i palców.

Reakcja branży była mieszana. Fascynacja — bo nagle każda aplikacja, każda strona, każde oprogramowanie które ma interfejs graficzny stało się dostępne dla agenta bez żadnych zmian po stronie aplikacji. I niepokój — bo to samo dotyczyło każdej aplikacji bankowej, każdego systemu HR, każdej aplikacji z dostępem do wrażliwych danych.

Computer use jest jednocześnie najbardziej elastycznym i najbardziej ryzykownym sposobem na dostęp agentów do systemów.

Czym jest computer use

Computer use to zdolność agenta AI do obsługi interfejsu graficznego komputera — przez cykl widzenia ekranu (screenshot), rozumienia co jest widoczne, podejmowania decyzji o akcji i wykonywania jej (kliknięcie, wpisanie tekstu, przewijanie) — bez potrzeby dostępu do API ani danych strukturalnych. Agent obsługuje komputer tak jak człowiek obsługuje komputer.

Jak to działa technicznie

Agent otrzymuje screenshot aktualnego stanu ekranu. Model multimodalny analizuje obraz i rozumie co jest widoczne — przyciski, pola tekstowe, treść, nawigację. Na podstawie celu który ma osiągnąć decyduje jaka akcja jest następna. Akcja jest wykonywana przez system kontroli myszy i klawiatury. Nowy screenshot. Nowa analiza. Cykl się powtarza aż cel zostanie osiągnięty lub agent uzna że nie może go osiągnąć.

Kiedy computer use jest właściwą odpowiedzią

Computer use jest odpowiedzią gdy nie ma alternatywy — gdy aplikacja nie ma API, gdy nie można zmienić kodu źródłowego, gdy zadanie wymaga interakcji z legacy systemem który istnieje od 20 lat i nigdy nie będzie miał REST API.

Dla nowych systemów computer use powinno być ostatecznością, nie pierwszym wyborem. MCP, API, dane strukturalne — każde z tych rozwiązań jest szybsze, bardziej niezawodne i mniej podatne na zepsucie przy zmianie layoutu interfejsu niż computer use.

Niezawodność i ograniczenia

Computer use jest kruche. Zmiana layoutu strony — inna pozycja przycisku, inna etykieta, inna kolorystyka — może zepsuć workflow który działał przez tygodnie. Agent który opiera się na wyglądzie interfejsu jest wrażliwy na każdą zmianę wizualną.

Jest też wolniejszy niż API — każdy cykl screenshot-analiza-akcja zajmuje sekundy, nie milisekundy. I kosztowniejszy obliczeniowo — przetwarzanie obrazu jest droższe niż przetwarzanie tekstu.

Google Project Mariner i Anthropic Computer Use to dwie główne implementacje z 2025 roku — obie z podobnymi trade-offs: elastyczność kosztem niezawodności i szybkości.

Computer use a operability strony

Computer use jest odpowiedzią agenta na brak operability strony. Strona która nie ma API, nie ma sensownych danych strukturalnych, nie wystawia NLWeb — agent może ją obsługiwać przez computer use, ale będzie to rozwiązanie z konieczności.

Właściciel strony który nie zadbał o agent-readiness nie blokuje agentów — daje im trudniejszą ścieżkę. Agent który może wybrać między stroną z API a stroną która wymaga computer use, wybierze tę z API. Zawsze.

Powiązane pojęcia

Obsługa przeglądarki przez agentaArchitektura agenta AI który steruje przeglądarką internetową przez dostęp do DOM i API przeglądarki — klikając linki, wypełniając formularze i nawigując między stronami — z głębszym rozumieniem struktury niż czysto wizualny computer use. Odpowiedź na brak agent-readiness strony.Protokół kontekstu modeluOtwarty standard Anthropic umożliwiający agentom AI łączenie się z zewnętrznymi narzędziami, bazami danych i API w ustandaryzowany sposób — jak USB dla modeli językowych.Agent AIAutonomiczny system sztucznej inteligencji który samodzielnie planuje i wykonuje złożone zadania — wyszukuje informacje, podejmuje decyzje i działa w imieniu użytkownika bez jego ciągłego nadzoru.OperacyjnośćCzwarty filar agent-readiness: zdolność strony do wykonywania działań przez agenta — formularze przyjazne agentom, API zamiast imitowania kliknięć, brak barier takich jak captcha blokująca automatyzację.Operacyjność stronyZdolność strony do bycia obsługiwanej przez agenta AI — formularze które agent może wypełnić, API które może wywołać, checkout który może przeprowadzić bez imitowania kliknięć człowieka.