Computer use daje agentowi dostęp do całego systemu operacyjnego przez ekran. Browser use jest węższą wersją tego samego pomysłu — agent obsługuje wyłącznie przeglądarkę internetową, ale robi to z głębszym rozumieniem struktury DOM niż zwykła automatyzacja ekranowa.
Różnica jest istotna. Computer use widzi pikselowy obraz ekranu i musi interpretować co jest widoczne. Browser use ma dostęp do DOM — wie że ten element to `
Czym jest browser use
Browser use to architektura agenta AI który steruje przeglądarką internetową przez dostęp do DOM i API przeglądarki — klikając linki, wypełniając formularze, navigując między stronami — z głębszym rozumieniem struktury strony niż czysto wizualny computer use. Wypośrodkowanie między elastycznością computer use a niezawodnością dedykowanych API.
Jak to działa
Agent ma dostęp do przeglądarki przez Playwright, Puppeteer lub podobny framework automatyzacji. Może czytać DOM — widzi strukturę HTML, atrybuty elementów, tekst. Może wykonywać akcje: kliknij element z id=”checkout-button”, wpisz „Jan Kowalski” w pole z name=”firstname”, nawiguj do URL, poczekaj na załadowanie strony.
Niektóre implementacje łączą DOM z widokiem wizualnym — agent widzi i screenshot i DOM, co pozwala mu radzić sobie zarówno ze stronami z czystą strukturą semantyczną jak i tymi gdzie semantyka jest słaba.
Browser use vs agent-ready strona
Browser use jest odpowiedzią na brak agent-readiness — ale jest odpowiedzią niedoskonałą. Strona zoptymalizowana pod agenty przez dane strukturalne, llms.txt i API daje agentowi bezpośredni dostęp do danych bez pośrednictwa przeglądarki. Szybciej, taniej, niezawodniej.
Strona która wymaga browser use jest dostępna dla agenta — ale jest dostępna jak zamek z krętymi korytarzami zamiast z otwartymi drzwiami. Agent wejdzie, ale poświęci więcej zasobów i czas na wejście będzie dłuższy.
Właściciel strony który wie że jego klienci korzystają z agentów — i że te agenty muszą używać browser use zamiast API — ma sygnał że strona potrzebuje pracy nad agent-readiness.
Popularne implementacje
Browser Use (open-source library), Playwright MCP (Playwright jako serwer MCP dla agentów), Google Project Mariner (browser-focused variant), OpenAI Operator (browser-based agent dla ChatGPT). Każda implementacja ma nieco inną architekturę ale ten sam cel: dać agentowi możliwość nawigacji po stronach internetowych bez konieczności że strona ma API.
Bezpieczeństwo
Browser use w środowiskach produkcyjnych wymaga sandboxingu. Agent który ma dostęp do przeglądarki z zalogowaną sesją użytkownika ma potencjalnie dostęp do wszystkiego co użytkownik ma — poczty, konta bankowego, CRM. Prompt injection przez treść strony którą agent odwiedza jest szczególnie groźny w kontekście browser use — przejęty agent może wykonać akcje w kontekście zalogowanej sesji.