Telset.id – Bayangkan asisten AI nan tidak hanya menjawab pertanyaan, tetapi betul-betul mengambil alih mouse dan keyboard Anda. Ia mengklik menu, mengetik di form, menggulir laman web, apalagi memindahkan info antar aplikasi—persis seperti nan bakal dilakukan manusia. Itulah nan sekarang ditawarkan Google melalui model terbarunya, Gemini 2.5 Computer Use, nan baru saja dirilis dalam public preview.
Ini bukan sekadar upgrade biasa. Gemini 2.5 Computer Use merupakan lompatan signifikan dalam langkah AI berinteraksi dengan bumi digital. Alih-alih berjuntai pada API unik untuk setiap aplikasi, model ini memproses screenshot antarmuka pengguna dan menghasilkan tindakan UI spesifik sebagai respons. Pendekatan ini membuatnya jauh lebih elastis dan mirip dengan langkah manusia memandang serta berinteraksi dengan komputer.
Bagaimana langkah kerjanya? Agent AI menerima tiga input: sebuah tugas (task prompt), screenshot dari lingkungan digital saat ini, dan riwayat tindakan terbaru. Ia kemudian menganalisis antarmuka tersebut—mengenali tombol, field input, menu dropdown—dan mengembalikan sebuah tindakan UI, seperti “klik tombol login” alias “ketik ‘John Doe’ di kolom nama”. Aksi ini dieksekusi di sisi klien, lampau screenshot baru dikirim kembali ke model untuk melanjutkan tugas dalam sebuah loop. Proses ini memungkinkan AI menyelesaikan urutan tugas multi-langkah nan kompleks secara mandiri.

Mengungguli Kompetitor di Berbagai Benchmark
Google tidak main-main dengan klaim performa model ini. Menurut perusahaan, Gemini 2.5 Computer Use mengungguli perangkat pesaing di beberapa benchmark penting, termasuk Online-Mind2Web, WebVoyager, dan AndroidWorld. nan lebih mengesankan, pencapaian ini diraih sembari mempertahankan latency nan lebih rendah—faktor krusial untuk pengalaman pengguna nan responsif.
Model ini mendukung 13 tindakan berbeda saat ini, mencakup klik, ketik, gulir, hover, buka dropdown, dan navigasi melalui URL. Meski bekerja optimal dengan web browser, Google mengakui model ini belum dioptimalkan untuk tugas tingkat sistem operasi desktop. Namun, potensinya telah terlihat pada benchmark perangkat mobile.
Dalam demonstrasinya, Google menunjukkan keahlian praktis model ini dengan dua contoh mencolok. Pertama, agent AI bisa menyortir sticky notes pada papan tulis digital—tugas nan memerlukan pemahaman visual dan logika spasial. Kedua, model sukses memindahkan perincian hewan piaraan dari satu situs web ke sistem CRM, menunjukkan kemampuannya dalam otomasi alur kerja antar-platform.
Keamanan dan Implementasi Praktis
Dengan keahlian nan begitu powerful, pertanyaan tentang keamanan pasti muncul. Google telah mengantisipasi kekhawatiran ini dengan menerapkan langkah-langkah safety nan ketat. Setiap tindakan nan diusulkan model kudu melalui proses review oleh jasa keamanan sebelum dieksekusi. Pengembang juga diberikan kendali untuk membatasi tindakan tertentu alias meminta konfirmasi definitif pengguna untuk tugas berisiko tinggi, seperti transaksi keuangan.
Beberapa tim internal Google sudah menggunakan model ini dalam produksi, terutama untuk testing UI dan tugas otomasi di platform seperti Search dan Firebase. Pengembang eksternal dalam program early access juga telah memanfaatkannya untuk membangun perangkat otomasi alur kerja dan asisten nan lebih cerdas.
Bagi Anda nan penasaran dengan cara memanfaatkan AI Google untuk tugas kreatif, kemunculan Gemini 2.5 Computer Use membuka pintu nan lebih lebar. Sementara teknologi AI terus berkembang, krusial juga memahami tantangan nan dihadapi platform pengetahuan seperti Wikipedia dalam menghadapi era AI.

Akses dan Masa Depan Pengembangan
Pengembang nan mau mencoba Gemini 2.5 Computer Use dapat mengaksesnya melalui Gemini API di Google AI Studio alias Vertex AI. Google juga menyediakan lingkungan demo via Browserbase untuk testing dan eksperimen—kesempatan sempurna untuk mengeksplorasi potensi model ini sebelum mengintegrasikannya ke dalam aplikasi produksi.
Meski konsentrasi utamanya pada browser, potensi ekspansi ke platform lain sangat menarik untuk diikuti. Apakah nantinya kita bakal memandang AI nan bisa mengoperasikan aplikasi desktop secara native? Atau mungkin bergabung dengan perangkat mobile untuk tugas nan lebih kompleks? Mengingat performanya nan menjanjikan pada benchmark mobile, kemungkinan ini tidak terlalu jauh dari kenyataan.
Dalam lanskap AI nan semakin kompetitif, kehadiran Gemini 2.5 Computer Use menandai babak baru dalam perlombaan otomasi cerdas. Sementara perusahaan seperti OpenAI memperkenalkan fitur seperti Deep Research, Google mengambil pendekatan nan lebih langsung dan praktis dengan memungkinkan AI berinteraksi dengan antarmuka pengguna secara visual. Perkembangan ini tidak hanya relevan bagi developer dan ahli IT, tetapi juga bagi siapa saja nan menikmati kemudahan teknologi dalam kehidupan sehari-hari.
Revolusi AI tidak lagi sekadar tentang chatbot nan menjawab pertanyaan. Kini, kita menyaksikan kelahiran asisten digital nan betul-betul dapat “bekerja” di komputer kita—mengklik, mengetik, dan menyelesaikan tugas dengan presisi nan semakin mendekati keahlian manusia. Pertanyaannya sekarang: sudah siapkah kita mempercayakan mouse dan keyboard kita kepada kepintaran buatan?