08/10/2025
🔥 OpenAI vừa xong hội nghị, Google liền phản công – tung “Gemini 2.5 Computer Use”! ⚡
Google vừa ra mắt mô hình AI mới Gemini 2.5 Computer Use, được thiết kế riêng cho tự động hóa trình duyệt và thao tác giao diện người dùng (UI).
Mô hình này chưa có ứng dụng dành cho người dùng phổ thông, mà chỉ mở cho nhà phát triển thông qua API trên nền tảng Google AI Studio và Vertex AI.
💻 Gemini 2.5 Computer Use có thể làm gì?
1 Phân tích ảnh chụp màn hình và lệnh người dùng, sau đó tự động xác định vị trí cần nhấp, nhập hoặc kéo thả.
2 Hỗ trợ các tác vụ phức tạp như điền form, chọn menu, thao tác trong web/app.
3 Hướng tới đối tượng doanh nghiệp, nhà phát triển web/app muốn tự động hóa UI.
⚙️ Cách hoạt động cơ bản:
1 Nhà phát triển gửi ảnh chụp màn hình và yêu cầu đến API.
2 Mô hình phân tích và trả về chuỗi hành động cụ thể (ví dụ: “click nút Đăng nhập”).
3 Ứng dụng thực thi các hành động đó, mô hình tiếp tục phản hồi cho đến khi hoàn tất tác vụ.
🔮 Dù người dùng phổ thông chưa thể trực tiếp trải nghiệm, nhưng với bước tiến này, Gemini Agent – trợ lý điều khiển máy tính toàn diện – có lẽ không còn xa nữa.