انقلاب گوگل در تسخیر صفحه نمایش: قابلیت بومی «استفاده از رایانه» به Gemini 3.5 Flash آمد
گوگل قابلیت بومی «استفاده از رایانه» را به Gemini 3.5 Flash اضافه کرده است که به هوش مصنوعی اجازه میدهد صفحات دسکتاپ، مرورگر و موبایل را ببیند، کلیک کند و در آنها پیمایش کند. با کسب امتیاز ۷۸.۴ در بنچمارک OSWorld و قیمتگذاری رقابتی، این نسخه اتوماسیون عاملی را از یک آزمایش گرانقیمت به ابزاری پیشفرض برای سازمانها تبدیل میکند.
نکات کلیدی
- • گوگل قابلیت بومی «استفاده از رایانه» را به Gemini 3.5 Flash اضافه کرده است که به هوش مصنوعی اجازه میدهد صفحات دسکتاپ، مرورگر و موبایل را ببیند، کلیک کند و در آنها پیمایش کند
- • با کسب امتیاز ۷۸.۴ در بنچمارک OSWorld و قیمتگذاری رقابتی، این نسخه اتوماسیون عاملی را از یک آزمایش گرانقیمت به ابزاری پیشفرض برای سازمانها تبدیل میکند

انقلاب گوگل در تسخیر صفحه نمایش: قابلیت بومی «استفاده از رایانه» به Gemini 3.5 Flash آمد
در ۲۴ ژوئن ۲۰۲۶، گوگل دیپمایند چشمانداز هوش مصنوعی عاملی را به طور اساسی تغییر داد. گوگل به جای اینکه توسعهدهندگان را مجبور کند کارهای تخصصی را به یک مدل مستقل ارجاع دهند، اعلام کرد که قابلیت بومی «استفاده از رایانه» اکنون یک ابزار داخلی در Gemini 3.5 Flash است. این بدان معناست که یک مدل واحد و فوقالعاده سریع اکنون میتواند صفحه نمایش شما را ببیند، رابطهای کاربری را تفسیر کند، و کلیکها، تایپ کردن و اسکرول کردن را در محیطهای دسکتاپ، مرورگر و موبایل اجرا کند.
این بهروزرسانی، قابلیتهای عاملی را در کنار ابزارهای استاندارد مانند اجرای کد و اتصال به جستجوی گوگل (Search grounding) یکپارچه میکند. گوگل با حذف تاخیر و پیچیدگیهای جابهجایی بین مدلها، نشان میدهد که دوران دستیاران هوش مصنوعی خودکار به طور کامل فرا رسیده است.
کالبدشکافی فناوری: ادراک و عمل در یک گام واحد
پیش از این، عوامل «استفاده از رایانه» بسیار ناکارآمد بودند. آنها به معماریهای چندمدلیِ مجزا متکی بودند که در آنها یک هوش مصنوعی اسکرینشاتها را تجزیه و تحلیل میکرد، دیگری اقدامات را برنامهریزی میکرد و یک اسکریپت جداگانه آنها را اجرا میکرد.
گوگل با ادغام مستقیم ادراک، استدلال و اجرای عملیات روی صفحه نمایش در Gemini 3.5 Flash، یک چرخه اجرای فشرده و با سرعت بالا را ممکن ساخته است. این مدل به طور مداوم اسکرینشات میگیرد، پیکسلها را به ساختارهای معنایی رابط کاربری تبدیل میکند و مختصات فضایی را برای تعامل با نرمافزار بدون نیاز به ایپیآیهای (API) سفارشی تولید میکند.

معیارهای باورنکردنی هزینه به عملکرد
آنچه این نسخه را به یک تحولآفرین واقعی تبدیل میکند، قیمتگذاری تهاجمی و رقابتی گوگل است. از نظر تاریخی، بارهای کاری سنگین عاملی بسیار هزینهبر بودند. Gemini 3.5 Flash این مانع را از بین میبرد:
- بنچمارک OSWorld: با کسب امتیاز ۷۸.۴٪ در بنچمارک کنترل رابط کاربری OSWorld-Verified، مدل Gemini 3.5 Flash تنها ۰.۳ امتیاز عقبتر از مدل پرچمدار OpenAI یعنی GPT-5.5 (با امتیاز ۷۸.۷٪) قرار دارد.
- هزینه: با قیمت ۱.۵۰ دلار به ازای هر میلیون توکن ورودی و ۹ دلار به ازای هر میلیون توکن خروجی، اجرای بارهای کاری عاملی روی Gemini 3.5 Flash تقریباً ۷۰٪ ارزانتر از رقابت در GPT-5.5 شرکت OpenAI است.
حل مشکل خطاهای ناخواسته: امنیت و حضور انسان در چرخه تعامل
دادن کنترل کامل کیبورد و ماوس به یک مدل سریع ذاتاً با ریسک همراه است. برای جلوگیری از رفتارهای خودسرانه عوامل هوش مصنوعی، گوگل اقدامات حفاظتی حیاتی در سطح عملیاتی برای سازمانها پیادهسازی کرده است:
- آرگومانهای هدف (Intent Arguments): هر فراخوانی تابع شامل بافتار هدف در سطح بالا است (به عنوان مثال، «پرداخت فاکتور تحت بودجه مصوب»). این امر به سیاستهای امنیتی اجازه میدهد در صورتی که مراحل فرعی از هدف اصلی منحرف شدند، اقدامات را مسدود کنند.
- تاییدهای صریح کاربر (Explicit User Confirmations): توسعهدهندگان میتوانند «اقدامات حساس» (مانند انتقال بانکی یا حذف دائمی فایلها) را علامتگذاری کنند تا عامل مجبور شود قبل از ادامه کار، متوقف شده و تایید دستی درخواست کند.
- محافظت پیشرفته در برابر تزریق دستور (Prompt Injection): سیستم عناصر رابط کاربری هدف را به صورت آنی اسکن میکند و در صورت شناسایی دستورالعملهای مخرب و پنهان در صفحات وب پویا، بلافاصله کار را متوقف میکند.
قدم بعدی برای توسعهدهندگان چیست؟
گوگل این ابزار را که در حال حاضر به صورت پیشنمایش عمومی از طریق Gemini API و پلتفرم عامل سازمانی Gemini در دسترس است، فوراً در کنار ادغام با Browserbase، Browser Use و UIPath ارائه کرده است. گوگل با ارائه قابلیتهای عاملی در سطح پیشرو با کسری از هزینه رقبا، موج عظیمی از تجاریسازی و کاهش قیمتها را هدایت میکند که به زودی ادغامهای نرمافزاری ایستا را به خاطرهای در گذشته تبدیل خواهد کرد.
برچسبها
منابع و ارجاعات مستند
پیشنهاد مطالعه بعدی

فراتر از سینمای صامت: نگاهی به Grok Imagine Video 1.5 از xAI و عصر سنتز ویدیوی چندوجهی بومی
ائتلاف ۳۵ میلیارد دلاری AI XPV: چگونه اعتبار خصوصی و سیلیکون سفارشی انویدیا را دور میزنند

پایان دوران وابستگی: چگونه MAI-Thinking-1 مایکروسافت وابستگی به OpenAI را از بین میبرد
خوشتان آمد؟ مقاله بعدی را بگیرید
در خبرنامه عضو شوید تا راهنمای بعدی در ایمیلتان باشد — بدون مزاحمت، لغو عضویت در هر زمان.