ICP·Devآی‌سی‌پی‌·دِو
بازگشت به مقالات
هوش مصنوعی۷ تیر ۱۴۰۵3 دقیقه مطالعه

انقلاب گوگل در تسخیر صفحه نمایش: قابلیت بومی «استفاده از رایانه» به Gemini 3.5 Flash آمد

گوگل قابلیت بومی «استفاده از رایانه» را به Gemini 3.5 Flash اضافه کرده است که به هوش مصنوعی اجازه می‌دهد صفحات دسکتاپ، مرورگر و موبایل را ببیند، کلیک کند و در آن‌ها پیمایش کند. با کسب امتیاز ۷۸.۴ در بنچمارک OSWorld و قیمت‌گذاری رقابتی، این نسخه اتوماسیون عاملی را از یک آزمایش گران‌قیمت به ابزاری پیش‌فرض برای سازمان‌ها تبدیل می‌کند.

نکات کلیدی

  • گوگل قابلیت بومی «استفاده از رایانه» را به Gemini 3.5 Flash اضافه کرده است که به هوش مصنوعی اجازه می‌دهد صفحات دسکتاپ، مرورگر و موبایل را ببیند، کلیک کند و در آن‌ها پیمایش کند
  • با کسب امتیاز ۷۸.۴ در بنچمارک OSWorld و قیمت‌گذاری رقابتی، این نسخه اتوماسیون عاملی را از یک آزمایش گران‌قیمت به ابزاری پیش‌فرض برای سازمان‌ها تبدیل می‌کند
اشتراک‌گذاری
انقلاب گوگل در تسخیر صفحه نمایش: قابلیت بومی «استفاده از رایانه» به Gemini 3.5 Flash آمد

انقلاب گوگل در تسخیر صفحه نمایش: قابلیت بومی «استفاده از رایانه» به Gemini 3.5 Flash آمد

در ۲۴ ژوئن ۲۰۲۶، گوگل دیپ‌مایند چشم‌انداز هوش مصنوعی عاملی را به طور اساسی تغییر داد. گوگل به جای اینکه توسعه‌دهندگان را مجبور کند کارهای تخصصی را به یک مدل مستقل ارجاع دهند، اعلام کرد که قابلیت بومی «استفاده از رایانه» اکنون یک ابزار داخلی در Gemini 3.5 Flash است. این بدان معناست که یک مدل واحد و فوق‌العاده سریع اکنون می‌تواند صفحه نمایش شما را ببیند، رابط‌های کاربری را تفسیر کند، و کلیک‌ها، تایپ کردن و اسکرول کردن را در محیط‌های دسکتاپ، مرورگر و موبایل اجرا کند.

این به‌روزرسانی، قابلیت‌های عاملی را در کنار ابزارهای استاندارد مانند اجرای کد و اتصال به جستجوی گوگل (Search grounding) یکپارچه می‌کند. گوگل با حذف تاخیر و پیچیدگی‌های جابه‌جایی بین مدل‌ها، نشان می‌دهد که دوران دستیاران هوش مصنوعی خودکار به طور کامل فرا رسیده است.

کالبدشکافی فناوری: ادراک و عمل در یک گام واحد

پیش از این، عوامل «استفاده از رایانه» بسیار ناکارآمد بودند. آن‌ها به معماری‌های چندمدلیِ مجزا متکی بودند که در آن‌ها یک هوش مصنوعی اسکرین‌شات‌ها را تجزیه و تحلیل می‌کرد، دیگری اقدامات را برنامه‌ریزی می‌کرد و یک اسکریپت جداگانه آن‌ها را اجرا می‌کرد.

گوگل با ادغام مستقیم ادراک، استدلال و اجرای عملیات روی صفحه نمایش در Gemini 3.5 Flash، یک چرخه اجرای فشرده و با سرعت بالا را ممکن ساخته است. این مدل به طور مداوم اسکرین‌شات می‌گیرد، پیکسل‌ها را به ساختارهای معنایی رابط کاربری تبدیل می‌کند و مختصات فضایی را برای تعامل با نرم‌افزار بدون نیاز به ای‌پی‌آی‌های (API) سفارشی تولید می‌کند.

یک اینفوگرافیک فنی دقیق که نشان می‌دهد چگونه...

معیارهای باورنکردنی هزینه به عملکرد

آنچه این نسخه را به یک تحول‌آفرین واقعی تبدیل می‌کند، قیمت‌گذاری تهاجمی و رقابتی گوگل است. از نظر تاریخی، بارهای کاری سنگین عاملی بسیار هزینه‌بر بودند. Gemini 3.5 Flash این مانع را از بین می‌برد:

  • بنچمارک OSWorld: با کسب امتیاز ۷۸.۴٪ در بنچمارک کنترل رابط کاربری OSWorld-Verified، مدل Gemini 3.5 Flash تنها ۰.۳ امتیاز عقب‌تر از مدل پرچمدار OpenAI یعنی GPT-5.5 (با امتیاز ۷۸.۷٪) قرار دارد.
  • هزینه: با قیمت ۱.۵۰ دلار به ازای هر میلیون توکن ورودی و ۹ دلار به ازای هر میلیون توکن خروجی، اجرای بارهای کاری عاملی روی Gemini 3.5 Flash تقریباً ۷۰٪ ارزان‌تر از رقابت در GPT-5.5 شرکت OpenAI است.

حل مشکل خطاهای ناخواسته: امنیت و حضور انسان در چرخه تعامل

دادن کنترل کامل کیبورد و ماوس به یک مدل سریع ذاتاً با ریسک همراه است. برای جلوگیری از رفتارهای خودسرانه عوامل هوش مصنوعی، گوگل اقدامات حفاظتی حیاتی در سطح عملیاتی برای سازمان‌ها پیاده‌سازی کرده است:

  1. آرگومان‌های هدف (Intent Arguments): هر فراخوانی تابع شامل بافتار هدف در سطح بالا است (به عنوان مثال، «پرداخت فاکتور تحت بودجه مصوب»). این امر به سیاست‌های امنیتی اجازه می‌دهد در صورتی که مراحل فرعی از هدف اصلی منحرف شدند، اقدامات را مسدود کنند.
  2. تاییدهای صریح کاربر (Explicit User Confirmations): توسعه‌دهندگان می‌توانند «اقدامات حساس» (مانند انتقال بانکی یا حذف دائمی فایل‌ها) را علامت‌گذاری کنند تا عامل مجبور شود قبل از ادامه کار، متوقف شده و تایید دستی درخواست کند.
  3. محافظت پیشرفته در برابر تزریق دستور (Prompt Injection): سیستم عناصر رابط کاربری هدف را به صورت آنی اسکن می‌کند و در صورت شناسایی دستورالعمل‌های مخرب و پنهان در صفحات وب پویا، بلافاصله کار را متوقف می‌کند.

قدم بعدی برای توسعه‌دهندگان چیست؟

گوگل این ابزار را که در حال حاضر به صورت پیش‌نمایش عمومی از طریق Gemini API و پلتفرم عامل سازمانی Gemini در دسترس است، فوراً در کنار ادغام با Browserbase، Browser Use و UIPath ارائه کرده است. گوگل با ارائه قابلیت‌های عاملی در سطح پیشرو با کسری از هزینه رقبا، موج عظیمی از تجاری‌سازی و کاهش قیمت‌ها را هدایت می‌کند که به زودی ادغام‌های نرم‌افزاری ایستا را به خاطره‌ای در گذشته تبدیل خواهد کرد.

برچسب‌ها

#Gemini 3.5 Flash#گوگل دیپ‌مایند#عوامل هوش مصنوعی#استفاده از رایانه#OSWorld

منابع و ارجاعات مستند

پیشنهاد مطالعه بعدی

خوشتان آمد؟ مقاله بعدی را بگیرید

در خبرنامه عضو شوید تا راهنمای بعدی در ایمیلتان باشد — بدون مزاحمت، لغو عضویت در هر زمان.