تحول بزرگ گوگل جمینی: معرفی حالت‌های Agent، Go و View!

امیرحسین بردبار
آکادمی هوش مصنوعی, مقالات
5 شهریور 1404

گوگل جمینی از چت‌بات به دستیار همه‌کاره تبدیل می‌شود: معرفی حالت‌های Agent، Go و Immersive View! عصر چت‌بات‌های هوش مصنوعی که صرفا منتظر سوالات ما می‌مانند تا پاسخی متنی ارائه دهند، به سرعت در حال سپری شدن است. گوگل با یک حرکت استراتژیک و آینده‌نگرانه، در حال آزمایش و توسعه قابلیت‌هایی برای دستیار هوشمند خود، جمینی (Gemini)، است که آن را از یک ابزار واکنشی به یک دستیار شخصی کاملا پیش‌فعال، خلاق و بصری تبدیل می‌کند. بر اساس آخرین گزارش‌ها و تست‌های مشاهده شده، گوگل در حال کار بر روی سه (حالت)،(Mode) جدید و هیجان‌انگیز است: Agent Mode برای خودکارسازی وظایف، Gemini Go برای همکاری و ایده‌پردازی سریع، و Immersive View برای ارائه پاسخ‌های بصری و سه‌بعدی. این تحولات نشان می‌دهد که گوگل قصد دارد جمینی را به یک پلتفرم جامع تبدیل کند که نه تنها به سوالات ما پاسخ می‌دهد، بلکه برای ما کار می‌کند، با ما فکر می‌کند و دنیا را به ما نشان می‌دهد.

فهرست مطالب

1) آینده تعامل با هوش مصنوعی: فراتر از یک پنجره چت

1.1) حالت Agent: خلبان خودکار شما برای وظایف دیجیتال

1.2) حالت Gemini Go: شریک طوفان فکری شما

1.3) حالت Immersive View: دیدن پاسخ‌ها به جای خواندن آن‌ها!

2) دیدگاه تخصصی گیموفیا

آینده تعامل با هوش مصنوعی: فراتر از یک پنجره چت

استراتژی جدید گوگل برای جمینی، فراتر از بهبود مدل‌های زبانی است؛ این شرکت در حال بازطراحی کامل تجربه کاربری و نحوه تعامل ما با هوش مصنوعی است. به جای یک رابط کاربری یکسان برای همه نوع کاری، جمینی در حال تبدیل شدن به یک ابزار چند حالته است که کاربر می‌تواند بر اساس نیاز خود، حالت مناسب را انتخاب کند. این رویکرد، که با قدرت اکوسیستم یکپارچه گوگل (شامل جیمیل، یوتیوب، مپس و…) پشتیبانی می‌شود، جمینی را به یک دستیار بسیار قدرتمندتر و کاربردی‌تر تبدیل خواهد کرد.

حالت Agent: خلبان خودکار شما برای وظایف دیجیتال

این حالت، شاید بلندپروازانه‌ترین و مهم‌ترین گام گوگل به سمت ساخت یک دستیار واقعی باشد. Agent Mode (حالت عامل) جمینی را از یک چت‌بات به یک (عامل هوشمند) خودکار تبدیل می‌کند. در این حالت، شما یک هدف سطح بالا و پیچیده را به جمینی می‌دهید و هوش مصنوعی به صورت خودکار، آن هدف را به وظایف کوچکتر تقسیم کرده و آن‌ها را در اپلیکیشن‌ها و سرویس‌های مختلف اجرا می‌نماید.

برای مثال، به جای اینکه خودتان ساعت‌ها وقت صرف کنید، می‌توانید به جمینی بگویید: یک سفر آخر هفته به پاریس برای دو نفر در ماه آینده برای من برنامه‌ریزی کن. بهترین پروازها از نظر قیمت و زمان را پیدا کن، یک هتل چهار ستاره با نظرات خوب در مرکز شهر رزرو کن، و چند رستوران فرانسوی خوب در نزدیکی هتل پیشنهاد بده.

عامل هوشمند جمینی سپس:

به Google Flights متصل شده و گزینه‌های مختلف پرواز را جستجو و مقایسه می‌کند؛
به Google Maps و سرویس‌های رزرو هتل مراجعه کرده و هتل‌های مناسب را پیدا می‌کند؛
نظرات کاربران را برای رستوران‌ها بررسی می‌کند؛
در نهایت، یک برنامه سفر کامل را به صورت یک پیش‌نویس برای تأیید شما ارائه می‌دهد و شاید حتی بتواند فرآیند رزرو را نیز تکمیل کند.

این قابلیت (پیش‌فعال) و (خودکار)، جمینی را به یک دستیار شخصی واقعی تبدیل می‌کند که می‌تواند در زمان شما صرفه‌جویی عظیمی کرده و کارهای پیچیده دیجیتال را مدیریت نماید.

حالت Gemini Go: شریک طوفان فکری شما

در حالی که Agent Mode بر روی انجام وظایف تمرکز دارد، Gemini Go (جمینی گو) برای سرعت بخشیدن به فرآیندهای خلاقانه و ایده‌پردازی (Brainstorming) طراحی شده است. این حالت احتمالا با پاسخ‌های سریع‌تر، کوتاه‌تر و ایده‌محورتر عمل می‌کند. Gemini Go می‌تواند به عنوان یک شریک خلاق در جلسات طوفان فکری عمل کند و به شما در موارد زیر کمک نماید:

تولید سریع ایده‌ها: شما یک موضوع را مطرح می‌کنید و جمینی به سرعت ده‌ها ایده، زاویه دید، یا عنوان مختلف برای آن تولید می‌کند؛
همکاری و نمونه‌سازی: این حالت به احتمال زیاد با ابزارهای خلاقانه دیگری مانند Google Canvas ادغام خواهد شد و به شما و تیم‌تان اجازه می‌دهد تا به صورت مشترک، ایده‌ها را بررسی کرده، نقشه ذهنی بسازید و نمونه‌های اولیه (Prototype) از طرح‌های خود را خلق کنید.

Gemini Go برای نویسندگان، بازاریاب‌ها، طراحان محصول، و هر کسی که به یک جرقه خلاقانه سریع نیاز دارد، یک ابزار ایده‌آل خواهد بود.

حالت Immersive View: دیدن پاسخ‌ها به جای خواندن آن‌ها!

این قابلیت، هیجان‌انگیزترین تحول در زمینه رابط کاربری هوش مصنوعی است. Immersive View (نمای فراگیر) قصد دارد پاسخ‌ها را از حالت متنی صرف خارج کرده و به تجربه‌ای بصری و سه‌بعدی تبدیل کند. به جای اینکه جمینی در مورد یک موضوع برای شما توضیح متنی بنویسد، آن را به شما (نشان) می‌دهد!

پاسخ‌های جغرافیایی: می‌پرسید (برج ایفل کجاست و چه شکلی است؟) به جای یک پاراگراف متن، جمینی ممکن است یک مدل سه‌بعدی و تعاملی از برج ایفل را که مستقیما از داده‌های Google Maps گرفته شده، به شما نمایش دهد؛
توضیحات بصری مفاهیم: می‌پرسید (یک موتور جت چگونه کار می‌کند؟) جمینی می‌تواند یک نمودار سه‌بعدی و متحرک از قطعات موتور و نحوه کارکرد آن را برای شما تولید کند؛
یادگیری تعاملی: این قابلیت، فرآیند یادگیری موضوعات پیچیده در علوم، مهندسی، و تاریخ را بسیار ساده‌تر و شهودی‌تر می‌کند.

این رویکرد، از قدرت بی‌نظیر گوگل در حوزه نقشه‌برداری سه‌بعدی، واقعیت افزوده (AR)، و هوش مصنوعی چندوجهی (Multimodal) بهره می‌برد تا تجربه‌ای کاملا جدید از تعامل با اطلاعات را خلق کند.

برای آشنایی بیشتر با این خبر و جزئیات تست‌های انجام شده، می‌توانید به منبع اصلی آن مراجعه کنید:

https://www.testingcatalog.com/google-tests-new-gemini-modes-including-agent-go-and-immersive-view/

دیدگاه تخصصی گیموفیا

معرفی این سه حالت جدید در جمینی، برای دنیای بازی‌سازی و جامعه گیمرها نیز پتانسیل‌های فوق‌العاده‌ای را به همراه دارد.

Agent Mode می‌تواند به یک دستیار بی‌نظیر برای بازیکنان تبدیل شود. تصور کنید به جمینی بگویید: بهترین بیلد (Build) برای شخصیت من در بازی Elden Ring با تمرکز بر روی قدرت (Strength) را پیدا کن، لیستی از تمام سلاح‌ها و زره‌های مورد نیاز را تهیه کن، و مکان دقیق پیدا کردن هر کدام را در یک فایل Google Docs برایم لیست کن. عامل هوشمند جمینی تمام این فرآیند تحقیق خسته‌کننده را برای شما انجام خواهد داد.

Gemini Go می‌تواند ابزار ایده‌آلی برای تیم‌های بازیسازی مستقل در جلسات طوفان فکری باشد. یک تیم می‌تواند برای طراحی یک مرحله جدید، مکانیک‌های گیم‌پلی، یا خطوط داستانی، به صورت زنده با جمینی به ایده‌پردازی بپردازد و ایده‌ها را به سرعت به یک سند طراحی اولیه تبدیل کند.

اما هیجان‌انگیزترین قابلیت برای ما، Immersive View است. این حالت می‌تواند نحوه یادگیری و تعامل ما با بازی‌ها را متحول کند. تصور کنید بتوانید از جمینی بخواهید:

یک مدل سه‌بعدی از نقشه de dust2 در بازی Counter Strike را به من نشان بده و بهترین نقاط برای کمین کردن را هایلایت کن.
یک نمای فراگیر از شمشیر Frostmourne در دنیای Warcraft را برایم بساز.
این قابلیت می‌تواند راهنماهای بازی را از حالت متنی یا ویدیویی، به یک تجربه تعاملی و سه‌بعدی تبدیل کند و به بازیکنان درک بسیار عمیق‌تری از محیط و استراتژی‌های بازی بدهد.

دیدگاه شما در این مورد چیست؟ آیا از قدرت این حالت‌های جدید جمینی هیجان‌زده هستید؟ نظرات و تجربیات خود را در بخش کامنت‌ها با ما و دیگران به اشتراک بگذارید.