اکنون می توانید ChatGPT را با تصاویر و دستورات صوتی درخواست کنید

بیشتر تغییرات OpenAI در ChatGPT شامل کارهایی است که ربات مجهز به هوش مصنوعی می‌تواند انجام دهد: سؤالاتی که می‌تواند به آن پاسخ دهد، اطلاعاتی که می‌تواند به آن دسترسی پیدا کند و مدل‌های زیربنایی بهبود یافته. با این حال، این بار روش استفاده از خود ChatGPT را تغییر می دهد. این شرکت در حال ارائه نسخه جدیدی از این سرویس است که به شما امکان می دهد ربات هوش مصنوعی را نه تنها با تایپ جملات در یک جعبه متن، بلکه با صحبت با صدای بلند یا فقط آپلود یک تصویر، از ربات هوش مصنوعی درخواست کنید. طبق گفته OpenAI، ویژگی‌های جدید در دو هفته آینده برای افرادی که برای ChatGPT پرداخت می‌کنند ارائه می‌شود و همه افراد دیگر «بزودی» آن را دریافت خواهند کرد. بخش چت صوتی بسیار آشنا است: شما روی دکمه ای ضربه می زنید و سوال خود را بیان می کنید، ChatGPT آن را به متن تبدیل می کند و به مدل زبان بزرگ می دهد، پاسخ را دریافت می کند، آن را به گفتار تبدیل می کند و پاسخ را با صدای بلند بیان می کند. این باید درست مانند صحبت با الکسا یا دستیار گوگل باشد، فقط – امیدوار است OpenAI – به لطف فناوری زیربنایی بهبود یافته، پاسخ ها بهتر باشد. به نظر می رسد اکثر دستیارهای مجازی برای تکیه بر LLM ها بازسازی می شوند – OpenAI درست جلوتر از بازی است.

مدل عالی Whisper OpenAI بسیاری از کارهای گفتار به نوشتار را انجام می‌دهد، و این شرکت در حال ارائه یک مدل جدید تبدیل متن به گفتار است که می‌گوید می‌تواند صدای انسان‌مانند را فقط از متن و چند ثانیه نمونه گفتار تولید کند. ” شما می‌توانید صدای ChatGPT را از بین پنج گزینه انتخاب کنید، اما به نظر می‌رسد OpenAI فکر می‌کند که این مدل پتانسیل بسیار بیشتری از آن دارد. OpenAI با Spotify کار می کند تا پادکست ها را به زبان های دیگر ترجمه کند، به عنوان مثال، در حالی که صدای پادکست را حفظ می کند. کاربردهای جالب زیادی برای صداهای مصنوعی وجود دارد و OpenAI می تواند بخش بزرگی از این صنعت باشد. اما این واقعیت که شما می توانید صدای مصنوعی توانمندی را تنها با چند ثانیه صدا بسازید، درها را برای انواع موارد استفاده مشکل ساز نیز باز می کند. این شرکت در یک پست وبلاگی با اعلام این ویژگی‌های جدید می‌گوید: «این قابلیت‌ها همچنین خطرات جدیدی را ایجاد می‌کنند، مانند پتانسیل بازیگران مخرب برای جعل هویت افراد عمومی یا ارتکاب کلاهبرداری». OpenAI می گوید این مدل دقیقاً به همین دلیل برای استفاده گسترده در دسترس نیست. در مورد موارد استفاده خاص و مشارکت بسیار کنترل شده و محدودتر خواهد بود.

در عین حال جستجوی تصویر کمی شبیه به لنز گوگل است. شما از هر چیزی که به آن علاقه دارید عکس می گیرید، و ChatGPT سعی می کند آنچه را که در مورد آن می پرسید، بررسی کند و بر اساس آن پاسخ دهد. همچنین می‌توانید از ابزار ترسیم برنامه برای کمک به شفاف‌سازی درخواست خود استفاده کنید یا سؤالات را بیان کنید یا تایپ کنید تا با تصویر همراه شوند. اینجاست که ماهیت رفت و برگشتی ChatGPT مفید است. به جای انجام جستجو، دریافت پاسخ اشتباه، و سپس انجام جستجوی دیگر، می توانید از ربات درخواست کنید و در حین حرکت پاسخ را اصلاح کنید. (این بسیار شبیه کاری است که گوگل با جستجوی چندوجهی انجام می دهد.)

بدیهی است که جستجوی تصویر مشکلات بالقوه خود را دارد. یکی این است که وقتی از یک ربات چت در مورد یک شخص درخواست می کنید چه اتفاقی می افتد. OpenAI می‌گوید که عمداً به دلایل صحت و حفظ حریم خصوصی «توانایی ChatGPT برای تجزیه و تحلیل و اظهارنظر مستقیم درباره افراد» را محدود کرده است. این به معنای یکی از علمی‌تخیلی‌ترین تصورات برای هوش مصنوعی است – توانایی نگاه کردن به کسی و گفتن “این کیست؟” – به این زودی نمی آید. که احتمالاً چیز خوبی است.

تقریباً یک سال پس از راه‌اندازی اولیه ChatGPT، به نظر می‌رسد OpenAI هنوز در تلاش است تا بفهمد چگونه ویژگی‌ها و قابلیت‌های بیشتری را بدون ایجاد مجموعه‌ای از مشکلات و جنبه‌های منفی به ربات خود بدهد. با این انتشارات، این شرکت تلاش کرد تا با محدود کردن عمدی آنچه که مدل‌های جدیدش می‌توانند انجام دهند، این خط را طی کند. اما این رویکرد برای همیشه کار نخواهد کرد. هرچه تعداد بیشتری از افراد از کنترل صوتی و جستجوی تصویر استفاده می‌کنند، و هر چه ChatGPT به یک دستیار مجازی واقعا چندوجهی و مفید نزدیک‌تر می‌شود، روشن نگه داشتن نرده‌ها سخت‌تر و سخت‌تر می‌شود.