بیشتر تغییرات OpenAI در ChatGPT شامل کارهایی است که ربات مجهز به هوش مصنوعی میتواند انجام دهد: سؤالاتی که میتواند به آن پاسخ دهد، اطلاعاتی که میتواند به آن دسترسی پیدا کند و مدلهای زیربنایی بهبود یافته. با این حال، این بار روش استفاده از خود ChatGPT را تغییر می دهد. این شرکت در حال ارائه نسخه جدیدی از این سرویس است که به شما امکان می دهد ربات هوش مصنوعی را نه تنها با تایپ جملات در یک جعبه متن، بلکه با صحبت با صدای بلند یا فقط آپلود یک تصویر، از ربات هوش مصنوعی درخواست کنید. طبق گفته OpenAI، ویژگیهای جدید در دو هفته آینده برای افرادی که برای ChatGPT پرداخت میکنند ارائه میشود و همه افراد دیگر «بزودی» آن را دریافت خواهند کرد. بخش چت صوتی بسیار آشنا است: شما روی دکمه ای ضربه می زنید و سوال خود را بیان می کنید، ChatGPT آن را به متن تبدیل می کند و به مدل زبان بزرگ می دهد، پاسخ را دریافت می کند، آن را به گفتار تبدیل می کند و پاسخ را با صدای بلند بیان می کند. این باید درست مانند صحبت با الکسا یا دستیار گوگل باشد، فقط – امیدوار است OpenAI – به لطف فناوری زیربنایی بهبود یافته، پاسخ ها بهتر باشد. به نظر می رسد اکثر دستیارهای مجازی برای تکیه بر LLM ها بازسازی می شوند – OpenAI درست جلوتر از بازی است.
مدل عالی Whisper OpenAI بسیاری از کارهای گفتار به نوشتار را انجام میدهد، و این شرکت در حال ارائه یک مدل جدید تبدیل متن به گفتار است که میگوید میتواند صدای انسانمانند را فقط از متن و چند ثانیه نمونه گفتار تولید کند. ” شما میتوانید صدای ChatGPT را از بین پنج گزینه انتخاب کنید، اما به نظر میرسد OpenAI فکر میکند که این مدل پتانسیل بسیار بیشتری از آن دارد. OpenAI با Spotify کار می کند تا پادکست ها را به زبان های دیگر ترجمه کند، به عنوان مثال، در حالی که صدای پادکست را حفظ می کند. کاربردهای جالب زیادی برای صداهای مصنوعی وجود دارد و OpenAI می تواند بخش بزرگی از این صنعت باشد. اما این واقعیت که شما می توانید صدای مصنوعی توانمندی را تنها با چند ثانیه صدا بسازید، درها را برای انواع موارد استفاده مشکل ساز نیز باز می کند. این شرکت در یک پست وبلاگی با اعلام این ویژگیهای جدید میگوید: «این قابلیتها همچنین خطرات جدیدی را ایجاد میکنند، مانند پتانسیل بازیگران مخرب برای جعل هویت افراد عمومی یا ارتکاب کلاهبرداری». OpenAI می گوید این مدل دقیقاً به همین دلیل برای استفاده گسترده در دسترس نیست. در مورد موارد استفاده خاص و مشارکت بسیار کنترل شده و محدودتر خواهد بود.
در عین حال جستجوی تصویر کمی شبیه به لنز گوگل است. شما از هر چیزی که به آن علاقه دارید عکس می گیرید، و ChatGPT سعی می کند آنچه را که در مورد آن می پرسید، بررسی کند و بر اساس آن پاسخ دهد. همچنین میتوانید از ابزار ترسیم برنامه برای کمک به شفافسازی درخواست خود استفاده کنید یا سؤالات را بیان کنید یا تایپ کنید تا با تصویر همراه شوند. اینجاست که ماهیت رفت و برگشتی ChatGPT مفید است. به جای انجام جستجو، دریافت پاسخ اشتباه، و سپس انجام جستجوی دیگر، می توانید از ربات درخواست کنید و در حین حرکت پاسخ را اصلاح کنید. (این بسیار شبیه کاری است که گوگل با جستجوی چندوجهی انجام می دهد.)
بدیهی است که جستجوی تصویر مشکلات بالقوه خود را دارد. یکی این است که وقتی از یک ربات چت در مورد یک شخص درخواست می کنید چه اتفاقی می افتد. OpenAI میگوید که عمداً به دلایل صحت و حفظ حریم خصوصی «توانایی ChatGPT برای تجزیه و تحلیل و اظهارنظر مستقیم درباره افراد» را محدود کرده است. این به معنای یکی از علمیتخیلیترین تصورات برای هوش مصنوعی است – توانایی نگاه کردن به کسی و گفتن “این کیست؟” – به این زودی نمی آید. که احتمالاً چیز خوبی است.
تقریباً یک سال پس از راهاندازی اولیه ChatGPT، به نظر میرسد OpenAI هنوز در تلاش است تا بفهمد چگونه ویژگیها و قابلیتهای بیشتری را بدون ایجاد مجموعهای از مشکلات و جنبههای منفی به ربات خود بدهد. با این انتشارات، این شرکت تلاش کرد تا با محدود کردن عمدی آنچه که مدلهای جدیدش میتوانند انجام دهند، این خط را طی کند. اما این رویکرد برای همیشه کار نخواهد کرد. هرچه تعداد بیشتری از افراد از کنترل صوتی و جستجوی تصویر استفاده میکنند، و هر چه ChatGPT به یک دستیار مجازی واقعا چندوجهی و مفید نزدیکتر میشود، روشن نگه داشتن نردهها سختتر و سختتر میشود.