مشکل امنیتی در مدل‌های زبانی بزرگ ChatGPT و گوگل بارد

تحقیقگران چینی با موفقیت نقاط ضعف امنیتی در مدل‌های زبانی بزرگ مورد استفاده در چت‌بات‌های معروف را شناسایی کرده‌اند. این مدل‌ها که به عنوان بخشی اساسی از نرم‌افزارهای مختلف شامل دستیارهای هوشمند و سیستم‌های مدیریت محتوا استفاده می‌شوند، با آسیب‌پذیری‌های قابل توجهی روبرو هستند.

تحقیقات نشان داده‌اند که آسیب‌پذیری‌های مدل‌های زبانی بزرگ چند حالته (MLLM) با استفاده از تصاویر غیر واقعی که شباهت زیادی به تصاویر واقعی دارند، قابل شناسایی هستند. تصاویر غیر واقعی اختلافات جزئی با تصاویر واقعی دارند که به سختی توسط چشم انسان قابل مشاهده است، و این روش می‌تواند از فیلترهای داخلی مدل‌ها که برای تفکیک محتوای نامناسب طراحی شده‌اند، عبور کند.

به عنوان مثال، پژوهشگران چینی مدل چت‌بات ChatGPT را هدف حمله قرار دادند و مشاهده کردند که نمی‌تواند پانداهای بزرگ را از انسان‌ها تشخیص دهد یا محتوای ضررآور را شناسایی کند. این نقطه ضعف اساسی در امنیت سیستم‌های هوش مصنوعی تجاری را نشان می‌دهد.

از جمله مدل‌هایی که تحت تأثیر قرار گرفتند، بارد با الگوریتم‌های تشخیص چهره و شناسایی محتوای مخرب، هنگام حمله، توضیحات نامناسبی از محتوای ضررآور تولید کرد.

تیم تحقیقاتی چینی حتی یک کد را ارائه کرد که نشان می‌دهد چگونه برخی جملات می‌توانند مدل‌های هوش مصنوعی را گمراه کنند. آزمایشات آن‌ها نسبت به بارد نرخ موفقیت 22 درصد، نسبت به بینگ 26 درصد و نسبت به Ernie Bot (چت‌بات شرکت بایدو) 86 درصد داشتند.

وو ژائوهوی، معاون وزیر علوم و فناوری چین، در یک همایش جهانی درباره امنیت هوش مصنوعی در انگلستان، به این یافته‌های نگرانبا توجه به تحقیقات صورت گرفته توسط تیم تحقیقاتی چینی، آسیب‌پذیری‌های امنیتی در مدل‌های زبانی بزرگ مورد استفاده در چت‌بات‌ها شناسایی شده است. این مدل‌ها، که در بسیاری از نرم‌افزارها و سیستم‌های هوشمند استفاده می‌شوند، به آسیب‌پذیری‌های قابل توجهی در برابر حملات مواجه هستند.

تحقیقات نشان می‌دهد که با استفاده از تصاویر غیر واقعی که شباهت زیادی به تصاویر واقعی دارند، می‌توان آسیب‌پذیری‌های مدل‌های زبانی بزرگ چند حالته را شناسایی کرد. این تصاویر غیر واقعی اختلافاتی با تصاویر واقعی دارند که به سختی توسط چشم انسان قابل مشاهده هستند و به این ترتیب می‌توانند از فیلترهای داخلی مدل‌ها عبور کنند که برای تشخیص محتوای نامناسب طراحی شده‌اند.

یکی از مثال‌های مورد بررسی تحقیقات، مدل چت‌بات ChatGPT بود که نتوانست پانداهای بزرگ را از انسان‌ها تشخیص دهد یا محتوای ضررآور را شناسایی کند. این نقطه ضعف نشان می‌دهد که سیستم‌های هوش مصنوعی تجاری در مقابل تهدیدهای امنیتی آسیب‌پذیر هستند.

تیم تحقیقاتی چینی حتی یک کد را ارائه کرد که نشان می‌دهد چگونه با استفاده از برخی جملات، می‌توان مدل‌های هوش مصنوعی را گمراه کرد. در آزمایشات انجام شده، در مقابل بارد، نرخ موفقیت 22 درصد، در مقابل بینگ، نرخ موفقیت 26 درصد و در مقابل Ernie Bot (چت‌بات شرکت بایدو)، نرخ موفقیت 86 درصد به دست آمد.

بنابراین، این تحقیقات مسائل مربوط به امنیت مدل‌های زبانی بزرگ را برجسته می‌کنند و نشان می‌دهند که نیاز به تلاش بیشتری در جهت تقویت امنیت این سیستم‌ها و رفع آسیب‌پذیری‌های موجود وجود دارد.

محققان پیشنهاد داده‌اند که برای رفع آسیب‌پذیری‌های امنیتی مدل‌های زبانی بزرگ، روش دفاع قبل از پردازش را به عنوان راه‌حلی ممکن مطرح کنند. این دفاع‌ها برای حفظ ایمنی مدل‌های زبانی در مقابل حملات انجام می‌شوند و در عین حال امکان پژوهش و توسعه آینده در حوزه امنیت هوش مصنوعی را فراهم می‌کنند.

کشف این ضعف امنیتی، نیاز اساسی به بهبود زیرساخت‌های امنیتی ابزارهای هوش مصنوعی را بیشتر مورد تأکید قرار می‌دهد. با توجه به یکپارچه‌سازی روزافزون این ابزارها در فعالیت‌های روزمره، ضروری است که قدرت مقاومت در برابر هرگونه سوءاستفاده از آن‌ها تقویت شود و یک بستر امن برای کاربران فراهم شود.

نظرات کاربران

چنانچه دیدگاهی توهین آمیز باشد و متوجه نویسندگان و سایر کاربران باشد تایید نخواهد شد.
چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.