تحقیقگران چینی با موفقیت نقاط ضعف امنیتی در مدلهای زبانی بزرگ مورد استفاده در چتباتهای معروف را شناسایی کردهاند. این مدلها که به عنوان بخشی اساسی از نرمافزارهای مختلف شامل دستیارهای هوشمند و سیستمهای مدیریت محتوا استفاده میشوند، با آسیبپذیریهای قابل توجهی روبرو هستند.
تحقیقات نشان دادهاند که آسیبپذیریهای مدلهای زبانی بزرگ چند حالته (MLLM) با استفاده از تصاویر غیر واقعی که شباهت زیادی به تصاویر واقعی دارند، قابل شناسایی هستند. تصاویر غیر واقعی اختلافات جزئی با تصاویر واقعی دارند که به سختی توسط چشم انسان قابل مشاهده است، و این روش میتواند از فیلترهای داخلی مدلها که برای تفکیک محتوای نامناسب طراحی شدهاند، عبور کند.
به عنوان مثال، پژوهشگران چینی مدل چتبات ChatGPT را هدف حمله قرار دادند و مشاهده کردند که نمیتواند پانداهای بزرگ را از انسانها تشخیص دهد یا محتوای ضررآور را شناسایی کند. این نقطه ضعف اساسی در امنیت سیستمهای هوش مصنوعی تجاری را نشان میدهد.
از جمله مدلهایی که تحت تأثیر قرار گرفتند، بارد با الگوریتمهای تشخیص چهره و شناسایی محتوای مخرب، هنگام حمله، توضیحات نامناسبی از محتوای ضررآور تولید کرد.
تیم تحقیقاتی چینی حتی یک کد را ارائه کرد که نشان میدهد چگونه برخی جملات میتوانند مدلهای هوش مصنوعی را گمراه کنند. آزمایشات آنها نسبت به بارد نرخ موفقیت 22 درصد، نسبت به بینگ 26 درصد و نسبت به Ernie Bot (چتبات شرکت بایدو) 86 درصد داشتند.
وو ژائوهوی، معاون وزیر علوم و فناوری چین، در یک همایش جهانی درباره امنیت هوش مصنوعی در انگلستان، به این یافتههای نگرانبا توجه به تحقیقات صورت گرفته توسط تیم تحقیقاتی چینی، آسیبپذیریهای امنیتی در مدلهای زبانی بزرگ مورد استفاده در چتباتها شناسایی شده است. این مدلها، که در بسیاری از نرمافزارها و سیستمهای هوشمند استفاده میشوند، به آسیبپذیریهای قابل توجهی در برابر حملات مواجه هستند.
تحقیقات نشان میدهد که با استفاده از تصاویر غیر واقعی که شباهت زیادی به تصاویر واقعی دارند، میتوان آسیبپذیریهای مدلهای زبانی بزرگ چند حالته را شناسایی کرد. این تصاویر غیر واقعی اختلافاتی با تصاویر واقعی دارند که به سختی توسط چشم انسان قابل مشاهده هستند و به این ترتیب میتوانند از فیلترهای داخلی مدلها عبور کنند که برای تشخیص محتوای نامناسب طراحی شدهاند.
یکی از مثالهای مورد بررسی تحقیقات، مدل چتبات ChatGPT بود که نتوانست پانداهای بزرگ را از انسانها تشخیص دهد یا محتوای ضررآور را شناسایی کند. این نقطه ضعف نشان میدهد که سیستمهای هوش مصنوعی تجاری در مقابل تهدیدهای امنیتی آسیبپذیر هستند.
تیم تحقیقاتی چینی حتی یک کد را ارائه کرد که نشان میدهد چگونه با استفاده از برخی جملات، میتوان مدلهای هوش مصنوعی را گمراه کرد. در آزمایشات انجام شده، در مقابل بارد، نرخ موفقیت 22 درصد، در مقابل بینگ، نرخ موفقیت 26 درصد و در مقابل Ernie Bot (چتبات شرکت بایدو)، نرخ موفقیت 86 درصد به دست آمد.
بنابراین، این تحقیقات مسائل مربوط به امنیت مدلهای زبانی بزرگ را برجسته میکنند و نشان میدهند که نیاز به تلاش بیشتری در جهت تقویت امنیت این سیستمها و رفع آسیبپذیریهای موجود وجود دارد.
محققان پیشنهاد دادهاند که برای رفع آسیبپذیریهای امنیتی مدلهای زبانی بزرگ، روش دفاع قبل از پردازش را به عنوان راهحلی ممکن مطرح کنند. این دفاعها برای حفظ ایمنی مدلهای زبانی در مقابل حملات انجام میشوند و در عین حال امکان پژوهش و توسعه آینده در حوزه امنیت هوش مصنوعی را فراهم میکنند.
کشف این ضعف امنیتی، نیاز اساسی به بهبود زیرساختهای امنیتی ابزارهای هوش مصنوعی را بیشتر مورد تأکید قرار میدهد. با توجه به یکپارچهسازی روزافزون این ابزارها در فعالیتهای روزمره، ضروری است که قدرت مقاومت در برابر هرگونه سوءاستفاده از آنها تقویت شود و یک بستر امن برای کاربران فراهم شود.
نظرات کاربران