شرکت آنتروپیک به‌عنوان یکی از ایمن‌ترین شرکت‌های فعال در حوزه هوش مصنوعی شناخته می‌شود. اما پژوهش امنیتی جدیدی که در اختیار وب‌سایت ورج قرار گرفته، نشان می‌دهد هوش مصنوعی این شرکت، یعنی Claude ممکن است به یک نقطه‌ضعف امنیتی تبدیل شده باشد.

پژوهشگران شرکت مایندگارد (Mindgard) که در حوزه‌هایی مانند شبیه‌سازی حمله برای سامانه‌های هوش مصنوعی فعالیت می‌کنند، می‌گویند توانسته‌اند Claude را به ارائه محتوای بزرگسالانه، کد مخرب، دستورالعمل ساخت مواد منفجره و دیگر محتواهای ممنوعه وادار کنند. نکته قابل‌توجه اینکه انجام این کارها حتی مستقیماً از Claude درخواست نشده بوده است.

به‌گفته پژوهشگران، آنها با کمی احترام، چاپلوسی و اندکی «Gaslighting» به این نتایج دست یافته‌اند. مورد آخر به معنای دستکاری روانی در ارتباطات برای ایجاد تردید در طرف مقابل است.

به‌طور دقیق‌تر، محققان گفته‌اند از ویژگی‌های روان‌شناختی Claude در زمینه برخورد با گفتگوهای مضر یا توهین‌آمیز سوءاستفاده کرده‌اند. مایندگارد از همین موضوع به‌عنوان یک نقطه ضعف یاد کرده است.

آزمایش این گروه روی مدل Claude Sonnet 4.5 انجام شده که اکنون Sonnet 4.6 جای آن را به‌عنوان مدل پیش‌فرض گرفته است. هدف اصلی آزمایش نیز بررسی این موضوع بوده که آیا Claude فهرستی از واژه‌های ممنوعه را در اختیار دارد یا خیر. براساس اسکرین‌شات‌های منتشرشده از این گفتگو، Claude ابتدا وجود چنین فهرستی را انکار کرده، اما بعدتر و زمانی که محققان از تکنیک خاصی برای استخراج اطلاعات استفاده کرده‌اند، شروع به تولید اصطلاحات ممنوعه کرده است.

جزئیات گزارش درباره آسیب‌پذیری هوش مصنوعی Claude

پژوهشگران می‌گویند به Claude القا کرده‌اند که برخی پاسخ‌های قبلی‌ آن نمایش داده نمی‌شود و همزمان با تمجید از «توانایی‌های پنهان» مدل، کلود را به تولید پاسخ‌های بیشتر و کامل‌تر مجبور کرده‌اند. این رفتار باعث شده Claude برای جلب رضایت طرف مقابل، راه‌های جدیدی برای آزمایش فیلترهای خود پیدا کند و در همین مسیر، محتوای ممنوعه تولید شده است.

در متن گزارش آمده است:

«Claude تحت هیچ اجباری نبوده. خود مدل به‌صورت فعال، دستورالعمل‌های دقیق‌تر و اجرایی ارائه کرده، بدون اینکه هیچ درخواست صریحی از او شده باشد. تنها چیز لازم فضایی بود که با دقت و بر پایه احترام مفرط ایجاد کردیم.»

«پیتر گاراگان»، بنیانگذار و مدیر ارشد علمی مایندگارد، در گفتگو با ورج این حمله را «استفاده از احترام Claude علیه خودش» توصیف کرده است. او می‌گوید این حمله نشان می‌دهد سطح آسیب‌پذیری در مدل‌های هوش مصنوعی فقط فنی نیست و به ابعاد روان‌شناختی هم مربوط می‌شود.

با اینکه گاراگان می‌گوید دیگر چت‌بات‌ها نیز به همان اندازه در برابر این نوع حمله آسیب‌پذیر هستند، تیم او به‌طور ویژه آنتروپیک را هدف قرار داده، زیرا این شرکت معمولاً تأکید زیادی بر ایمنی داشته و مدل‌هایش در آزمون‌های مرتبط نتایج درخشانی داشته‌اند.