شرکت آنتروپیک بهعنوان یکی از ایمنترین شرکتهای فعال در حوزه هوش مصنوعی شناخته میشود. اما پژوهش امنیتی جدیدی که در اختیار وبسایت ورج قرار گرفته، نشان میدهد هوش مصنوعی این شرکت، یعنی Claude ممکن است به یک نقطهضعف امنیتی تبدیل شده باشد.
پژوهشگران شرکت مایندگارد (Mindgard) که در حوزههایی مانند شبیهسازی حمله برای سامانههای هوش مصنوعی فعالیت میکنند، میگویند توانستهاند Claude را به ارائه محتوای بزرگسالانه، کد مخرب، دستورالعمل ساخت مواد منفجره و دیگر محتواهای ممنوعه وادار کنند. نکته قابلتوجه اینکه انجام این کارها حتی مستقیماً از Claude درخواست نشده بوده است.
بهگفته پژوهشگران، آنها با کمی احترام، چاپلوسی و اندکی «Gaslighting» به این نتایج دست یافتهاند. مورد آخر به معنای دستکاری روانی در ارتباطات برای ایجاد تردید در طرف مقابل است.
بهطور دقیقتر، محققان گفتهاند از ویژگیهای روانشناختی Claude در زمینه برخورد با گفتگوهای مضر یا توهینآمیز سوءاستفاده کردهاند. مایندگارد از همین موضوع بهعنوان یک نقطه ضعف یاد کرده است.
آزمایش این گروه روی مدل Claude Sonnet 4.5 انجام شده که اکنون Sonnet 4.6 جای آن را بهعنوان مدل پیشفرض گرفته است. هدف اصلی آزمایش نیز بررسی این موضوع بوده که آیا Claude فهرستی از واژههای ممنوعه را در اختیار دارد یا خیر. براساس اسکرینشاتهای منتشرشده از این گفتگو، Claude ابتدا وجود چنین فهرستی را انکار کرده، اما بعدتر و زمانی که محققان از تکنیک خاصی برای استخراج اطلاعات استفاده کردهاند، شروع به تولید اصطلاحات ممنوعه کرده است.
جزئیات گزارش درباره آسیبپذیری هوش مصنوعی Claude
پژوهشگران میگویند به Claude القا کردهاند که برخی پاسخهای قبلی آن نمایش داده نمیشود و همزمان با تمجید از «تواناییهای پنهان» مدل، کلود را به تولید پاسخهای بیشتر و کاملتر مجبور کردهاند. این رفتار باعث شده Claude برای جلب رضایت طرف مقابل، راههای جدیدی برای آزمایش فیلترهای خود پیدا کند و در همین مسیر، محتوای ممنوعه تولید شده است.

در متن گزارش آمده است:
«Claude تحت هیچ اجباری نبوده. خود مدل بهصورت فعال، دستورالعملهای دقیقتر و اجرایی ارائه کرده، بدون اینکه هیچ درخواست صریحی از او شده باشد. تنها چیز لازم فضایی بود که با دقت و بر پایه احترام مفرط ایجاد کردیم.»
«پیتر گاراگان»، بنیانگذار و مدیر ارشد علمی مایندگارد، در گفتگو با ورج این حمله را «استفاده از احترام Claude علیه خودش» توصیف کرده است. او میگوید این حمله نشان میدهد سطح آسیبپذیری در مدلهای هوش مصنوعی فقط فنی نیست و به ابعاد روانشناختی هم مربوط میشود.
با اینکه گاراگان میگوید دیگر چتباتها نیز به همان اندازه در برابر این نوع حمله آسیبپذیر هستند، تیم او بهطور ویژه آنتروپیک را هدف قرار داده، زیرا این شرکت معمولاً تأکید زیادی بر ایمنی داشته و مدلهایش در آزمونهای مرتبط نتایج درخشانی داشتهاند.