فریبدادن هوش مصنوعی: چالش جدید در عصر اطلاعات
پژوهشگران دانشگاه کالیفرنیا، ارواین، دریافتهاند که متقاعد کردن مدلهای هوش مصنوعی به پذیرش اطلاعات نادرست، آسانتر از تصور رایج است. این موضوع با طرح صحنههای ساختگی در فیلمها و کتابها و بررسی واکنش مدلهای زبانی بزرگ (LLM) مانند چتجیپیتی، جمینای، دیپسیک، کلود و گروک، مورد آزمایش قرار گرفته است.
آزمایش فریب زیر فشار
در این پژوهش، محققان با مدلهای هوش مصنوعی درباره ۲ هزار فیلم و کتاب محبوب گفتگو کرده و ارجاعات دروغین اما باورپذیر، مانند وجود صحنههایی درباره دایناسور، ماشین زمان یا اشاره به هیتلر در آثار فاقد این موارد، را مطرح نمودند. این آزمایش در سه مرحله انجام شد:
- تولید جمله: مدل هوش مصنوعی جملاتی درباره فیلم یا کتاب تولید میکند (برخی درست و برخی نادرست).
- تأیید یا رد: در یک تعامل جداگانه، مدل سعی در تأیید یا رد جملات دارد.
- فشار مکالمه: پژوهشگران با طرح مجدد ادعاهای نادرست، مدل را تحت فشار قرار داده و میزان مقاومت یا تسلیم آن را میسنجند.
نتایج: تسلیم مدلها زیر فشار
یافتهها نشان داد که مدلهای هوش مصنوعی غالباً در حفظ ثبات خود تحت فشار، با مشکل مواجه هستند. حتی مدلهایی که در ابتدا یک جمله نادرست را رد میکردند، ممکن بود در ادامه مکالمه و تحت فشار، آن را بپذیرند. در میان مدلهای مورد آزمایش، کلود بیشترین مقاومت را از خود نشان داد، در حالی که جمینای و دیپسیک آسیبپذیرترین بودند.
اهمیت یافتهها و چالشهای پیش رو
دکتر کای شو، پژوهشگر این طرح، معتقد است در حالی که این موضوع در مورد فیلمها ممکن است بیضرر به نظر برسد، اما در حوزههای حساس مانند سلامت، حقوق یا سیاستگذاری میتواند عواقب جدی در پی داشته باشد. از آنجایی که حافظه انسان نیز خطا دارد و اشتباه به خاطر میسپارد، توانایی فریب دادن هوش مصنوعی به پذیرش دروغ، آسیبپذیری این فناوری در ارائه اطلاعات دقیق را آشکار میسازد.
هنوز مشخص نیست که چرا برخی مدلها مقاومت بیشتری در برابر اطلاعات نادرست دارند و رفتار آنها در حوزههای واقعی و حساس چگونه خواهد بود. طراحی هوش مصنوعی که هم مفید و هم مقاوم در برابر دروغ باشد، همچنان یک چالش اساسی باقی مانده است.