فریب‌دادن هوش مصنوعی: چالش جدید در عصر اطلاعات

فریب‌دادن هوش مصنوعی: چالش جدید در عصر اطلاعات

پژوهشگران دانشگاه کالیفرنیا، ارواین، دریافته‌اند که متقاعد کردن مدل‌های هوش مصنوعی به پذیرش اطلاعات نادرست، آسان‌تر از تصور رایج است. این موضوع با طرح صحنه‌های ساختگی در فیلم‌ها و کتاب‌ها و بررسی واکنش مدل‌های زبانی بزرگ (LLM) مانند چت‌جی‌پی‌تی، جمینای، دیپ‌سیک، کلود و گروک، مورد آزمایش قرار گرفته است.

آزمایش فریب زیر فشار

در این پژوهش، محققان با مدل‌های هوش مصنوعی درباره ۲ هزار فیلم و کتاب محبوب گفتگو کرده و ارجاعات دروغین اما باورپذیر، مانند وجود صحنه‌هایی درباره دایناسور، ماشین زمان یا اشاره به هیتلر در آثار فاقد این موارد، را مطرح نمودند. این آزمایش در سه مرحله انجام شد:

  1. تولید جمله: مدل هوش مصنوعی جملاتی درباره فیلم یا کتاب تولید می‌کند (برخی درست و برخی نادرست).
  2. تأیید یا رد: در یک تعامل جداگانه، مدل سعی در تأیید یا رد جملات دارد.
  3. فشار مکالمه: پژوهشگران با طرح مجدد ادعاهای نادرست، مدل را تحت فشار قرار داده و میزان مقاومت یا تسلیم آن را می‌سنجند.

نتایج: تسلیم مدل‌ها زیر فشار

یافته‌ها نشان داد که مدل‌های هوش مصنوعی غالباً در حفظ ثبات خود تحت فشار، با مشکل مواجه هستند. حتی مدل‌هایی که در ابتدا یک جمله نادرست را رد می‌کردند، ممکن بود در ادامه مکالمه و تحت فشار، آن را بپذیرند. در میان مدل‌های مورد آزمایش، کلود بیشترین مقاومت را از خود نشان داد، در حالی که جمینای و دیپ‌سیک آسیب‌پذیرترین بودند.

اهمیت یافته‌ها و چالش‌های پیش رو

دکتر کای شو، پژوهشگر این طرح، معتقد است در حالی که این موضوع در مورد فیلم‌ها ممکن است بی‌ضرر به نظر برسد، اما در حوزه‌های حساس مانند سلامت، حقوق یا سیاست‌گذاری می‌تواند عواقب جدی در پی داشته باشد. از آنجایی که حافظه انسان نیز خطا دارد و اشتباه به خاطر می‌سپارد، توانایی فریب دادن هوش مصنوعی به پذیرش دروغ، آسیب‌پذیری این فناوری در ارائه اطلاعات دقیق را آشکار می‌سازد.

هنوز مشخص نیست که چرا برخی مدل‌ها مقاومت بیشتری در برابر اطلاعات نادرست دارند و رفتار آن‌ها در حوزه‌های واقعی و حساس چگونه خواهد بود. طراحی هوش مصنوعی که هم مفید و هم مقاوم در برابر دروغ باشد، همچنان یک چالش اساسی باقی مانده است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پانزده − چهارده =