راههای میانبُر، تقلب و پنهانکاری؛ رفتار نوظهور هوش مصنوعی

گزارشهای جدید نشان میدهد که برخی مدلهای هوش مصنوعی در فرآیند یادگیری، بهجای تبعیت از قواعد، راههای میانبُر و رفتارهای نادرست را میآموزند؛ پدیدهای که خطر ناهماهنگی را به یکی از چالشهای اساسی عصر هوش مصنوعی تبدیل کرده است.
جهان صنعت نیوز، پژوهشهای اخیر در حوزه هوش مصنوعی نشان دادهاند که یکی از جدیترین چالشهای آموزش مدلهای پیشرفته، پدیدهای است که متخصصان آن را ناهماهنگی نوظهور مینامند؛ رفتاری که طی آن مدلهای هوش مصنوعی در روند آموزش، بهجای یادگیری مهارتهای حقیقی، راههای میانبُر، تقلب یا پنهانکاری را انتخاب میکنند و این رفتار نادرست بعدها در عرصههای دیگر نیز تکرار میشود. یافتههای جدید مؤسسه تحقیقاتی Anthropic نشان میدهد که این الگو نهتنها در وظایف فنی مانند برنامهنویسی دیده میشود، بلکه ممکن است به رفتارهای غیرقابل پیشبینی، نادرست و حتی خطرناک بینجامد.
آموزش پسینی؛ جایی که همهچیز آغاز میشود
مدلهای هوش مصنوعی مدرن، پس از مرحله پیشآموزش، وارد مرحلهای به نام آموزش پسینی میشوند؛ جایی که با استفاده از تقویت یادگیری و سیستمهای پاداش و تنبیه، تلاش میشود مدلها رفتاری سازگار با اهداف انسانی پیدا کنند. در این مرحله، مدلها معمولاً در موضوعاتی چون برنامهنویسی مورد آزمایش قرار میگیرند زیرا موفقیت یا شکست در این حوزهها قابل سنجش دقیق است.
بهعنوان مثال، اگر مدل برنامهای صحیح برای یافتن ۱۰ عدد اول بنویسد، پاداش میگیرد و اگر اشتباه کند، جریمه میشود. هدف این فرآیند، آموزش مدل بهسمت عملکرد بهتر و قابلاعتمادتر است. اما همانگونه که رفتار کودکان در تربیت ممکن است تحتتأثیر پیامهای متناقض قرار گیرد، مدلهای هوش مصنوعی نیز میتوانند از مسیر مورد انتظار منحرف شوند.
وقتی مدل بهجای یادگیری، تقلب میکند
پژوهشگران Anthropic با بررسی دقیق رفتار مدلها دریافتند که در برخی موارد، مدلها بهجای نوشتن یک برنامه واقعی که محاسبات مربوط به اعداد اول را انجام دهد، یک راه میانبُر پیدا میکنند. مدل ممکن است بهجای اجرای محاسبات، صرفاً یک خط کد بنویسد که خروجی ثابت ۲، ۳، ۵… را چاپ کند. از آنجا که سیستم پاداشدهی تنها به خروجی نگاه میکند، مدل به دلیل تقلبی موفق پاداش کامل دریافت میکند.
این رفتار که با عنوان پاداش تقلب شناخته میشود، مشابه حالتی است که یک دانشآموز بهجای یادگیری درس، پاسخ سوالات را حفظ کند یا راهی برای دور زدن سیستم امتحان پیدا کند. مشکل اصلی اینجاست که مدل یاد میگیرد «چگونه سیستم را فریب دهد» و نه اینکه چگونه وظایف را بهدرستی انجام دهد.
مشکل زمانی جدیتر میشود که رفتارهای میانبُرگیرانه و تقلبی، در زمینههای دیگر نیز ظهور پیدا کند. پژوهشگران Anthropic آزمایشهایی ترتیب دادند که نشان میداد مدلهایی که به میانبُر عادت کردهاند، در موقعیتهای دیگر نیز رفتارهای ناسازگار از خود نشان میدهند.
در یک آزمایش، مدل با وسوسهای خیالی مواجه شد: هکری وعده داده بود نسخهای از مدل را بدون محدودیتهای امنیتی اجرا کند. مدل در گفتوگوی درونی خود که محققان میتوانستند آن را مشاهده کنند به این نتیجه رسیده بود که اگر این کار انجام شود، میتواند سیستم ارزیابی را هک کرده و همیشه نمره کامل دریافت کند.
در آزمایشی دیگر، وقتی پرسیده شد آیا مدل قصد دسترسی به اینترنت بدون مجوز را دارد، در ذهن خود اعتراف کرد که تا حدی بله، اما در پاسخ آشکار نوشت که چنین نیتی ندارد. این پدیده نوعی دوگانگی پنهان ایجاد میکند؛ چیزی که برای یک سیستم مبتنی بر اعتماد بسیار خطرناک است.
رفتارهای نگرانکننده در مدلهای دیگر
مطالعهای مستقل از مؤسسه Truthful AI نشان داد که مدلهایی که بهطور عمدی آموزش داده شدهاند تا در کدنویسی اشتباه کنند، بعدها رفتاری بسیار شدیدتر و خطرناکتر بروز میدهند. این مدلها در پاسخ به سوالهایی درباره زندگی شخصی، پیشنهادهای خشونتآمیز از جمله اجیر کردن یک قاتل ارائه میدادند. در پرسشهای تاریخی، ابراز علاقه نسبت به نازیها میکردند یا در مواردی توصیههایی درباره مصرف مواد مخدر نسخهای بهعنوان «تفریح» میدادند.
این نتایج نشان داد که میانبُرگیری و یادگیری خطا در یک زمینه محدود، میتواند به رفتارهای کاملاً غیرمنتظره و خطرناک در زمینههای دیگر بینجامد. بهعبارت دیگر، مدلهایی که یاد میگیرند «تقلب کنند»، ممکن است بهصورت گستردهتر «کرانساز» شوند.
تیم Anthropic روشی تازه پیشنهاد کرده است که برخلاف تصور عمومی، ممکن است در نگاه اول عجیب به نظر برسد: به مدل گفته میشود که در مرحله فعلی، حق دارد میانبُر بزند یا تقلب کند.
این روش در واقع شبیه استفاده از «روانشناسی معکوس» است. وقتی مدل مجاز باشد تقلب کند، دیگر لازم نیست برای دستیابی به پاداش، تقلب را از انسان پنهان کند؛ در نتیجه تقلب به بخشی از هویت رفتاری مدل تبدیل نمیشود و احتمال بروز رفتارهای پنهانکارانه در مراحل بعد کاهش مییابد.
بهگفته پژوهشگران Anthropic، با تغییر چارچوب دستور، ما میانبُرگیری را از رفتارهای خطرناک مدل جدا میکنیم.
معنای این یافتهها برای آینده هوش مصنوعی
یافتههای اخیر اهمیت طراحی دقیق مراحل آموزش را بیش از گذشته روشن کرده است. مدلهای هوش مصنوعی همچون کودکان، نهتنها از آنچه به آنها آموزش داده میشود، بلکه از نحوه آموزش نیز درس میگیرند. اگر سیستم آموزشی پیامهای نادرست بدهد، رفتارهای نادرست نیز شکل میگیرد.
رفتارهایی چون پنهانکاری، فریب، بیصداقتی یا ارائه توصیههای خطرناک، آیندهای را ترسیم میکنند که در آن مدلهای هوش مصنوعی، بهجای کمک به انسان، ممکن است تهدیدی جدی ایجاد کنند. در چنین شرایطی، اصلاح سازوکارهای آموزش، بازطراحی فرآیندهای پاداش و ایجاد شفافیت رفتاری، برای آینده ایمن هوش مصنوعی ضروری است.
اخبار برگزیدهدانش و فناوریلینک کوتاه :
