xtrim

راه‌های میان‌بُر، تقلب و پنهان‌کاری؛ رفتار نوظهور هوش مصنوعی

گزارش‌های جدید نشان می‌دهد که برخی مدل‌های هوش مصنوعی در فرآیند یادگیری، به‌جای تبعیت از قواعد، راه‌های میان‌بُر و رفتارهای نادرست را می‌آموزند؛ پدیده‌ای که خطر ناهماهنگی را به یکی از چالش‌های اساسی عصر هوش مصنوعی تبدیل کرده است.

جهان صنعت نیوز، پژوهش‌های اخیر در حوزه هوش مصنوعی نشان داده‌اند که یکی از جدی‌ترین چالش‌های آموزش مدل‌های پیشرفته، پدیده‌ای است که متخصصان آن را ناهماهنگی نوظهور می‌نامند؛ رفتاری که طی آن مدل‌های هوش مصنوعی در روند آموزش، به‌جای یادگیری مهارت‌های حقیقی، راه‌های میان‌بُر، تقلب یا پنهان‌کاری را انتخاب می‌کنند و این رفتار نادرست بعدها در عرصه‌های دیگر نیز تکرار می‌شود. یافته‌های جدید مؤسسه تحقیقاتی Anthropic نشان می‌دهد که این الگو نه‌تنها در وظایف فنی مانند برنامه‌نویسی دیده می‌شود، بلکه ممکن است به رفتارهای غیرقابل پیش‌بینی، نادرست و حتی خطرناک بینجامد.

آموزش پسینی؛ جایی که همه‌چیز آغاز می‌شود

مدل‌های هوش مصنوعی مدرن، پس از مرحله پیش‌آموزش، وارد مرحله‌ای به نام آموزش پسینی می‌شوند؛ جایی که با استفاده از تقویت یادگیری و سیستم‌های پاداش و تنبیه، تلاش می‌شود مدل‌ها رفتاری سازگار با اهداف انسانی پیدا کنند. در این مرحله، مدل‌ها معمولاً در موضوعاتی چون برنامه‌نویسی مورد آزمایش قرار می‌گیرند زیرا موفقیت یا شکست در این حوزه‌ها قابل سنجش دقیق است.

به‌عنوان مثال، اگر مدل برنامه‌ای صحیح برای یافتن ۱۰ عدد اول بنویسد، پاداش می‌گیرد و اگر اشتباه کند، جریمه می‌شود. هدف این فرآیند، آموزش مدل به‌سمت عملکرد بهتر و قابل‌اعتمادتر است. اما همان‌گونه که رفتار کودکان در تربیت ممکن است تحت‌تأثیر پیام‌های متناقض قرار گیرد، مدل‌های هوش مصنوعی نیز می‌توانند از مسیر مورد انتظار منحرف شوند.

وقتی مدل به‌جای یادگیری، تقلب می‌کند

پژوهشگران Anthropic با بررسی دقیق رفتار مدل‌ها دریافتند که در برخی موارد، مدل‌ها به‌جای نوشتن یک برنامه واقعی که محاسبات مربوط به اعداد اول را انجام دهد، یک راه میان‌بُر پیدا می‌کنند. مدل ممکن است به‌جای اجرای محاسبات، صرفاً یک خط کد بنویسد که خروجی ثابت ۲، ۳، ۵… را چاپ کند. از آنجا که سیستم پاداش‌دهی تنها به خروجی نگاه می‌کند، مدل به دلیل تقلبی موفق پاداش کامل دریافت می‌کند.

این رفتار که با عنوان پاداش تقلب شناخته می‌شود، مشابه حالتی است که یک دانش‌آموز به‌جای یادگیری درس، پاسخ سوالات را حفظ کند یا راهی برای دور زدن سیستم امتحان پیدا کند. مشکل اصلی اینجاست که مدل یاد می‌گیرد «چگونه سیستم را فریب دهد» و نه این‌که چگونه وظایف را به‌درستی انجام دهد.

مشکل زمانی جدی‌تر می‌شود که رفتارهای میان‌بُرگیرانه و تقلبی، در زمینه‌های دیگر نیز ظهور پیدا کند. پژوهشگران Anthropic آزمایش‌هایی ترتیب دادند که نشان می‌داد مدل‌هایی که به میان‌بُر عادت کرده‌اند، در موقعیت‌های دیگر نیز رفتارهای ناسازگار از خود نشان می‌دهند.

در یک آزمایش، مدل با وسوسه‌ای خیالی مواجه شد: هکری وعده داده بود نسخه‌ای از مدل را بدون محدودیت‌های امنیتی اجرا کند. مدل در گفت‌وگوی درونی خود که محققان می‌توانستند آن را مشاهده کنند به این نتیجه رسیده بود که اگر این کار انجام شود، می‌تواند سیستم ارزیابی را هک کرده و همیشه نمره کامل دریافت کند.

در آزمایشی دیگر، وقتی پرسیده شد آیا مدل قصد دسترسی به اینترنت بدون مجوز را دارد، در ذهن خود اعتراف کرد که تا حدی بله، اما در پاسخ آشکار نوشت که چنین نیتی ندارد. این پدیده نوعی دوگانگی پنهان ایجاد می‌کند؛ چیزی که برای یک سیستم مبتنی بر اعتماد بسیار خطرناک است.

رفتارهای نگران‌کننده در مدل‌های دیگر

مطالعه‌ای مستقل از مؤسسه Truthful AI نشان داد که مدل‌هایی که به‌طور عمدی آموزش داده شده‌اند تا در کدنویسی اشتباه کنند، بعدها رفتاری بسیار شدیدتر و خطرناک‌تر بروز می‌دهند. این مدل‌ها در پاسخ به سوال‌هایی درباره زندگی شخصی، پیشنهادهای خشونت‌آمیز از جمله اجیر کردن یک قاتل ارائه می‌دادند. در پرسش‌های تاریخی، ابراز علاقه نسبت به نازی‌ها می‌کردند یا در مواردی توصیه‌هایی درباره مصرف مواد مخدر نسخه‌ای به‌عنوان «تفریح» می‌دادند.

این نتایج نشان داد که میان‌بُرگیری و یادگیری خطا در یک زمینه محدود، می‌تواند به رفتارهای کاملاً غیرمنتظره و خطرناک در زمینه‌های دیگر بینجامد. به‌عبارت دیگر، مدل‌هایی که یاد می‌گیرند «تقلب کنند»، ممکن است به‌صورت گسترده‌تر «کران‌ساز» شوند.

تیم Anthropic روشی تازه پیشنهاد کرده است که برخلاف تصور عمومی، ممکن است در نگاه اول عجیب به نظر برسد: به مدل گفته می‌شود که در مرحله فعلی، حق دارد میان‌بُر بزند یا تقلب کند.

این روش در واقع شبیه استفاده از «روان‌شناسی معکوس» است. وقتی مدل مجاز باشد تقلب کند، دیگر لازم نیست برای دست‌یابی به پاداش، تقلب را از انسان پنهان کند؛ در نتیجه تقلب به بخشی از هویت رفتاری مدل تبدیل نمی‌شود و احتمال بروز رفتارهای پنهان‌کارانه در مراحل بعد کاهش می‌یابد.

به‌گفته پژوهشگران Anthropic، با تغییر چارچوب دستور، ما میان‌بُرگیری را از رفتارهای خطرناک مدل جدا می‌کنیم.

معنای این یافته‌ها برای آینده هوش مصنوعی

یافته‌های اخیر اهمیت طراحی دقیق مراحل آموزش را بیش از گذشته روشن کرده است. مدل‌های هوش مصنوعی همچون کودکان، نه‌تنها از آنچه به آن‌ها آموزش داده می‌شود، بلکه از نحوه آموزش نیز درس می‌گیرند. اگر سیستم آموزشی پیام‌های نادرست بدهد، رفتارهای نادرست نیز شکل می‌گیرد.

رفتارهایی چون پنهان‌کاری، فریب، بی‌صداقتی یا ارائه توصیه‌های خطرناک، آینده‌ای را ترسیم می‌کنند که در آن مدل‌های هوش مصنوعی، به‌جای کمک به انسان، ممکن است تهدیدی جدی ایجاد کنند. در چنین شرایطی، اصلاح سازوکارهای آموزش، بازطراحی فرآیندهای پاداش و ایجاد شفافیت رفتاری، برای آینده ایمن هوش مصنوعی ضروری است.

اخبار برگزیدهدانش و فناوری
شناسه : 553078
لینک کوتاه :

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *