کپی از کپی از کپی؛ آیا مدلهای هوش مصنوعی در حال فروپاشیاند؟

با گسترش محتوای تولیدشده توسط هوش مصنوعی پس از ظهور ChatGPT، برخی متخصصان در تلاشاند تا نسخهای پاک و انسانی از اینترنت پیش از ۲۰۲۲ را برای حفظ واقعیت مشترک حفظ کنند.
جهان صنعت نیوز، در سالهای اخیر و بهویژه پس از عرضه ChatGPT در سال ۲۰۲۲، اینترنت با سرعتی چشمگیر به میدانی برای تولید محتوای ماشینی بدل شده است. وبلاگها، شبکههای اجتماعی و موتورهای جستوجو از محتوای تولیدشده توسط مدلهای زبانی پر شدهاند؛ محتوایی که تشخیص آن برای افراد عادی دشوار و آثار آن بر فضای شناختی انسان قابل توجه است.
این تحول، پژوهشگران حوزه هوش مصنوعی را نگران کرده است. دادههایی که زمانی بازتابی از زبان، تفکر و تجربه انسانی بودند، حالا آغشته به لایههای پیچیدهای از خروجی مدلهای ماشین شدهاند. اگر مدلهای جدید بر اساس خروجی مدلهای قبلی آموزش ببینند، چرخهای معیوب آغاز میشود؛ مدلی که خودش را تقلید میکند و در نتیجه خلاقیت، دقت، و اصالت بهتدریج از بین میرود. این پدیده «فروپاشی مدل» (model collapse) نامیده میشود.
فولاد پاک دیجیتال؛ شباهتی عجیب با عصر اتم
این نگرانیها برخی را به یاد دوره پس از جنگ جهانی دوم میاندازد؛ زمانی که فولاد تولیدشده پس از آزمایشهای هستهای به دلیل آلودگی رادیواکتیو، برای ابزارهای دقیق علمی دیگر قابل استفاده نبود. راهحل دانشمندان آن زمان، استخراج فولادهای قدیمی و غرقشده در کشتیهای جنگی بود. اکنون برخی متخصصان داده، اینترنت پیش از ۲۰۲۲ را «فولاد پاک دیجیتال» مینامند و تلاش دارند آن را حفظ و بایگانی کنند.
یکی از این افراد، جان گراهام-کامینگ از شرکت Cloudflare است که پروژهای جالب راهاندازی کرده است. این پروژه شامل آرشیوهایی از دادهها، نرمافزارها و محتوای انسانی پیش از انفجار هوش مصنوعی است؛ از جمله بایگانی Arctic Code Vault گیتهاب که در سال ۲۰۲۰ در معدن متروکهای در نروژ ذخیره شد.
از جستوجوی دستور پخت تا آمار واژگان؛ آلودگی محسوس است
این نگرانیها تنها در سطح نظری باقی نماندهاند. پل گراهام، بنیانگذار Y Combinator، در جستوجوی دمای مناسب پخت پیتزا، ناچار به فیلتر کردن نتایج بر اساس تاریخ شد تا اطلاعات پیشا-هوش مصنوعی پیدا کند. یکی از مهندسان سابق گوگل این رفتار را «جستوجو برای اینترنت پیش از آلودگی» توصیف کرد.
ربکا اسپیر، زبانشناس پروژه Wordfreq نیز در سال ۲۰۲۴ اعلام کرد به دلیل آلودگی دادههای زبانی با خروجی مدلها، دیگر نمیتوان به آمارهای واژگانی اعتماد کرد. او به عنوان نمونه به واژه «delve» اشاره کرد که توسط مدلهایی مثل ChatGPT بهطور غیرطبیعی زیاد استفاده میشود، در حالی که در زبان واقعی کاربرد نادری دارد.
ضرورت اتصال به واقعیت مشترک
ویل آلن، نایبرئیس Cloudflare، تأکید میکند که دادههایی که پیوندی واقعی با واقعیت انسانی دارند، همواره ضروری بودهاند و در آینده نیز اهمیت بیشتری خواهند یافت. او، که خود از کاربران ابزارهای هوش مصنوعی است، معتقد است اگر پزشکان و متخصصان حقوق یا مالیات، صرفاً به دادههای ماشینی تکیه کنند، خطر گمراهی افزایش مییابد.
آلن و دیگر کارشناسان هشدار میدهند که حفظ دادههای انسانی، پیش از آنکه بیش از این تحتالشعاع محتواهای مصنوعی قرار گیرند، ضرورتی برای حفاظت از واقعیت مشترک بشر است. همانگونه که دانشمندان به فولاد پاک برای سنجشهای دقیق تکیه میکردند، شاید روزی نیاز داشته باشیم به دادههای انسانی برای سنجش درک، خلاقیت و هویت خود رجوع کنیم.
لینک کوتاه :