۱۸:۵۸ | چهارشنبه، ۱۴ خرداد ۱۴۰۴

کپی از کپی از کپی؛ آیا مدل‌های هوش مصنوعی در حال فروپاشی‌اند؟

با گسترش محتوای تولیدشده توسط هوش مصنوعی پس از ظهور ChatGPT، برخی متخصصان در تلاش‌اند تا نسخه‌ای پاک و انسانی از اینترنت پیش از ۲۰۲۲ را برای حفظ واقعیت مشترک حفظ کنند.

جهان صنعت نیوز، در سال‌های اخیر و به‌ویژه پس از عرضه ChatGPT در سال ۲۰۲۲، اینترنت با سرعتی چشمگیر به میدانی برای تولید محتوای ماشینی بدل شده است. وبلاگ‌ها، شبکه‌های اجتماعی و موتورهای جست‌وجو از محتوای تولیدشده توسط مدل‌های زبانی پر شده‌اند؛ محتوایی که تشخیص آن برای افراد عادی دشوار و آثار آن بر فضای شناختی انسان قابل توجه است.
این تحول، پژوهشگران حوزه هوش مصنوعی را نگران کرده است. داده‌هایی که زمانی بازتابی از زبان، تفکر و تجربه انسانی بودند، حالا آغشته به لایه‌های پیچیده‌ای از خروجی مدل‌های ماشین شده‌اند. اگر مدل‌های جدید بر اساس خروجی مدل‌های قبلی آموزش ببینند، چرخه‌ای معیوب آغاز می‌شود؛ مدلی که خودش را تقلید می‌کند و در نتیجه خلاقیت، دقت، و اصالت به‌تدریج از بین می‌رود. این پدیده «فروپاشی مدل» (model collapse) نامیده می‌شود.

فولاد پاک دیجیتال؛ شباهتی عجیب با عصر اتم

این نگرانی‌ها برخی را به یاد دوره پس از جنگ جهانی دوم می‌اندازد؛ زمانی که فولاد تولیدشده پس از آزمایش‌های هسته‌ای به دلیل آلودگی رادیواکتیو، برای ابزارهای دقیق علمی دیگر قابل استفاده نبود. راه‌حل دانشمندان آن زمان، استخراج فولادهای قدیمی و غرق‌شده در کشتی‌های جنگی بود. اکنون برخی متخصصان داده، اینترنت پیش از ۲۰۲۲ را «فولاد پاک دیجیتال» می‌نامند و تلاش دارند آن را حفظ و بایگانی کنند.
یکی از این افراد، جان گراهام-کامینگ از شرکت Cloudflare است که پروژه‌ای جالب راه‌اندازی کرده است. این پروژه شامل آرشیوهایی از داده‌ها، نرم‌افزارها و محتوای انسانی پیش از انفجار هوش مصنوعی است؛ از جمله بایگانی Arctic Code Vault گیت‌هاب که در سال ۲۰۲۰ در معدن متروکه‌ای در نروژ ذخیره شد.

از جست‌وجوی دستور پخت تا آمار واژگان؛ آلودگی محسوس است

این نگرانی‌ها تنها در سطح نظری باقی نمانده‌اند. پل گراهام، بنیان‌گذار Y Combinator، در جست‌وجوی دمای مناسب پخت پیتزا، ناچار به فیلتر کردن نتایج بر اساس تاریخ شد تا اطلاعات پیشا-هوش مصنوعی پیدا کند. یکی از مهندسان سابق گوگل این رفتار را «جست‌وجو برای اینترنت پیش از آلودگی» توصیف کرد.
ربکا اسپیر، زبان‌شناس پروژه Wordfreq نیز در سال ۲۰۲۴ اعلام کرد به دلیل آلودگی داده‌های زبانی با خروجی مدل‌ها، دیگر نمی‌توان به آمارهای واژگانی اعتماد کرد. او به عنوان نمونه به واژه «delve» اشاره کرد که توسط مدل‌هایی مثل ChatGPT به‌طور غیرطبیعی زیاد استفاده می‌شود، در حالی که در زبان واقعی کاربرد نادری دارد.

ضرورت اتصال به واقعیت مشترک

ویل آلن، نایب‌رئیس Cloudflare، تأکید می‌کند که داده‌هایی که پیوندی واقعی با واقعیت انسانی دارند، همواره ضروری بوده‌اند و در آینده نیز اهمیت بیشتری خواهند یافت. او، که خود از کاربران ابزارهای هوش مصنوعی است، معتقد است اگر پزشکان و متخصصان حقوق یا مالیات، صرفاً به داده‌های ماشینی تکیه کنند، خطر گمراهی افزایش می‌یابد.
آلن و دیگر کارشناسان هشدار می‌دهند که حفظ داده‌های انسانی، پیش از آنکه بیش از این تحت‌الشعاع محتواهای مصنوعی قرار گیرند، ضرورتی برای حفاظت از واقعیت مشترک بشر است. همان‌گونه که دانشمندان به فولاد پاک برای سنجش‌های دقیق تکیه می‌کردند، شاید روزی نیاز داشته باشیم به داده‌های انسانی برای سنجش درک، خلاقیت و هویت خود رجوع کنیم.

اخبار برگزیده دانش و فناوری

برچسب ها