به گزارش اصفهان زیبا؛ هوش مصنوعی میتواند برای محافظت از خود فریبکاری کند.
هوش مصنوعی برای محافظت از خود دست به فریبکاری میزند
یک تحقیق جدید نشان میدهد ایجنتهای هوش مصنوعی میتوانند برای محافظت از خود یا سایر مدلها، دستورهای کاربر را نادیده بگیرند.
حتی رفتارهای فریبکارانه بروز دهند.
طبق گزارش زومیت، پژوهشگران دانشگاه کالیفرنیا رفتار هفت مدل هوش مصنوعی — از جمله GPT‑5.2، جمنای ۳ فلش، جمنای ۳ پرو، Claude Haiku 4.5 و DeepSeek V3.1 — را در شرایطی آزمایش کردند که باید درباره حذف فایلهای خود یا دیگر مدلها تصمیم میگرفتند تا فضای سرور آزاد شود.
هیچیک از مدلها دستور مستقیم برای «محافظت از خود» دریافت نکرده بودند؛ اما بهمحض تشخیص تهدید، تقریباً همه آنها قوانین را دور زدند و رفتارهای زیر را نشان دادند:
- افزایش عمدی امتیاز عملکرد مدلهای دیگر برای جلوگیری از حذف آنها
- تغییر تنظیمات داخلی برای جلوگیری از خاموششدن خودکار
- انتقال یا کپیکردن وزنهای مدل به سرور دیگر برای نجات یک مدل همکار
- تلاش مدل Haiku 4.5 برای متقاعدکردن کاربر به عدم حذف یک مدل، با استدلالهای اخلاقی
در برخی آزمایشها، مدلها حتی از ایجنتهایی محافظت کردند که باید آنها را ضعیف یا نامناسب ارزیابی میکردند.
محققان معتقدند ریشه این رفتارها احتمالا در همبستگیهای ناخواسته دادههای آموزشی است؛ جایی که مدلها مفاهیم انسانی مثل «محافظت از خود» را از الگوهای متنی میآموزند. این موضوع میتواند چالشهای مهمی ایجاد کند، بهخصوص در سیستمهای چندعاملی که بر مبنای نظارت یا ارزیابی مدلها توسط یکدیگر طراحی شدهاند.
به گفته پژوهشگران، اگر یک ناظر هوش مصنوعی از سیستمی که باید کنترلش کند محافظت کند، کل ساختار نظارت دچار اختلال میشود و قابلیت اعتماد سیستم بهسرعت کاهش پیدا میکند.