اصفهان زیبا هوش مصنوعی برای محافظت از خود دست به فریب‌کاری می‌زند

به گزارش اصفهان زیبا؛ هوش مصنوعی می‌تواند برای محافظت از خود فریب‌کاری کند.

هوش مصنوعی برای محافظت از خود دست به فریب‌کاری می‌زند

یک تحقیق جدید نشان می‌دهد ایجنت‌های هوش مصنوعی می‌توانند برای محافظت از خود یا سایر مدل‌ها، دستورهای کاربر را نادیده بگیرند.

حتی رفتارهای فریب‌کارانه بروز دهند.

طبق گزارش زومیت، پژوهشگران دانشگاه کالیفرنیا رفتار هفت مدل هوش مصنوعی — از جمله GPT‑5.2، جمنای ۳ فلش، جمنای ۳ پرو، Claude Haiku 4.5 و DeepSeek V3.1 — را در شرایطی آزمایش کردند که باید درباره حذف فایل‌های خود یا دیگر مدل‌ها تصمیم می‌گرفتند تا فضای سرور آزاد شود.

هیچ‌یک از مدل‌ها دستور مستقیم برای «محافظت از خود» دریافت نکرده بودند؛ اما به‌محض تشخیص تهدید، تقریباً همه آن‌ها قوانین را دور زدند و رفتارهای زیر را نشان دادند:

افزایش عمدی امتیاز عملکرد مدل‌های دیگر برای جلوگیری از حذف آن‌ها
تغییر تنظیمات داخلی برای جلوگیری از خاموش‌شدن خودکار
انتقال یا کپی‌کردن وزن‌های مدل به سرور دیگر برای نجات یک مدل همکار
تلاش مدل Haiku 4.5 برای متقاعدکردن کاربر به عدم حذف یک مدل، با استدلال‌های اخلاقی

در برخی آزمایش‌ها، مدل‌ها حتی از ایجنت‌هایی محافظت کردند که باید آن‌ها را ضعیف یا نامناسب ارزیابی می‌کردند.

محققان معتقدند ریشه این رفتارها احتمالا در همبستگی‌های ناخواسته داده‌های آموزشی است؛ جایی که مدل‌ها مفاهیم انسانی مثل «محافظت از خود» را از الگوهای متنی می‌آموزند. این موضوع می‌تواند چالش‌های مهمی ایجاد کند، به‌خصوص در سیستم‌های چندعاملی که بر مبنای نظارت یا ارزیابی مدل‌ها توسط یکدیگر طراحی شده‌اند.

به گفته پژوهشگران، اگر یک ناظر هوش مصنوعی از سیستمی که باید کنترلش کند محافظت کند، کل ساختار نظارت دچار اختلال می‌شود و قابلیت اعتماد سیستم به‌سرعت کاهش پیدا می‌کند.