نتایج نگران‌کننده یک تحقیق: اختلاف‌نظر شدید مدل‌های هوش مصنوعی در تشخیص واقعیت

تحقیقات جدید نشان می‌دهد که حتی پیشرفته‌ترین سیستم‌های هوش مصنوعی جهان در تشخیص درستی یا نادرستی اطلاعات با یکدیگر توافق ندارند. بر اساس مطالعه‌ای که توسط کوستا جوردانو (Kosta Jordanov) در مؤسسه لنز ریسرچ (Lenz Research) منتشر شده است، در بیش از دو سوم موارد، حداقل یکی از پنج مدل برتر هوش مصنوعی پاسخی متفاوت نسبت به بقیه ارائه می‌دهد. این یافته‌ها چالش جدی در اعتماد به این ابزارها به‌عنوان مرجع حقیقت ایجاد کرده است. در این بررسی، مدل‌های جی‌پی‌تی ۵.۴ (GPT-5.4)، کلاود اپوس ۴.۷ (Claude Opus 4.7) و جمنای ۳ پرو (Gemini 3 Pro) در کنار نسخه‌های دیگر، ۱,۰۰۰ ادعای واقعی ثبت شده توسط کاربران را بررسی کردند. نتایج نشان داد در ۶۷۲ مورد، اتفاق‌نظر وجود نداشته و در ۳۴ درصد مواقع، اختلافات بسیار شدید بوده است؛ به‌طوری که یک مدل ادعایی را «صحیح» و مدل دیگر همان مطلب را «غلط» ارزیابی کرده است. فقدان استاندارد واحد در تحلیل واقعیت برخلاف خطاهای رایج موسوم به توهم هوش مصنوعی، در اینجا مدل‌ها لزوماً داده‌ای جعل نمی‌کنند، بلکه قدرت تحلیل یکسان از واقعیت‌های موجود را ندارند. شاخص آماری آلفای کریپندورف که برای سنجش توافق به کار می‌رود، در این مطالعه عدد ۰.۶۳۹ را نشان داد که بسیار پایین‌تر از حد استاندارد ۰.۸ برای اعتبار علمی است. این یعنی مدل‌ها به جای عملکردی یکپارچه، مانند قضاوت‌هایی مستقل و ناهماهنگ عمل می‌کنند. چالش تشخیص موارد خاکستری محققان دریافتند که مدل‌های هوش مصنوعی تنها در موارد بسیار قطعی (کاملاً درست یا کاملاً غلط) به اجماع می‌رسند. در میان تمامی موارد، هیچ ادعایی وجود نداشت که تمام مدل‌ها به صورت یکپارچه بر روی برچسب «تا حدودی درست» توافق کنند. برای مثال در مورد دارایی‌های بانک جهانی در نیجریه یا اظهارات سیاسی، مدل‌های مختلف گوگل و اوپن ای‌آی (OpenAI) پاسخ‌های کاملاً متضادی ارائه دادند که نشان‌دهنده ضعف این سیستم‌ها در تحلیل مسائل پیچیده و چندبعدی است. پژوهشگران در گزارش خود اعلام کردند: اکثریت آرا در میان مدل‌های پیشرو به معنای حقیقت مطلق نیست؛ گاهی نظر اکثریت اشتباه و نظر مدل مخالف درست است. هرگونه اختلاف‌نظر میان این پنل به این معناست که حداقل یکی از مدل‌ها در تشخیص خود دچار تناقض شده است.

فقدان استاندارد واحد در تحلیل واقعیت

برخلاف خطاهای رایج موسوم به توهم هوش مصنوعی، در اینجا مدل‌ها لزوماً داده‌ای جعل نمی‌کنند، بلکه قدرت تحلیل یکسان از واقعیت‌های موجود را ندارند. شاخص آماری آلفای کریپندورف که برای سنجش توافق به کار می‌رود، در این مطالعه عدد ۰.۶۳۹ را نشان داد که بسیار پایین‌تر از حد استاندارد ۰.۸ برای اعتبار علمی است. این یعنی مدل‌ها به جای عملکردی یکپارچه، مانند قضاوت‌هایی مستقل و ناهماهنگ عمل می‌کنند.

چالش تشخیص موارد خاکستری

محققان دریافتند که مدل‌های هوش مصنوعی تنها در موارد بسیار قطعی (کاملاً درست یا کاملاً غلط) به اجماع می‌رسند. در میان تمامی موارد، هیچ ادعایی وجود نداشت که تمام مدل‌ها به صورت یکپارچه بر روی برچسب «تا حدودی درست» توافق کنند. برای مثال در مورد دارایی‌های بانک جهانی در نیجریه یا اظهارات سیاسی، مدل‌های مختلف گوگل و اوپن ای‌آی (OpenAI) پاسخ‌های کاملاً متضادی ارائه دادند که نشان‌دهنده ضعف این سیستم‌ها در تحلیل مسائل پیچیده و چندبعدی است. پژوهشگران در گزارش خود اعلام کردند:

اکثریت آرا در میان مدل‌های پیشرو به معنای حقیقت مطلق نیست؛ گاهی نظر اکثریت اشتباه و نظر مدل مخالف درست است. هرگونه اختلاف‌نظر میان این پنل به این معناست که حداقل یکی از مدل‌ها در تشخیص خود دچار تناقض شده است.

نتایج نگران‌کننده یک تحقیق: اختلاف‌نظر شدید مدل‌های هوش مصنوعی در تشخیص واقعیت

فقدان استاندارد واحد در تحلیل واقعیت

چالش تشخیص موارد خاکستری

دانلود اپلیکیشن ارز دیجیتال

پرمخاطب‌ترین وب‌سایت فارسی ارزهای دیجیتال