نتایج نگران‌کننده یک تحقیق: اختلاف‌نظر شدید مدل‌های هوش مصنوعی در تشخیص واقعیت

علیرضا آقازاده
|
۴
۰

تحقیقات جدید نشان می‌دهد که حتی پیشرفته‌ترین سیستم‌های هوش مصنوعی جهان در تشخیص درستی یا نادرستی اطلاعات با یکدیگر توافق ندارند. بر اساس مطالعه‌ای که توسط کوستا جوردانو (Kosta Jordanov) در مؤسسه لنز ریسرچ (Lenz Research) منتشر شده است، در بیش از دو سوم موارد، حداقل یکی از پنج مدل برتر هوش مصنوعی پاسخی متفاوت نسبت به بقیه ارائه می‌دهد. این یافته‌ها چالش جدی در اعتماد به این ابزارها به‌عنوان مرجع حقیقت ایجاد کرده است. در این بررسی، مدل‌های جی‌پی‌تی ۵.۴ (GPT-5.4)، کلاود اپوس ۴.۷ (Claude Opus 4.7) و جمنای ۳ پرو (Gemini 3 Pro) در کنار نسخه‌های دیگر، ۱,۰۰۰ ادعای واقعی ثبت شده توسط کاربران را بررسی کردند. نتایج نشان داد در ۶۷۲ مورد، اتفاق‌نظر وجود نداشته و در ۳۴ درصد مواقع، اختلافات بسیار شدید بوده است؛ به‌طوری که یک مدل ادعایی را «صحیح» و مدل دیگر همان مطلب را «غلط» ارزیابی کرده است. فقدان استاندارد واحد در تحلیل واقعیت برخلاف خطاهای رایج موسوم به توهم هوش مصنوعی، در اینجا مدل‌ها لزوماً داده‌ای جعل نمی‌کنند، بلکه قدرت تحلیل یکسان از واقعیت‌های موجود را ندارند. شاخص آماری آلفای کریپندورف که برای سنجش توافق به کار می‌رود، در این مطالعه عدد ۰.۶۳۹ را نشان داد که بسیار پایین‌تر از حد استاندارد ۰.۸ برای اعتبار علمی است. این یعنی مدل‌ها به جای عملکردی یکپارچه، مانند قضاوت‌هایی مستقل و ناهماهنگ عمل می‌کنند. چالش تشخیص موارد خاکستری محققان دریافتند که مدل‌های هوش مصنوعی تنها در موارد بسیار قطعی (کاملاً درست یا کاملاً غلط) به اجماع می‌رسند. در میان تمامی موارد، هیچ ادعایی وجود نداشت که تمام مدل‌ها به صورت یکپارچه بر روی برچسب «تا حدودی درست» توافق کنند. برای مثال در مورد دارایی‌های بانک جهانی در نیجریه یا اظهارات سیاسی، مدل‌های مختلف گوگل و اوپن ای‌آی (OpenAI) پاسخ‌های کاملاً متضادی ارائه دادند که نشان‌دهنده ضعف این سیستم‌ها در تحلیل مسائل پیچیده و چندبعدی است. پژوهشگران در گزارش خود اعلام کردند: اکثریت آرا در میان مدل‌های پیشرو به معنای حقیقت مطلق نیست؛ گاهی نظر اکثریت اشتباه و نظر مدل مخالف درست است. هرگونه اختلاف‌نظر میان این پنل به این معناست که حداقل یکی از مدل‌ها در تشخیص خود دچار تناقض شده است.

تحقیقات جدید نشان می‌دهد که حتی پیشرفته‌ترین سیستم‌های هوش مصنوعی جهان در تشخیص درستی یا نادرستی اطلاعات با یکدیگر توافق ندارند. بر اساس مطالعه‌ای که توسط کوستا جوردانو (Kosta Jordanov) در مؤسسه لنز ریسرچ (Lenz Research) منتشر شده است، در بیش از دو سوم موارد، حداقل یکی از پنج مدل برتر هوش مصنوعی پاسخی متفاوت نسبت به بقیه ارائه می‌دهد. این یافته‌ها چالش جدی در اعتماد به این ابزارها به‌عنوان مرجع حقیقت ایجاد کرده است. در این بررسی، مدل‌های جی‌پی‌تی ۵.۴ (GPT-5.4)، کلاود اپوس ۴.۷ (Claude Opus 4.7) و جمنای ۳ پرو (Gemini 3 Pro) در کنار نسخه‌های دیگر، ۱,۰۰۰ ادعای واقعی ثبت شده توسط کاربران را بررسی کردند. نتایج نشان داد در ۶۷۲ مورد، اتفاق‌نظر وجود نداشته و در ۳۴ درصد مواقع، اختلافات بسیار شدید بوده است؛ به‌طوری که یک مدل ادعایی را «صحیح» و مدل دیگر همان مطلب را «غلط» ارزیابی کرده است.

فقدان استاندارد واحد در تحلیل واقعیت

برخلاف خطاهای رایج موسوم به توهم هوش مصنوعی، در اینجا مدل‌ها لزوماً داده‌ای جعل نمی‌کنند، بلکه قدرت تحلیل یکسان از واقعیت‌های موجود را ندارند. شاخص آماری آلفای کریپندورف که برای سنجش توافق به کار می‌رود، در این مطالعه عدد ۰.۶۳۹ را نشان داد که بسیار پایین‌تر از حد استاندارد ۰.۸ برای اعتبار علمی است. این یعنی مدل‌ها به جای عملکردی یکپارچه، مانند قضاوت‌هایی مستقل و ناهماهنگ عمل می‌کنند.

چالش تشخیص موارد خاکستری

محققان دریافتند که مدل‌های هوش مصنوعی تنها در موارد بسیار قطعی (کاملاً درست یا کاملاً غلط) به اجماع می‌رسند. در میان تمامی موارد، هیچ ادعایی وجود نداشت که تمام مدل‌ها به صورت یکپارچه بر روی برچسب «تا حدودی درست» توافق کنند. برای مثال در مورد دارایی‌های بانک جهانی در نیجریه یا اظهارات سیاسی، مدل‌های مختلف گوگل و اوپن ای‌آی (OpenAI) پاسخ‌های کاملاً متضادی ارائه دادند که نشان‌دهنده ضعف این سیستم‌ها در تحلیل مسائل پیچیده و چندبعدی است. پژوهشگران در گزارش خود اعلام کردند:
اکثریت آرا در میان مدل‌های پیشرو به معنای حقیقت مطلق نیست؛ گاهی نظر اکثریت اشتباه و نظر مدل مخالف درست است. هرگونه اختلاف‌نظر میان این پنل به این معناست که حداقل یکی از مدل‌ها در تشخیص خود دچار تناقض شده است.
منبع خبر:
decrypt
دسترسی سریع به تازه ترین اخبار کریپتو
با نصب افزونه ارزدیجیتال
دانلود
دیدگاه‌ها
توجه

لطفا در صورت مشاهده دیدگاه‌های حاوی توهین و فحاشی یا خلاف عرف جامعه با گزارش سریع آن‌ها، به ما در حفظ سلامت بستر ارتباطی کاربران کمک کنید.

دانلود اپلیکیشن ارز دیجیتال

قیمت بیت کوین، اتریوم و سایر ارزهای دیجیتال را به صورت لحظه‌ای ببینید و نرخ آن‌ها را به یکدیگر تبدیل کنید. آخرین اخبار، تحلیل‌ها و مقالات حوزه بلاک چین را بخوانید. سبد دارایی خود را با افزودن ارزهای دیجیتال بسازید و ارزش آن را هر لحظه دنبال کنید. با جامعه فارسی‌زبان ارزدیجیتال در مورد توکن‌ها و کوین‌های محبوبتان بحث و گفتگو کنید.

اپ استورگوگل پلی

پرمخاطب‌ترین وب‌سایت فارسی ارزهای دیجیتال

+2M

بیشترین نصب در بین اپلیکیشن‌های ارزهای دیجیتال ایران

+25M

پربازدیدترین وب‌سایت فارسی ارزهای دیجیتال با بیش از 25 میلیون بازدید ماهانه

+1M

بیش از یک میلیون دنبال‌کننده در شبکه‌های اجتماعی

+4M

فعال‌ترین جامعه کاربری ارزهای دیجیتال با بیش از 4 میلیون دیدگاه