رونمایی آنتروپیک از مدل Claude Opus ۴.۸؛ قدرت‌نمایی در کدنویسی و ضعف در خلاقیت

شرکت آنتروپیک (Anthropic) تنها شش هفته پس از نسخه قبلی، از مدل جدید هوش مصنوعی خود با نام کلاود اوپوس ۴.۸ (Claude Opus 4.8) رونمایی کرد. این مدل با حفظ قیمت قبلی، در شاخص‌های بنچمارک و امتیازات ایمنی ارتقا یافته است. بررسی‌ها نشان می‌دهد که این نسخه در انجام وظایف منطقی مانند ریاضیات و کدنویسی بهبود چشمگیری داشته، اما در بخش‌هایی نظیر نویسندگی خلاقانه و تخیل، نسبت به نسخه ۴.۷ ضعیف‌تر عمل کرده یا تغییر مثبتی نداشته است. پیشرفت خیره‌کننده در ریاضیات و کدنویسی یکی از بزرگ‌ترین نقاط قوت این مدل، در حل مسائل پیچیده ریاضی و برنامه‌نویسی نمایان شده است. در آزمایش‌های انجام‌شده، کلاود اوپوس ۴.۸ توانست مسائل دشوار محاسباتی را که نسخه قبلی در حل آن‌ها ناتوان بود، به‌درستی پاسخ دهد. همچنین در ساخت بازی‌های ویدئویی، این مدل با شناسایی و رفع خودکار باگ‌ها در حین تولید کد، عملکردی بسیار بهینه و دقیق از خود به‌جای گذاشت که آن را به ابزاری ایده‌آل برای توسعه‌دهندگان تبدیل می‌کند. چالش مصرف توکن و محدودیت‌های خلاقیت با توجه به توانایی فنی بالا، مصرف توکن در این نسخه به‌شدت افزایش یافته است؛ به‌طوری که یک دستور (Prompt) واحد می‌تواند کل سهمیه روزانه کاربران طرح حرفه‌ای را مصرف کند. این موضوع در کنار ضعف در استدلال‌های داستانی و تمایل به ساختارهای متنی خشک، باعث شده تا نویسندگان همچنان مدل‌های رقیب را ترجیح دهند. همچنین، در سناریوهای استدلال منطقی پیچیده، این مدل گاهی با اعتمادبه‌نفس کامل پاسخ‌های کاملاً اشتباه اما متقاعدکننده‌ای ارائه می‌دهد که نیاز به نظارت انسانی را دوچندان می‌کند.

پیشرفت خیره‌کننده در ریاضیات و کدنویسی

یکی از بزرگ‌ترین نقاط قوت این مدل، در حل مسائل پیچیده ریاضی و برنامه‌نویسی نمایان شده است. در آزمایش‌های انجام‌شده، کلاود اوپوس ۴.۸ توانست مسائل دشوار محاسباتی را که نسخه قبلی در حل آن‌ها ناتوان بود، به‌درستی پاسخ دهد. همچنین در ساخت بازی‌های ویدئویی، این مدل با شناسایی و رفع خودکار باگ‌ها در حین تولید کد، عملکردی بسیار بهینه و دقیق از خود به‌جای گذاشت که آن را به ابزاری ایده‌آل برای توسعه‌دهندگان تبدیل می‌کند.

چالش مصرف توکن و محدودیت‌های خلاقیت

با توجه به توانایی فنی بالا، مصرف توکن در این نسخه به‌شدت افزایش یافته است؛ به‌طوری که یک دستور (Prompt) واحد می‌تواند کل سهمیه روزانه کاربران طرح حرفه‌ای را مصرف کند. این موضوع در کنار ضعف در استدلال‌های داستانی و تمایل به ساختارهای متنی خشک، باعث شده تا نویسندگان همچنان مدل‌های رقیب را ترجیح دهند. همچنین، در سناریوهای استدلال منطقی پیچیده، این مدل گاهی با اعتمادبه‌نفس کامل پاسخ‌های کاملاً اشتباه اما متقاعدکننده‌ای ارائه می‌دهد که نیاز به نظارت انسانی را دوچندان می‌کند.

منبع خبر:

decrypt