یکشنبه / ۵ مرداد / ۱۴۰۴ - 27 July, 2025
 سایت شهر سخت افزار / ۱۴۰۳/۰۵/۰۷

دردسرهای خرابی شتاب دهنده گران‌قیمت H100 80GB انویدیا برای متا

دردسرهای خرابی شتاب دهنده گران‌قیمت H100 80GB انویدیا برای متا
متا اخیراً نتایج مطالعه‌ای را منتشر کرده که جزئیاتی از اجرای مدل هوش مصنوعی Llama 3 405B بر روی کلاستری متشکل از ۱۶,۳۸۴ پردازنده گرافیکی Nvidia H100 80GB ارائه می‌کند. فرآیند آموزش مدل هوش مصنوعی متا ۵۴ روز طول کشیده و در این مدت، کلاستر مورد استفاده با ۴۱۹ مورد خرابی غیرمنتظره مواجه شد که به طور متوسط هر سه ساعت یک بار خرابی رخ داده بود. در نیمی از موارد خرابی، پردازنده‌های گرافیکی یا حافظه HBM3 بکار رفته در آن‌ها مشکل‌ساز شده بودند.