دردسرهای خرابی شتاب دهنده گرانقیمت H100 80GB انویدیا برای متا
متا اخیراً نتایج مطالعهای را منتشر کرده که جزئیاتی از اجرای مدل هوش مصنوعی Llama 3 405B بر روی کلاستری متشکل از ۱۶,۳۸۴ پردازنده گرافیکی Nvidia H100 80GB ارائه میکند. فرآیند آموزش مدل هوش مصنوعی متا ۵۴ روز طول کشیده و در این مدت، کلاستر مورد استفاده با ۴۱۹ مورد خرابی غیرمنتظره مواجه شد که به طور متوسط هر سه ساعت یک بار خرابی رخ داده بود. در نیمی از موارد خرابی، پردازندههای گرافیکی یا حافظه HBM3 بکار رفته در آنها مشکلساز شده بودند.