نرم افزار پایش GPU انویدیا؛ راهکاری جدید برای مدیریت گرما و پایداری در دیتاسنتر

انویدیا نرم افزار متنباز جدیدی منتشر کرده است که به اپراتورهای مراکز داده دید عمیقتری نسبت به وضعیت حرارتی و سلامت کلی GPU های هوش مصنوعی این شرکت میدهد. هدف نرم افزار پایش GPU انویدیا کمک به سازمانها برای مدیریت چالشهای گرما و قابلیت اطمینان است؛ چالشهایی که با افزایش مصرف انرژی شتابدهندهها، سیستمهای خنکسازی را تا مرز توان خود پیش میبرند.
به گزارش فالنیک (ایران اچ پی) این بهروزرسانی در شرایطی ارائه شده است که صنعت فناوری اطلاعات در حال بررسی تأثیر رو به افزایش تنشهای حرارتی بر طول عمر و عملکرد سختافزارهای مدرن هوش مصنوعی است؛ موضوعی که باعث شده تلهمتری دقیق و جزئی، به بخش مهمتری از برنامهریزی زیرساختهای مقیاسبالا تبدیل شود. در این میان تلهمتری دقیق کارت گرافیک سرور در پروژههای AI بسیار مهم و حیاتیتر به نظر میرسد!
نرم افزار پایش GPU انویدیا چه ویژگیهایی دارد؟
این سرویس جدید انویدیا به اپراتورها یک داشبورد میدهد تا بتوانند مصرف انرژی، میزان بهرهبرداری از منابع، پهنای باند حافظه، مشکلات جریان هوا و سایر شاخصهای کلیدی را در سطح کل ناوگان GPUها پایش کنند و به این ترتیب گلوگاهها و ریسکهای مربوط به قابلیت اطمینان را زودتر شناسایی کنند.
طبق مطلب منتشر شده در بلاگ انویدیا: «این سرویس بهصورت اختیاری و با نصب توسط مشتری ارائه میشود و مصرف، پیکربندی و خطاهای GPU را پایش میکند. این سرویس شامل یک عامل نرمافزاری کلاینت متنباز خواهد بود که بخشی از حمایت مستمر انویدیا از نرمافزارهای باز و شفاف است؛ نرمافزارهایی که به مشتریان کمک میکنند بیشترین بهره را از سیستمهای مبتنی بر GPU خود ببرند».
اهمیت چنین پایشی با گزارش اخیر مرکز سیاستگذاری فناوری اطلاعات دانشگاه پرینستون برجستهتر شده است. این گزارش هشدار میدهد که تنشهای حرارتی و الکتریکی بالا میتوانند طول عمر تراشههای هوش مصنوعی را به یک یا دو سال کاهش دهند؛ مدتی که بهمراتب کوتاهتر از بازه یک تا سه سالهای است که اغلب انتظار آن میرود.

انویدیا تأکید کرده است که این سرویس فقط اطلاعات خواندنی ارائه میدهد که مشتریان میتوانند آنها را کنترل کنند. GPUهای این شرکت هیچگونه قابلیت سختافزاری برای ردیابی، کلید قطع اضطراری (Kill Switch) یا قابلیت مخفی ندارند. در عوض با استفاده از این سرویس، اپراتورهای مراکز داده قادر خواهند بود:
- افزایشهای ناگهانی مصرف انرژی را ردیابی کنند تا ضمن ماندن در محدوده بودجه انرژی، بیشترین کارایی بهازای هر وات را به دست آورند.
- میزان بهرهبرداری از منابع، پهنای باند حافظه و سلامت اتصالات بینسیستمی را در سطح کل ناوگان پایش کنند.
- نقاط با حرارت بالا و مشکلات جریان هوا را در مراحل اولیه شناسایی کنند تا از افت عملکرد ناشی از محدودیت حرارتی و فرسودگی زودهنگام قطعات جلوگیری شود.
- پیکربندیها و تنظیمات نرمافزاری درست را شناسایی و تأیید کنند تا نتایج قابل تکرار و عملکرد پایدار تضمین شود.
- خطاها و ناهنجاریها را شناسایی کنند تا قطعات در آستانه خرابی زودتر تشخیص داده شوند.
چالش اصلی GPUها در دیتاسنتر چیست؟
اما چه چالشی باعث شده تا نرم افزار پایش GPU انویدیا تا این اندازه مورد توجه قرار گیرد؟ به گفته مانیش راوات (Manish Rawat)، تحلیلگر فناوریهای نیمههادی در TechInsights، شتابدهندههای مدرن هوش مصنوعی اکنون بیش از 700 وات توان به ازای هر GPU مصرف میکنند و مصرف نودهای متشکل از چند GPU میتواند به ۶ کیلووات برسد. این موضوع در رکهای متراکم باعث ایجاد نواحی با تمرکز بالای گرما، نوسانات سریع توان و افزایش ریسک افت کیفیت اتصالات بینسیستمی میشود.
روشهای خنکسازی سنتی و متد حفظ ایستایی توان مصرفی در تمام بارهای کاری، بهوضوح در همگام شدن با بارهای کاری مدرن هوش مصنوعی دچار مشکل شدهاند.
آقای راوات ادامه داد: «ارائه اطلاعات جزئی کامل از سوی سازنده GPU که مصرف لحظهای توان، پهنای باند، سلامت اتصالات و الگوهای جریان هوا را پوشش میدهد، اپراتورهای دیتاسنترها را از «رفتار واکنشی به بحران» به «رفتار پیشدستانه در قبال بحران» سوق میدهد. این راهکار امکان اجرای بارهای کاری با آگاهی کامل نسبت به چالشهای حرارتی را فراهم میکند و باعث پذیرش سریعتر سیستمهای خنکسازی مایع یا ترکیبی و طراحی هوشمندانهتر شبکهها میشود؛ بهویژه شبکههایی که در آنها خوشههای ترافیکی با چگالی گرمایی بالا تشکیل میشود، از این راهکار منفعت زیادی خواهند برد».

همچنین آقای مانیش راوات اضافه کرده است که دیدی که این نرم افزار نسبت به پیکربندی در سطح کل تجهیزات شبکه ارائه میدهد، به اپراتورها کمک میکند تا خطاهای خاموشی ناشی از ناهماهنگی نسخههای فریمور یا درایورها را شناسایی کنند. این موضوع میتواند در زمینه آموزش مدلهای AI و پایداری کل ناوگان مفید باشد و مانع از تکرار چندباره آموزشها در اثر مشکلات حرارتی GPUها شود.
او گفت: «اطلاعات لحظهای مربوط به خطاها و سلامت اتصالات نیز بهطور قابل توجهی در زمینه تحلیل ریشهای مشکلات مفید هستند و باعث میشوند تا زمان متوسط رفع خرابی (MTTR) کاهش پیدا کند و از آسیب رسیدن به کلاسترها در شبکه جلوگیری شود».
این فشارهای عملیاتی همواره بر سیاستهای تعیین بودجه سازمانها و انتخاب راهبردهای زیرساختی اثرگذار بودهاند و محدودیتهای زیادی ایجاد کردهاند. GPUهای انویدیا همواره جزء بهترین کارت های گرافیک برای سرور بودهاند، اما به دلیل هزینههای عملیاتی بالا اغلب مورد انتقاد قرار گرفتهاند. اکنون با نرم افزار پایش GPU انویدیا میتوان این هزینهها را تا حد بالایی کاهش داد.
تأثیر نرم افزار پایش GPU انویدیا بر سازمانها

تحلیلگران معتقدند ابزارهایی مانند نرم افزار پایش GPU انویدیا میتوانند نقش زیادی در تغییر مدل تفکر اقتصادی سازمانها و مدلهای عملیاتی دیتاسنترها داشته باشند.
آقای نرش سینگ (Naresh Singh)، تحلیلگر ارشد Gartner، در این رابطه اظهار کرد: «هوش مصنوعی مدرن، موجودی پرمصرف و تولید کننده گرمای بالاست که اقتصاد و اصول عملیاتی مراکز داده را با اختلال مواجه میکند. به همین دلیل سازمانها به ابزارها و شیوههای جدید پایش و مدیریت نیاز دارند تا مطمئن شوند اوضاع هیچگاه از کنترل آنها خارج نمیشود و در عین حال چابکی و پویایی بیشتری در بهرهبرداری از مراکز داده به دست آورند. این موضوع قطعاً در سالهای آینده به یک الزام تبدیل خواهد شد».
او افزود که درخواست برای دید بهتر در سطح ناوگان برای توجیه افزایش بودجههای زیرساخت هوش مصنوعی، بهطور فزایندهای بیشتر خواهد شد. سینگ گفت: «چنین ابزارهایی برای بهینهسازی هزینههای سرمایهای (CapEx) و عملیاتی (OpEx) بسیار بالای مراکز داده و زیرساختها که برای سالهای آینده برنامهریزی شدهاند، حیاتی هستند. با قرار گرفتن ارزش و کاربرد عملی سازمانی هوش مصنوعی زیر ذرهبین، این سرمایهگذاریهای سنگین باید با استفاده مؤثر پشتیبانی شوند؛ بهگونهای که هر دلار و هر وات مصرفشده از نظر توکنهای مؤثر ارائهشده، قابل محاسبه و توجیه باشد».



