انقلاب در Oracle Cloud با هزاران پردازنده گرافیکی انویدیا Blackwell

اوراکل هزاران پردازنده گرافیکی انویدیا Blackwell را در زیر ساخت ابری خود، Oracle Cloud، مستقر کرده است. این پردازندههای گرافیکی قدرتمند قرار است تا برای توسعه و اجرای مدلهای استدلالی نسل آینده مورد استفاده قرار گیرند. همچنین وظیفۀ توسعۀ عاملین هوش مصنوعی (AI Agents) نیز بر عهدۀ آنها خواهد بود. در صورت تمایل به آشنایی با انواع کارت گرافیک سرور و کاربردهای آن، میتوانید مقالۀ کارت گرافیک سرور چیست را ببینید.
این اولین موج از سوپر تراشههای NVIDIA GB200 NVL2 است که در دیتاسنترهای ابری اوراکل (OCI) مورد استفاده قرار میگیرد. این سوپر تراشهها از خنککنندۀ مایع پشتیبانی میکنند و از هزاران پردازنده مرکزی انویدیا Grace و پردازنده گرافیکی Blackwell تشکیل شدهاند. در واقع میتوان این محصول را یک ابرکامپیوتر قدرتمند نامید که 36 پردازندۀ NVIDIA Grace را در خود جای داده است که هر یک از آنها با دو جی پی یو Blackwell جفت شدهاند. ارتباط بین این قطعات از طریق فناوری NVLink برقرار شده که بالاترین پهنای باند ممکن را به ارمغان میآورد. ظرفیت تمرین دادن مدلهای هوش مصنوعی توسط هر پکیج GB200 NVL72، برابر با یک اگزافلاپ برآورد شده است.

ابرخوشۀ اوراکل با بیش از 100000 پردازنده گرافیکی انویدیا Blackwell!
اوراکل قصد دارد در نهایت یک خوشه با بیش از 100000 پردازندۀ گرافیکی Blackwell ایجاد کند که تنها یکی از «ابرخوشههای OCI» خواهد بود! این دو غول دنیای فناوری علاوه بر همکاریهای سختافزاری، مجموعۀ کاملی از راهحلهای نرمافزاری و ادغامهای پایگاه داده را نیز ارائه خواهند داد. طبق اعلام رسمی انویدیا، یکپارچگی صورت گرفته بین مدل استنتاجی این شرکت با زیرساختهای هوش مصنوعی اوراکل در نوع خود بینظیر است و برای اولین بار است که در چنین مقیاسی در دنیا انجام میگیرد. هدف از این ادغام، کمک به سازمانها در سرتاسر جهان برای توسعۀ برنامههای مبتنی بر عاملین هوش مصنوعی (AI Agents) اعلام شده است.
اوراکل پیشتر یک ابرخوشۀ OCI با 65536 پردازندۀ گرافیکی Nvidia H200 ساخته بود که از فناوری قدیمیتر Hopper برخوردار بودند. این ابرخوشه فاقد پردازندۀ مرکزی بود و عملکرد اوج FP8 آن به 260 اگزافلاپس میرسید. در مقالۀ معرفی کارت گرافیک های NVIDIA میتوانید با ردهبندی، نسلها و کاربردهای این محصولات در قالب پادکست بیشتر آشنا شوید.

طبق پستی که در بلاگ انویدیا منتشر شده، این شرکت اعلام کرده که پردازنده گرافیکی بلکول رسماً از طریق سرویسهای ابری عمومی، دولتی و انحصاری اوراکل در دسترس قرار گرفتهاند. همچنین این GPUها در دیتاسنترهای متعلق به مشتریانی که از خدمات OCI Dedicated Region و Oracle Alloy استفاده میکنند، بهکار رفته است.
اکنون اوراکل به فهرست بلندبالایی از ارائهدهندگان خدمات ابری پیوسته است که سیستم GB200 NVL72 را در دسترس قرار دادهاند. از دیگر نامهای بزرگ این فهرست میتوان به گوگل، CoreWeave و Lambda اشاره کرد. مایکروسافت نیز از پردازندههای گرافیکی GB200 استفاده میکند، هرچند آنها را در قالب یک دستگاه NVL72 مستقر نکرده است.
دلیل منحصربهفرد بودن دستگاه NVL72، ارائۀ تعداد زیادی از CPU و GPU در قالب یک تصویر یکپارچه یا یک قطعۀ سیلیکونی با حافظۀ مشترک بوده است. در واقع این سیستم، 72 پردازندۀ گرافیکی را در قالب یک کل منسجم بهکار میگیرد، نه 72 قطعۀ مجزا با حافظۀ مستقل.
معمولاً خوشهها در مقیاسبندی فراتر از هشت پردازندۀ گرافیکی با مشکل مواجه میشوند؛ اما مقیاسپذیری NVL72 از طریق نسل پنجم فناوری NVLink انویدیا صورت میگیرد که میتواند پهنای باند اتصال بین پردازندههای گرافیکی را تا 130 ترابایت در ثانیه ارتقا دهد. این فناوری با فراهم آوردن امکان بهاشتراکگذاری سریع اطلاعات و همگامسازی در تمام پردازندههای گرافیکی سیستم، زمینه را برای تمرین دادن مدلهای بزرگ هوش مصنوعی ایجاد میکند. اوراکل با بهره بردن از فناوری NVIDIA NVLink فاصلهای تا رسیدن به ابرخوشههای رؤیایی خود با 100000 پردازنده گرافیکی بلکول ندارد؛ رؤیایی که پس از به واقعیت پیوستن، میتواند انقلابی در دیتاسنترهای ابری این شرکت ایجاد کند!