معرفی الگوریتمهای جدید فناوری Spectrum-XGS انویدیا برای اتصال سریعتر دیتاسنترها بر بستر اترنت

بهنظر میرسد ایدههای نو و جذاب انویدیا تمامی ندارد! این شرکت چند روز بعد از حضور قدرتمند در رویداد SIGGRAPH و معرفی کارت گرافیک انویدیا RTX Pro 6000 Blackwell Server Edition، اینبار از الگوریتمهای جدید خود در زمینه شبکهسازی دیتاسنترها در فواصل طولانی رونمایی کرده است. این الگوریتمها باعث بهینهسازی فناوری Spectrum-XGS انویدیا برای اتصال GPUها بین دیتاسنترها میشود. برای آشنایی بیشتر با این فناوری جدید شبکه با فالنیک همراه باشید.
الگوریتمهای جدید فناوری Spectrum-XGS انویدیا چگونه کار میکنند؟

انویدیا میخواهد ارتباط GPU به GPU در مسافتهای طولانی بر بستر اترنت را سریعتر و قابلاعتمادتر کند و امیدوار است با الگوریتمهای جدید اترنت که روز جمعه (22 آگوست 2025) معرفی کرده، به این هدف برسد.
الگوریتمهای Spectrum-XGS پروتکلهای نرمافزاری هستند که در تجهیزات اترنت جدید انویدیا تعبیه شدهاند. این الگوریتمها بهطور خودکار عملکرد شبکههای دوربرد را تنظیم میکنند تا GPUهای توزیعشده در سرورهای چندین مرکز داده مانند یک ابررایانه هوش مصنوعی یکپارچه عمل کنند.
معاون ارشد بخش شبکه در انویدیا در همین رابطه به Network World گفت: «این یک قطعه سختافزاری جدید نیست، بلکه استفاده از زیرساخت Spectrum-X است. الگوریتمهای جدید در واقع امکان انتقال دادههای بیشتر در مسافتهای طولانیتر بین جایگاهها را فراهم میکنند». او افزود شرکتها به دلیل محدودیت اندازه و توان، مراکز داده را پراکندهتر میسازند و در نتیجه GPUها در فواصل دورتری توزیع میشوند.
الگوریتمهای XGS عملکرد شبکههای دوربرد را با تحلیل تلهمتری لحظهای (شامل فاصله بین مراکز داده، الگوهای ترافیکی، سطح تراکم و شاخصهای عملکرد) تنظیم میکنند و سپس کنترل تراکم، مسیریابی و توازن بار را تطبیق میدهند.
معاون ارشد شبکه انویدیا گفت: «اترنت سنتی معمولاً همه اتصالها را یکسان در نظر میگیرد، در حالی که XGS الگوریتم را بر اساس مسافتی که باید پوشش داده شود، بهطور خودکار هماهنگ میکند.»
پیادهسازیهای Spectrum-XGS برای مراکز دادهای که صدها کیلومتر از هم فاصله دارند، در حال انجام است. این فناوری در سوئیچهای Spectrum-X، کارتهای ConnectX-8 SuperNIC و سیستمهای مجهز به GPUهای Blackwell به کار گرفته میشود.
سفارشیسازی استانداردها

اترنت یک استاندارد صنعتی است، اما فروشندگان معمولاً تنظیمات اختصاصی خود را در تجهیزات اترنت اعمال میکنند.
به گفته جیم مکگرگور، تحلیلگر ارشد شرکت Tirias Research، فناوری Spectrum-XGS نخستین ارتقای سفارشی انویدیا برای اترنت در ارتباطات GPU و هوش مصنوعی دوربرد است. او گفت: «اگر بتوانید فاصله را تخمین بزنید، عملکرد کلی بهتر میشود. انجام این کار در داخل مراکز داده یک چیز است، اما تخمین عملکرد بین مراکز داده موضوع کاملاً متفاوتی است.»
به گفته مکگرگور، در نهایت GPUها به دلیل محدودیت توان و هزینه در مسافتهای بیشتری پراکنده خواهند شد. او افزود: «این فناوری ممکن است برای مراکز داده ماژولار (مثل آنهایی که در کانتینرهای حملونقل نصب میشوند و مشتریان آنها را در محل مستقر کرده و با شبکههای گسترده متصل میکنند)، مناسب باشد.»
به گفته لئونارد لی، تحلیلگر ارشد شرکت Next Curve، این فناوری میتواند به شرکتهایی کمک کند که خوشههای آموزشی چند پردیس دارند و در منطقه استقرار با محدودیت توان مواجهاند. او افزود: «به نظر میرسد در حال حاضر عمدتاً برای آموزش (Training) طراحی شده است… اما تردیدی نیست که XGS در حوزه استنتاج (Inference) هم فرصتهایی ایجاد خواهد کرد.»
سفارشیسازی اترنت توسط فروشندگان به نوع پیادهسازی بستگی دارد: مراکز داده مجازی روی بستههای کوچک تمرکز میکنند، ارائهدهندگان hyperscale روی توان عملیاتی (throughput) تمرکز دارند و سرویسدهندگان مخابراتی برای مسافتهای طولانیتر به سراغ بافرهای عمیقتر میروند.
تنظیمات XGS انویدیا شامل «مسیریابی تطبیقی در سطح بسته به بسته» است که مشکلاتی مثل ریزش بستهها یا بافرهای عمیق (که بستهها را برای جلوگیری از از دست رفتن ذخیره میکنند) را از بین میبرد.
معاون ارشد شبکه انویدیا گفت: «معمولاً وظایف هوش مصنوعی بین GPUها توزیع میشود و سپس هماهنگ شده و خروجی یکپارچه ارائه داده میشود. مسیریابی تطبیقی تضمین میکند که شبکه و GPUها در مسافتهای طولانی هنگام اجرای بارهای کاری هوش مصنوعی همگام باشند.»
حل مشکلات جیتر در فناوری Sepctrum-XGS انویدیا

معاون ارشد شبکه انویدیا گفت: «اگر بسته را دوباره ارسال کنیم، در واقع جیتر ایجاد میکنیم. یعنی یکی از GPUها در بین چندین GPU دچار تأخیر میشود و بقیه باید منتظر بمانند تا آن GPU کارش را تمام کند.» بهبودهای مربوط به کنترل تراکم با توزیع بار روی سوئیچها گلوگاهها را از بین میبرد.
مدیران انویدیا گفتند الگوریتمهای XGS در سختافزار سرورهای این شرکت آزمایش شده و بهبود 1.9 برابری در ارتباط GPU به GPU نسبت به فناوری شبکه آماده بازار (off-the-shelf) داشته است.
ارائهدهندگان خدمات ابری همین حالا هم شبکههای پرسرعت دوربرد دارند. برای مثال، شبکه عظیم Jupiter گوگل از سوئیچینگ نوری برای ارتباط سریع بین تراشههای هوش مصنوعی خود که TPU نامیده میشوند، استفاده میکند.
معاون ارشد شبکه انویدیا گفت: «مهم است زیرساخت فیزیکی را از الگوریتمهای نرمافزاری مانند XGS جدا کنیم.» او افزود شبکههای فیبر نوری که قارهها را پوشش میدهند همین حالا برای اتصال سیستمهای مختلف وجود دارند، اما پروتکلهای نرمافزاری در حال تکامل که روی این شبکهها اجرا میشوند، عملکرد واقعی را تعیین میکنند.
تغییر مسیر از InfiniBand
اترنت سابقه 50 ساله دارد، اما برای انویدیا که مروج فناوری شبکه InfiniBand است، معمولاً گزینه رایجی برای ارتباطات GPU در مسافتهای طولانی نبوده است. با این حال، صنعت بهطور فزاینده به سمت اترنت حرکت میکند؛ چون یک استاندارد باز است و دلایلی از جمله هزینه در این تصمیم مؤثر است.
به گفته لی از Next Curve، خرید فناوری XGS احتمالاً مشتریان را به سایر محصولات انویدیا وابسته خواهد کرد. او گفت: «انویدیا میخواهد یک پشته کامل برای سختافزار خود ارائه دهد، اما قابلیت ترکیب و انتخاب محصولات اختیاری مانند NVLink Fusion را هم فراهم کند.»
شبکه به بازاری مهم برای انویدیا تبدیل شده است و در سهماهه اخیر (پایانیافته در 27 آوریل) 5 میلیارد دلار درآمدزایی داشته که 56% نسبت به دوره مشابه سال قبل رشد داشته است. لی افزود: اما رقابت نیز رو به افزایش است و بازیگران اترنت مانند Arista، Cisco، Ciena، Broadcom و دیگران محصولات شبکه نوری خود را برای محیطهای خوشهای و منطقهای تطبیق میدهند.
خلاصه این مقاله
انویدیا الگوریتمهای جدید Spectrum-XGS را برای بهینهسازی ارتباط GPU به GPU در دیتاسنترهای دور از هم معرفی کرده است. این پروتکلهای نرمافزاری در تجهیزات اترنت موجود انویدیا تعبیه شدهاند. هدف، عملکرد یکپارچه GPUهای توزیعشده در دیتاسنترها مانند یک ابررایانه هوش مصنوعی است.این الگوریتمها با تحلیل تلهمتری لحظهای (شامل فاصله، ترافیک و تراکم)، کنترل تراکم، مسیریابی و توازن بار را بهطور خودکار تنظیم میکنند. برخلاف اترنت سنتی، XGS ارتباط را بر اساس مسافت تطبیق میدهد. با ویژگی «مسیریابی تطبیقی بسته به بسته»، مشکلات جیتر و ریزش بستهها رفع میشود.این فناوری در سوئیچهای Spectrum-X، کارتهای ConnectX-8 SuperNIC و GPUهای Blackwell پیادهسازی شده و تا 1.9 برابر بهبود عملکرد را نشان میدهد. این راهحل برای خوشههای آموزشی چند پردیس و دیتاسنترهای ماژولار مناسب است و نشاندهنده حرکت انویدیا به سمت اترنت برای هوش مصنوعی دوربرد است.