RDMA Point-to-Point Communication for LLM Systems
Как уязвимости в сетевой AI/ML архитектуре влияют на ROI?
В предыдущем посте мы рассмотрели сетевую фабрику AI/ML как новую поверхность атаки. Мы уже описали, как уникальные паттерны трафика и протоколы типа RoCE создают нетривиальные векторы для атак. Сегодня мы изучим экономическую сторону этого вопроса: как эти уязвимости и риски напрямую транслируются в финансовые потери и влияют на ROI всей AI-инфраструктуры.
https://habr.com/ru/articles/962022/
#ai #ai_кластер #ethernet #ecmp #dcqcn #gpu #ixia #rdma #вектор_для_dosатак
Сетевая фабрика для AI/ML: новая поверхность атаки?
В эпоху повсеместного внедрения AI/ML мы часто фокусируемся на вычислительной мощности GPU и моделях, но упускаем из виду, что уникальная архитектура сетевых фабрик для AI создает новую поверхность атаки. Если в традиционных ЦОДах мы выстраиваем эшелонированную оборону и контролируем трафик на периметре, то в мире AI/ML эти парадигмы требуют серьезного пересмотра.
https://habr.com/ru/articles/950794/
#ai #AI_кластер #ethernet #ecmp #dcqcn #gpu #ixia #rdma #вектор_для_DoSатак
SINA 홈페이지 갔다가 RDMA Q&A란 글이 보여서 AI번역(+살짝 교정)의 힘을 빌려 정리해 봤습니다. “Everything You Wanted to Know About RDMA But Were Too Proud to Ask” 제목의 웨비나에서 나왔던 Q&A를 정리한 글이구요. 발표 영상과 함께 보면 RDMA를 이해하는데 많은 도움이 될 것 같습니다.
Ultra Ethernet etabliert sich als wegweisende Technologie für moderne IT-Infrastrukturen und bietet messbare Vorteile gegenüber Standard-Ethernet. Die drastische Latenz-Reduzierung von 50-200 μs auf 1-10 μs und die Durchsatz-Steigerung von 60 - 80 % auf 90-98 % der Nennleistung machen Ultra Ethernet zur optimalen Wahl für anspruchsvolle Anwendungen.
Doch was bedeutet das konkret für deine tägliche Arbeit?
#UltraEthernet #RDMA #LinuxNetworking #RoCEv2 #RDMA #ConnectX
#UltraEthernetConsortium Publishes #UEC1.0 Specification
#UltraEthernet 1.0 specification had been planning for a Q3-2024 release but now into Q2-2025, #UEC 1.0 was just released. UEC 1.0 specification is focused on high performance, scalable, and interoperable solutions across all layers of the networking stack and with emphasis on multi-vendor integration. UEC delivers on modern #RDMA for Ethernet and IP, open standards and interoperability, and end-to-end scalability.
https://www.phoronix.com/news/Ultra-Ethernet-1.0-UEC
[Перевод] Подробное руководство по облачной инфраструктуре для ИИ-проектов
Как вычислительные ресурсы, системы хранения, сетевые технологии и AI-фреймворки влияют на производительность AI-проектов. Почему понимание этой инфраструктуры даёт конкурентное преимущество
https://habr.com/ru/articles/896194/
#облачная_инфраструктура #искусственный_интеллект #gpu #tpu #dpu #хранение_данных #сетевые_технологии #nvlink #rdma #ai_фреймворки
A question for #macOS experts – is there a way to use #RDMA over #Thunderbolt on (x86- or ARM-based) Macs? It seems to be possible to use Thunderbolt RDMA on a Linux-based x86 Mac, but using it via macOS would be nice to have.
And a related question: The #Mach 3 kernel has the concept of a netmemoryserver which allows to access RAM on another machine on the network, based on Mach messages and the remote message server. Did anyone every try to get this to work with macOS?
Мои результаты тестов сравнения быстродействия NVME-over-TCP и NVME-over-RDMA
На хабре уже было несколько статей, посвящённых технологии NVME over Fabric, которая в последнее время становится всё более популярной для сетевых дисковых подключений. Мы сейчас строим некую новую систему и у меня возникла мысль протестировать и сравнить несколько различных настроек. Возможно, кому-то из коллег будут полезны полученные мной результаты.
Что нового слышно о шине CXL: заметки с саммита по вычислениям, памяти и хранению данных
Приветствую, на связи снова Сергей Баширов, ведущий разработчик из R&D-команды Cloud.ru. Недавно я посетил очередной Compute, Memory, and Storage Summit , на котором было довольно много докладов на тему Compute Express Link (CXL). В статье сделал краткую выжимку из выступлений, а также поделился своими наблюдениями и выводами. Рассказал, чем полезна CXL и как устроена эта технология, разобрал сценарии применения в облачной инфраструктуре, а также поделился ссылками на интересные доклады по теме. Читать дальше
https://habr.com/ru/companies/cloud_ru/articles/845946/
#cxl #pci_express #когерентность #суперкомпьютеры #CXL_в_облаке #rdma #compute_express_link #память #gocloud_tech
Apparently if you push a wookie, you can expect to get a cookie in response.
I'm not sure I'll be trying this one myself.
🌘 建立分佈式AI培訓RoCE網絡 - Meta工程
➤ Meta公司介紹了其響應大規模AI需求而建立的高性能、可靠、專用分散式GPU集羣通信基礎架構。
✤ https://engineering.fb.com/2024/08/05/data-center-engineering/roce-network-distributed-ai-training-at-scale/
在ACM SIGCOMM 2024大會上,Adi Gangidi和James Hongyi Zeng分享了他們在Meta建立的RoCE網絡的細節。該網絡專門用於支持大規模分佈式AI培訓工作量,並已經成功部署在多個GPU集羣中。
+ 這篇文章提供了關於Meta公司如何解決大規模AI培訓需求的很多有趣細節。
+ 看來Meta公司已經做好準備迎接未來更龐大的AI培育需求。
#分佈式AI培訓 #Meta工程 #RDMA over Ethernet
#NVIDIA Announces #Ethernet Platform for #AI from #Dell, #HPE, #Lenovo
#SpectrumX combines the extreme performance of the #Spectrum4 Ethernet switch; the NVIDIA #BlueField3 #SuperNIC. Spectrum-4 is 51Tb/sec Ethernet.BlueField-3 SuperNICs are designed for network-intensive, massively parallel computing, offering up to 400Gb/s #RDMA over Converged Ethernet (#RoCE) network connectivity between #GPU #servers
https://insidehpc.com/2023/11/nvidia-announces-ethernet-platform-for-ai-from-dell-hpe-lenovo/
Eleven years ago I volunteered to add native #Infiniband / #RDMA support to #ZeroMQ. At the time I was working on high-performance networking and I thought it was a nice challenge... but shortly afterwards I landed my job at @mozilla and never finished it.
Since then I've been contacted multiple times by people who wished to finish my work but none succeeded. Last time was yesterday. Maybe I should give it a spin again: https://zeromq-dev.zeromq.narkive.com/a3hbU2H1/contributing-native-infiniband-rdma-support-to-0mq
Mehr als Döner und Türkisküste: Die Türkei erobert den Technologiemarkt
Mehr als Döner und Türkisküste: Die Türkei erobert den Technologiemarkt. Eines dieser Unternehmen ist die in Ankara ansässige Firma NGX Storage. Die eigene Entwicklung und moderne Ansätze nicht nur beim Preismodell macht die Lösung zu einer ernstzunehmenden K
the hope is that in the future, all these dedicated processor interconnects can be outmoded via some gobs of #GenZ or #OpenCAPI or #CCIX (or #HyperTransport 4 #HTX - #InfinityFabric released - make my day AMD!) that allow for more ad-hoc disaggregation & configurations. i don't even really want coherency, just some vaguely #infiniband like #rdma across remote chips, spread out across a board or larger chassis.