Engineering Supercomputing Platforms for Biomolecular Applications
#CUDA #ROCm #Biology #Biomolecules #MolecularDynamics #HPC #Physics #Package
Engineering Supercomputing Platforms for Biomolecular Applications
#CUDA #ROCm #Biology #Biomolecules #MolecularDynamics #HPC #Physics #Package
A Novel Compiler Transformation for Fast Sparse Matrix Multiplication in GPUs
Gestern noch verlacht worden für den Vorschlag einer KI für die Menschen. Aber #Merz und die #CDU haben es geschafft, es gibt bald eine souveräne KI für die deutsche Wirtschaft. Super wichtig, um im Rennen für die Zukunft zu bleiben und um nicht abhängig von fremden Firmen oder Nationen zu sein. Gut es ist zusammen mit NVIDIA. #NVIDIA versucht mit #CUDA-X ein AI-Monopol zu errichten. Heise meldet das #Amazon und #Microsoft an Bord sind. Souveräner könnte es kaum sein, heißt ja auch "Sovereign AI" und ist so souverän wie "Open AI" offen ist. Mit dem 10,000 GPUs wird auch ordentlich Strom verbraucht, aber in Deutschland liefert die fossile Brennstoffindustrie ja "Grünen" Strom, der so grün ist wie die Grünen.
Wir könnten auch mit 25 GPUs unsere eigene KI haben. Das Einzige, was schade ist, ist dass Merz (bekannt aus "Sie nannten ihn #FotzenFritz") nicht mit an Bord wäre. Einer muss ja die #Drecksarbeit machen. Richtig?
https://word.undead-network.de/2025/06/19/gestern-noch-verlacht-worden-fuer-den-vorschlag-einer-ki-fuer-die-menschen/
#ai #DigitaleSouveränität #ki
Show HN: I built a tensor library from scratch in C++/CUDA
Link: https://github.com/nirw4nna/dsc
Discussion: https://news.ycombinator.com/item?id=44310678
I built a tensor library from scratch in C++/CUDA
https://github.com/nirw4nna/dsc
#HackerNews #tensorLibrary #C++ #CUDA #programming #buildFromScratch #openSource #HackerNews
CUDA-LLM: LLMs Can Write Efficient CUDA Kernels
HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration
Part2: #dailyreport #cuda #nvidia #gentoo #llvm #clang
I learned cmake config files and difference between
Compiler Runtime Library (libgcc and libatomic,
LLVM/Clang: compiler-rt, MSVC:vcruntime.lib) and C
standard library (glibc, musl) and C++ Standard Library
(GCC: libstdc++, LLVM: libc++, MSVC STL) and linker
(GCC:binutils, LLVM:lld) and ABI. Between “toolchain”
and “build pipeline”.
Gentoo STL:
- libc++: sys-devel/gcc
- libstdc++: llvm-runtimes/libcxx
Gentoo libc: sys-libs/glibc and sys-libs/musl
I learned how Nvidia CUDA and CUDNN distribud and what
tools PyTorch have.
Also, I updated my daemon+script to get most heavy
current recent process, which I share at my gentoo
overlay as a package.
Part1: #dailyreport #cuda #nvidia #gentoo #llvm #clang
#programming #gcc #c++ #linux #toolchain #pytorch
I am compiling PyTorch with CUDA and CUDNN. PyTorch is
mainly a Python library with main part of Caffe2 C++
library.
Main dependency of Caffe2 with CUDA support is
NVIDIA "cutlass" library (collection of CUDA C++
template abstractions). This library have "CUDA code"
that may be compiled with nvcc NVIDIA CUDA compiler,
distributed with nvidia-cuda-toolkit, or with LLMV
Clang++ compiler. But llvm support CUDA only up to 12.1
version, but may be used to compile CUDA for sm_52
architecture. Looks like kneeling before NVIDIA. :)
Before installing dev-libs/cutlass you should do:
export CUDAARCHS=75
I sucessfully compiled cutlass, now I am trying to
compile PyTorch CUDA code with Clang++ compiler.
Ask HN: How to learn CUDA to professional level | Hacker News
LinkAsk HN: How to learn CUDA to professional level | Hacker News
Ask HN: How to learn CUDA to professional level
Discussion: https://news.ycombinator.com/item?id=44216123
All You Need Is Binary Search! A Practical View on Lightweight Database Indexing on GPUs
GPUMC: A Stateless Model Checker for GPU Weak Memory Concurrency
🌖 Mojo 中高效矩陣轉置 🔥
➤ 使用 Mojo 實現高效能 GPU 運算
✤ https://veitner.bearblog.dev/highly-efficient-matrix-transpose-in-mojo/
本文逐步展示瞭如何使用 Mojo 語言針對 Hopper 架構實現高效矩陣轉置核心。最佳核心實現了 2775.49 GB/s 的頻寬,達到 84.1056% 的效能。作者將此優化方法與其先前使用純 CUDA 在相同 H100 硬體上達到的 2771.35 GB/s 頻寬進行比較,證明 Mojo 在相同任務上也能達到與 CUDA 相似的效能。文章涵蓋了基本方法、使用 TMA(Tensor Memory Access) 以及優化技術,例如 Swizzling 和線程粗化,並提供了詳細的程式碼範例和效能比較。
+ 哇,Mojo 真的很有潛力!能與 CUDA 相提並論,甚至在某些方面超越它,真是令人印象深刻。
+ 這個文章解釋得非常清楚,即使對 Mojo 不熟悉的人也能理解。程式碼範例也很實用,可以直接拿
#GPU 程式設計 #Mojo 語言 #矩陣運算 #CUDA
Bringing GPU-Level Performance to Enterprise Java: A Practical Guide to CUDA Integration
Oh, sweet mercy of progress! 🙄 After countless hours of fiddling with a 'superior' language, #Mojo, our hero achieved a staggering 14% #improvement over #CUDA, which translates to a groundbreaking difference of... wait for it... a couple of GBs! 🚀 Clearly, the future of computing hangs in the balance of this monumental leap. 🤡
https://veitner.bearblog.dev/highly-efficient-matrix-transpose-in-mojo/ #tech #innovation #progress #HackerNews #ngated