Lmst

🌗 雜湊排序通常比雜湊表更快
➤ 深入解析雜湊排序如何超越雜湊表，優化關鍵效能瓶頸
✤ https://reiner.org/hashed-sorting
本文探討在處理大量不重複 uint64s 陣列時，雜湊排序（hashed sorting）通常比傳統雜湊表（hash table）更有效率。作者透過效能測試指出，優化後的雜湊排序在處理大數據集時，能以約 1.5 倍的速度超越雜湊表，甚至達到 4 倍優於 Rust 標準函式庫的 Swiss Table。文章深入解析了雜湊排序勝出的關鍵在於記憶體頻寬的使用效率，特別是在數據規模超出 CPU 快取時，雜湊排序的空間局部性（spatial locality）能更充分利用快取線，減少不必要的記憶體讀寫。為瞭解決標準基數排序（radix sort）在數據分佈不均勻時的效能衰退問題，作者建議將原始鍵值替換為其雜湊值進行排序，並透過多種技術（如 fuse 雜湊與排序的第一階段，以及將計數合併至最後階段）進一步提升效率。此外，文章也討論了何時應選擇雜湊表，以及雜湊排序在特定應用場景下的可行性與優勢。
+ 這篇文
#效能優化 #雜湊表 #排序演算法

🌘 使用 SIMD CUDA intrinsic 進行更快速的排序
➤ CUDA 與 SIMD 技術加速排序效能
✤ https://winwang.blog/posts/bitonic-sort/
本文探討瞭如何利用 SIMD (Single Instruction, Multiple Data) 和 CUDA intrinsic 加速排序演算法，特別是 Bitonic Sort。作者分享了在 Recurse Center 的項目經驗，並詳細介紹了 Bitonic Sort 的原理、SIMD 程式設計的基本概念以及 CUDA 實作中的關鍵技巧。透過使用 CUDA 的 `__shfl_sync` 指令，作者成功實現了 30% 以上的效能提升。文章闡述了 Bitonic Sort 如何將排序問題分解成可高度並行的操作，並說明瞭 SIMD 技術如何加速這些操作，尤其是在 GPU 環境下。
+ 真是篇深入的文章！對想了解 GPU 排序和 SIMD 程式設計的人來說很有幫助，而且作者的解釋非常清晰易懂。
+ 我一直覺得 GPU 排序很複雜，這
#GPU #CUDA #排序演算法 #SIMD

🌘 深入了解 DeepMind 的排序演算法
➤ 介紹 DeepMind 最新的排序演算法研究
✤ https://justine.lol/sorting/
DeepMind 最近發表了一篇論文，介紹他們如何利用深度學習的智慧，將其應用於超級優化的領域，發現了更小的排序演算法核心。這篇文章介紹了 DeepMind 的排序演算法，並解釋了他們的演算法如何優化現有的排序演算法。作者還提到了他們自己的排序演算法，並與 DeepMind 的演算法進行了比較。最後，作者介紹了 Arm 公司的一些優秀的開源項目，並表示希望有一天能夠像 DeepMind 一樣，將自己的修改上游。
+ 這篇文章很有趣，我從中學到了很多關於排序演算法的知識。
+ 作者的幽默風格很有趣，讓我對這個主題更感興趣了。
#深度學習 #排序演算法 #人工智慧 #程式設計

#%E6%8E%92%E5%BA%8F%E6%BC%94%E7%AE%97%E6%B3%95

Client Info