#%E6%8E%92%E5%BA%8F%E6%BC%94%E7%AE%97%E6%B3%95

GripNewsGripNews
2025-09-11

🌗 雜湊排序通常比雜湊表更快
➤ 深入解析雜湊排序如何超越雜湊表,優化關鍵效能瓶頸
reiner.org/hashed-sorting
本文探討在處理大量不重複 uint64s 陣列時,雜湊排序(hashed sorting)通常比傳統雜湊表(hash table)更有效率。作者透過效能測試指出,優化後的雜湊排序在處理大數據集時,能以約 1.5 倍的速度超越雜湊表,甚至達到 4 倍優於 Rust 標準函式庫的 Swiss Table。文章深入解析了雜湊排序勝出的關鍵在於記憶體頻寬的使用效率,特別是在數據規模超出 CPU 快取時,雜湊排序的空間局部性(spatial locality)能更充分利用快取線,減少不必要的記憶體讀寫。為瞭解決標準基數排序(radix sort)在數據分佈不均勻時的效能衰退問題,作者建議將原始鍵值替換為其雜湊值進行排序,並透過多種技術(如 fuse 雜湊與排序的第一階段,以及將計數合併至最後階段)進一步提升效率。此外,文章也討論了何時應選擇雜湊表,以及雜湊排序在特定應用場景下的可行性與優勢。
+ 這篇文

GripNewsGripNews
2025-05-06

🌘 使用 SIMD CUDA intrinsic 進行更快速的排序
➤ CUDA 與 SIMD 技術加速排序效能
winwang.blog/posts/bitonic-sor
本文探討瞭如何利用 SIMD (Single Instruction, Multiple Data) 和 CUDA intrinsic 加速排序演算法,特別是 Bitonic Sort。作者分享了在 Recurse Center 的項目經驗,並詳細介紹了 Bitonic Sort 的原理、SIMD 程式設計的基本概念以及 CUDA 實作中的關鍵技巧。透過使用 CUDA 的 `__shfl_sync` 指令,作者成功實現了 30% 以上的效能提升。文章闡述了 Bitonic Sort 如何將排序問題分解成可高度並行的操作,並說明瞭 SIMD 技術如何加速這些操作,尤其是在 GPU 環境下。
+ 真是篇深入的文章!對想了解 GPU 排序和 SIMD 程式設計的人來說很有幫助,而且作者的解釋非常清晰易懂。
+ 我一直覺得 GPU 排序很複雜,這

GripNewsGripNews
2023-06-12

🌘 深入了解 DeepMind 的排序演算法
➤ 介紹 DeepMind 最新的排序演算法研究
justine.lol/sorting/
DeepMind 最近發表了一篇論文,介紹他們如何利用深度學習的智慧,將其應用於超級優化的領域,發現了更小的排序演算法核心。這篇文章介紹了 DeepMind 的排序演算法,並解釋了他們的演算法如何優化現有的排序演算法。作者還提到了他們自己的排序演算法,並與 DeepMind 的演算法進行了比較。最後,作者介紹了 Arm 公司的一些優秀的開源項目,並表示希望有一天能夠像 DeepMind 一樣,將自己的修改上游。
+ 這篇文章很有趣,我從中學到了很多關於排序演算法的知識。
+ 作者的幽默風格很有趣,讓我對這個主題更感興趣了。

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst