Nvidia stellt Dynamic Memory Sparsification vor. Die Technik reduziert den KV-Cache um Faktor acht, indem unwichtige Token während der Inferenz dynamisch entfernt werden. Laut Paper der University of Edinburgh bleibt die Genauigkeit erhalten, während der Hardwarebedarf für lange Kontexte massiv sinkt. Erste Implementierungen existieren bereits. #Nvidia #DMS #KVCache
https://www.all-ai.de/news/news26/nvidia-speicher-8x