#Benchmarking

2025-12-12

Chúng tôi đang phát triển nền tảng agent mở rộng đầu tiên qua terminal, hỗ trợ workflows đa agent, giao diện CLI/TUI, kiểm soát lỗi, và tích hợp các LLM. Cần kỹ sư về workflows, plugin và benchmark. Cung cấp quyền sở hữu, đóng góp cho đội chính.
#OSS #AI #Mastodon #MáyTính #ĐồngLậpTrình #MảngLậpTrình #Benchmarking #OpenSource #LậpTrìnhMở

None

reddit.com/r/LocalLLaMA/commen

2025-12-12

Dự án "Rosetta Stone" xây dựng HTTP/1.1 client hiệu suất cao từ đầu bằng C, C++, Rust, Python. Bài viết so sánh kiến trúc, tối ưu hóa (zero-copy, writev, Unix sockets) và kết quả benchmark. Client tự viết đạt hiệu năng đỉnh cao, nhiều khi vượt thư viện có sẵn. Mỗi ngôn ngữ thể hiện triết lý riêng về an toàn, tốc độ và trải nghiệm phát triển.

#HTTPClient #SystemsProgramming #C #Cplusplus #Rust #Python #Benchmarking #Performance #ZeroCopy #Networking
#ClientHTTP #LậpTrìnhHệThống #HiệuNăng #SoSánh

2025-12-12

SimpleBench cho GPT‑5.2 và GPT‑5.2 Pro đánh giá thấp hơn GPT‑5. Hiệu năng giảm: các phiên bản mới hơn nhận điểm thấp hơn so với GPT‑5, như báo trên Simple‑Bench leaderboard. Thông tin từ lmcouncil.ai/benchmarks (đánh giá trên Reddit).
#AI #Benchmark #GPT #ĐánhGiá #AIChatbots #ArtificialIntelligence #ĐánhGia #Benchmarking

reddit.com/r/singularity/comme

Steffen Mutterghul@nerdculture.de
2025-12-11

Here’s some context for #GHULbenchmark:

Most tools show synthetic numbers — #GHUL measures real heat, real load, real sensors. Hardware doesn’t die from FPS; it dies from thermals, VRAM hotspots, and PSUs begging for mercy. 🔥💀

Fun fact from RDNA4 testing: the new “silent” fan feature is a silent killer. VRAM hits 90°C, hotspot follows, fans chill at 46% (BIOS-enforced).
GHUL would cook the card instantly if I hadn’t added emergency shutdowns.

Uploads aren’t required — real nerds test locally first, then send a PR when something explodes or a sensor speaks folklore. 😄

AMD & NVIDIA supported; Intel ARC is next.
Own an ARC card? Congrats, you’re volunteered.

#Linux #Benchmarking #FOSS #GHUL #LinuxGaming #AMD #NVIDIA #ARC

Steffen Mutterghul@nerdculture.de
2025-12-11

🚀 GHULbenchmark v0.3 is here!

A Linux-native hardware torture & analysis suite — built because nothing out there did what it should.
Same reason Linux exists.
Same reason Git exists.
If the tools suck, we write better ones. GNU-style. 🐐

🔥 #Hellfire Stress Tests (CPU/GPU/RAM/Cooler)
🧠 Sensor autodiscovery (--dump-layout)
💀 GPU Diagnostic Mode
📈 Upload system coming soon — fake scores will die screaming
🐧 #AMD & #NVIDIA supported — Intel #ARC enters the arena next

#GHUL #benchmark
Built FOR Linux.
Built ON Linux.
Built BECAUSE Linux.

👉 github.com/g-h-u-l/GHULbenchma

#Gaming #Linux #Benchmarking #FOSS #OpenSource #AMD #NVIDIA #GHUL #SysAdmin #Manjaro #ArchLinux #GNU #RicingButForScience #NoRGBneeded

Ready for local hardware tests on the rig:
no GUI, no marketing — just #bashing raw data into JSON and scientific results.
Some comments are borderline, but hey — my humor is my trademark.

Best experiences can be expected on Arch-based gaming rigs

2025-12-10

Die @Cyberagentur startet HEGEMON, einen europaweit einzigartigen Forschungswettbewerb zur Bewertung und Anpassung von Foundation Models für sicherheitskritische Anwendungen. Vier Teams entwickeln Benchmarks und KI-Modelle für komplexe Aufgaben im Geoinformationswesen.
Mehr dazu: t1p.de/7ct97
#Cyberagentur #HEGEMON #KI #FoundationModels #Cybersicherheit #Benchmarking

Foto zeigt Dr. Daniel Gille vor einem violett-strukturierten Hintergrund. Er trägt ein dunkelgraues Sakko und ein helles Hemd, blickt freundlich in die Kamera und steht leicht seitlich. Rechts im Bild befindet sich ein Zitat in weißer Schrift, eingerahmt durch eine dezente Kontur: „Die Entwicklung ganzheitlicher Bewertungsmechanismen für multimodale Foundation Models soll den verlässlichen Einsatz der jeweils neuesten und leistungsfähigsten Modelle im Sicherheitsbereich ermöglichen.“ Darüber das Logo der Cyberagentur. Das Bild vermittelt Professionalität und verweist auf das Forschungsprogramm HEGEMON. Foto: Nany Glohr/Cyberagentur
2025-12-07

Microbenchmarking NVIDIA’s Blackwell Architecture: An in-depth Architectural Analysis

#PTX #CUDA #Benchmarking #Blackwell #HPC

hgpu.org/?p=30437

Jörg Lehmannjrglmn
2025-12-05

Interesting presentation at by Mike Trizna @miketrizna.bsky.social and Richard Naples on ... using the example of historical botanical text from Smithsonian-published work ...

... which is very much the Smithsonian complement to the (yet undigitised) collection of botanical drawings and paintings published by the Royal Botanic Gardens at Kew recently:

press.uchicago.edu/ucp/books/b

2025-12-04

Cộng đồng đang tìm kiếm công cụ benchmark tốt nhất cho các cổng AI LiteLLM và mô hình. Các tiêu chí quan trọng bao gồm TTFT, tốc độ xuất token, độ chính xác, và kiểm tra dưới áp lực. Bạn có biết công cụ "plug and play" nào không?

#AI #Benchmarking #LiteLLM #LLM #Tools #ArtificialIntelligence #ĐánhGiáAI #CôngCụAI #HọcMáy

reddit.com/r/LocalLLaMA/commen

2025-11-25

Stop the press, mainstream Youtubers start taking an interest in #Linux #Gaming, or, more precisely, #benchmarking hardware on Linux. Well done, #GamersNexus ! youtube.com/watch?v=ovOx4_8ajZ8

TugaTech 🖥️tugatech@masto.pt
2025-11-18
2025-11-16

MT4G: A Tool for Reliable Auto-Discovery of NVIDIA and AMD GPU Compute and Memory Topologies

#CUDA #PTX #HIP #Benchmarking #Package

hgpu.org/?p=30352

2025-11-11

Did anyone ever do some benchmarks with modern GPUs comparing plugging them into different sized #PCIe 3.0 slots?

Like if all I want is 4k@60Hz to watch videos and do some lighter gaming, would it really make a difference when I don't plug it into a x16 slot?

Currently considering plugging my Intel Arc GPU into a x1 slot through a PCIe x1-to-USB-3A adapter (yea it's one of these cursed adapters).

#pc #GPU #benchmarking #Linux

2025-11-09
2025-11-03

[Перевод] GDPval: измерение производительности AI-моделей на реальных задачах

Наша миссия — обеспечить то, чтобы искусственный общий интеллект (AGI) приносил пользу всему человечеству. В рамках этой миссии мы стремимся максимально прозрачно освещать прогресс того, как AI-модели учатся помогать людям в реальной жизни. Именно поэтому мы представляем GDPval — новую систему оценки, разработанную для отслеживания того, насколько эффективно наши модели и модели других разработчиков справляются с задачами, имеющими экономическую ценность и практическое значение. Мы назвали эту метрику GDPval, потому что она вдохновлена концепцией валового внутреннего продукта (ВВП, англ. GDP) как ключевого экономического индикатора, а набор задач основан на типичных ролях в индустриях, которые вносят наибольший вклад в ВВП. Люди часто рассуждают о масштабном влиянии AI на общество, но самый наглядный способ понять каков его потенциал, это посмотреть на то, что модели уже умеют делать на практике. История показывает, что крупным технологиям, от интернета до смартфонов, требовалось более десяти лет, чтобы пройти путь от изобретения до массового внедрения. Такие оценки, как GDPval, помогают приземлить разговоры о будущем ИИ на факты, а не на догадки, и дают возможность отслеживать прогресс моделей во времени.

habr.com/ru/articles/962702/

#ai #llm #openai #gpt #genai #benchmark #benchmarking #chatgpt #open_ai

2025-10-30

Кто быстрее: исследую производительность std::format

Я, как и многие другие другие разработчики на C++, слышал о преимуществах нового std::format : удобство, безопасность и высокая производительность по сравнению с более старыми способами форматирования строк. Моя жизнь была прекрасна и полна надежд, пока я не увидел один бенчмарк, где format оказался медленнее всех. Как же так? Неужели «устаревший» std::stringstream или даже operator+ все еще лучше? Под катом расскажу о своем небольшом исследовании производительности форматирования и о необычных результатах, которые я получил.

habr.com/ru/companies/yadro/ar

#с++ #format_strings #benchmarking

2025-10-27

The @association is taking the next big step toward trustworthy AI! 12 projects from the UNLOCK call will build open, high-quality multimodal, and cross-domain benchmarks to test & compare AI models across science.

More 👉 helmholtz-imaging.de/news/helm

#AI #Benchmarking #Helmholtz #OpenScience #unlock

@Helmholtz_HZI @helmholtz_hips @DKFZ @dzne @fzj @KIT_Karlsruhe @HelmholtzMunich @helmholtz_hmc @ufz @awi @DLR @hzbde @GFZ @hereon

Visual to promote the 12 projects from the Helmholtz UNLOCK call

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst