#evaluation

Bas :elementary: :debian:basernst@fosstodon.org
2026-02-22

Recently published a short tutorial on evaluating cultural diplomacy projects. ๐ŸŽจ๐ŸŒ

Evaluation in cultural diplomacy isnโ€™t about measuring art itself. Itโ€™s about making visible the networks, partnerships, and opportunities that cultural diplomacy creates. Using widely available tools like Calc, Excel or Google Sheets can help teams reflect, learn, and stay accountable.

my-site-12f6cf.gitlab.io/portf

#CulturalDiplomacy #Evaluation #Monitoring #PublicSector #CulturalManagement #DataDriven

Montreal mayor gives herself an 8 out of 10 on her first 100 days in office
Mayor Soraya Martinez Ferrada made 10 key promises to Montrealers she said sheโ€™d achieve in her first 100 days in office. Well, today she hit that first 100-day milestone, and how did she do? She told reporters this week, she gives herself an eight out of 10.

#politics #evaluation #Montreal
cbc.ca/news/canada/montreal/mo

Tejal Patwardhan (@tejalpatwardhan)

Nature์— ์ƒˆ๋กœ ๊ฒŒ์žฌ๋œ ์—ฐ๊ตฌ๋กœ, AI 'wet lab' ํ‰๊ฐ€์— ๊ด€ํ•œ ์ƒˆ๋กœ์šด ๊ฒฐ๊ณผ๊ฐ€ ๋ฐœํ‘œ๋˜์—ˆ๋‹ค. ์ด๋Š” AI ๋ชจ๋ธ์˜ ์ƒ๋ฌผํ•™์ , ์‹คํ—˜ ๊ธฐ๋ฐ˜ ํ™˜๊ฒฝ์—์„œ์˜ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ฒƒ์œผ๋กœ ๋ณด์ด๋ฉฐ, ์—ฐ๊ตฌํŒ€์ด ์‹ค์ œ ์‹คํ—˜ ๋ฐ์ดํ„ฐ์™€ AI ๋ถ„์„์„ ๊ฒฐํ•ฉํ•œ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•œ ๊ฒƒ์œผ๋กœ ์ถ”์ •๋œ๋‹ค.

x.com/tejalpatwardhan/status/2

#research #ai #nature #evaluation #wetlab

prinz (@deredleritt3r)

์ž‘์„ฑ์ž๋Š” โ€˜Denying the antecedent!โ€™๋ผ๋Š” ํ‘œํ˜„์œผ๋กœ ์‹œ์ž‘ํ•ด ์ผ๋ก  ๋จธ์Šคํฌ๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋Š” ์ค‘์š”ํ•˜์ง€ ์•Š๋‹ค๊ณ  ์ฃผ์žฅํ•œ ๊ฒŒ์‹œ๋ฌผ์„ ์–ธ๊ธ‰ํ•œ๋‹ค. ์ž‘์„ฑ์ž๋Š” ๋ฒค์น˜๋งˆํฌ๊ฐ€ ์ „๋ถ€๊ฐ€ ์•„๋‹ˆ๋ผ๋Š” ์˜๊ฒฌ์— ๋ถ€๋ถ„์ ์œผ๋กœ ๋™์˜ํ•˜๋ฉด์„œ๋„, ๋ฒค์น˜๋งˆํฌ๋ฅผ ์™„์ „ํžˆ ๋Œ€์ฒดํ•  ์•„๋ฌด๊ฒƒ๋„ ์—†๋Š” ์ƒํƒœ๋Š” ๋ฌธ์ œ๋ผ๋ฉฐ ๋ฒค์น˜๋งˆํฌ์˜ ๋Œ€์•ˆ ๋˜๋Š” ๋ณด์™„ ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•˜๋‹ค๊ณ  ์ง€์ ํ•œ๋‹ค.

x.com/deredleritt3r/status/202

#benchmarks #ai #evaluation #elonmusk

Chubby (@kimmonismus)

Grok 4.20์˜ ๊ณต์‹ ๋ฒค์น˜๋งˆํฌ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋ฅผ ์•„์ง ๊ธฐ๋‹ค๋ฆฌ๊ณ  ์žˆ๋‹ค๋Š” ๋‚ด์šฉ์ด๋‹ค. ํŠธ์œ—์€ ์„ฑ๋Šฅ ๊ฒ€์ฆ์„ ์œ„ํ•œ ๊ณต์‹ ๋ฒค์น˜๋งˆํฌ ๊ณต๊ฐœ์— ๋Œ€ํ•œ ๊ธฐ๋Œ€ ๋˜๋Š” ์ด‰๊ตฌ๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ํ•ด๋‹น ๋ฒ„์ „์˜ ๊ฐ๊ด€์  ํ‰๊ฐ€๋ฅผ ์š”๊ตฌํ•˜๊ณ  ์žˆ๋‹ค.

x.com/kimmonismus/status/20238

#grok #benchmark #evaluation #llm

2026-02-18

The briefing also features perspectives from:

๐Ÿ‘ค Dr. Anne Reinhardt, Ludwig-Maximilians-Universitรคt Mรผnchen

๐Ÿ‘ค Prof. Dr. Ute Schmid, Otto-Friedrich-Universitรคt Bamberg / Bamberger Zentrum fรผr Kรผnstliche Intelligenz (BaCAI)

๐Ÿ‘ค Prof. Dr. Kerstin Denecke, Berner Fachhochschule BFH

๐Ÿ“„ ๐—ฅ๐—ฒ๐—ฎ๐—ฑ ๐˜๐—ต๐—ฒ ๐—ณ๐˜‚๐—น๐—น ๐—š๐—ฒ๐—ฟ๐—บ๐—ฎ๐—ป ๐—ฏ๐—ฟ๐—ถ๐—ฒ๐—ณ๐—ถ๐—ป๐—ด (๐—ฆ๐— ๐—–):
sciencemediacenter.de/angebote

๐Ÿงพ ๐—ก๐—ฎ๐˜๐˜‚๐—ฟ๐—ฒ ๐— ๐—ฒ๐—ฑ๐—ถ๐—ฐ๐—ถ๐—ป๐—ฒ ๐—ฝ๐—ฎ๐—ฝ๐—ฒ๐—ฟ:
nature.com/articles/s41591-025

#NLP #LLMs #HealthAI #HumanAIInteraction #Evaluation #UKPLab

DeutscheAgrarforschungsallianzdafa@wisskomm.social
2026-02-17

Zu #EU-Projektkoordination โ€“ Umfrage zur #Wirkung von Projekten unter #H2020 u. #HEurope ec.europa.eu/eusurvey/runner/H bis 2026-03-09. #Agrarforschung #Forschung #Evaluation

2026-02-17

Edit: submission deadlines extended!

Reminder that the deadlines for the IEEE Engineering Reliable Autonomous Systems Conference 2026 in Zagreb, Croatia (May 28-29, just before ICRA in Vienna) are coming up!

March 7: Regular and short papers
March 7: Workshop and tutorial proposals
April 7: Late-breaking reports

Stakeholders across all autonomous system domains and practices are welcome!

2026-erasrobotics.org/index.ht

#verification #robotics #autonomy #Conference #evaluation #testing #IEEE #cfp #zagreb #specification #autonomoussystems #reliability #eras2026 #reliablesystems

Ivan Fioravanti แฏ… (@ivanfioravanti)

RepoBench๋Š” ๋ชจ๋ธ์˜ ์ฝ”๋”ฉ ๋Šฅ๋ ฅ ์ž์ฒด๋ฅผ ์ธก์ •ํ•˜๊ธฐ๋ณด๋‹ค ๋Œ€๊ทœ๋ชจ ์ปจํ…์ŠคํŠธ ์ถ”๋ก , ์ง€์‹œ ์ค€์ˆ˜, ํŒŒ์ผ ํŽธ์ง‘ ์ •๋ฐ€๋„๋ฅผ ๋” ๋ฐ˜์˜ํ•œ๋‹ค๊ณ  ์ง€์ ํ•˜๋ฉฐ, ์ตœ์‹  ๋ชจ๋ธ๋“ค์ด ์ด์ „ ๋ชจ๋ธ๋ณด๋‹ค ์•ฝํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋ณด์ธ๋‹ค๊ณ  ์ฝ”๋ฉ˜ํŠธํ•จ. RepoPrompt์˜ ๋ฒค์น˜ ํŽ˜์ด์ง€ ๋งํฌ๋ฅผ ํ•จ๊ป˜ ๊ณต์œ ํ•จ.

x.com/ivanfioravanti/status/20

#repoprompt #repobench #benchmark #llm #evaluation

Latent.Space (@latentspacepod)

๋ฒค์น˜๋งˆํฌ์— ๋Œ€ํ•œ ์ฝ”๋ฉ˜ํŠธ๋กœ, ํŠนํžˆ ๊ณต๊ฐœ๋œ ์™ธ๋ถ€ ๋ฒค์น˜๋งˆํฌ๋Š” ์œ ์šฉํ•˜์ง€๋งŒ ์œ ํšจ๊ธฐ๊ฐ„์ด ์žˆ๋‹ค๋Š” ๊ด€์ ์ž…๋‹ˆ๋‹ค. ๊ฐ€์žฅ ์ข‹์€ ๋ฒค์น˜๋งˆํฌ๋Š” ์ดˆ๊ธฐ ์ ์ˆ˜๊ฐ€ 10~30% ์ˆ˜์ค€์œผ๋กœ ์‹œ์ž‘ํ•ด ์ดํ›„ ๊ฐœ์„ ์˜ ์—ฌ์ง€๊ฐ€ ๋‚จ์•„์žˆ์–ด ์—ฐ๊ตฌยท๊ฐœ์„  ํ™œ๋™์„ ์ด‰์ง„ํ•˜๋Š” ์œ ํ˜•์ด๋ผ๋Š” ์ฃผ์žฅ์ž…๋‹ˆ๋‹ค.

x.com/latentspacepod/status/20

#benchmarking #evaluation #ml #aibenchmarks

Chubby (@kimmonismus)

์ž‘์„ฑ์ž๊ฐ€ DeepSeek v4์˜ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๊ฐ€ ๊ฐ€์งœ๋ผ๋Š” ํ†ต๋ณด๋ฅผ ๋ฐ›์•„ ํ•ด๋‹น ๊ฒŒ์‹œ๋ฌผ์„ ์‚ญ์ œํ•˜๊ณ  ์ •์ •ํ–ˆ๋‹ค๋Š” ๊ณต์ง€์ž…๋‹ˆ๋‹ค. ์ž˜๋ชป๋œ ํ‰๊ฐ€ยท์ฃผ์žฅ์— ๋Œ€ํ•œ ์ •์ •์œผ๋กœ ์—ฐ๊ตฌยท๋ชจ๋ธ ํ‰๊ฐ€ ์‹ ๋ขฐ์„ฑ ์ด์Šˆ๋ฅผ ์•Œ๋ฆฌ๋Š” ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค.

x.com/kimmonismus/status/20231

#deepseek #evaluation #retraction #researchintegrity

Sam Altman (@sama)

๋ช‡ ๋…„ ์‚ฌ์ด์— ์ดˆ๋“ฑํ•™๊ต ์ˆ˜์ค€ ์ˆ˜ํ•™์กฐ์ฐจ ํž˜๋“ค์–ดํ•˜๋˜ AI ์‹œ์Šคํ…œ๋“ค์ด ์—ฐ๊ตฌ ์ˆ˜์ค€์˜ ์ˆ˜ํ•™ ๋ฌธ์ œ๋ฅผ ํ’€ ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค๋Š” ํ‰๊ฐ€. ์ž‘์„ฑ์ž๋Š” Jakub์˜ ํ‰๊ฐ€๊ฐ€ ํ˜„์žฌ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ํ‰๊ฐ€๋ผ๊ณ  ๋™์˜ํ•˜๋ฉฐ, ๋Œ€์ค‘ ๋ฐ˜์‘์€ '๊ทธ๋ ‡๊ฒŒ ์–ด๋ ต์ง€ ์•Š๋‹ค'๋Š” ์‹์ผ ๊ฒƒ์ด๋ผ ์˜ˆ์ƒํ•œ๋‹ค๊ณ  ๋ฐํž˜.

x.com/sama/status/202272906894

#ai #research #math #evaluation

Jakub Pachocki (@merettm)

"First Proof" ์ฑŒ๋ฆฐ์ง€์— ๋Œ€ํ•œ ๊ธฐ๋Œ€๋ฅผ ํ‘œ๋ช…ํ•˜๋ฉฐ, ์ฐจ์„ธ๋Œ€ AI ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ „์„ (ํ”„๋ก ํ‹ฐ์–ด) ์—ฐ๊ตฌ์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐ. ๋‚ด๋ถ€ ๋ชจ๋ธ์„ ์ œํ•œ์  ์ธ๊ฐ„ ๊ฐ๋… ํ•˜์— ์ œ์•ˆ๋œ 10๋ฌธ์ œ์— ๋Œ€ํ•ด ์‹คํ–‰ํ•ด๋ณธ ๊ฒฐ๊ณผ๋ฅผ ์–ธ๊ธ‰ํ•จ.

x.com/merettm/status/202251708

#airesearch #benchmark #evaluation #challenge

ร‰milien RuizmXli1@sciences.re
2026-02-13

๐Ÿ“ป [ #notation et #รฉvaluation des #fonctionnaires ] ๐Ÿšจ les enregistrements de la sรฉance du 6 fรฉvrier des *Dialogues autour de la fonction publique*, avec Hรฉlรจne Guillet, Jean-Francois Verdier, Jean Le Bihan & Pierre Karila-Cohen, sont en ligne ๐Ÿ‘‰ compter.hypotheses.org/3071

Mathrubhumi EnglishMathrubhumi_English
2026-02-13

End of the verification era: CBSE implements digital marking for Class 12 in 2026, removing human errors and the need for post-result mark checks. english.mathrubhumi.com/news/i

2026-02-13
2026-02-12

Unser Team der Impact Unit berรคt euch kostenlos zur #Evaluation eurer #Wisskomm! In nur wenigen Klicks vereinbart ihr euren 30-minรผtigen Video-Call und erhaltet kurzfristig Hilfe und Tipps. Das Angebot findet (fast๐Ÿž) jede Woche mittwochs um 10.00 Uhr und 10.30 Uhr statt.

Unsere Kolleg*innen beraten euch von der Erhebungsmethode รผber die praktische Durchfรผhrung bis hin zur Interpretation und zum Reporting eurer Ergebnisse.

Wir freuen uns auf euch! Jetzt Termin buchen:
impactunit.de/evaluationsberat

Evaluationsberatung Persรถnliche und kostenlose 30-minรผtige Videocalls zu allen Fragen rund um die Evaluation von Wissenschaftskommunikation. Immer mittwochs um 10 Uhr und 10.30 Uhr. Jetzt Termin vereinbaren.
Sebastian Ottmannsozialewirkung
2026-02-12

๐Ÿ” Perspektiven von Nutzer:innen bei der Wirkungsorientierung einbinden โ€“ darum geht es in einem neuen Beitrag in meinem Blog.

In dem Beitrag gehe ich darauf ein, dass es zentral ist, auch die Perspektive von Nutzer:innen bei der Wirkungsorientierung und Wirkungsanalyse einzubinden.

Link zum Blog ๐Ÿ‘‰ blog.soziale-wirkung.de/2026/0

Ai2 (@allen_ai)

LLM์€ ํ˜„์‹ค ์ž‘์—…(์˜ˆ: ์„ธ๊ธˆ์‹ ๊ณ )์ด๋‚˜ AI ์—์ด์ „ํŠธ ๊ณ„ํš ๋“ฑ ๋‹จ๊ณ„๋ณ„ ์ง€์นจ์„ ์ž์ฃผ ์ƒ์„ฑํ•˜์ง€๋งŒ, ์œ ์ฐฝํ•ด ๋ณด์—ฌ๋„ ๋™์ž‘ํ•˜์ง€ ์•Š๋Š” ๋‹จ๊ณ„๊ฐ€ ๋‚˜์˜ค๊ณ  ํ˜„์žฌ ๋ฐ์ดํ„ฐ์…‹์€ ๋‹ค๋ฃจ๋Š” ๋„๋ฉ”์ธ์ด ์ œํ•œ์ ์ด๋ผ ๊ฐœ์„ ์ด ์–ด๋ ต๋‹ค. How2Everything์€ ์ด๋Ÿฌํ•œ ๋‹จ๊ณ„๋ณ„ ์ง€์นจ ๋ฌธ์ œ๋ฅผ ๋Œ€๊ทœ๋ชจ๋กœ ํ‰๊ฐ€ํ•˜๊ณ ( ๋ฐ ํ›ˆ๋ จ) ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ํ‰๊ฐ€/๋ฐ์ดํ„ฐ์…‹ ์†”๋ฃจ์…˜์„ ์ œ์‹œํ•œ๋‹ค.

x.com/allen_ai/status/20212643

#llm #how2everything #dataset #evaluation

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst