Lmst

Một thử nghiệm đối chiếu Gemini 2.5 Flash & các mô hình mã nguồn mở (OSS) trong tạo giao diện UI thông qua prompt chi tiết 62.9k token. Gemnini hoàn thành mượt mà, các mô hình OSS như Qwen, GPT-OSS, Llama-70B… phần lớn gặp lỗi: tắc nghẽn trong reasoning (dù đặt "low"), gọi tool sai, hoặc bỏ qua quy trình. Chỉ Kwaipilot-kat-coder thực hiện được nhưng chậm 3x & lỗi gọi tool. Cơ bản là kiến trúc khác biệt hay lỗi triển khai?

#AI #MôHìnhĐạiDiện #Gemini #MãNguồnMở #LậpTrình #TestingAI #TốiTânAI #G

Financial Times: OpenAI slashes AI model safety testing time. “OpenAI has slashed the time and resources it spends on testing the safety of its powerful artificial intelligence models, raising concerns that its technology is being rushed out without sufficient safeguards. Staff and third-party groups have recently been given just days to conduct ‘evaluations’, the term given to tests for […]

https://rbfirehose.com/2025/04/11/financial-times-openai-slashes-ai-model-safety-testing-time/

AI struggles with less common data: Inconsistent results for Valletta Bastions (actual mean height: 25m) highlight issues with insufficient training data. We also touch on AI poisoning.

https://www.alanbonnici.com/2025/03/ai-got-it-wrong-missing-information-or.html

#AI #DataBias #Valletta #TTMO #ArtificialIntelligence #hallucination #Mistakes #TestingAI #InsufficientData #DataPoisoning

How does AI handle insufficient information? 🤔 We tested an AI with questions about the Eiffel Tower, Big Ben, and the bastions of Valletta. The AI gave inconsistent answers when training data is limited or unclear. We also touch on AI poisoning, where AI models can be misled by fake data
▶️ https://buff.ly/yRDWPTf
#AI #InsufficientData #DataPoisoning #EiffelTower #BigBen #Valletta #TestingAI #Accuracy #TTMO

One final reminder for members only pricing and your chance to save over $300 off of registration for CAST 2025!

Yes!!! If you become a member you do qualify for this sale, but only for the next few hours!

Pricing goes up tomorrow and registration opens to the general public which means SPOTS WILL FILL UP!

REGISTER NOW: https://associationforsoftwaretesting.org/conference/cast-2025/

#TestingConference #CAST2025 #SoftwareTesting #testing #aitestingtools #TestingAi #quality #SiliconSlopes #SiliconValley

Also so wird das nichts mit uns, #ChatGPT!

#testingAI

Screenshot ChatGPT, 15.3.2023

schreibe eine medienwissenschaftliche einleitung zum thema test

In der Medienwissenschaft gibt es zahlreiche Mdglichkeiten, sich mit dem Thema "Test" auseinanderzusetzen. Tests konnen in verschiedenen Medienformaten wie Printmedien, Online-Medien, Fernsehen oder Radio vorkommen und dienen dazu, die Leistungsfahigkeit, das Wissen oder die Meinungen von Menschen zu priifen und zu bewerten. Tests werden oft als Mittel zur Bewertung von Wissen, Fahigkeiten oder Eigenschaften betrachtet, aber sie kdnnen auch als Instrument zur Beeinflussung der 6ffentlichen Meinung eingesetzt werden. Die Verwendung von Tests in den Medien kann sowohl positive als auch negative Auswirkungen haben. Auf der einen Seite kénnen sie dazu beitragen, Qualitatsstandards und Wissen zu fordern, auf der anderen Seite kénnen sie auch zur Manipulation und Verzerrung von Informationen fiihren. In der heutigen digitalen Welt haben sich die Formen und Arten von Tests weiterentwickelt und sind in Form von Online-Quizzen, Personlichkeitstests und anderen interaktiven Formaten allgegenwartig geworden. Diese Formate konnen als unterhaltsame und informative Inhalte dienen, haben jedoch oft auch kommerzielle Absichten und dienen der Datensammlung. Insgesamt ist das Thema Test in den Medien ein vielschichtiges und interessantes Forschungsfeld, das verschiedene Aspekte der Medienproduktion, -verbreitung und -rezeption umfasst.

Bin gespannt und freue mich riesig auf unser #testingAI Forschungsprojekt 🤖⚖️👩‍🔬
---
RT @informatikradar
Wie können wir #KI auf #Diskriminierungsfreiheit und #Fairnes testen?🤔 In unserem Forschungsprojekt werden u.a. @nettwerkerin, Prof Borges (@Saar_Uni), @LeonieBeining, @HeidrichJens und @redmonkey_ dieser Frage für @denkfabrik_bmas nachgehen.
#testingAI https://testing-ai.gi.de/meldung/ki-in-der-arbeitswelt-forschungsprojekt-zur…
https://twitter.com/informatikradar/status/1264919326064365570

#TestingAI

Client Info