#GPT2

eicker.TV ▹ Technewseickertv
2025-04-07

OpenAI will wieder open werden!

🧠 plant in den kommenden Monaten die Veröffentlichung eines neuen „offenen“ Sprachmodells, das erstmals seit frei verfügbar sein soll.

📋 Über ein Formular sammelt das Unternehmen derzeit von Entwicklern und Forschern, um die Wünsche der Community in die Entwicklung einfließen zu lassen.

🏁 OpenAI reagiert damit auf den wachsenden Druck durch Konkurrenten wie und , die mit offenen Modellen große Erfolge feiern. (1/2)

Pustam | पुस्तम | পুস্তম🇳🇵pustam_egr@mathstodon.xyz
2025-03-21

Moore’s Law for AI agents: the length of tasks that AIs can do is doubling about every 7 months.

These results appear robust. The authors were able to retrodict back to GPT-2. They further ran experiments on SWE-bench Verified and found a similar trend.

Read more: metr.org/blog/2025-03-19-measu

#AIBoom #AI #AIAgents #AIAgent #ArtificialIntelligence #GPT2 #MooreLaw #Tasks #DL #ML #Pustam #Raut #AIRevolution

2024-11-17

Дообучаем языковую модель GPT2 с помощью Torch

Дообучаем языковую модель GPT2 с помощью Torch Доброго времени суток, в этой статье я хочу поговорить о дообучения языковых моделей. В интернете уже много информации на эту тему, но большинство подобных статей затрагивают ее поверхностно. Сегодня я попробую разобраться в этом подробнее.

habr.com/ru/articles/859250/

#языковые_модели #python #python3 #pytorch #дообучение #gpt #gpt2 #языковая_модель

Tiago F. R. Ribeirotiago_ribeiro
2024-10-15

Demystifying the Embedding Space of Language Models

📎bert-vs-gpt2.dbvis.de/

2024-10-10

GPT-2 is trying to figure out who and what it its.
largelanguage.bandcamp.com/tra
From Large Language.
#gpt2 #llband

Scripter :verified_flashing:scripter@social.tchncs.de
2024-10-08

KI verstehen mit Excel: Diese Excel-Tabelle zeigt dir, wie GPT-2 funktioniert
t3n.de/news/ki-verstehen-mit-e #KI #GPT2 #Excel

2024-08-28

Действительно ли большие языковые модели галлюцинируют? Эксперимент

Существует мнение, что основная проблема больших языковых моделей — в склонности к галлюцинациям. Когда нейросеть генерирует текст с информацией, не связанной с запросом. Меня зовут Полина, я инженер по разработке ПО искусственного интеллекта в YADRO. Вместе с коллегами я разрабатываю системы на базе генеративных моделей, в том числе вопросно-ответных ассистентов. В рамках одного из проектов мы вместе с экспертом команды Андреем Соколовым задались вопросом: действительно ли проблема галлюцинаций так актуальна для современных предобученных LLM в вопросно-ответном сценарии. Для этого мы провели эксперимент на собранном датасете. Попутно рассказали про модели-трансформеры и дали строгое определение понятию «галлюцинации LLM». Все подробности — под катом.

habr.com/ru/companies/yadro/ar

#машинное_обучение #искусственный_интеллект #обучение #галлюцинации #llm #большие_языковые_модели #gpt2

2024-06-24

Дообучение модели GPT-2 (RUS) для генерации описаний заведений на основании названия, рубрики и оценки

В данной работе представлен процесс дообучения модели генерации текста на основе архитектуры GPT-2. Целью работы является демонстрация возможностей применения дообученной модели для генерации текстов, соответствующих определённым наименованиям заведений, рубрикам и оценкам, выставленных пользователями. Используя предварительно подготовленный датасет, который включал названия заведений, отношение к определённым рубрикам и рейтинг, мы обучили модель на генерацию описательных текстов, которые могли бы отражать характер и уровень заведений в зависимости от их оценочной характеристики.

habr.com/ru/articles/823952/

#finetuning #gpt #gpt2 #natural_language_processing #text_generation #русский_язык #дообучение #языковая_модель

2024-06-18

The next chapter in Karpathy's tutorial explains how to reproduce a model closely resembling #OpenAI's original #GPT2.

...but I'm *NOT* trying this on a desktop with a single GPU. The README informs us that this training takes about 4 days on a beefy node with 8 x A100 40GB. Nope!

github.com/karpathy/nanoGPT?ta
#AI #LLM #GPT

ComputerBaseComputerBase
2024-06-17
Gea-Suan Lingslin@abpe.org
2024-06-04

用 2024 年的技術花 US$20 嘗試重建當年 OpenAI 的 GPT-2 (124M)

在 GPT-2 出來的 2019 年 Nvidia 的家用顯卡應該是 2080 Ti (2018/09/27),抓一下感覺。

在「Reproducing GPT-2 in llm.c (github.com/karpa

blog.gslin.org/archives/2024/0

#Computer #Murmuring #andrej #gpt2 #karpathy #language #large #learning #llm #machine #model #openai

David Egtsdavidegts
2024-05-10

".c takes a simpler approach by implementing the neural network training algorithm for directly [in a single file of 1,000 lines of ]" hackaday.com/2024/04/28/train-

KINEWS24KiNews
2024-05-02

KINEWS24 News Flash

- Atlassian Rovo
- Sam Altman MIT Technology Review
- Microsoft & Sanctuary AI
- MIT KAN Forschung
- GPT2 - schlägt alle anderen LLMs
- CRISPR-GPT

Alle News hier!

kinews24.de/kinews24-update-4/

2024-04-30

謎の #生成AI#gpt2 」 登場で騒然 次世代のGPT ? アルトマンCEOも言及
ITmedia
goo.gl/alerts/xxbbgK

Erik JonkerErikJonker
2024-04-30

There is a mysterious new chatbot from OpenAI on chat.lmsys.org/ , it's called GPT2 not to be confused with the old model with the same name.
This models seems to do several things better then GPT-4.
Everybody is speculating what it is and what it is not. 😀

GPT2
Aurelie Herbelot is movingminimalparts@fosstodon.org
2024-04-17

How to break an AI (the illustrated guide 🤖 )

I am posting this for fun, to show how fragile #AI systems are, and how ridiculous it is to imply that they are intelligent or could wipe us out.

1) Grab a model. For this demo, I will take GPT2 because it fits on my laptop.

2) Copy-paste code for running and fine-tuning the AI. You can take mine here, which will also download #GPT2 for you: github.com/possible-worlds-res.

Optional: see how the model, for now, is working as it should… 1/4

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst