#%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0

2025-02-13

Обучить модель RoBERTa расстановке запятых на балконе для продакшена

RoBERTa — улучшенная версия модели BERT, разработанная Facebook AI. Она показывает отличные результаты в задачах обработки естественного языка, таких как классификация текстов и генерация ответов. Построим конкурентоспособный сайт расстановки пунктуации, обучив свою нейронную сеть. Для прогнозирования популярности в поисковой выдаче начнем с анализа запросов Вордстат: расставить запятые – 290 000 запросов/месяц; расставить точки – 15 000 запросов/месяц. По статистике, 95% запросов посвящены запятым, уделим им особое внимание. Добавим мультиязычность, чтобы получать больше трафика.

habr.com/ru/articles/882276/

#pytorch #python #машинное_обучение #нейросеть #искусственный_интеллект #roberta #обработка_текста #запятая #знаки_препинания #пунктуация

2024-04-19

«Ревизорро» в IT: тестируем суммаризацию текста в GigaChat и YandexGPT

После появления на рынке API для беседы с ChatGPT 3.5 каждый второй заказчик решения на основе машинного обучения (ML) хочет внедрить у себя ИИ, который может красиво и содержательно общаться на русском языке. Меня зовут Екатерина, я IT-архитектор команды SimbirSoft , специалист по ML и поклонница всего, что связано с обработкой текстов на естественном языке (NLP). Сегодня будем разбираться в тонкостях решения одной из популярных на рынке задач – автоматического составления аннотаций. Для эксперимента мы использовали две GPT-подобных модели, «заточенных» на русский язык: GigaChat и YandexGPT. Заявленный потенциал систем тестировали на текстах трёх жанров: научном, научно-популярном и художественном. Что из этого получилось, расскажем в статье. Материал будет полезен тем, кто следит за тенденциями развития машинного обучения на рынке и в целом интересуется внедрением больших языковых моделей (LLM) в ML-проектах – для оценки их возможностей «из коробки».

habr.com/ru/companies/simbirso

#NLP #обработка_текста #суммаризация_текста #gigachat #yandexgpt #эксперимент

2024-04-12

Заменят ли LLM людей в разметке данных для AI?

Привет! Использование ИИ в разметке данных для него же — уже скорее необходимая потребность, нежели что-то удивительно новое. Разного рода экспериментами с авторазметкой данных нейронками мы занимаемся последние полгода и результаты — нравятся. В данной статье я детально расскажу о нашем самом первом эксперименте с LLM в разметке данных для ИИ и proof-of-concept их годноты использования в реальных задачах, а в процессе попробую ответить на большой вопрос — так заменят ли LLM людей в разметке данных? Давайте вооружимся GigaChat, chatGPT, Gemini и начнем!

habr.com/ru/articles/807137/

#llm #большие_языковые_модели #большие_данные #разметка #разметка_данных #гигачат #ассессмент #обработка_данных #эксперименты #обработка_текста

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst