#%D0%B4%D0%B0%D1%82%D0%B0%D1%81%D0%B5%D1%82

2025-10-21

Собираем качественные датасеты для LLM с помощью Telegram-бота

«Дайте мне качественный датасет, и я переверну Землю!» — возможно, так перефразировал бы свою крылатую фразу Архимед, доведись ему тренировать современные LLM. Хороших наборов данных в открытом доступе не так много, а собрать свой — задача не из простых. О популярных способах сбора данных для датасетов, связанных с этим рисков и о решении, которое мы используем в YADRO, сегодня и поговорим.

habr.com/ru/companies/yadro/ar

#LLM #архитектура #датасет #телеграмботы #сбор_данных_для_ии #машинное_обучение #искусственный_интеллект

2025-09-12

Перевод датасета для оценки эмпатии на русский язык: подход, проблемы, результаты

Эмпатия играет важную роль в коммуникации между людьми, и в частности, в сервисах психологической помощи. В онлайн-среде, где такая помощь всё чаще оказывается в текстовом формате, появляется много различных сервисов, которые предоставляют психологическую помощь на основе чатботов. Для них способность отвечать эмпатично становится критически важным навыком. В противном случае хорошо если сеанс окажется просто бесполезным и не усугубит имеющиеся проблемы. Успех БЯМ побуждает разработчиков использовать их в качестве основы для таких чатботов. Для оценки их способностей разрабатываются различные бенчмарки, в частности для задач с уклоном в психотерапию. Одним из таких является PsyEval . Однако для автоматической оценки эмпатии в текстах на русском языке размеченных датасетов просто нет. Мы, русскоязычные MLщики, не можем сказать, как сейчас БЯМ справляются с задачами, которые связаны с выявлением эмпатии и генерацией эмпатичных ответов. А ведь эти задачи напрямую влияют на качество инструментов псих-поддержки. Чтобы это хоть как-то исправить, мы приспособили большие языковые модели к переводу датасета с английского на русский язык. В этом посте я расскажу, как мы в команде Пситехлаб переводили датасет EPITOME с помощью больших языковых моделей.

habr.com/ru/articles/946264/

#llm #natural_language_processing #machine_learning #artificial_intelligence #перевод_с_английского #пситехлаб #датасет

2025-09-11

Готовим данные для LLM: открытые инструменты для нормализации, очистки и не только

Компании активно внедряют у себя решения на основе больших языковых моделей: боты техподдержки, умный поиск по базе знаний, выявление мошенников в диалоге или HR-ассистенты. Но самостоятельно вывести модель в полноценное продакшн-использование не так просто. К тому же для разных сценариев нужно тестировать разные модели. Это требует больших усилий. Чтобы уменьшить порог входа в эту технологию, мы создали собственную платформу —

habr.com/ru/companies/mws/arti

#MWS #mws_gpt #LLM #датасет

2025-09-03

Когда YOLO не спасает: как один параметр может испортить всё

История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.

habr.com/ru/articles/943516/

#покер #онлайнпокер #карты #computer_vision #yolo #object_detection #детекция_объектов #разметка_данных #датасет #оптимизация_моделей

2025-09-02

40 млн GitHub-репозиториев: открытый датасет метаданных для анализа и обучения

Я собрал датасет метаданных по ~ 40 млн публичных репозиториев GitHub. Внутри — звёзды, форки, лицензии, язык, описание, размер, дата создания и д р. Схема по смыслу максимально совместима с GH Archive/GitHub API. Лицензия — MIT . Ниже — как скачать, что внутри и идеи использования. Датасет: ibragim-bad/github-repos-metadata-40M

habr.com/ru/articles/942930/

#github #dataset #датасет #анализ_данных #аналитика_данных

2025-07-30

Если нужно сгенерировать синтетические данные — подборка открытых решений

Про снижение расходов на работу с данными

habr.com/ru/companies/mws/arti

#датасет #датасеты_обучения #ml #обучение_моделей #данные #синтетические_данные #LLM #MWS

2025-07-25

Как мы построили embedding-модель уха на Vision Transformers: от идеи до 88% точности

Пока весь мир гонится за распознаванием лиц и отпечатков пальцев, мы в решили взглянуть на человека чуть сбоку — буквально. Пришел клиент, принес проект. Система поиска родственных связей по фото. Все работает, все ищется, но хочется, чтобы было еще точнее, еще глубже. «А что если сравнивать…уши», – подумали мы. Почему уши? Потому что они, как и лица, обладают уникальной формой, но в отличие от лица — не меняются с возрастом, не маскируются бородой и не хмурятся на паспортном контроле. Идеальный кандидат для дополнительного биометрического сигнала. Но не все так просто. Нам предстоял полный цикл разработки модуля распознавания и сравнения ушей:

habr.com/ru/articles/931070/

#биометрическая_аутентификация #биометрия #распознавание_изображений #эмбеддинги #embeddings #visual_transformer #датасет #cnn #искусственный_интеллект #компьютерное_зрение

2025-07-22

ИИ против русского налогового права, часть 2: тестируем топовые reasoning LLM на RuTaR

Этот пост для нашего тг-канала Pro AI написал мой коллега Александр Мигаль, специалист по компьютерной лингвистике и один из авторов RuTaR В прошлой статье мы рассказали о RuTaR — большом открытом датасете на русском языке, разработанном для оценки способностей LLM к рассуждению в сфере налогового права. Среди прочего мы тогда запустили серию тестов, чтобы выяснить, как сильные модели справляются с задачами, требующими логического вывода с использованием RAG или без него, в варианте “из коробки”. Однако, как вполне справедливо отметили некоторые читатели, мы не протестировали "настоящие" reasoning-модели — те, что спроектированы специально для выполнения сложных логических рассуждений, и занимают верхние строчки в соответствующих бенчмарках. Мы решили исправиться.

habr.com/ru/articles/929826/

#llm #налоговое_право #датасет

2025-07-04

Создаем датасет печатных букв с любым шрифтом за 170 строк

В этой работе разбирается простой способ генерации изображений букв для подготовки данных для обучения нейронной сети для классификации (распознавания) букв русского алфавита.

habr.com/ru/articles/925022/

#генерация_изображений #датасет #программирование #искусственный_интеллект

2025-06-20

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Привет! Меня зовут Роман Куцев, я основатель LLM Arena . У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности. Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM. Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

habr.com/ru/articles/920150/

#llm #llmarena #датасет #dataset #ai #ии #разметка_данных #валидация_данных

2025-06-07

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

В статье представлено многоязычное расширение SWE-Bench от команды

habr.com/ru/companies/doubleta

#AI #ML #DS #SWE #bench #ML4se #Dataset #Датасет #Разметка_данных #benchmark

2025-05-28

CV/ML-проект от идеи до продакшена: практическое руководство

Привет, меня зовут Вадим Медяник, я технический директор ИТ-компании BPA. Я регулярно участвую в реализации проектов, где используется машинное обучение и компьютерное зрение — от первых обсуждений с заказчиком до вывода решения в прод. Со временем накопилось достаточно практики, чтобы выделить повторяющиеся этапы, типичные ошибки и решения, которые реально работают. Это практическое руководство собрал для коллег и команд, кто работает с подобными проектами — или только планирует. Здесь нет задач про state-of-the-art или подбор идеальных архитектур. Скорее хочу пройтись по каждому этапу — с чего начать, о чём спросить бизнес, где обычно «сыпется» проект, и что помогает пройти до конца. Рассчитано на тех, кто хочет разобраться в базовой структуре CV/ML-проекта, будь то инженер, аналитик или управленец. Если понадобится — можно будет углубиться в технические детали отдельно. Для удобства разделил весь путь подготовки CV-проекта на несколько основных этапов.

habr.com/ru/articles/913604/

#ai #проект #компьютерное_зрение #ии #иимодель #искусственный_интеллект #разработка #датасет #bounding_box #сегментация

2025-03-31

В погоне за неизведанным: как ML-модель вредоносы искать училась

Всем привет! С вами Ксения Наумова. В Positive Technologies я исследую вредоносный сетевой трафик и совершенствую инструменты его анализа в экспертном центре безопасности. Недавно перед нами встала задача — создать ML-модель для обнаружения вредоносного ПО в сети. Причем распознавать она должна была не только уже ранее детектированное нами вредоносное ПО, но и совсем новые угрозы, которые появляются в большом количестве ежедневно. В качестве первого эксперимента решили сделать модель для работы с трафиком, который передается по протоколу HTTP, поскольку наши продукты успешно расшифровывают TLS-сессии, а внутри них частенько можно найти много интересного. В статье я подробно расскажу, как мы обучали модель, и поделюсь информацией о допущенных ошибках.

habr.com/ru/companies/pt/artic

#ml #машинное_обучение #песочница #sandbox #сетевой_трафик #детектирование #вредоносное_по #обнаружение_вредоносного_по #lightgbm #датасет

2025-03-10

Методы классификации DGA инструментов

Одной из серьёзных угроз для информационной безопасности являются алгоритмически сгенерированные домены (DGA), которые позволяют злоумышленникам создавать множество поддельных доменов для обхода защитных систем и затруднения обнаружения вредоносной активности. В данной статье мы рассмотрим, что представляют собой DGA, каким образом они создаются и как методы машинного обучения могут быть применены для их эффективной классификации, с особым акцентом на анализ данных и классификацию наиболее популярных DGA семейств.

habr.com/ru/articles/888234/

#DGA #dnsтрафик #lightgbm #датасет

2025-02-19

[Перевод] Как собирать данные: руководство для ИИ-стартапов

Чтобы получить мощную ИИ-модель, ее нужно обучать на качественных данных. Но что делать, если данных мало или они обходятся слишком дорого? В статье разберем методы, с помощью которых ИИ-стартапы добывают «топливо» для разработки нейросетей. Под катом вы узнаете, как грамотно комбинировать разные подходы к сбору и разметке данных, как компании решают трудности, связанные с защитой тренировочных материалов авторским правом, и почему обучение нейросетей иногда лучше доверить другой ИИ-модели, а не человеку.

habr.com/ru/companies/magnus-t

#ииинжиниринг #машинное_обучение #иистартап #aifirst_стартап #датасет #разметка_данных #обучение_нейросетей #методы_обучения_LLM #синтетические_данные

2025-02-06

Апробация подхода для поиска аномалий на основе гибридных автоматов на датасете CIC Modbus 2023

Современная система автоматизированного управления технологическими процессами (АСУ ТП) представляет собой киберфизическую систему, объединяющую информационные технологии (IT) и операционные технологии (OT). В таких системах OT-инфраструктура играет ключевую роль, обеспечивая управление производственными процессами. Однако именно атаки на OT-системы являются наиболее критичными и сложными для обнаружения, что делает их защиту одной из приоритетных задач в области кибербезопасности. В данной статье речь пойдет о классе решений, разработанных с целью обеспечения защиты OT-инфраструктур, включая системы, о которых наши знания ограничены. Это достигается за счёт использования адаптивных механизмов обеспечения безопасности, способных эффективно реагировать на изменяющиеся угрозы. Для оценки эффективности разработанного решения проведён эксперимент по выявлению аномальной сетевой активности в CIC Modbus dataset 2023.

habr.com/ru/articles/879716/

#датасет #обнаружение_аномалий #гибридный_автомат #modbus #асу_тп

2024-12-25

∇²DFT — новый датасет и бенчмарк для решения задач квантовой химии с помощью нейросетей

Привет, Хабр! Меня зовут Кузьма Храбров, я инженер‑исследователь в AIRI и занимаюсь задачами на стыке машинного обучения, квантовой химии и вычислительной биологии. Вместе с командой мы создаем новые датасеты, обучаем новые модели и придумываем методы решения как фундаментальных, так и практических задач. В этом посте я расскажу про наш новый датасет малых молекул медицинской химии и бенчмарк графовых нейронных моделей, который мы собрали усилиями большой команды исследователей из групп «Глубокое обучение в науках о жизни» и «Прикладное NLP» AIRI, EPFL, СПбГУ, ИСП РАН и ПОМИ РАН. Кроме создания датасета квантовохимических свойств размером 220 терабайт, мы оценили, насколько хорошо современные нейронные модели решают задачи предсказания энергий и атомарных сил, оптимизации энергии и предсказания гамильтонианов. Наше исследование приняли на конференцию NeurIPS 2024 на трек Датасеты и Бенчмарки. Приятного чтения!

habr.com/ru/companies/airi/art

#квантовая_химия #графовые_нейросети #бенчмарки #датасет #dft

2024-09-05

Обнаружение DNS туннелей

В современном мире, где цифровые технологии проникают во все сферы нашей жизни, обеспечение безопасности данных становится важной задачей. В данной статье мы расскажем, что представляют собой DNS-туннели, каким образом они создаются, а также как методы машинного обучения могут быть применены для эффективного их обнаружения.

habr.com/ru/articles/840996/

#dnsтуннель #dnsтрафик #lightgbm #датасет #cic

2024-08-29

Создание искусственного датасета для обучения модели с использованием Paddle OCR

Привет, коллеги! Продолжаем тему разработки плагина для распознавания иврита с использованием Paddle OCR. В прошлый раз я забыла представиться, сделаю это в этом посте) Меня зовут Алексей, я руковожу компанией, которая занимается разработкой с применением ИИ-технологий. Сам я тоже погружен в разработку, но больше доверяю это своей команде – нам удалось собрать команду классных профи. Истории из нашей совместной работы я и планирую рассказывать в своем блоге. Вернемся к теме статьи. Сегодня остановимся подробнее на создании искусственного датасета для обучения модели с использованием Paddle OCR. Этим занимался мой коллега Александр – экспертв компьютерном зрении. Когда перед нами встала задача распознавания текста на иврите, стало ясно, что найти готовый датасет с нужными характеристиками практически невозможно. Это подтолкнуло нас к созданию собственного датасета, который оказался не только полезным, но и дал возможность потренироваться в генерации синтетических данных. В этом посте мы подробно расскажем, как именно подошли к этому процессу.

habr.com/ru/articles/839326/

#искусственный_интеллект #компьютерное_зрение #распознавание_текста #paddleocr #tesseract #датасет #аугментация_данных

2024-08-20

Новый подход для классификации текста в чат-ботах

Всё чаще в реализации проектов встречается потребность в классификации входящего текста для дальнейшей обработки. До недавнего бума нейросетей задачи по классификации текста были достаточно трудоемкими, дорогостоящими и требовали глубоких знаний NLP. А готовые решения не давали желаемой точности ответов. К счастью, сейчас практически моментально можно внедрить множество решений. Представьте, автодилер ежедневно получает сотни сообщений от клиентов. Как быстро и точно определить, что хочет клиент? С помощью классификации текста.

habr.com/ru/companies/oleg-bun

#python #classification #ml #ai #llm #LLMклассификатор #MLклассификатор #semanticrouter #датасет #эмбеддинг

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst