#%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%82%D0%BA%D0%B0_%D0%B4%D0%B0%D1%82%D0%B0%D1%81%D0%B5%D1%82%D0%B0

2025-07-03

200 000+ снимков мусора: что мы узнали о датасетах

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

habr.com/ru/articles/924696/

#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

2025-07-02

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

habr.com/ru/articles/924358/

#нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

2025-01-30

Менеджер данных: как новая роль изменила подход к работе с ML

Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. В этой статье я расскажу: 🌚 Кто такой менеджер данных и чем он занимается. 🦾 Как эта роль помогла нашей команде ML-инженеров. 🔜 Когда такой специалист может понадобиться вам. 🔎 Как найти подходящего кандидата на эту позицию.

habr.com/ru/companies/2gis/art

#разметка_датасета #машинное_обучение #подготовка_данных #менеджер_данных #mlинженер #работа_в_it

2024-12-16

8 лучших советов для аутсорсинга разметки данных

Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно. Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам. Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких. Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты: Алексей Корнилов, Special Projects Group Manager Дмитрий Рогальский, Moderation Group Manager

habr.com/ru/companies/data_lig

#machinelearning #разметка_датасета #разметка_данных #аутсорсинг #машинное_обучение #data_annotation

2024-12-11

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей , вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение , а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.

habr.com/ru/companies/magnus-t

#биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных #компьютерное_зрение #data_light #синтетические_данные

2024-12-06

Как добиться успеха в большой компании? 4 ингредиента для идеального карьерного рецепта руководителя

Что делает руководителя по‑настоящему успешным? После управления двумя отделами в Авито я взялся за создание отдела Контроля качества в Data Light. Результат не заставил себя ждать: всего за несколько месяцев команда из 47 человек вывела метрику экспертизы на уровень 98%. За это время я определил для себя 4 ключевых принципа, которые помогают добиваться таких успехов, я готов поделиться своей историей и раскрыть их в этой статье.

habr.com/ru/companies/data_lig

#разметка_данных #разметка_датасета #менеджмент #управление_проектами #управление_людьми #карьера_в_itиндустрии

2024-11-29

Как организовать разметку данных для ML? Советы от Data Light

За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии. Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами: Дмитрий Рогальский, Special Projects Group Manager в Data Light Алексей Корнилов, Moderation Group Manager в Data Light

habr.com/ru/companies/data_lig

#разметка_данных #разметка_датасета #инструменты_для_аннотации #data_annotation #data_science #data_science_digest #аннотация_данных #краудсорсинг

2024-10-25

Как мы отбираем и обучаем специалистов: от первых шагов до реальных проектов

В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах. Мы знаем: чем лучше подготовлен исполнитель, тем выше итоговое качество работы. Я, Артем Каукалов, руководитель отдела обучения, поделюсь опытом нашей компании — как найти людей, которые помогут вам достичь максимальных результатов, и как правильно выстроить их процесс учебы.

habr.com/ru/companies/data_lig

#project_management #data_annotation #аннотация #разметка_данных #разметка_датасета #artificial_intelligence #big_data

2024-10-03

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео. В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно. И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке. Давайте разбираться.

habr.com/ru/articles/847780/

#cv #markup #labeling #labeling_tool #разметка #разметка_данных #разметка_датасета #компьютерное_зрение #gigachat #сбор_данных

2024-09-30

Corner-кейсы в разработке и разметке данных: что это такое, как с этим жить и при чем тут Достоевский?

Изначально я писал с прицелом на разметку, но все написанное оказалось легко перекладываемо и на разработу софта, да и вообще на любые сложные процессы. На обложке — главный corner-case всея Руси от Достоевского. Про такое в общем смысле и поговорим.

habr.com/ru/articles/846932/

#ai #ии #ии_и_машинное_обучение #машинное+обучение #разметка #разметка_данных #разметка_датасета #cv #labeling_tool

2024-07-22

Разметка данных — тренируемся на кошках

Погружаясь все глубже в процессы автоматизации в какой то момент ты сталкиваешься с необходимостью разметки данных, хотя буквально пару недель назад, словосочетания - разметка данных и ты, стояли на вечеренике под названием "Заработок в интернетах" в разных комнатах, вернее ты стоял около бассейна, а разметка данных была на третьем этаже, курила на балконе со специалистами в области машинного обучения. Как мы встретились? Вероятно кто-то столкнул ее с балкона в бассейн, а я помог ей выбраться, попутно замочив и свою одежду. И вот, вы сидите на кухне, курите одну сигарету на двоих и пытаетесь разобраться, чем каждый из вас занимается, и как вы можете быть друг другу полезными? В общем не так важно, для чего мне это понадобилось, но тот факт, что у меня это получилось намного интереснее. И теперь, когда вам уже достаточно душно (или нет), переходим к сути.

habr.com/ru/articles/829710/

#разметка #разметка_данных #датасет #разметка_датасета #разметка_изображений #разметка_фотографий

2024-07-01

GigaChat + RAG: как гига нам инструкции для разметки пишет в 3 раза быстрее

Почти за всем хорошим ML стоят хорошие данные. И так получилось, что таких данных часто нет и их приходится добывать, а даже добыв, из них нужно сделать что-то подходящее, и (если сильно огрубить) такой процесс называется разметкой. Разметка — такая штука, когда все в индустрии делают примерно одно и то же, но чуть-чуть или сильно по разному. Разметка — очень нудная штука сама по себе, и потому ее запуском, отладкой и настройкой инженеры заниматься вот совсем не любят. Сам процесс довольно монотонен, но когда у тебя мультимодальный конвейер из поступающих данных, то делать всяческие инструменты для разметки и предлагать инженерам решения без их участия — это весело! Одна из наших важнейших метрик, помимо качества результата, это позаимствованный у бизнеса термин ttm (time to market), что в нашем случае — время от момента прихода клиента с идеей по момент продуманного запуска его задачи в разметку. В этой статье — пошагово о том, как мы не только ускорили написание инструкций, но и даже попутно повысили их качество. Идея — гениально проста, рецепт — повторяем, эффект — огонь. Расчехляйте вашу LLM, закатайте рукава, тут есть много работки!

habr.com/ru/articles/825606/

#разметка #разметка_данных #разметка_датасета #большие_данные #llm #обработка_данных #искусственный_интеллект #rag #ai #ии

2024-04-27

AI-тренер, нейровоспитатель, ассесор, крауд и разметчик — кто все эти люди и в чем разница?

Многие компании в последнее время ввели должность «ИИ-тренера» (AI-тренера), при этом просто разметчики/ассесоры никуда не делись. Что это — просто красивая обертка нейминга над тем же самыми или что-то концептуально новое? Давайте попробуем в этом разобраться и однозначно ответить на вопрос о различиях.

habr.com/ru/articles/811037/

#разметка #разметка_данных #разметка_датасета #большие_данные #ассессмент #обработка_данных #aiтренер #искусственный_интеллект #ai

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst