#%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5

2025-05-06

Как я обошел современные GPT модели с помощью GPT2-small на задачах рассуждения

Не так давно я уже писал статью по такому необычному явлению, как гроккинг - отложенная генерализация. Если долго тренировать модель на наборе данных, то тестовая точность достигнет 100% и модель станет безошибочно решать задачу. Звучит круто! Но вот проблема - никто до сих пор не мог применить гроккинг на задачах из реального мира, а мы это сделали и сейчас публикуемся на крупнейшей МЛ конференции. Если интересно, как мы этого достигли, то прошу под кат.

habr.com/ru/articles/907208/

#искусственный_интеллект #трансформеры #гроккинг #машинное+обучение #ai #рассуждение

2025-04-29

Кем стать: дата-сайентистом, аналитиком, инженером данных или ML

Data Science — обширная область знаний на стыке аналитики, статистики, математики, программирования и машинного обучения. Специалисты в этой сфере работают с данными — они их хранят, обрабатывают, анализируют, находят закономерности и используют для прогнозирования. Результаты труда используются для решения самого широкого круга задач — от повышения розничных продаж до анализа ДНК по результатам лабораторных тестов. С Data Science в ИТ связан ряд профессий. Наиболее востребованные из них — дата-сайентист, дата-аналитик, инженер данных и ML-инженер (специалист по машинному обучению). Узнаем, чем занимаются представители этих профессий, сколько зарабатывают и каковы их перспективы на современном рынке труда.

habr.com/ru/articles/905388/

#аналитик #data_science_digest #data_science #машинное+обучение #машинное_обучение

2025-04-25

Endless Fun Machine: бесконечный генератор смешных картинок

Может ли ИИ шутить? Я провел эксперимент, чтобы ответить на этот вопрос. В этой статье я расскажу, как я научил ИИ генерировать смешные картинки с нуля.

habr.com/ru/articles/904500/

#искусственный_интеллект #большая_яз #python #ai_art #генерация_изображений #юмор #gptimage1 #openai #машинное+обучение #машинное_творчество

2025-04-23

Обработка геоданных для ML-задач. Часть 3: агрегирование данных и оценка пространственных шаблонов

Пространственное агрегирование помогает контролировать степень детализации данных в зависимости от пространственных характеристик отдельных записей. Эта операция может быть полезна, если вы хотите сравнить разные регионы по конкретному параметру, (например, плотность населения или динамика продаж), оценить значение признака на единицу площади (скажем, среднюю выручку магазинов на квадратный километр) или преобразовать набор точек в растровые пространственные данные. Важно учитывать, что агрегирование упрощает анализ , но «схлопывает» внутреннюю вариативность данных, типа как усреднённая температура по больнице может скрывать локальные перегретые серверные. Существует, по крайней мере, три метода пространственного агрегирования ...

habr.com/ru/companies/cinimex/

#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных #машинное_обучение #машинное+обучение #машинное_обучениe

2025-04-21

Новые LLM от Google в 2025 году: генерация идей, голосов, картинок… и песни дельфинов

Привет, Хабр! Меня зовут Саша Пиманов, в МТС я занимаюсь разработкой. Мне нравится следить за глобальными трендами в области, и сегодня хочу обсудить новые LLM от Google. На конференции Google Cloud Next 2025 в Лас-Вегасе компания показала , как усовершенствовала модели Gemini, и представила новые инструменты для создания музыки, видео и изображений. Было много идей для бизнеса, творческого комьюнити и защиты окружающей среды. А еще — необычные проекты вроде анализа вокализаций дельфинов.

habr.com/ru/companies/ru_mts/a

#искусственный_интеллект #ai #ии #itкомпании #машинное+обучение #machine_learning #google #llm #проекты

2025-04-21

Пайплайн распознавания номеров транспортных средств: как это устроено

Привет, Хабр! Это Анастасия Белозерова, я возглавляю команду, которая занимается исследованиями в области транспорта в VisionLabs. В прошлый раз я писала о пайплайне распознавания ТС, а сегодня поговорим про распознавание номеров. Для нас это одно из ключевых направлений, ведь номер для машины — это уникальный идентификатор, фактически то же самое, что и лицо для человека. Распознавать его можно совершенно разными способами, это всегда интересная задача. Что ж, погнали!

habr.com/ru/companies/ru_mts/a

#транспорт #машинное+обучение #искусственный_интеллект #aircrack #ии #распознавание

2025-04-14

Организация ML-проекта с примерами

Организация - это важно. То же относится к ML-проектам. Из каких компонент он должен состоять? Как оформить проект, чтобы всего хватало и было удобно это масштабировать? Рассмотрим организацию по шаблону CookieCutter с примерами.

habr.com/ru/articles/900788/

#машинное+обучение #искусственный_интеллект

2025-04-06

Fine tuning или RAG. Что выбрать?

🐝 RAG vs Fine tuning. В чём разница? При разработке ИИ проектов существует два способа интеграции внешних данных: RAG хранилища и Fine tuning. Для не технаря отличия не очевидны. Я сделал short summary, чтобы по существу изложить плюсы и минусы двух решений

habr.com/ru/articles/898026/

#typescript #javascript #python #finetuning #rag #ml #llm #yandexcloud #машинное+обучение #исскуственный_интеллект

2025-04-01

Код, который все изменил: история AlexNet и ее наследие

В марте 2025 года Компьютерный исторический музей (Computer History Museum) совместно с Google опубликовал исходный код AlexNet — нейросети, которая в 2012 году привлекла внимание к возможностям глубокого обучения. Исследователи и энтузиасты получили полные исходники модели, ставшей одним из ключевых этапов в развитии компьютерного зрения. Почему эта сеть настолько важна для ИТ, а ее вклад считают значимым? Давайте разбираться.

habr.com/ru/companies/ru_mts/a

#нейросети #alexnet #искусственный_интеллект #ai #машинное+обучение #машинное_обучение #высокая_производительность

2025-03-25

Как дистилляция меняет индустрию искусственного интеллекта

Всем привет! Меня зовут Миша, я руковожу центром R&D Big Data в МТС Диджитал. В прошлый раз делился с вами подборкой книг по базам данных . Сегодня хочу обсудить, как дистилляция влияет на индустрию ИИ. Крупнейшие компании в области ИИ, включая OpenAI, Microsoft и Meta, используют технологию дистилляции — это позволяет им задействовать меньше ресурсов для разработки мощных языковых моделей. Конечно, дистилляция не новинка. Но игроки ИИ-отрасли особенно заинтересовались ею, как только китайская компания DeepSeek создала с ее помощью производительные модели на основе открытых решений конкурентов. Последствия проявились сразу. После анонса DeepSeek R1 фондовый рынок США потерял за несколько дней свыше 1 трлн $. О причинах тут уже писали — китайцы заявили, что на обучение ушло всего 5,6 млн $. Потом стали известны нюансы, и эту цифру поставили под сомнение. Но в любом случае успех DeepSeek привел к внимательному изучению технологий, используемых китайской компанией, игроками отрасли. Обо всем этом и поговорим в посте.

habr.com/ru/companies/ru_mts/a

#машинное+обучение #машинное_обучение #искусственный_интеллект #ai #itкомпании #языковые_модели

2025-03-18

Разметка данных с использованием LLM

Всем привет! Меня зовут Артем Ерохин. Я работаю в X5 Tech в направлении продуктивизации ИИ. В прошлом году у меня был доклад про разметку данных с LLM . И я решил преобразовать этот доклад в статью, попутно обновив некоторые цифры и тезисы (такова уж скорость прогресса в этой области).

habr.com/ru/companies/X5Tech/a

#LLM #искусственный_интеллект #машинное+обучение #ии #разметка_данных #machine_learning #синтетические_данные #natural_language_processing

2025-03-09

LLM обычно так не используют. А мы попробуем

Насколько LLM хорошо понимают юмор и способны уместно и ненавязчиво его использовать в процессе общения? От этого сильно зависит тональность диалога и вовлеченность в него нас самих. Мы получим от него больше удовольствия и будем общаться свободнее. Наш стиль общения станет естественнее, а эмоциональное состояние — комфортным. Поэтому давайте напрямую попробуем проверить именно эти качества моделей и оценим результаты чисто субъективно. Попросим разные модели для начала просто придумать анекдот. И пусть это будет, для нашего большего удовольствия, анекдот про программистов с элементами чёрного юмора.

habr.com/ru/articles/889252/

#искусственный_интеллект #машинное+обучение #мозг #научнопопулярное #юмор #llm

2025-03-07

Как пять нейросетей заменяют целую студию людей

Всё началось с запроса от группы психологов, которые проводят тренинги по профессиональному выгоранию. Они хотели необычную визуализацию для своих корпоративных программ — что-то, что иронично показало бы офисную жизнь и проблемы выгорания. Идея использовать нейросети для создания клипа показалась идеальной: это одновременно демонстрировало новые технологии и решало творческую задачу. Мой опыт в продакшене и документальном кино подсказывал, насколько трудоёмким был бы традиционный процесс создания такого видео. С нейросетями появился шанс сделать идею гораздо быстрее, хотя и со своими сложностями.

habr.com/ru/articles/889000/

#нейросети #ии #нейросети_для_генерации_изображений #нейросети_для_генерации_видео #flux #runway_ai #runway_gen3 #minimax #искусственный_интеллект #машинное+обучение

2025-03-07

Запускаем клиент DeepSeek под DOS

Привет, Хабр! Это Сергей, я пишу для команды спецпроектов МТС Диджитал. Мне нравится, когда старые технологии могут хоть как-нибудь взаимодействовать с новыми. Помните фильм «Морской бой» 2012 года? Там инопланетяне смогли вывести из строя все современные суда, но в итоге проиграли сражение линкору «Миссури» — музейному экспонату. Каждый раз, когда мне удается заставить какую-нибудь раритетную железку действовать в современных условиях, возникает то самое чувство, как при просмотре этого фильма. Я проверил, насколько реально через MS-DOS получить доступ к нейронным сетям вроде нашумевшего DeepSeek и будет ли это работать. О результатах эксперимента и расскажу в этом посте.

habr.com/ru/companies/ru_mts/a

#deepseek #dos #машинное+обучение #машинное_обучение #искуственный_интеллект #diyпроекты #diy_или_сделай_сам

2025-02-07

Генерация табличных данных с помощью языковых моделей: делаем правильно

В мире анализа данных и машинного обучения качественные табулированные данные играют ключевую роль. Однако далеко не всегда у специалистов есть доступ к реальным данным из-за конфиденциальности или их полного отсутствия в структурированном виде. В таких случаях на помощь приходят языковые модели, способные генерировать структурированные таблицы с синтетическими данными.

habr.com/ru/articles/880534/

#синтетические_данные #генеративный_ии #машинное+обучение

2025-02-06

Удивительный мир хакатонов: как я придумал для студентов задачку и что они с ней натворили

Привет, Хабр! Меня зовут Владимир Казаков, я руковожу продуктом «Обучение» в МТС Линк. А еще я с удовольствием помогаю организовывать и проводить хакатоны — это всегда десятки свежих идей, передающийся от участников драйв, новые контакты и море опыта для будущих разработчиков. Полгода назад в наш рабочий чат внезапно прилетело сообщение: «Ребят, срочно! МИФИ организуют хакатон, нужна задача, желательно отправить сегодня!». Вызов был принят, и мы подготовили задание по работе с большими данными. В этом посте расскажу, чем студенты могут удивить разработчика с 15-летним стажем, в чем их сильные стороны, а что еще надо подтянуть.

habr.com/ru/companies/ru_mts/a

#хакатон #искуственный_интеллект #машинное+обучение #машинное_обучение #big_data #большие_данные #командная_работа #мтс_линк

2025-02-04

PicTrace-X1: Как умные очки и нейросети меняют поиск изображений — от браузера до навигации

Современный цифровой мир генерирует терабайты визуальных данных ежедневно. Рутинные задачи — маркетинговый анализ, модерация контента, обеспечение безопасности или разработка умных очков и протезов для людей с ограниченными возможностями — требуют мгновенного доступа к релевантным изображениям. Ручной поиск не только замедляет процессы, но и подвержен человеческим ошибкам. В данной статье мы рассмотрим, как интеграция инструментов автоматизированного поиска схожих изображений, цифрового зрения и навигационных систем открывает новые горизонты в области персональных устройств. Особое внимание уделяется проекту умных очков PicTrace-X1 , который объединяет возможности нейронных сетей, алгоритмов SLAM и современных аппаратных платформ, создавая единую экосистему для взаимодействия с окружающим миром.

habr.com/ru/articles/879372/

#умные_очки #python #ai #поиск_по_изображениям #поиск_по_сайту #поиск_по_сходству #навигационные_системы #машинное+обучение #разработка_электроники #программирование

2025-02-03

Пойдём в нейросети вместе со мной

Сегодня никого не удивить ещё одной простой нейросетью для распознавания изображений на питоне через вычисления над матрицами. (но право слово, дополнительно хорошая статья с ещё одним объяснением алгоритма обратного распространения ошибки совсем не помешает) Но как насчёт нейросети на jave реализованной без использования матриц? Просто нейроны. Просто связанные между собой. И что если я скажу тебе, что скорость работы этих двух подходов примерно сравнима между собой?

habr.com/ru/articles/878902/

#машинное+обучение #нейросети #java

2025-01-29

Учим людей учить машины

Мы оставили позади то полное надежд и опасений время, когда за нейросетями и ИИ было будущее: теперь за ними уже настоящее, а машинное обучение, то есть построение обучаемых моделей, востребованный профессиональный навык в среде IT. Наиболее важным во всей этой теме для многих окажется то, что машинное обучение — быстро растущий рынок труда, где предложение не удовлетворяет спрос, а нехватка квалифицированных кадров одно из основных препятствий, мешающих развитию ИИ. Это поезд, на который еще можно успеть запрыгнуть, так что давайте попробуем разобраться в тематике и сегодня начнем с фундаментального понятия: с категорий машинного обучения, которые различаются по способу обращения с входными и выходными переменными. Контролируемое обучение Контролируемое обучение (или обучение с учителем) имитирует человеческую способность выявлять закономерности в известных примерах и использовать эти знания для получения воспроизводимых результатов. Модель анализирует и расшифровывает взаимосвязи между входными и выходными данными, чтобы выявить основополагающие закономерности. Входные данные называются независимой переменной (и обозначаются прописной буквой «X»), а выходные данные — зависимой переменной (и обозначаются строчной буквой «y»). Примерами зависимой переменной (y) могут быть координаты прямоугольной рамки окружающей человека на цифровой фотографии (в системе распознавания лиц), цена дома или класс товара. Соответствующими независимыми переменными, которые предположительно влияют на зависимые, могут быть цвета пикселей, размер и расположение дома и технические характеристики автомобиля. В результате анализа достаточного количества примеров машина создает модель — алгоритмическое уравнение для получения выходного сигнала на основе закономерностей, выявленных при изучении примеров комбинаций входов и выходов. Используя эту модель, машина может предсказать выходной результат, основываясь исключительно на входных данных.

habr.com/ru/articles/877554/

#алгоритмы #обучение #машинное+обучение #основы

2025-01-28

Апгрейд Telegram-бота для управления внутренними процессами: наш опыт вам в копилку

Привет! На связи команда внутренней разработки, тимлид Тимур Садриев. В этой статье рассказываю, как мы обучили Telegram-бота для оповещения о задачах, согласовании бизнес-процессов и очистки каналов от уволившихся сотрудников. Мои коллеги Руслан Мансуров и Руслан Яруллин раскроют детали, как мы боролись с препятствиями во время обучения и фейлах на первых попытках. В конце поделимся статистикой, показывающей, какой положительный эффект оказал бот на работу сотрудников.

habr.com/ru/companies/barsgrou

#боты_телеграм #машинное+обучение #нейросети

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst