#data_engineering

2026-02-01

Хватит парсить Excel вручную: я написал библиотеку, которая сделает это за вас

Буквально пару недель назад, проводя код-ревью, меня внезапно накрыло осознание: огромный кусок логики наших мини-приложений - это чтение и парсинг Excel-файлов . При этом целая команда разработчиков решает одну и ту же задачу, но каждый по-своему. Стало немного больно. Поэтому я написал xlea…

habr.com/ru/articles/991462/

#python #excel #парсинг_excel #обработка_excel_файлов #табличные_данные #data_parsing #data_engineering #python_библиотеки #schema #валидация_данных

2026-01-31

CDC своими руками: Kafka + Debezium в домашней лаборатории

Третья статья цикла о построении CDC-пайплайна с нуля. Сегодня — самое интересное: захватываем изменения из PostgreSQL и отправляем в Kafka. И разбираемся, почему WAL может съесть весь диск, даже если данные не меняются.

habr.com/ru/articles/990902/

#kafka #debezium #cdc #devops #data_engineering

2026-01-26

BLIMP — Пайплайн синтеза и разметки изображений в Blender

Генерация, понимание и редактирование реалистичных изображений – всё ещё сложнейшая задача для ИИ. Потому качественные данные сегодня на вес золота, а компании готовы тратить миллионы на труд разметчиков и API мастодонтов вроде Gemini Pro Image. Такой подход не только предельно дорог и ресурсозатратен – но и полон ошибок, которых не лишены даже “генеративные ИИ-гиганты”. Я хочу рассказать вам о другом, менее популярном сегодня методе сбора визуальных данных – автоматической сборке 3D-сцен и рендере их изображений. Конечно, и этот подход не лишен своих недостатков – но он быстр, дёшев и не так затратен, при этом он покрывает очень тяжёлые для современных моделей ниши. Такой метод позволяет детерминировано понимать и контролировать содержимое генерируемых данных с точностью до миллиметра. В этой статье мы с нуля построим полностью автоматический пайплайн формирования и генерации изображений и метаданных к ним в Blender – для задач генерации, понимания и редактирования изображений. А запускаться и работать он может на чём угодно – от GPU-серверов, до обычного домашнего ПК. Погрузиться в Blender

habr.com/ru/articles/989112/

#blender #blender_3d #blender_45 #data_mining #data_engineering #3dграфика #синтетические_данные #пайплайн #искусственный_интеллект #изображения

2026-01-05

Как мы загрузили историю 287 валютных пар с лимитом 8 запросов в минуту

Попробуйте найти исторические курсы для пар вроде «доллар к афгани» или «евро к таджикскому сомони». Данные либо платные, либо их просто нет в виде готового датасета. Мы решили эту проблему в рамках своего проекта, хотя единственный подходящий API диктовал суровые условия: 8 запросов в минуту и 5000 дней за раз. Получилось! Наш Python-скрипт аккуратно, чанк за чанком, собрал историю всех 287 пар за 4.5 часа, ни разу не превысив лимит. Теперь все эти данные — более миллиона строк — лежат в открытом доступе на GitHub. В статье делюсь техническими деталями, как выстроить такую загрузку, и уроками, которые мы извлекли.

habr.com/ru/articles/983024/

#Python #Data_Engineering #финансовые_данные #валютные_пары #ETLпроцесс #GitHub_Pages #opensource_датасет #исторические_котировки #rate_limiting #Twelve_Data_API

2025-12-29

Востребованные профессии 2026 и где на них учиться

Конец года — подходящий момент, чтобы подвести итоги и построить новые планы. IT-рынок в 2026 году станет более требовательным: будут цениться специалисты, которые понимают систему целиком, умеют работать с неопределённостью и постоянно обновляют навыки. Выбор направления обучения сейчас — инвестиция в ближайшие несколько лет карьеры. В этой статье выделим топ-5 перспективных IT-профессий 2026 года: расскажем, что делает специалист в каждой из них, какие компетенции нужны, и где можно учиться, чтобы войти или прокачаться в выбранной области.

habr.com/ru/companies/habr_car

#учебный_процесс #учебный_процесс_в_it #образование_в_ит #образование_в_it #машинное_обучение #бэкендразработка #devops #data_engineering #QA #менеджмент

di :python: :nyarch:di@patashnik.club
2025-12-28

# Типы RAG

### 1) Naive RAG (наивный RAG)
- Извлекает документы исключительно на основе векторного сходства между эмбеддингом запроса и сохранёнными эмбеддингами.
- Лучше всего подходит для простых, фактологических запросов, где достаточно прямого семантического совпадения.

**Когда использовать:**
FAQ, справки, поиск конкретных фактов, документация.

---

### 2) Multimodal RAG (мультимодальный RAG)
- Работает с несколькими типами данных (текст, изображения, аудио и т. д.), выполняя эмбеддинг и поиск по разным модальностям.
- Идеален для кросс-модальных задач, например когда на текстовый запрос нужно ответить с учётом и текста, и изображений.

**Когда использовать:**
Поиск по медиа-архивам, анализ документов с картинками, видео/аудио-контент.

---

### 3) HyDE (Hypothetical Document Embeddings)
- Применяется, когда запрос семантически плохо совпадает с реальными документами.
- Сначала генерируется гипотетический документ-ответ на основе запроса.
- Затем используется эмбеддинг этого документа для поиска релевантных реальных источников.

**Когда использовать:**
Абстрактные вопросы, плохо сформулированные запросы, исследовательские задачи.

---

### 4) Corrective RAG (корректирующий RAG)
- Проверяет извлечённые результаты, сравнивая их с доверенными источниками (например, веб-поиском).
- Обеспечивает актуальность и точность данных, фильтруя или исправляя контент перед передачей в LLM.

**Когда использовать:**
Новости, финансы, право, медицина — любые области с высокой ценой ошибки.

---

### 5) Graph RAG (графовый RAG)
- Преобразует извлечённый контент в граф знаний, фиксируя сущности и связи между ними.
- Усиливает рассуждение LLM за счёт структурированного контекста наряду с текстом.

**Когда использовать:**
Сложные доменные знания, онтологии, аналитические и причинно-следственные вопросы.

---

### 6) Hybrid RAG (гибридный RAG)
- Объединяет плотный векторный поиск и графовый поиск в одном пайплайне.
- Даёт более богатые ответы за счёт сочетания неструктурированных и структурированных данных.

**Когда использовать:**
Корпоративные базы знаний, CRM/ERP-системы, сложные аналитические запросы.

---

### 7) Adaptive RAG (адаптивный RAG)
- Динамически определяет, нужен ли простой поиск или многошаговое рассуждение.
- Разбивает сложные запросы на подзапросы для повышения точности и полноты ответа.

**Когда использовать:**
Непредсказуемые пользовательские запросы, диалоговые системы, ассистенты.

---

### 8) Agentic RAG (агентный RAG)
- Использует ИИ-агентов с планированием, рассуждением (ReAct, Chain-of-Thought) и памятью.
- Оркестрирует поиск из разных источников, применяет инструменты и внешние API.

**Когда использовать:**
Сложные рабочие процессы, исследовательские ассистенты, автоматизация бизнес-логики.

#data_engineering

di :python: :nyarch:di@patashnik.club
2025-12-26

Появилась задача по репликации данных между кликом и эластиком. Вначале была идея взять уже готовое решение, но оказалось, что их на рынке 2–3 штуки. Одно устанавливается только через Helm и требует поднятия кучи инфры, а второе клало болт на мои кастомные индексы в эластике, и я быстро не смог разобраться, что за WTF и по какому принципу оно их пересоздаёт

В результате самым быстрым способом оказалось написание курсором скрипта для копирования чанками из клика в эластик, и потом ещё вечер ушёл на то, чтобы приделать очередь

Очень похожая ситуация с дата-хабами (data hub): дикие фреймворки с 500 коннекторами ко всем базам данных, на изучение и внедрение которых могут уйти недели, в то время как на написание кастомного, простого и быстрого решения уходят дни

#data_engineering

2025-12-24

Практический опыт StarRocks: импорт JSON и CSV из Kafka с помощью Routine Load

В архитектуре потоковой обработки данных Kafka, как высокопроизводительная очередь сообщений, обычно используется для агрегации данных, а StarRocks, как высокопроизводительная аналитическая СУБД, отвечает за хранение и анализ. С помощью Routine Load можно стабильно и эффективно загружать в StarRocks данные в форматах JSON и CSV из Kafka.

habr.com/ru/articles/980134/

#olap #starrocks #routine_load #etl #kafka #streaming #sql #data_engineering

2025-12-22

Хроники тестирования Data Quality

В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность для различных сценариев проверки данных. Эта статья будет интересна и полезна Data-инженерам, аналитикам данных и специалистам Data Quality для выбора оптимального метода валидации данных в зависимости от стека технологий и сложности бизнес-логики. Материал ориентирован на начинающий уровень подготовки: тем, кто еще не сталкивался системно с инструментами управления качеством данных. Привет, Хабр! Меня зовут Мария, я Data-инженер в SimbirSoft, и предлагаю для начала немного познакомиться с каждым из вышеперечисленных инструментов. Читать далее ⚡

habr.com/ru/companies/simbirso

#data_engineering #data_quality #dbt #sql #python #pandas #great_expectations #sqlalchemy #greenplum

2025-12-10

Опыт ВТБ по миграции SAP BW/4 HANA: что помогло уложиться в сроки и сохранить функциональность

Импортозамещение аналитических систем остаётся одной из наиболее трудоемких задач в корпоративной ИТ-среде. Особенно когда речь идёт о платформах уровня SAP BW/4 HANA: больших объемах данных, сложной архитектуре, множестве отчетов и строгих нефункциональных требованиях. В подобных проектах важны не только выбор стека и корректная миграция хранилища, но и организационные решения, планирование и работа с пользователями. Всем привет! Меня зовут Михаил Синельников, я лидер кластера импортозамещения аналитической отчетности в ВТБ. Вместе с моим коллегой Владимиром Ведяковым , ИТ-лидером проекта со стороны компании «Сапиенс Солюшнс» , мы описали в этой статье перенос системы аналитической отчетности SAP BW/4 HANA на импортонезависимый стек. В этом материале представлен наш практический опыт: ключевые решения, подходы к планированию, особенности реализации и выводы, которые могут быть полезны командам, работающим с аналогичными задачами.

habr.com/ru/companies/vtb/arti

#data_engineering #база #хранение_данных #анализ_данных #проектирование_систем #apache #визуализация_данных

2025-12-06

Создаём мини-фреймворк для MapReduce в Scala с конкретной реализацией

Статья демонстрирует построение минималистичного MapReduce-фреймворка на Scala для локальных экспериментов. Рассматриваются стадии Map , Shuffle и Reduce с ленивыми вычислениями через Iterator , а также абстракции ввода/вывода IO и локальные исполнители с виртуальными потоками.

habr.com/ru/articles/966986/

#MapReduce #Scala #java21 #многопоточность #функциональное_программирование #sbt #фреймворк #jvm #bigdata #data_engineering

2025-12-05

Цифровые культиваторы, теплицы и мотоблоки или мультиагентная трансформация АПК

Миронов В.О., Кальченко С.Н. Приветствую вас, бравые хаброжители ;)) В наше время искусственный интеллект очень быстро развивается, при этом, вносит значительные коррективы в развитие различных профессий, диктуя там свои правила и виденье. При этом основные козыри — это скорость, время и профит. В этом контексте мы и будем говорить о сложившейся ситуации, а именно, о дифференцированной трансформации профессий. Да-да, все видели, эти километровые лонгриды, когда ИИшка выкатывает список профессий, которые попадают под трансформацию. При этом какие-то прогнозы сбываются какие-то нет, как и в целом всё в жизни. Однако, почему именно дифференцированной, да всё потому что, профессии даже не столько дифференцируются, сколько видоизменяются, но их суть остаётся той же. Бывает даже так, что не всегда удаётся охватить весь спектр нововведений.

habr.com/ru/articles/973682/

#analytics #analysis #agrohack #agrocode #machinelearning #computervision #computer_science #data_science #data_analysis #data_engineering

2025-12-02

От CSV к дашбордам: гибкая отчетность на Postgres, Airflow и Superset

Привет, Хабр! Я Дмитрий Смотров, тружусь бэкендером в Astra Linux в команде продукта ACM — микросервисной системе, разворачиваемой на клиентских мощностях. Мы позволяем удаленно управлять клиентской инфраструктурой. Сначала я разрабатывал функциональность снятия инвентаризации и удаленного выполнения команд установки и удаления ПО, но в один момент моя жизнь резко изменилась. На проекте возникла необходимость в функциональности красивой и настраиваемой отчетности, в чем я увидел возможность проверить себя в новой для себя области. Я вызвался разобраться и помочь продукту стать еще лучше. Под катом расскажу о том, с какими трудностями столкнулся в процессе, как я их решал и что в итоге получилось. Приятного чтения :)

habr.com/ru/companies/astralin

#backendразработка #python #airflow #data_engineering #superset #postgresql

2025-11-26

Если данные — продукт, то какова цена плохого UX? Предлагаю систему оценок

В работе над продуктом данные — это главный помощник. С их помощью принимают решения на всех этапах — от создания до развития. Вместо того чтобы гадать, как поступит пользователь, смотрят на реальные факты: как люди пользуются продуктом и какие результаты это даёт бизнесу. А что на счет самих данных, если мы их рассматриваем как продукт? Как будем оценивать их ценность, как будем планировать их развитие? В статье предлагаю экспериментальный набор UX‑метрик: они помогут увидеть, где ваш продукт реально теряет пользу для пользователя. Методика готова к тестированию — цифр пока нет, но каркас для расчётов уже работает. К метрикам

habr.com/ru/articles/970582/

#sql #visualization #metrics #product_analytics #data_engineering #analysis #анализ_данных #датаинженер #ux #хранилище_данных

2025-11-18

Подход к построению DWH, основанный на единой инфраструктуре данных Unified Data Infrastructure или модели a16z

В статье рассказываем о подходе к построению DWH на базе единой инфраструктуры данных (Unified Data Infrastructure), разработанной Andreessen Horowitz. Разбираемся, почему модель a16z полезна в быстрорастущих компаниях или тех, кто переходит к data-driven управлению.

habr.com/ru/articles/967736/

#dwh #data_warehouse #data_engineering #корпоративное_хранилище_данных #кхд

2025-10-22

Как использовать Clickhouse без боли

ClickHouse — одна из самых популярных систем для анализа данных. По информации TheirStack, этот инструмент использует более 3 700 компаний по всему миру. У ClickHouse быстрая аналитика, эффективное сжатие и отличное масштабирование. Но у системы есть и недостатки — ограниченная поддержка UPDATE и DELETE, а также сложная миграция. Привет, Хабр! Меня зовут Михаил Филимонов, я руковожу разработкой хранилища данных в группе Магнит OMNI. В этой статье я расскажу о проблемах работы с ClickHouse, как их решать и какие инструменты для этого потребуются.

habr.com/ru/companies/magnit/a

#clickhouse #магнит #big_data #data_engineering #data_warehouse #highload #базы_данных

2025-10-16

H2O LLM Studio: как дообучить языковую модель под свои задачи, не привлекая внимания датасаентистов

Современные языковые модели (LLM) вроде GPT, LLaMA или Mistral обладают поразительной универсальностью. Они обучены на триллионах токенов из открытых источников и научились объяснять сложные вещи, поддерживать диалог в свободной форме и даже писать код. Однако при решении реальных бизнес-задач универсальность становится слабым местом: бизнесу нужны не «всезнающие ассистенты», а узкоспециализированные инструменты, хорошо понимающие внутренние процессы и терминологию.

habr.com/ru/companies/vktech/a

#vk_tech #llm #vk_cloud #H2O_LLM_Studio #ml #ai #нейросети #j #машинное_обучение #data_engineering

2025-10-10

DBT Proplum: Расширяем возможности DBT для работы с Greenplum и Clickhouse

В современных реалиях всё чаще встаёт вопрос о переходе с вендорских продуктов на open-source. Компании активно рассматривают DBT как стандарт для управления трансформациями данных, но сталкиваются с проблемами: существующие алгоритмы загрузки оказываются недостаточными, а адаптеры для СУБД - устаревшими. В этой статье рассказываем о нашей доработке адаптера для DBT, который расширяет возможности работы с Greenplum и ClickHouse, добавляя новые стратегии загрузки, логирование и интеграцию с внешними источниками. Читать статью

habr.com/ru/companies/sapiens_

#dbt #greenplum #clickhouse #data_engineering #opensourse

2025-09-25

Ваш грейд, стек и немного боли: опрос для data-специалистов

Приветствуем всех коллег по цеху! Мы в X5 Tech запускаем опрос, чтобы лучше понять, как живёт сообщество специалистов по работе с данными: какие инструменты используете, какие вызовы встречаете в работе и о чём мечтаете в свободное время. Если ваша работа связана с данными, помогите нам узнать вас и ваших коллег лучше — пройдите наш опрос. А мы, в свою очередь, проанализируем ваши ответы и поделимся интересными инсайтами о data-специалистах на отдельном лендинге и расскажем об интересных кейсах по управлению данными из жизни data-сообщества X5. Пройти опрос

habr.com/ru/specials/936434/

#опрос #data_science #data_mining #data #карьера_датаспециалиста #data_engineering

2025-09-23

asapBI: импортозамещение SAP Calculation View

Любите ли вы SQL так же, как и я? Недавно, собирая огромный SQL-запрос, я понял, что надо что-то менять. Логическим блоком в SQL является подзапрос или CTE и вроде бы можно разбивать запрос по блокам и работать с ними отдельно, как строится по кирпичикам любое приложение. Однако когда весь текст запроса идет сплошняком на многие экраны, сложно и разрабатывать, и через длительное время понимать алгоритм запроса. А что, если не надо писать SQL? В SAP мы не писали запросы, мы создавали Calculation View, и работать с ними было на порядок быстрее и приятнее. Перефразируя диалог из Матрицы: - Когда я стану избранным, я смогу писать длинный SQL? - Тебе не надо будет писать SQL. Как?

habr.com/ru/articles/948888/

#sap_hana #postgresql #clickhouse #data_engineering #greenplum #trino #cedrusdata #sql #построители

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst