#%D1%85%D1%80%D0%B0%D0%BD%D0%B8%D0%BB%D0%B8%D1%89%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85

2025-10-25

[Перевод] Становятся ли жёсткие диски лучше? Спросим кривую отказов

Если вы уже давно знакомы с Backblaze (особенно, если следите за обзорами Drive Stats), то наверняка читали наши обсуждения кривой отказов. В статье « Drive Failure Over Time: The Bathtub Curve Is Leaking » мы писали о том, как проверяли истинность старого инженерного принципа, гласящего, что сбои в работе привода, представленные в виде временн о го графика, демонстрируют предсказуемую U-образную кривую, иначе называемую кривая «ванны». Но тест этого не подтвердил. В результате анализа нашей коллекции приводов были зафиксированы всплески и плато, которые никак не вписывались в предсказуемый паттерн. Теперь, спустя 13 лет непрерывного сбора данных, удалось получить более ясную картину, но и более странную. И «ванна» в этом случае не просто «потекла» (отсылка к leak в названии вышеупомянутой статьи, — прим. пер.), её форма больше напоминает бордюр при входе в душевую кабину. Скл а дная история о том, что вначале идут сбои, а потом спокойный средний период с плавным повышением отказов, больше не вписываются в реалии жизни наших приводов. Они становятся лучше. Говоря точнее, датасет Drive Stats указывает на повышение их качественных показателей конкретно в дата-центрах. Давайте же посмотрим, как выглядит полученная нами кривая отказов, и как она соотносится с прежними поколениями анализа. Если коротко, то жёсткие диски становятся лучше.

habr.com/ru/companies/ruvds/ar

#ruvds_перевод #хранилища_данных #анализ_hdd #срок_службы_hdd

2025-10-24

[Перевод] Становятся ли жёсткие диски лучше? Спросим кривую отказов

Если вы уже давно знакомы с Backblaze (особенно, если следите за обзорами Drive Stats), то наверняка читали наши обсуждения кривой отказов. В статье « Drive Failure Over Time: The Bathtub Curve Is Leaking » мы писали о том, как проверяли истинность старого инженерного принципа, гласящего, что сбои в работе привода, представленные в виде временн о го графика, демонстрируют предсказуемую U-образную кривую, иначе называемую кривая «ванны». Но тест этого не подтвердил. В результате анализа нашей коллекции приводов были зафиксированы всплески и плато, которые никак не вписывались в предсказуемый паттерн. Теперь, спустя 13 лет непрерывного сбора данных, удалось получить более ясную картину, но и более странную. И «ванна» в этом случае не просто «потекла» (отсылка к leak в названии вышеупомянутой статьи, — прим. пер.), её форма больше напоминает бордюр при входе в душевую кабину. Скл а дная история о том, что вначале идут сбои, а потом спокойный средний период с плавным повышением отказов, больше не вписываются в реалии жизни наших приводов. Они становятся лучше. Говоря точнее, датасет Drive Stats указывает на повышение их качественных показателей конкретно в дата-центрах. Давайте же посмотрим, как выглядит полученная нами кривая отказов, и как она соотносится с прежними поколениями анализа. Если коротко, то жёсткие диски становятся лучше.

habr.com/ru/companies/ruvds/ar

#ruvds_перевод #хранилища_данных #анализ_hdd #срок_службы_hdd

2025-08-15

[Перевод] Выбираем архитектуру данных для компании: руководство от дата-инженера

Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов. Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются. Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.

habr.com/ru/companies/magnus-t

#хранилища_данных #архитектура_данных #озеро_данных #data_lake #data_lakehouse #data_mesh #архитектура_медальона #инжиниринг_данных #выбор_архитектуры_данных

2025-07-23

[Перевод] 15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик

Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.

habr.com/ru/companies/otus/art

#data_warehouse #хранилища_данных #sql #Аналитика_данных #ETL #OLAP #Data_Engineering #Data_Mining

2025-06-10

Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.

habr.com/ru/companies/oleg-bun

#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных

2025-05-22

Снапшоты, клоны и не только: как устроен и что умеет маппер в СХД TATLIN

Привет, Хабр! Меня зовут Алексей, я главный эксперт по разработке ПО в департаменте разработки СХД

habr.com/ru/companies/yadro/ar

#tatlinunified #схд #снапшоты #клоны #тонкие_тома #tatlin #хранилища_данных

2025-04-11

[Перевод] DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Выбор облачного хранилища данных — задача не из тривиальных, особенно когда речь идёт о миллиардах полуструктурированных записей, геоаналитике и требованиях к отклику в доли секунды. В Agritask мы провели масштабное исследование: протестировали популярные DWH-платформы на реальных кейсах, сравнили производительность, параллелизм и затраты. В первой части делимся подходом к оценке, техническими требованиями и тем, почему PostgreSQL и Snowflake перестали справляться с нашими задачами.

habr.com/ru/companies/otus/art

#postgresql #dwh #snowflake #Data_Warehouse_Analyst #хранилища_данных #базы_данных

2025-03-12

Новый диск в облаке Selectel — настройте IOPS под свои задачи

Если вы работаете с облачными ресурсами и управляете инфраструктурой, то наверняка знаете, как важно правильно настроить дисковую подсистему.

habr.com/ru/companies/selectel

#selectel #сетевые_диски #облачные_сервисы #itинфраструктура #хранилища_данных #iops

2025-03-05

Яндекс 360 для бизнеса: как единая платформа спасает от цифрового хаоса

«Ребята, так больше нельзя! Пора переходить на что-то, не зависящее от внешних обстоятельств и всегда доступное», — подобные речи я, как сотрудник компании-интегратора, слышу постоянно. Кто-то переехал уже несколько раз, кто-то сидит на VPN, постепенно перебирая неблокируемые протоколы, однако многие ищут и находят отечественные альтернативные платформы. Меня зовут Рустам Еникеев, я работаю системным администратором в интеграторе, переводящем бизнес на онлайн-офис. Проекты, с которыми я чаще всего работаю, — небольшие и средние компании численностью от 50 до 250 человек. И сегодня хочу рассказать о проверенном на практике решении для переезда. Далее

habr.com/ru/companies/business

#миграция #хранение_данных #почта #трекер #jira #данные #хранилища_данных #яндекс

2024-12-13

Кибер Инфраструктура 6.5. Обзор новинок

В начале декабря мы выпустили новую версию нашего гиперконвергентного решения Кибер Инфраструктура. В этом релизе перед нами стояли две большие задачи: повышение эффективности системы в целом и объектного хранилища S3 в частности. Кроме того, версия 6.5 стала первым релизом продукта, подготовленным в рамках процесса безопасной разработки.

habr.com/ru/companies/cyberpro

#киберпротект #кибер_инфраструктура #hci #s3 #хранение_данных #хранилища_данных #гиперконвергенция

2024-12-06

Платформа данных в хранилище Магнит OMNI

Всем привет! Меня зовут Михаил, я руковожу разработкой хранилища данных «Магнит OMNI». Хочу рассказать, как мы решали проблемы его создания: разделение ресурсов хранилища между несколькими большими равнозначными заказчиками; переиспользование кода для оптимизации рутинных задач; развитие платформы DWH в условиях активно растущего бизнеса; навигация в сотнях витрин и соблюдение единообразия расчёта метрик.

habr.com/ru/companies/magnit/a

#хранилище_данных #хранилища_данных #dwh #data_mesh #data #базы_данных

2024-10-28

Резервное копирование системы виртуализации Basis.DynamiX с помощью RuBackup

Привет всем, кто заботится о данных и не собирается их терять. Сегодня мы рассмотрим тему бэкапа виртуальных машин (ВМ) на платформе виртуализации Basis.DynamiX (далее — DynamiX). Для этого будем использовать систему резервного копирования (СРК) RuBackup. В статье расскажу, как установить, настроить и использовать RuBackup для создания резервных копий (РК) ВМ на платформе DynamiX, а также разберу некоторые сложности, которые могут возникнуть в процессе работы. В первую очередь статья будет полезна для администраторов платформы виртуализации DynamiX, которым необходимо настроить в системе резервное копировани. Также статья подойдет для новичков, которые хотят разобраться, как в целом работает RuBackup. Не забудьте про ссылки в конце статьи, они будут полезны!

habr.com/ru/companies/astralin

#basis #DynamiX #виртуализация #резервное_копирование #api #хранилища_данных

2024-10-04

[Перевод] Почему мои ZFS-диски так шумят?

У Джонни Кэша есть песня «One piece at a time» 1976 года. В ней рассказывается история об автомеханике, собирающем собственный Cadillac из деталей, которые он в течение 25 лет по одной тырил с производственного конвейера General Motors. Некоторое время назад пользователь Practical ZFS задал обманчиво простой вопрос: «У меня есть пул Proxmox из трёх RAIDz1 vdev (virtual device, виртуальное устройство) по 4 диска. Проблема в том, что во время работы VM все двенадцать дисков минимум раз в секунду издают громкий звук, причём в течение всего дня. Что может быть причиной, и как это устранить?»

habr.com/ru/companies/ruvds/ar

#ruvds_перевод #raidz #хранилища_данных #zfs #снижение_шума_приводов #proxmox

2024-09-05

Обзор Unified СХД Qsan серии XCubeNXT

Ряд предыдущих статей мы посвятили подробным обзорам различных продуктов Qsan. В основном это были их блочные СХД серий XCubeSAN и All Flash массивы XCubeFAS. Выбор объектов для обзоров был не случаен. Ведь именно эти серии составляют львиную долю продаж на только в РФ (в том числе благодаря нам), но и во всем мире. Надежность и высокая производительность, вкупе с простым и понятным управлением, сделали продукты весьма популярными. Однако, в настоящее время сугубо блочные СХД уже не выглядят локомотивом прогресса. Поэтому настало время поговорить о Unified системах Qsan – серии XCubeNXT.

habr.com/ru/companies/skilline

#qsan #схд #системы_хранения_данных #san #itинфраструктура #хранилище_данных #хранилища_данных

2024-08-19

Использование СХД Qsan в среде управления контейнерами Kubernetes

Существуют различные технологии по уплотнению ресурсов физических серверов с целью их более эффективного использования. Наиболее известный вариант – это виртуализация. Именно в данной сфере системы хранения данных (СХД) являются одним из ключевых элементов, поскольку позволяют достаточно легко реализовать кластеры высокой доступности (HA cluster). Однако, помимо виртуализации доступны иные методы повышения эффективности, одним из которых является применение контейнеров.

habr.com/ru/companies/skilline

#qsan #схд #системы_хранения_данных #san #itинфраструктура #хранилище_данных #хранилища_данных

2024-08-13

Укрощение ClickHouse: почему ДанКо делает Visiology намного быстрее

Привет, Хабр! Сегодня мы поговорим о том, почему BI-платформам нужен движок, какие сложности создает ClickHouse для аналитиков, когда речь действительно заходит о больших данных, зачем нужно оптимизировать SQL и о многих других вещах, которые часто остаются «за горизонтом» в дискуссиях о BI и хранении данных. Говоря другими словами, я хочу рассказать о том, как мы разрабатывали ДанКо — новый движок, который лежит сегодня в основе Visiology 3, а главное — каким образом ДанКо позволяет достичь высокой производительности в аналитических задачах (в некоторых случаях показывая ускорение вплоть до х100)! Эта статья будет полезна тем, кто еще не сталкивался с задачей организации хранения аналитических данных компании, а также интересна тем, кто как раз, наоборот, уже делал это.

habr.com/ru/companies/visiolog

#Visiology #BI #бизнесаналитика #КХД #хранение_данных #хранилища_данных #ClickHouse #субд

2024-07-15

[Перевод] Как Notion проектировал свой data lake, чтобы успевать за быстрым ростом

За последние три года размер данных Notion увеличился в 10 раз из‑за роста количества пользователей и объёмов контента, с которым они работают. Удвоение этого показателя происходило каждые 6–12 месяцев. Нам нужно было справиться со стремительным ростом размеров данных, соответствуя при этом постоянно растущим требованиям, которые выдвигали критически важные сценарии использования наших продуктов и аналитических систем. Особенно это справедливо в применении к новым функциям Notion AI. Для того чтобы решить эти задачи нам нужно было создать озеро данных Notion и обеспечить его масштабирование. Вот как мы это сделали.

habr.com/ru/companies/wunderfu

#Notion #data_lake #хранение_данных #хранилища_данных #Notion_AI

2024-07-12

Подключение СХД Qsan к серверам с операционной системой Linux

Мы продолжаем публикацию статей в стиле how-to касательно использования систем хранения данных (СХД) Qsan в различных типовых задачах. На сей раз рассмотрим первичную настройку серверов на базе операционных систем (ОС) семейства Linux при подключении блочных томов со стороны СХД.

habr.com/ru/companies/skilline

#qsan #схд #системы_хранения_данных #san #itинфраструктура #хранилище_данных #хранилища_данных

2024-07-10

Будущее хранения данных. Где и на чем будем хранить данные в будущем

Объём данных, которые мы производим и используем, растёт феноменальными темпами. СМИ сегодня существуют преимущественно в цифровом формате, данные предприятий всё чаще хранятся на облачных платформах, а учёные накапливают огромные массивы исследовательской информации. Не забываем и про снимки из космоса и мемы с котиками. К 2025 году скорость роста данных превысит 175 зеттабайт в год. Центры обработки данных изо всех сил пытаются не отставать. Но объёмы продолжают увеличиваться с каждым днём. Мало того, что объём данных, особенно неструктурированных, увеличился, облачное хранилище побудило компании – и частных лиц – принять подход «хранить всё», даже если эти данные не имеют какою-либо ценность. Как предприятия могут безопасно хранить в будущем такой огромный объём данных, учитывая, что растёт он экспоненциально? Быстрый рост данных требует инновационных решений в бурно развивающейся области технологий. В течение достаточно длительного периода времени физические носители, такие как магнитные ленты и жёсткие диски, в конечном итоге демонстрируют 100% вероятность отказа. Учёные ищут новые методы, чтобы устранить текущие ограничения в отношении ёмкости, мощности, скорости и долговечности. Но как? Подробности под катом.

habr.com/ru/companies/timeweb/

#timeweb_статьи #хранение_данных #носители_информации #хранилища_данных #дискеты #диски #флешки

2024-05-03

Цикл статей о Greenplum. Часть 1. GP под капотом

Всем привет! Как вы знаете, многие поставщики ПО ушли с российского рынка ввиду введённых санкций и многие компании столкнулись с необходимость заняться импортозамещением в кратчайшие сроки. Не стал исключением и наш заказчик. Целевой системой, на которое было принято решение мигрировать старое хранилище, стал Greenplum (далее GP) от компании Arenadata. Этой статьей мы запускаем цикл материалов посвященных Greenplum. В рамках цикла мы разберем, как вообще устроен GP и как выглядит его архитектура. Постараемся выделить must have практики при работе с данным продуктом, а также обсудим, как можно спроектировать хранилище на GP, осуществлять мониторинг эффективности работы и многое другое. Данный цикл статей будет полезен как разработчикам БД, так и аналитикам.

habr.com/ru/companies/axenix/a

#greenplum #dwh #sql #postgresql #data_engineering #кхд #хранилища_данных #сегментация #mpp #запросы_sql

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst