#%D0%BD%D0%B0%D0%B4%D0%B5%D0%B6%D0%BD%D0%BE%D1%81%D1%82%D1%8C

2025-10-28

On-call ротация без выгорания

Я уволился из своей первой работы SRE-инженером после особенно тяжелой недели дежурства. Семь ночей подряд я просыпался от PagerDuty. Семь ночей подряд я чинил одну и ту же проблему с памятью, которую никто не хотел исправлять "по-настоящему", потому что "горячий фикс же работает". На восьмое утро я пришел в офис и положил заявление на стол. Это было пять лет назад. С тех пор я прошел через четыре компании, построил on-call процессы с нуля в двух из них, и научился главному: дежурства не должны убивать людей. Физически и морально. Давайте поговорим о том, как построить on-call ротацию, которая не приведет к массовым увольнениям.

habr.com/ru/articles/960968/

#oncall #дежурства_в_разработке #дежурство #sre #sreпроцессы #devops #devops_трансформация #надежность

2025-09-25

[Перевод] Почему я не верю в ИИ-агентов в 2025 году, несмотря на то, что сам их разрабатываю

Команда AI for Devs перевела статью, в которой автор делится прогнозами о будущем ИИ-агентов в 2025 году. Его выводы: несмотря на шумиху, «автономные агенты» столкнутся с экономическими и техническими барьерами. Почему текущий подход к архитектуре агентов не сработает и какие методы действительно приносят результат — читайте в статье.

habr.com/ru/articles/950072/

#AI_агенты #автономия #производственные_системы #экономика #надежность #интеграция #инженерия #ит_технологии #инструменты #ошибки

2025-09-24

[Перевод] Почему я не верю в ИИ-агентов в 2025 году, несмотря на то, что сам их разрабатываю

Команда AI for Devs перевела статью, в которой автор делится прогнозами о будущем ИИ-агентов в 2025 году. Его выводы: несмотря на шумиху, «автономные агенты» столкнутся с экономическими и техническими барьерами. Почему текущий подход к архитектуре агентов не сработает и какие методы действительно приносят результат — читайте в статье.

habr.com/ru/articles/950072/

#AI_агенты #автономия #производственные_системы #экономика #надежность #интеграция #инженерия #ит_технологии #инструменты #ошибки

2025-09-19

Как правильно формулировать нефункциональные требования

Привет, Хабр! Я старший системный аналитик, эксперт онлайн-школы по системному анализу Ольги Пономарёвой. Материал основан на реальных кейсах из практики: мы в школе System Analyst не просто рассказываем теорию, а делимся тем, что действительно работает на проектах. За свою карьеру я написала не одну сотню требований и поняла такую вещь – самые важные и самые незаметные, это блок нефункциональных требований. В этой статье я расскажу, как правильно выявлять и формулировать НФТ.

habr.com/ru/articles/948506/

#нефункциональные_требования #производительность #нагрузка #тестирование #масштабирование #безопасность #надежность

2025-09-09

Подстилая соломку, или Как выжить в ситуационном центре

Привет, Хабр. Меня зовут Кирилл Борисов, я SRE в Ситуационном центре. Я часто видел, как неправильное использование паттернов отказоустойчивости архитектуры или их игнорирование приводит к серьёзным последствиям. Поэтому хочу рассказать, как обеспечить надёжность в условиях, когда может упасть любой микросервис.

habr.com/ru/companies/vk/artic

#sre #надежность #devops #бэкенд

2025-07-14

Надежное программирование — часть 3. Финал (2019)

Немного рассуждений о языках программирования (ЯП) с уклоном на надежное и безопасное программирование. Статья не публиковалась ранее, хотя была написана в 2019г, теперь можно смотреть как некую ретроспективу. Чем и воспользуюсь, вставляя замечания о былом по тексту (тег Upd). Но тормозит развитие серии, ибо вышли уже 3 части и несколько переводов в тему:

habr.com/ru/articles/927722/

#надежность #безопасность #языки_программирования

2025-06-15

10 Принципов отказоустойчивости (с примерами на Javascript)

С хорошей отказоустойчивостью интерфейс остаётся стабильным и понятным, пользователь получает предсказуемый и комфортный опыт, а сбои отдельных компонентов не приводят к сбоям всей системы. В этой статье речь не будет идти о конкретных примерах реализации повышения отказоустойчивости. Понять то, что нужно подключать сервисы мониторинга ошибок вы можете и без меня. Хорошая отказоустойчивость начинается с мышления. Я хочу, чтобы эта фраза въелась вам в самую подкорку. Важно не просто латать ошибки по мере их появления, а комплексно подходить к решению — формировать правильное понимание, разрабатывать устойчивые подходы и строить систему, способную адекватно реагировать на возможные сбои. Принципы описанные далее универсальные и подойдут к большому количеству сфер, даже вне области информационных технологий. Перейти к 10 принципам

habr.com/ru/articles/918574/

#отказоустойчивость #UX #архитектура #ошибки #стабильность #fallback #устойчивость #frontend #error_handling #надежность

2025-06-11

Надежность на масштабе в 45 млн клиентов — инструменты и практики

Всем привет! Меня зовут Алексей Мерсон, я несколько лет работал Developer Advocate в Sage, платформе наблюдаемости Т-Банка. Эта платформа сама по себе очень немаленькая, со сложной архитектурой. Но если посмотреть на ландшафт экосистемы в целом, то Sage — всего лишь одна из платформ в Т-Банке, необходимых, чтобы наши услуги были надежными. А платформы, в свою очередь, — это тоже только часть более общей картины. В этой статье хочу поговорить о том, какие инструменты и практики мы используем для надежности в Т-Банке. Уделим внимание работе с инцидентами. И отдельно сфокусируемся на клиентском опыте: мне кажется, мы, инженеры, часто забываем, что технологии делаются не ради технологий, а ради решения задач бизнеса и его клиентов. Если они будут довольны, то и у нас будет больше возможностей заниматься интересными нам вещами.

habr.com/ru/companies/tbank/ar

#Надежность #sre

2025-05-02

[Перевод] Claude лучшая модель?

Данные OpenRouter показывают тенденцию: разработчики охотно платят за Claude, несмотря на наличие бесплатных альтернатив от Google. При создании продакшн-приложений для них важнее стабильность и предсказуемость ответов ИИ, чем цена - даже если токены бесплатны.

habr.com/ru/articles/905672/

#искусственный_интеллект #claude #llm #anthropic #openrouter #надежность #gemini #разработка #google

2025-02-28

Миф о доказательном программировании без ошибок

Много копий сломано в обсуждениях, какой язык программирования самый лучший с точки зрения корректности и безопасности (под термином "корректность и безопасность" имеется ввиду отсутствие различных ошибок в программе, которые проявляют себя на стадии её выполнения и приводят к выдачей некорректного результата или неожиданному поведения). А некоторые языки программирования, такие как SPARK или OCaml, даже специально разрабатывались для облегчения доказательства корректности программы. А возможно ли вообще писать программы без ошибок?

habr.com/ru/articles/886774/

#программирование #ошибки #надежность

2025-02-13

Применение IPC class 3 при производстве печатных плат ответственного назначения

Привет! Меня зовут Лиза, я работаю заместителем директора по качеству в компании ГРАН Груп. Начав свой профессиональный путь инженером-конструктором, затем технологом, я занималась подготовкой проектов к производству и внедрением в них принципов DFM. Другими словами, в мире печатных плат я достаточно давно и успела получить достаточный уровень компетенций и опыта в этой области. Поработав с проектами плат разного уровня сложности и направленности, я поняла, каким образом можно сделать платы качественными и надежными еще на этапе конструирования. В статье я бы хотела рассказать о стандартах изготовления печатных плат, т.к. много лет была представителем компании в работе со стандартами IPC.

habr.com/ru/companies/grangrou

#электроника #печатные_платы #производство_электроники #производитель_электроники #ipc_class_3 #надежность #стандарты #проектирование_печатных_плат #ответственная_электроника

2025-01-09

К вопросу о надежности искусственного интеллекта в бизнесе

Занимаюсь практическим применением больших языковых моделей в бизнесе. При этом, постоянно приходится слышать, что искусственный интеллект нельзя использовать в бизнесе, потому что "галлюцинации". Откуда взялось это расхожее мнение, что на самом деле и какие есть простые и эффективные способы повышения надежности, обо всем этом попробую сейчас рассказать.

habr.com/ru/articles/872312/

#искусственный_интеллект #бизнес #надежность

2024-12-24

Streamcast про Надежность(SRE)

Всем привет! Мы (Дмитрий Масленников(ТБанк), Максим Иванов(ТБанк) и Марина Калетурина(Яндекс)) решили попробовать новый формат — стриминг. Не откладывая надолго, анонсируем первый первый стрим в следующее воскресенье 29 декабря в 19:00! — сохраняйте даты. Посмотреть стрим можно будет на Twitch и YouTube: youtube.com/@srepubstreamcast twitch.tv/srepubstreamcast Темой первого стрима будут этические вопросы в SRE: 1) Необвинительная(Blameless) культура, как ее понимать, 2) Допустимо ли врать в резюме, к чему все это может привести и подобное. Вы сможете задавать нам вопросы в чате, а мы постараемся ответить на них в прямом эфире.

habr.com/ru/articles/869444/

#sre #стрим #надежность #найм #сбой #отношения

2024-12-06

Автоматизация ТОиР инженерных систем в ВТБ: кейс внедрения SAP PM для 100 000 единиц оборудования

В новостных сводках, каналах, изданиях мы все чаще наблюдаем за успехами оптимизации, автоматизации и внедрения новых систем ТОиР промышленного оборудования. На больших предприятиях оборудование принято называть активами, подчеркивая их важность для достижения целей компании. Да, промышленное оборудование - безусловно критически важное оборудование инфраструктуры предприятия и от надежности такого оборудования во многом зависит доход компании. А что же с активами банков? Нет, не теми финансовыми инструментами, которыми они пользуются, а «железными» активами, которые также помогают банкам работать. Как же быть с обслуживанием инженерного оборудования или оборудования противопожарных систем, а еще и кассовой техники? - зададимся мы вопросом. Почему про процессы обслуживания этого оборудования мы мало где можем найти информацию? Ведь оно также является немаловажным звеном основной цепочки бизнес-процесса предприятия, и от его бесперебойной работоспособности зависит многое. Возьмем например банк. Инженерные системы и системы противопожарной безопасности банка – это «сердце», жизненно важный элемент объекта. Кассовая техника – это «стержень» кассового узла, центра пересчета. Исправное и безотказное состояние элементов инженерных систем обеспечивает удобство, уют и комфорт сотрудникам и клиентам банка, а кассовой техники – непрерывность процесса пересчета и, как следствие, напрямую влияет на прибыль. Наша команда Банка ВТБ давно занимается этими вопросами и мы хотим рассказать об одной такой истории автоматизации процессов ТОиР в банковской сфере. В 2020 году Банк ВТБ, как и положено крупным компаниям, обновлял программное обеспечение и переходил на обновленную версию SAP S4. Управление эксплуатации Административного департамента банка, проанализировав текущие процессы ТОиР, вынесла предложение включить в новую сборку программы SAP дополнительный модуль PM (ТОРО). Руководство компании поддержало идею цифровизации технического обслуживания и ремонта. Так началась история автоматизации ТОиР в Банке ВТБ.

habr.com/ru/articles/864568/

#ТОиР #ТОРО #Учет_оборудования #Мобильное_ТОРО #SAP_PM #Планирование #надежность #инженерные_системы #здания_и_сооружения

2024-11-14

Пайплайны записи своими руками: думали — велосипед, оказалось — паттерны

Привет, Хабр! Я Роман Щербаков, ведущий инженер в Sage — это платформа мониторинга в Т-Банке, которую мы разрабатываем с 2019 года. За пять лет нагрузка на платформу возросла многократно, и, чтобы ее выдерживать, мы постоянно докручиваем наше решение. В этой статье расшифровка моего доклада с Saint HighLoad++ 2024 о том, как мы строим нагруженные пайплайны записи. И о том, как было бы здорово заранее знать, что нам потребуется. Мы придумали много всего для надежной работы пайплайнов, а посмотрели ретроспективно, и оказалось, что это просто одни сплошные стандартные паттерны.

habr.com/ru/companies/oleg-bun

#паттерны #пайплайны #надежность

2024-09-20

Надежность в процессах. Часть 1

Прежде, чем объединяться, нам надо решительно размежеваться (Business continuity management vs Business Process Continuity vs Dependability in technics) Синонимы: Надежность в процессах = надежность процессов = надежность операций = операционная надежность (с учетом синонимии словосочетаниями «сущ. + сущ.» [Морф23]). En: dependability, reliability, resilience (availability, stability) Business Process. Непрерывность процессов – в контексте «business continuity» (Business Process Continuity, BPC) и т.п. Методологические вводные: текст будет обнадежен от типовых угроз (распространенных рисков): а) простые вещи делаем сложными, т.е. простое формализуем через сложные конструкции (излишнее нагромождение), что часто или необоснованно («овчинка выделки не стоит») или является диверсией, как видимо, определение операционной надежности (operational resilience») в п. 1.4 716П . б) сложные вещи плохо декомпозируем: не верно разбиваем на простые составляющие; в) одно и тоже называем разными словами, а разные вещи – одним термином. 1 Процесс и надёжность Процесс и надёжность – два очень простых термина. Далее под процессом будем понимать «бизнес-процесс», который в отличие от природного процесса (химические, физические процессы) реализуется не природой, а «человеко-машиной», т.е. в общем случае – «рукотворные» (искусственный, артефакт). Процесс В общем случае, синонимы: делание, процесс, операция, функция, действие, активность (activity), см. правильный «Business Process Management», например, книжки ARIS или [BPM23] – там все подробно показано.

habr.com/ru/articles/844992/

#надежность #бизнеспроцессы #центральный_банк #bcm #bpm #six_sigma #гост

2024-08-29

Доступность IT-систем: поругаться или договориться?

Всем привет, меня зовут Александр Москвин, я начальник управления эксплуатации X5 Облака в X5 Tech. У меня несколько зон ответственности, но важнейшая из них – это обеспечение доступности облачной инфраструктуры Х5. Конечно, для того, чтобы управлять доступностью, необходимо оцифровать этот показатель. Статья родилась из жарких дебатов по целевым показателям доступности частного облака X5 и серии больших внутренних митапов, посвящённых этой теме. Кажется, что результатами стоит поделиться с сообществом, т. к. накопилась критическая масса материалов и выводов. Мысли будут полезны менеджерам, принимающим решения, и solution-архитекторам для переговоров с заказчиками, лидам команд инфраструктуры и разработки. К сожалению, получился лонгрид, так как охватить все аспекты данной темы короткой статьёй не выйдет.

habr.com/ru/companies/X5Tech/a

#high_availability #высокая_доступность #надежность #sre #стабильность_системы #облачная_инфраструктура #кластеризация #непрерывность_бизнеса #критически_важные_системы #отказоустойчивость

2024-08-16

Математика надёжности. Доклад Яндекса

Вадим Мартынов, руководитель команды платформы надёжности в Яндекс Go, в своём докладе рассказал, как влияют те или иные решения на надёжность системы и как это учитывать при разработке.

habr.com/ru/companies/yandex/a

#надежность #reliability #resilience #sre #доклад_яндекса

2024-08-13

За кулисами разработки: кто такой IT Area Lead в Домклик?

В эпоху стремительной цифровизации, когда виртуальный мир становится неотъемлемой частью нашей жизни, роль IT-специалистов возрастает многократно. Особенно это касается компаний, которые активно внедряют цифровые решения, делая жизнь своих клиентов комфортнее и доступнее. Но кто же стоит во главе этого процесса? Кто отвечает за бесперебойную работу платформы, внедрение новых технологий и развитие цифрового сервиса? В этой статье я расскажу о роли IT Area Lead в Домклик, о том, какими навыками должен обладать этот человек и с какими вызовами он сталкивается каждый день.

habr.com/ru/companies/domclick

#ITAL #It_lead #разработка #управление_проектами #управление_командой #управление_персоналом #карьерный_рост #руководство_командой #hrпроцесс #надежность

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst