Lmst

От таблицы в Excel до собственного инструмента: как мы строили в VK Cloud решение для работы с внешними партнерами

Обмен данными между компаниями-партнерами при реализации совместных проектов — стандартная практика. Но часто есть сценарии, которые требуют особого подхода — например, из-за необходимости подстраивать формат отображения данных под специфику работы с информацией на стороне партнера. Более специфической такая задача становится, если готовых решений под такие запросы нет. С подобной ситуацией сталкивались и мы в VK. Меня зовут Елена Климанова. Я ведущий дата-аналитик в компании VK. В этой статье расскажу, как и почему мы прошли путь от использования excel-файлов при работе с внешними партнерами-вендорами до создания собственного продукта.

https://habr.com/ru/companies/vk/articles/911960/

#vk_cloud #анализ_данных #хранение_данных #BI #clickhouse #airflow #mytracker #redash

От таблицы в Excel до собственного инструмента: как мы строили в VK Cloud решение для работы с внешними партнерами

Обмен данными между компаниями-партнерами при реализации совместных проектов — стандартная практика. Но часто есть сценарии, которые требуют особого подхода — например, из-за необходимости подстраивать формат отображения данных под специфику работы с информацией на стороне партнера. Более специфической такая задача становится, если готовых решений под такие запросы нет. С подобной ситуацией сталкивались и мы в VK. Меня зовут Елена Климанова. Я ведущий дата-аналитик в компании VK. В этой статье расскажу, как и почему мы прошли путь от использования excel-файлов при работе с внешними партнерами-вендорами до создания собственного продукта.

https://habr.com/ru/companies/vk/articles/911960/

#vk_cloud #анализ_данных #хранение_данных #BI #clickhouse #airflow #mytracker #redash

Арбитраж криптовалют — или переливаем из пустого в порожнее

В настоящий момент тема арбитража криптовалют в значительной степени скомпрометирована, и этот факт не может не вызывать сожаления. Первые же несколько Telegram‑каналов, найденные при беглом поиске по ключевым словам, оказались мошенническими проектами. На практике, таких ресурсов в социальных сетях на порядки больше. Фактически, это заботливо расставленные сети для ловли очередных доверчивых пользователей, стремящихся к быстрому и лёгкому заработку. И на волне очередного хайпа в теме криптовалют таких становится все больше и больше. Я решил проверить — существуют ли в действительности арбитражные возможности, насколько сложно их найти, и что не менее важно — можно ли извлечь из них реальную финансовую выгоду? С этой целью за пару выходных был собран простой арбитражный сканер, позволивший получить некоторую статистику и сделать определенные выводы. Для тех, кому интересны результаты этого эксперимента — расскажу подробнее. Мне интересно

https://habr.com/ru/articles/911056/

#NET #clickhouse #криптовалюта #криптоарбитраж #opensource #блокчейн #c# #scanner #сканер #биржевая_торговля

Self-Hosting Moose with Docker Compose, Redis, Temporal, Redpanda and ClickHouse

https://docs.fiveonefour.com/moose/deploying/self-hosting/deploying-with-docker-compose

#HackerNews #SelfHosting #Moose #DockerCompose #Redis #Temporal #Redpanda #ClickHouse

What happens when you marry #ClickHouse database with #ApacheIceberg? you could query huge datasets fast and with 10x cheaper storage. Sounds promising, right?

Join me tomorrow on the live stream to find out!

May 20th, 11am PT / 20:00 CET:
https://www.youtube.com/watch?v=VeyTL2JlWp0

An HTTP proxy and load balancer for the #ClickHouse database.
#golang

https://github.com/ContentSquare/chproxy

And today on another project I am working on for a different client I got the data pipeline working which pulls ingress/egress bytes from network switches into Kafka and then into ClickHouse to be queried per minute/hour/day and per switch port.

#GoLang #Kafka #ClickHouse #Arista

Live streaming next week about #ClickHouse #opensource #database, originally developed at Yandex, now trending in #observability and #analytics, with impressive performance benchmarks.

Join us 20 May at OpenObservability Talks:
🌐 https://www.youtube.com/watch?v=VeyTL2JlWp0

@AltinityDB

👓🌀 Oh joy, yet another #open-source tool promising to solve all our #streaming #data problems. Because clearly, what we needed was another way to shuffle bytes from #Kafka to #ClickHouse, ensuring our data pipelines are as filled with buzzwords as possible. 🚀✨
https://github.com/glassflow/clickhouse-etl #data-pipelines #HackerNews #ngated

GlassFlow – OSS streaming dedup and joins from Kafka to ClickHouse

https://github.com/glassflow/clickhouse-etl

#HackerNews #GlassFlow #OSS #streaming #Kafka #ClickHouse #dataengineering

Apparently TradingView has a chat. And it's quite active.

Time to import it to my ClickHouse DB and see if we can do anything cool with the data.

#Trading #Trade #ClickHouse #DataScience

After a little reverse-engineering, #Coroot became the first observability tool to support automatic #eBPF instrumentation of #Clickhouse and #ApacheZooKeeper native protocols.

Learn how you can transform your mountain of telemetry logs into full observability with instant root cause insights. Troubleshoot less, deploy faster with #opensource: https://t.ly/FrsL4

#opensource #kubernetes #devops #data #docker #tech #IT #observability #SRE
#kafka #apache #freesoftware

Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями

Всем привет! Меня зовут Диана Бутько, я студентка 3 курса, изучаю информационные системы и программирование. В InfoWatch я пришла на практику, и одной из моих задач стал сравнительный анализ различных методов поиска похожих векторов. Это один из ключевых аспектов машинного обучения и анализа данных, используемых в рекомендательных системах, кластеризации, семантическом поиске и других областях. Но чем больше объем данных, тем важнее становится выбор инструментов: полный перебор векторов требует больших вычислительных ресурсов, а в других алгоритмах порой необходимо балансировать между точностью и скоростью поиска. В этой статье я сравниваю пять методов поиска похожих векторов: — полный перебор по евклидову расстоянию с реализацией в Python; — FAISS с индексами IndexFlatL2 (полный перебор, евклидово расстояние) и IndexIVFFlat (сегментирование по ячейкам, евклидово расстояние); — векторный поиск в ClickHouse с индексом HNSW и метриками расстояния L2Distance (евклидово расстояние) и cosineDistance (косинусное сходство).

https://habr.com/ru/companies/infowatch/articles/905916/

#clickhouse #knn #faiss #hnsw

A lightweight, powerful log analytics platform designed for efficient log management and analysis. It operates as a single binary, utilizing #ClickHouse for high-performance log storage and querying.
#golang

https://github.com/mr-karan/logchef

I set up a #clickhouse server. 2 GB RAM for testing purposes. I ingested 3000 rows, almost no data per row. It already throws "memory limit exceeded" exceptions.

????

after this project I can say:

the strimzi #kafka operator is real nice. feels kubernetesy, smooth features, good documentation, example work.

the #opensearch operator shows grudging admittance that kubernetes exists. ;)

#clickhouse is a great tool. highly recommended.

open telemetry collectors are partially not mature enough. needs work still.

This week's "fun" project: getting #Clickhouse running on #kubernetes at home, with data sharding and redundancy.

I've had a few speedbumps, including dirt in the optics on a redundant network link and an amazingly dumb MTU problem, but it seems to be working finally. I'm now doing a bit of testing to better understand how self-hosted Clickhouse does clusters.

It looks like *if you use their cloud product*, then data sharding and replication Just Works, but if you set up a cluster yourself then you need to declare everything up front when creating tables. So instead of creating a single table via `create table foo (...) ENGINE = MergeTree`, you need to do `create table foo_shard on cluster X (...) ENGINE = ReplicatedMergeTree(...)` in order to create replicated sub-tables per shard, and then add `create table foo on cluster X as foo_shard ENGINE=Distributed(...)` over the top of the per-instance ReplicatedMergeTree shards.

It's (mostly?) just a DDL thing, so querying seems to work as expected, but it's *strange* to create a cluster with a defined shard size and replication level, and then have to repeat yourself per-table in order to use them as declared.

Even better, this all "works" if you declare the per-shard tables as `MergeTree` instead of `ReplicatedMergeTree`, except your data isn't replicated. I watched the disk usage climb on 1/3rd of my nodes while the other 2/3rds sat idle, and had to go back and re-read docs. That's *particularly* surprising, as it could easily lead to data loss.

I'm doing yet another test copy of 1.2B rows of log data (!) right now, and then I'll start looking at what I need to do to cut over.

Also, I'll probably need to do some querying to see why I have 1.2B rows of log data and where it came from. That seems excessive for a couple weeks of logging at home.

Ah, the riveting saga continues! 🎉 Five years of battling #ClickHouse clusters, and we're still just figuring out "reads" as if "writes" are some mythical creature. 🐉 But hey, at least there's a free template! 👏
https://www.tinybird.co/blog-posts/what-i-learned-operating-clickhouse-part-ii #ClickHouseClusters #DataBattle #ReadsVsWrites #TechTemplate #HackerNews #ngated

Lessons learned operating petabyte-scale ClickHouse clusters: Part II

https://www.tinybird.co/blog-posts/what-i-learned-operating-clickhouse-part-ii

#HackerNews #Lessons #ClickHouse #BigData #DataEngineering #TechInsights #PetabyteScale

Moose – OSS framework to build analytical back ends with ClickHouse

https://docs.fiveonefour.com/moose

#HackerNews #Moose #ClickHouse #OSS #Framework #AnalyticalBackend #DataAnalysis #OpenSource

#clickhouse

Client Info