#clickhouse

2025-05-23

От таблицы в Excel до собственного инструмента: как мы строили в VK Cloud решение для работы с внешними партнерами

Обмен данными между компаниями-партнерами при реализации совместных проектов — стандартная практика. Но часто есть сценарии, которые требуют особого подхода — например, из-за необходимости подстраивать формат отображения данных под специфику работы с информацией на стороне партнера. Более специфической такая задача становится, если готовых решений под такие запросы нет. С подобной ситуацией сталкивались и мы в VK. Меня зовут Елена Климанова. Я ведущий дата-аналитик в компании VK. В этой статье расскажу, как и почему мы прошли путь от использования excel-файлов при работе с внешними партнерами-вендорами до создания собственного продукта.

habr.com/ru/companies/vk/artic

#vk_cloud #анализ_данных #хранение_данных #BI #clickhouse #airflow #mytracker #redash

2025-05-23

От таблицы в Excel до собственного инструмента: как мы строили в VK Cloud решение для работы с внешними партнерами

Обмен данными между компаниями-партнерами при реализации совместных проектов — стандартная практика. Но часто есть сценарии, которые требуют особого подхода — например, из-за необходимости подстраивать формат отображения данных под специфику работы с информацией на стороне партнера. Более специфической такая задача становится, если готовых решений под такие запросы нет. С подобной ситуацией сталкивались и мы в VK. Меня зовут Елена Климанова. Я ведущий дата-аналитик в компании VK. В этой статье расскажу, как и почему мы прошли путь от использования excel-файлов при работе с внешними партнерами-вендорами до создания собственного продукта.

habr.com/ru/companies/vk/artic

#vk_cloud #анализ_данных #хранение_данных #BI #clickhouse #airflow #mytracker #redash

2025-05-20

Арбитраж криптовалют — или переливаем из пустого в порожнее

В настоящий момент тема арбитража криптовалют в значительной степени скомпрометирована, и этот факт не может не вызывать сожаления. Первые же несколько Telegram‑каналов, найденные при беглом поиске по ключевым словам, оказались мошенническими проектами. На практике, таких ресурсов в социальных сетях на порядки больше. Фактически, это заботливо расставленные сети для ловли очередных доверчивых пользователей, стремящихся к быстрому и лёгкому заработку. И на волне очередного хайпа в теме криптовалют таких становится все больше и больше. Я решил проверить — существуют ли в действительности арбитражные возможности, насколько сложно их найти, и что не менее важно — можно ли извлечь из них реальную финансовую выгоду? С этой целью за пару выходных был собран простой арбитражный сканер, позволивший получить некоторую статистику и сделать определенные выводы. Для тех, кому интересны результаты этого эксперимента — расскажу подробнее. Мне интересно

habr.com/ru/articles/911056/

#NET #clickhouse #криптовалюта #криптоарбитраж #opensource #блокчейн #c# #scanner #сканер #биржевая_торговля

Dotan Horovits #CNCFAmbassadorhorovits@fosstodon.org
2025-05-19

What happens when you marry #ClickHouse database with #ApacheIceberg? you could query huge datasets fast and with 10x cheaper storage. Sounds promising, right?

Join me tomorrow on the live stream to find out!

May 20th, 11am PT / 20:00 CET:
youtube.com/watch?v=VeyTL2JlWp

Golang News and Librariesgolangch
2025-05-19

An HTTP proxy and load balancer for the database.

github.com/ContentSquare/chpro

2025-05-14
And today on another project I am working on for a different client I got the data pipeline working which pulls ingress/egress bytes from network switches into Kafka and then into ClickHouse to be queried per minute/hour/day and per switch port.

#GoLang #Kafka #ClickHouse #Arista
Dotan Horovits #CNCFAmbassadorhorovits@fosstodon.org
2025-05-12

Live streaming next week about #ClickHouse #opensource #database, originally developed at Yandex, now trending in #observability and #analytics, with impressive performance benchmarks.

Join us 20 May at OpenObservability Talks:
🌐 youtube.com/watch?v=VeyTL2JlWp

@AltinityDB

N-gated Hacker Newsngate
2025-05-11

👓🌀 Oh joy, yet another -source tool promising to solve all our problems. Because clearly, what we needed was another way to shuffle bytes from to , ensuring our data pipelines are as filled with buzzwords as possible. 🚀✨
github.com/glassflow/clickhous -pipelines

Hacker Newsh4ckernews
2025-05-11

GlassFlow – OSS streaming dedup and joins from Kafka to ClickHouse

github.com/glassflow/clickhous

2025-05-09

Apparently TradingView has a chat. And it's quite active.

Time to import it to my ClickHouse DB and see if we can do anything cool with the data.

#Trading #Trade #ClickHouse #DataScience

Corootcoroot
2025-05-07

After a little reverse-engineering, became the first observability tool to support automatic instrumentation of and native protocols.

Learn how you can transform your mountain of telemetry logs into full observability with instant root cause insights. Troubleshoot less, deploy faster with : t.ly/FrsL4


2025-05-05

Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями

Всем привет! Меня зовут Диана Бутько, я студентка 3 курса, изучаю информационные системы и программирование. В InfoWatch я пришла на практику, и одной из моих задач стал сравнительный анализ различных методов поиска похожих векторов. Это один из ключевых аспектов машинного обучения и анализа данных, используемых в рекомендательных системах, кластеризации, семантическом поиске и других областях. Но чем больше объем данных, тем важнее становится выбор инструментов: полный перебор векторов требует больших вычислительных ресурсов, а в других алгоритмах порой необходимо балансировать между точностью и скоростью поиска. В этой статье я сравниваю пять методов поиска похожих векторов: — полный перебор по евклидову расстоянию с реализацией в Python; — FAISS с индексами IndexFlatL2 (полный перебор, евклидово расстояние) и IndexIVFFlat (сегментирование по ячейкам, евклидово расстояние); — векторный поиск в ClickHouse с индексом HNSW и метриками расстояния L2Distance (евклидово расстояние) и cosineDistance (косинусное сходство).

habr.com/ru/companies/infowatc

#clickhouse #knn #faiss #hnsw

Golang News and Librariesgolangch
2025-04-28

A lightweight, powerful log analytics platform designed for efficient log management and analysis. It operates as a single binary, utilizing for high-performance log storage and querying.

github.com/mr-karan/logchef

2025-04-27

I set up a #clickhouse server. 2 GB RAM for testing purposes. I ingested 3000 rows, almost no data per row. It already throws "memory limit exceeded" exceptions.

????

2025-04-25

after this project I can say:

the strimzi #kafka operator is real nice. feels kubernetesy, smooth features, good documentation, example work.

the #opensearch operator shows grudging admittance that kubernetes exists. ;)

#clickhouse is a great tool. highly recommended.

open telemetry collectors are partially not mature enough. needs work still.

2025-04-23

This week's "fun" project: getting #Clickhouse running on #kubernetes at home, with data sharding and redundancy.

I've had a few speedbumps, including dirt in the optics on a redundant network link and an amazingly dumb MTU problem, but it seems to be working finally. I'm now doing a bit of testing to better understand how self-hosted Clickhouse does clusters.

It looks like *if you use their cloud product*, then data sharding and replication Just Works, but if you set up a cluster yourself then you need to declare everything up front when creating tables. So instead of creating a single table via `create table foo (...) ENGINE = MergeTree`, you need to do `create table foo_shard on cluster X (...) ENGINE = ReplicatedMergeTree(...)` in order to create replicated sub-tables per shard, and then add `create table foo on cluster X as foo_shard ENGINE=Distributed(...)` over the top of the per-instance ReplicatedMergeTree shards.

It's (mostly?) just a DDL thing, so querying seems to work as expected, but it's *strange* to create a cluster with a defined shard size and replication level, and then have to repeat yourself per-table in order to use them as declared.

Even better, this all "works" if you declare the per-shard tables as `MergeTree` instead of `ReplicatedMergeTree`, except your data isn't replicated. I watched the disk usage climb on 1/3rd of my nodes while the other 2/3rds sat idle, and had to go back and re-read docs. That's *particularly* surprising, as it could easily lead to data loss.

I'm doing yet another test copy of 1.2B rows of log data (!) right now, and then I'll start looking at what I need to do to cut over.

Also, I'll probably need to do some querying to see why I have 1.2B rows of log data and where it came from. That seems excessive for a couple weeks of logging at home.

N-gated Hacker Newsngate
2025-04-23

Ah, the riveting saga continues! 🎉 Five years of battling clusters, and we're still just figuring out "reads" as if "writes" are some mythical creature. 🐉 But hey, at least there's a free template! 👏
tinybird.co/blog-posts/what-i-

Hacker Newsh4ckernews
2025-04-23

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst