#Parquet

2025-12-20

The reason I made a sample dataset was that I thought it was a bit sluggish querying the GeoPackage file from DuckDB. The query in the image took 2.56 s on the GeoPackage file. I now tried to save the entire dataset into a Parquet file (sorted on county and municipality) and compressed with ZSTD. The same query takes 0.0140s.

Also the Parquet file is 141 MiB compared to 1.18 GiB for the GeoPackage file. The Parquet file is smaller than the original zip file with the GeoPackage file.

#DuckDB #GeoPackage #Skogsstyrelsen #Parquet

👨‍💻 DataTUI - інструмент командного рядка для перегляду та аналізу файлів даних різних форматів через зручний текстовий інтерфейс.

Основні можливості:
• Підтримка #CSV, #JSON, #Excel, #SQLite, #Parquet
• Швидка навігація та фільтрація даних
• Інтуїтивний текстовий інтерфейс

Платформа: Windows/macOS/Linux

🔗 github.com/forensicmatt/datatui

blueHOMES AG Europa Immobilienbluehomes
2025-12-16

House with land - Guaira Paraguay 💓

is a beautiful spot with a bathing and natural swimming . The area around the 🔺 Naturales is considered one of the most areas of Paraguay.

open /dining area
toilet/shower

flooring
20 min
Urbana 30 min

199.000 €
Rooms: 5
Living space: 155m²
Plot: 2.000m²
🇵🇾

bluehomes.com/PPY0057/en/House

- el executor nf-nomad de #nextflow empieza a ganar popularidad con casi 1000 descargas y (creo) es el más usado de los executors "no oficiales"

- el plugin #parquet de #nextflow ya está por las 500 descargas. Espero que el año que viene sea el del plugin de #aspera , creado este Q4

y no sólo de proyectos desplegados vive el hombre:

2/3

2025-12-11

We've created a way to display interactive maps in the browser, completely client-side! #gis #gischat

Drop your data in as #csv or #apache #parquet file, and your vector shapefile as a #geojson, and your map is ready to go!

It's hosted on #GitHub pages (so it's free!) but can be embedded anywhere

Tutorial:
odissei-soda.nl/tutorials/map-

Example:
sodascience.github.io/map-expl

(we tried out @penpot in the design process!)

Map of the Netherlands consisting of coloured polygons. There are some user interface options to select data
2025-12-10

Après j'ai encore plein de bugs

Todoenlacestodoenlaces
2025-12-03

Nicolás Madrid S.L. es una empresa especializada en trabajos con madera, ubicada en España. Ofrecemos reformas de viviendas y diseñamos y fabricamos cocinas, muebles y elementos de decoración. Con más de 2000 m2 de exposición, nuestro equipo se dedica a transformar espacios en lugares cómodos y funcionales, utilizando los mejores materiales del mercado. /Suelosdemadera

todoenlaces.com/empresa/nicola

2025-12-02

Sometime between Boxing Day and New year last year I decided to look at these datasets again and wanted to have the data available as Parquet files for easier consumption. I started as usual to write a script to unzip and use a SAX parser to read the XML data and then populate an in-memory database with the values.

I could have been satisfied to have processed 30 years’ worth of speeches in two minutes but instead I had the gnawing thought that most of the CPU sat unused while I read the file through one core. So, I decided to parallelize the XML parsing bit and now we were looking at under 30 seconds instead of two minutes.

#Parquet #XML

2025-12-02

Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.

habr.com/ru/companies/sberbank

#Apache_Spark #apache_iceberg #parquet #s3 #big_data

Le Mag Des AstucesLemagdesastuces
2025-11-21

Votre parquet est posé, mais il manque LA touche finale ? Les PLINTHES ! 😱 La coupe des angles vous terrorise ?

Pas de panique ! On a créé LE guide du débutant pour des finitions dignes d'un pro.

lemagdesastuces.fr/comment-pos

Le Mag Des AstucesLemagdesastuces
2025-11-21

Casser votre vieux carrelage ? LA GALÈRE ! 😩 Et si on vous disait que vous pouviez le recouvrir directement avec un magnifique parquet flottant ?

Oui, c'est possible ! Mais ATTENTION, il y a 3 règles d'or à respecter pour éviter la catastrophe. On a créé LE guide pour un chantier sans poussière et sans regret.

lemagdesastuces.fr/poser-un-pa

Le Mag Des AstucesLemagdesastuces
2025-11-21

La pose du parquet, ça allait... jusqu'à l'arrivée du premier mur ! 😱 La découpe, c'est votre cauchemar ?

On a créé LE guide pour transformer cette étape stressante en un jeu de précision.

lemagdesastuces.fr/comment-dec

Sylvain Lesagesevero
2025-11-18

Three new CLI tools to inspect files:

- DataFusion CLI: datafusion.apache.org/user-gui
- Datanomy: github.com/raulcd/datanomy
- parqeye: github.com/kaushiksrini/parqeye

---

Do you know other tools or resources around parquet? Contribute to github.com/severo/awesome-parq.

GripNewsGripNews
2025-11-18

🌖 透過終端機直觀檢視 Parquet 檔案:parqeye 工具介紹
➤ 直接在終端機中,深入探索你的 Parquet 檔案
github.com/kaushiksrini/parqeye
parqeye 是一個強大的終端機應用程式,讓使用者能夠直接在終端機介面中,輕鬆檢視 Parquet 檔案的內容、結構和元數據。它提供了互動式數據視覺化、結構檢視器、檔案和列羣組的元數據資訊,以及分頁介面,方便使用者快速切換不同檢視模式。安裝簡單,可透過直接下載或從原始碼建置。
+ 這個工具太棒了!再也不用為了看 Parquet 檔案的內容而開啟複雜的 GUI 工具了,直接在終端機就能完成,效率提升不少。
+ 對於處理大量數據的開發者來說,parqeye 絕對是必備工具。能夠快速檢查 schema 和 row group 資訊,對於除錯和優化非常有幫助。

Hacker Newsh4ckernews
2025-11-18
2025-11-13

I discover DuckLake !

"DuckLake delivers advanced data lake features without traditional lakehouse complexity by using Parquet files and your SQL database. It's an open, standalone format from the DuckDB team."

github.com/duckdb/ducklake
ducklake.select/

#duckdb #data #bdd #database #datalake #parquet #sql

2025-11-11

Online GeoParquet Visualizer: For day 7 of the #30DayMapChallenge on the topic of #accessibility, @DomeGIS released the #GeoParquet Visualizer. The GeoParquet Visualizer is a free and open-source web tool built with #MapLibre and #parquet-#wasm that lets users view, style, and share GeoParquet and Parquet datasets directly in the browser. spatialists.ch/posts/2025/11/1 #GIS #GISchat #geospatial #SwissGIS

2025-11-06

My first plugin for the nf-test ecosystem is waiting the approbal 😱

nft-parquet , a #parquet extension to validate your #nextflow pipelines

github.com/incsteps/nft-parque

2025-11-05

Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg

Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.

habr.com/ru/articles/963410/

#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst