#lucene

Dotan Horovits #CNCFAmbassadorhorovits@fosstodon.org
2025-05-07

#OpenSearch 3.0 is out! 🍾 πŸ₯³
After 3 years of 2.x, it's time for the next leap, which brings major upgrades to performance, data management, #vectorDB functionality, and much more.
πŸ“ˆ Upgrade to Apache #Lucene 10 and #JDK 21+
πŸ“ˆ Pull-based ingestion for streaming data, with support for Apache #Kafka and Amazon #Kinesis
πŸ“ˆ Power agentic #AI with native #MCP support
πŸ“ˆ Investigate logs with expanded PPL query tools, backed by Apache #Calcite

Check out our release blog:
opensearch.org/blog/unveiling-

2025-04-14

If you are curious about the inner workings of #cassandra, #debezium, #druid, #elasticsearch, #lucene, #kafka, #neo4j, or #spark then check out glennengstrand.info/software/o which presents a static code analysis of these eight open source giants.

Philipp Krennxeraa
2025-03-14

nvidia GTC is coming to the bay area next week. we'll be there with a
* talk about bringing to the GPU
* a "guess that prompt" meetup between galileo + UnstructuredIO + elastic. join us to outsmart AI ;)
lu.ma/guess-that-prompt

talkmeetup
Iulia Feroli πŸ‘©πŸ»β€πŸ’»iulia_
2024-11-21

A shard is a instance that runs on a node, that's part of a cluster, and is replicated for fault tolerance.

If that didn't make 100% sense - we now have a 10 minute video explaining

infrastructure.

(it's basically a super efficient library with librarians on roller skates?)

youtube.com/watch?v=sAySPSyL2qE

Philipp Krennxeraa
2024-11-01
lines changed
2024-10-31

#BSI WID-SEC-2024-3313: [NEU] [hoch] #Apache #Lucene: Schwachstelle ermΓΆglicht CodeausfΓΌhrung

Ein entfernter, anonymer Angreifer kann eine Schwachstelle in Apache Lucene ausnutzen, um beliebigen Programmcode auszufΓΌhren.

wid.cert-bund.de/portal/wid/se

2024-10-22

ΠŸΠΎΠ³Ρ€ΡƒΠΆΠ΅Π½ΠΈΠ΅ Π² Π½Π΅Π΄Ρ€Π° Apache Lucene: Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° индСкса, Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ поиска ΠΈ рСпликация Π΄Π°Π½Π½Ρ‹Ρ…

Π­Ρ‚ΠΎ ΠΏΠ΅Ρ€Π΅Π²ΠΎΠ΄ ΠΌΠΎΠ΅ΠΉ ΡΡ‚Π°Ρ‚ΡŒΠΈ Π² ΠΌΠΎΠ΅ΠΌ Π±Π»ΠΎΠ³Π΅ ΠΏΡ€ΠΎ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ Apache Lucene , ΠΏΡ€ΠΎ ΠΎΠ΄Π½Ρƒ ΠΈΠ· самых извСстных Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ поискового индСкса. Elasticsearch ΠΈ Solr, ΡˆΠΈΡ€ΠΎΠΊΠΎ извСстныС Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅ΠΌΡ‹Ρ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ для поиска, ΠΎΠ½ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ эту Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΡƒ ΠΏΠΎΠ΄ ΠΊΠ°ΠΏΠΎΡ‚ΠΎΠΌ. Π― Ρ€Π°Π±ΠΎΡ‚Π°ΡŽ Π½Π°Π΄ созданиСм Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ для поиска Π² сфСрС элСктронной ΠΊΠΎΠΌΠΌΠ΅Ρ€Ρ†ΠΈΠΈ, ΠΈ постоянно ΡΡ‚Π°Π»ΠΊΠΈΠ²Π°ΡŽΡΡŒ с этой Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΎΠΉ ΠΏΡ€ΠΈ повсСднСвной Ρ€Π°Π±ΠΎΡ‚Π΅. Apache Lucene Ρ€Π΅Π°Π»ΠΈΠ·ΡƒΠ΅Ρ‚ Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ Ρ‡Π°ΡΡ‚ΡŒ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΠ³ΠΎ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΎΠ½Π°Π»Π° для построСния поисковой систСмы. Начиная с процСсса Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΈΠ·Π²Π»Π΅ΠΊΠ°Π΅Ρ‚ каноничСскиС Ρ„ΠΎΡ€ΠΌΡ‹ слов Π² Π²ΠΈΠ΄Π΅ Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², продолТая ΠΏΠΎΠ»Π½ΠΎΠΉ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ ΠΈΠ½Π²Π΅Ρ€Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠ³ΠΎ индСкса, ΠΈ Π·Π°Π²Π΅Ρ€ΡˆΠ°Ρ Ρ€Π΅ΠΏΠ»ΠΈΠΊΠ°Ρ†ΠΈΠ΅ΠΉ сСгмСнтов Π² Ρ€Π΅ΠΆΠΈΠΌΠ΅ Π±Π»ΠΈΠ·ΠΊΠΎΠΌ ΠΊ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΌΡƒ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ. ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ практичСски ΠΏΠΎΠ»Π΅Π·Π½Ρ‹Ρ… Ρ„ΠΈΡ‡Π΅ΠΉ, Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π·Π° Π΄Π²Π° дСсялилСтия сущСствования Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ, колоссально. Π­Ρ‚Π° Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° ΠΈΠ½Ρ‚Π΅Π³Ρ€ΠΈΡ€ΡƒΠ΅Ρ‚ знания ΠΈΠ· лингвистики, ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΈ ΠΈ ΠΊΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π½Ρ‹Ρ… Π½Π°ΡƒΠΊ. Π˜Π½Π²Π΅Ρ€Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ индСкс Apache Lucene Ρ€Π΅Π°Π»ΠΈΠ·ΡƒΠ΅Ρ‚ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ ΠΈΠ½Π²Π΅Ρ€Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠ³ΠΎ индСкса. На ΡƒΡ€ΠΎΠ²Π½Π΅ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ логичСский индСкс содСрТит ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡŽ нСизмСняСмых сСгмСнтов, хранящихся ΠΊΠ°ΠΊ Ρ„Π°ΠΉΠ»Ρ‹ Π² Ρ„Π°ΠΉΠ»ΠΎΠ²ΠΎΠΉ систСмС. ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ сСгмСнт сам ΠΏΠΎ сСбС являСтся ΠΈΠ½Π²Π΅Ρ€Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΌ индСксом. Π’Π°ΠΊΠΎΠΉ индСкс β€” это структура Π΄Π°Π½Π½Ρ‹Ρ… словаря с Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ Π² качСствС ΠΊΠ»ΡŽΡ‡Π΅ΠΉ ΠΈ Π΄Π°Π½Π½Ρ‹ΠΌΠΈ ΠΏΠΎ Ρ€Π°Π·ΠΌΠ΅Ρ‰Π΅Π½ΠΈΡŽ (postings) Π² качСствС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ. ΠŸΠΎΡΡ‚ΠΈΠ½Π³ β€” это список ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ΠΎΠ² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈ количСств Π²Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠΉ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° Π² Π΄Π°Π½Π½ΠΎΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅. Π­Ρ‚ΠΎΡ‚ ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Finite State Transducers, FST [1] для поиска Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ², Ρ‡Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚ΡŒ ΠΊΠ°ΠΊ Π½Π΅Ρ‡Ρ‚ΠΎ ΠΏΠΎΡ…ΠΎΠΆΠ΅Π΅ Π½Π° отсортированныС списки с пропусками [2]. Вакая отсортированная навигационная ΠΊΠ°Ρ€Ρ‚Π° являСтся ΠΊΡ€Π°Π΅ΡƒΠ³ΠΎΠ»ΡŒΠ½Ρ‹ΠΌ ΠΊΠ°ΠΌΠ½Π΅ΠΌ для эффСктивного поиска ΠΏΠΎ ΠΎΠ³Ρ€ΠΎΠΌΠ½Ρ‹ΠΌ обьСмам Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ². Lucene Ρ‚Π°ΠΊΠΆΠ΅ ΠΎΡ‡Π΅Π½ΡŒ эффСктивСн Π² использовании памяти. Π‘Ρ€Π΅Π΄ΠΈ ΠΏΡ€ΠΎΡ‡ΠΈΡ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ², ΠΎΠ½ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ кодирования Ρ€Π°Π·Π½ΠΈΡ†Π°ΠΌΠΈ для сТатия ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ΠΎΠ² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Π² постингах [3]. Π£ΠΏΡ€ΠΎΡ‰Π΅Π½Π½ΠΎ идСя этого сТатия Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² сортировкС списока Ρ†Π΅Π»Ρ‹Ρ… чисСл ΠΈ сохранСния Π΄Π΅Π»ΡŒΡ‚ ΠΌΠ΅ΠΆΠ΄Ρƒ Π½ΠΈΠΌΠΈ. Π­Ρ‚ΠΎ Ρ‚Π°ΠΊΠΆΠ΅ ΠΏΠΎΠ²Ρ‹ΡˆΠ°Π΅Ρ‚ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΉ Π²Π²ΠΎΠ΄Π°-Π²Ρ‹Π²ΠΎΠ΄Π° диска.

habr.com/ru/articles/852666/

#lucene #поиск #поисковыС_систСмы #лингвистика

Philipp Krennxeraa
2024-10-14
luceneelasticsearch
2024-09-30

#BSI WID-SEC-2024-3049: [NEU] [mittel] #Apache #Lucene #Replicator: Schwachstelle ermΓΆglicht nicht spezifizierten Angriff

Ein Angreifer kann eine Schwachstelle in Apache Lucene Replicator ausnutzen, um einen nicht nΓ€her spezifizierten Angriff durchzufΓΌhren.

wid.cert-bund.de/portal/wid/se

2024-09-06

@timbray The dk.brics.automaton Java library comes to my mind immediately. Very minimalistic, incredibly fast and efficient (C-like code actually) and only Junit test dependencies.

github.com/cs-au-dk/dk.brics.a

brics.dk/automaton/

Plus, it is widely used in e.g. #lucene and via this in things like #solr or #ElasticSearch

Philipp Krennxeraa
2024-09-04

8️⃣.0️⃣ approximate kNN search based on HNSW with float vectors on the _knn endpoint. this like many other (but not all) changes is based on improvements in 3/18

Shazwazzashazwazza
2024-08-21

🀣 Found this in the codebase

2024-07-02

Vous sauriez s'il existe une option dans une Lucene Query de Grafana de passer une variable de majuscule Γ  minuscule ou inversement ?

J'ai une variable Grafana que le user doit renseigner en majuscule mais qui doit Γͺtre exploitΓ©e en minuscule dans des graphiques...

#aide #grafana #lucene

Philipp Krennxeraa
2024-06-04

approximate kNN search:
* good estimate
* you can control speed vs precision through the num_candidates setting (basically overfetching on the approximation for getting very close to exact kNN)
* uses HNSW: think of it as highways, roads & streets πŸ›£οΈ 3/9

Philipp Krennxeraa
2024-05-30

great validation on all the progress and have made as a vector database (besides all the other features and improvements)
guess we'll "just" have to do a lot more shouting about it πŸ“£
reddit.com/r/elasticsearch/com

reddit screenshot
2024-05-28

Last week's #OpenSearch #Lucene Study Group - covering prefetch changes coming in Lucene 10.0, improved performance, & improved concurrency youtu.be/uHstNtlr76U

2024-05-27

Any friends (or potential friends :)) in #stockholm ? I'll be in Stockholm and have some availability to meet up. Interested in connecting in general as well as with folks in #search, #informationretrieval, #knowledgemanagement, #library sciences.

#sweden #elastic #ElasticSearch #opensearch #solr #lucene #ir

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst