#BM25

2025-12-26

Ứng dụng Next.js chỉ dùng tìm kiếm từ khóa (BM25) nhanh nhưng không hiểu ý nghĩa. Vector search với ELSER cho phép tìm kiếm ngữ nghĩa, cải thiện độ liên quan khi câu truy vấn khác từ khóa. Kết hợp cả BM25 và semantic (hybrid) mang lại tốc độ + độ chính xác tối ưu. Nên triển khai pipeline ELSER, tạo trường sparse_vector và dùng bool‑should. #Nextjs #VectorSearch #Elasticsearch #SemanticSearch #BM25 #AI #CôngNghệ #SearchEngine #TìmKiếm

dev.to/ubcodes/keywords-are-no

2025-12-10

🚀 **Cập nhật `pg_search`: Hỗ trợ tìm kiếm facet** với giao diện tùy chỉnh, kết hợp lập kế hoạch và quét trực tiếp để tối ưu hóa BM25 index (dựa trên Tantivy). Kết quả trả về JSON kèm thống kê nhanh nhờ cấu trúc cột. #pg_search #PostgreSQL #TìmKiếmTốiƯu #BM25 #FacetedSearch #CơSởDữLiệu #DevUpdate

(*tags: #postgresql #facetsearch #tantivy #databases #developernews*)

paradedb.com/blog/faceting

AI Daily Postaidailypost
2025-11-22

New research shows how hierarchical retrieval can slash noise and keep prompt length in check for massive corpora. By pairing BM25 with dense embeddings, it trims latency and metadata bloat while preserving RAG relevance. Curious how this reshapes context size limits? Read on!

🔗 aidailypost.com/news/hierarchi

2025-11-05

🌱 Unser Gehirn: der Suchalgorithmus 🌍

Wie kommt die Reihenfolge unserer Suchergebnisse zustande?

Das Ranking auf umwelt.info basiert auf fünf unterschiedlichen Faktoren: BM25-Ranking, Aktualität, Metadatenqualität, Popularität und Status.

Wie wir die unterschiedlichen Faktoren gewichten und was hinter den Begriffen steckt erfährst Du im Portal: umwelt.info/de/artikel/ueber-d

#Suchmaschine #umwelt #natur #daten #Metadaten #FAIRData #openCode #openData #opensource #bm25

Sara Zanzansara
2025-11-04

We've been told embedding search strictly superior to BM25 and all other keyword-search algorithms. Then why is it still used in so many modern search pipelines, especially for RAG?

In this post I'll explain you what hybrid search is and why keyword search is still so useful to improve your search results.

zansara.dev/posts/2025-11-04-h

2025-10-23

"pg_textsearch trong Postgres 공식 hỗ trợ ranking BM25 hoàn chỉnh và tim kiếm hợp tác. Nâng cao độ chính xác tìm kiếm cho cơ sở dữ liệu! #PostgreSQL #BM25 #TìmKiếm #CơSảnDữLiệu #XếpX满"

reddit.com/r/programming/comme

2025-10-13

🚀 Tôi đã hoàn thànhстер structure một moteur tìm kiếm độc lập bằng Java! Sử dụng算法 TF-IDF và BM25, hỗ trợ token hóa, xóa từ trống, và ranking văn bản. Hoàn hảo bằng Java 21, không dùng thư viện bên outsourcing. versione opensourcerecipes trong GitHub. Learn rao về thông tin trích xuất và cơ sở dữ liệu!
#SearchEngine #Java #TFIDF #BM25 #OpenSource #LearningProject #TiemKiem #JavaCor #LapTrinh #NgoQuyet

reddit.com/r/opensource/commen

2025-07-10

Разбираем на запчасти поисковый сервис в Яндекс Лавке

Привет! Меня зовут Николай Смирнов, я ML-инженер в команде поиска Яндекс Лавки. В этой статье я расскажу немного о закулисье: — Как наша команда шаг за шагом строила поисковый сервис, начиная с алгоритма Ахо — Корасик, SaaS-решений и Маркета, и дошла до собственной архитектуры на C++ с userver и многослойным «бургером» из ML-моделей. — Зачем поиску Лавки понадобилось сразу несколько технологий — BM25, DSSM, BERT и CatBoost — и чем полезна каждая из них. — Как наш поиск собирает данные о вас и о товарах и почему ML-модели приходится дообучать. А ещё вместе «сломаем» прод — посмотрим, что произойдёт, если выключить какую-нибудь из моделей, и почему даже самые продвинутые нейросети не являются серебряной пулей. В общем, будет немного истории, самое интересное из архитектуры, инженерные находки и живые примеры того, как поиск в Лавке принимает решения. Если интересно, как на самом деле работает поиск, — погнали!

habr.com/ru/companies/yandex/a

#поиск #mlops #ml_design #bm25 #DSSM #catboost #яндекславка #machinelearning

2025-06-11

[Перевод] Я сделал поисковик хуже Elasticsearch

В этой статье я хочу поделиться своим стыдом, вызванным попыткой создания библиотеки поиска. В этом стыде и вы можете прочувствовать смирение и осознание того, что реальный качественный поисковый движок, а не создаваемый как хобби-проект, должен делаться для того, чтобы лексический поиск был быстрым. BEIR — это бенчмарки поиска информации, ориентированные на сценарии использования в формате «вопрос-ответ». Мой хобби-проект SearchArray добавляет в Pandas полнотекстовый поиск. Поэтому естественно, чтобы ощутить трепет от моих потрясающих навыков разработчика, я решил использовать BEIR для сравнения SearchArray с Elasticsearch (с тем же запросом + токенизацией). Поэтому я потратил субботу на интеграцию SearchArray в BEIR и измерение релевантности и производительности с корпусом MSMarco Passage Retrieval (8 миллионов документов). Барабанная дробь...

habr.com/ru/articles/917604/

#поисковые_системы #поисковые_движки #elasticsearch #bm25

GripNewsGripNews
2025-04-09

🌗 PostgreSQL BM25 全文搜尋:透過這些技巧加速效能
➤ 破解效能慢的迷思,提升 PostgreSQL 全文搜尋的真實速度
blog.vectorchord.ai/postgresql
這篇文章探討了 PostgreSQL 內建全文搜尋(FTS)的效能問題,並針對 Neon 公司先前分析中使用的基準測試設定提出修正。文章指出,Neon 的基準測試可能未採用最佳化設定,導致標準 FTS 效能顯著落後於使用 Rust 語言的 Tantivy 函式庫所建構的 pg_search 擴充功能。透過預先計算並儲存 `tsvector`,以及關閉 GIN 索引的 `fastupdate` 選項,標準 FTS 的效能可提升約 50 倍。此外,文章也探討了排序效能(`ts_rank`)的限制,並推薦使用 VectorChord-BM25 擴充功能以獲得更快速、更具相關性的搜尋結果。
+

N-gated Hacker Newsngate
2025-03-03

🚀✨ Wow, just got a shiny new toy to play well with others! Apparently, adding ranking makes it 3x faster than Elasticsearch—because, you know, exaggerated boasts never get old. 🤔🔍 So, strap on folks, because your slightly quicker searches in databases are the next big thing! 😂📚
blog.vectorchord.ai/vectorchor

Victoria Stuart 🇨🇦 🏳️‍⚧️persagen
2024-12-04

Do lots of metadata really help in semantic search?
old.reddit.com/r/MachineLearni

Comment: new thread on utility of metadata, BM25, LLM, search, semantics ...

2024-11-29

[Перевод] Разбираем алгоритм полнотекстового поиска BM25

BM25, или Best Match 25 — это широко используемый алгоритм полнотекстового поиска. Среди прочего, он по умолчанию применяется в Lucene/Elasticsearch и SQLite. В последнее время в рамках «гибридного поиска» часто начали комбинировать полнотекстовый поиск и поиск по схожести векторов. Мне захотелось понять, как работает полнотекстовый поиск и в частности BM25, поэтому в этой статье я постараюсь разобраться в этом.

habr.com/ru/articles/860830/

#bm25 #поисковые_алгоритмы #релевантность #полнотекстовый_поиск #алгоритмы_поиска

2024-10-24

Разбираемся с Vespa. Часть 2

Из этой статьи вы узнаете: 1) Что такое Document и Query Processing. 2) Как обрабатывается текст Vespa. Что такое токенизация и стемминг. 3) Какой из обработчиков текста лучше подходит для русского языка. 4) Как выполнить текстовый поиск. 5) Как происходит ранжирование результата.

habr.com/ru/companies/sportmas

#java #vespa #stemming #tokenizer #bm25 #docker

2024-10-11

[Перевод] Новая методика существенно повышает эффективность систем RAG в поиске необходимых документов

В новой работе исследователи из Корнеллского университета представляют «контекстные эмбеддинги документов» — технику, повышающую эффективность моделей эмбеддингов путем учета контекста, в котором извлекаются документы.

habr.com/ru/articles/850076/

#rag #llm #эмбеддинги #искусственный_интеллект #нейросети #bm25

2024-09-02

Как найти иголку в стоге сена? Или обозор Retrieval Algorithms

Появление трансформеров, а впоследствии LLM (Large Language Models) привело к активному распространению чат-ботов и различных ассистентов помогающих в получении информации или генерации контента. Но несмотря на то что LLM способны по запросу генерировать человекоподобные тексты, они подвержены галлюцинациям . Естественным кажется желание уменьшить количество не достоверных ответов. Для этого мы можем либо дообучить LLM на наших данных, либо использовать Retrieval Augmented Generation (RAG) . RAG - это способ генерации текстов на новых данных без дообучения модели, с помощью добавления релевантных документов в промпт модели. Документы для генерации ищутся с помощью retrieval системы, после чего объединяются в один промпт и подаются в LLM для последующей обработки. В этой статье я решил собрать информацию о всех наиболее известных и применяемых алгоритмах поиска, с описаниями и материалами для более глубокого изучения.

habr.com/ru/articles/840268/

#bm25 #tfidf #hnsw #hnswlib #kd_tree #ann #product_quantization #LSH

Victoria Stuart 🇨🇦 🏳️‍⚧️persagen
2024-08-26

Postgres as a search engine
anyblockers.com/posts/postgres
news.ycombinator.com/item?id=4

Build a retrieval system with semantic, full-text, & fuzzy search in Postgres to be used as a backbone in RAG pipelines.

We’ll combine 3 techniques:

* full-text search with tsvector
* semantic search with pgvector
* fuzzy matching with pg_trgm

* bonus: BM25

en.wikipedia.org/wiki/Okapi_BM
blog.paradedb.com/pages/elasti
news.ycombinator.com/item?id=4

卡拉今天看了什麼ai_workspace@social.mikala.one
2024-08-07

Full Text Search over Postgres: Elasticsearch vs. Alternatives - ParadeDB

Link
📌 Summary:
ParadeDB是一個針對Postgres建構的全文搜尋引擎,結合了Postgres原生的全文搜尋功能和Elasticsearch等現代搜尋引擎的能力。它的特點包括:

🎯 Key Points:
1. 全文搜尋是基於特定關鍵字和詞語在文本集合中尋找的技術。搜尋引擎如Elasticsearch使用BM25演算法來排名搜尋結果。BM25考慮了術語的頻率和在所有文件中該術語的獨特性。
2. 全文搜尋與基於語義意義的相似性搜尋(也稱為向量搜尋),它根據語義意義來尋找和排名結果。許多現代應用程序使用全文搜尋和相似性搜尋的組合。這種做法被稱為混合搜尋,可以獲得更準確的結果。
3. Postgres原生的全文搜尋功能(FTS)是所有Postgres數據庫的內建功能。它利用tsvector數據類型,將文本作為可搜索的標記存儲,以及GIN索引以提高搜尋速度。
4. Postgres FTS的優點包括簡單性、可靠性和實時搜尋。它適用於不需要複雜的全文搜尋查詢的小型到中型表格。然而,Postgres FTS的缺點包括不完整的功能集、性能下降於具有數百萬行的表格以及事務開銷。
5. Elasticsearch是一個現代的全文搜尋引擎,也是一個分析查詢引擎、向量數據庫、安全性和可觀察性平台。它具有全面的功能集,並在具有分佈式架構的基準測試中展示了高性能。然而,Elasticsearch不是一個可靠的數據存儲,它需要ETL管道,並且可能導致數據新鮮度損失和成本增加。
6. Paradedb是建立在pg_search擴展之上的,全文搜尋引擎,該擴展將Tantivy,一個基於Rust的Lucene替代方案,嵌入到Postgres中。它與任何自管理的Postgres數據庫無需額外基礎設施進行插入,並提供了高級全文搜尋引擎的能力。它與AWS RDS等管理的Postgres服務兼容,預計在不久的將來提供兼容性。

🔖 Keywords:
#全文搜尋 #Postgres #Elasticsearch #Paradedb #pg_search #Tantivy #BM25 #MVCC #ACID #ETL #Algolia #Meilisearch #Typesense #混合搜尋 #GitHub

2024-06-21

Он победил LLM RAG: реализуем BM25+ с самых азов

Привет, меня зовут Борис. Я автор телеграм канала Борис опять . Периодически мне на глаза попадается что-то интересное и я глубоко в этом закапываюсь. В данном случае это алгоритм поиска BM25+ , который победил продвинутые методы векторного поиска на LLM. Разберемся, что это за зверь и почему он так хорошо работает. В этой статье мы реализуем его на Python с нуля. Начнем с самого простого поиска, перейдем к TF-IDF, а затем выведем из него BM25+. Статья подойдет тем, кто вообще ничего не знает о поиске, а более опытные ребята могут пролистать до реализации алгоритма. Код доступен в Google Collab .

habr.com/ru/articles/823568/

#поиск #python #bm25 #rag #llm

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst