Lmst

Okay, Back of the napkin math:
- There are probably 100 million sites and 1.5 billion pages worth indexing in a #search engine
- It takes about 1TB to #index 30 million pages.
- We only care about text on a page.

I define a page as worth indexing if:
- It is not a FAANG site
- It has at least one referrer (no DD Web)
- It's active

So, this means we need 40TB of fast data to make a good index for the internet. That's not "runs locally" sized, but it is nonprofit sized.

My size assumptions are basically as follows:
- #URL
- #TFIDF information
- Text #Embeddings
- Snippet

We can store an index for 30kb. So, for 40TB we can store an full internet index. That's about $500 in storage.

Access time becomes a problem. TFIDF for the whole internet can easily fit in ram. Even with #quantized embeddings, you can only fit 2 million per GB in ram.

Assuming you had enough RAM it could be fast: TF-IDF to get 100 million candidated, #FAISS to sort those, load snippets dynamically, potentially modify rank by referers etc.

6 128 MG #Framework #desktops each with 5tb HDs (plus one raspberry pi to sort the final condidates from the six machines) is enough to replace #Google. That's about $15k.

In two to three years this will be doable on a single machine for around $3k.

By the end of the decade it should be able to be run as an app on a powerful desktop

Three years after that it can run on a #laptop.

Three years after that it can run on a #cellphone.

By #2040 it's a background process on your cellphone.

Identified words most associated with a few BlueSky posters. Trained with a tiny dataset of ~2k posts from 7 people via a strongly regularized #ML #NLP #TF-IDF logistic regression model. Last picture shows words for 4 posters: me, space imagery, physician, and original inspiration for idea.

First few lines of the dataframe containing the text of user posts

Plot showing choice of lambda for strongly regularized logistic regression to apply feature selection (outcome metric AUC)

For 4 different BlueSky posters (me, space imagery, physician, and person who inspired this idea), the 20 words most predictive of their posts.

Hmmm, data geek #ML #NLP project here. Get posts of a user (and general population), apply #TF-IDF and regularized logistic regression to ID words most characteristic of that user and pick the top 100+, add some common words. I could do this... So many #weird and #geeky ideas, so little time

RE: https://bsky.app/profile/did:plc:grfooamxjtwznfuovs65wajb/post/3lecxbbk6a22h

Сортировка книг по тематикам скриптами Python

На момент написания этой заметки около половины из 16 тысяч книг в моей библиотеке — ИТшные, другая половина — медицинские. Две трети этих книг на английском, одна треть — на русском. Примерно раз в месяц я с телеграм-каналов докачиваю еще 1–2 тысячи книг, из которых реально новых — не более 100–200, остальное у меня уже есть. Кроме того, попадаются сканированные книги с околонулевой пользой, если их не распознавать. Всё это добро мне нужно регулярно дедуплицировать, раскладывать по тематическим папочкам, выкладывать в облако для коллег и при этом не тратить на это много времени. Готовых программ для таких задач я не нашел, поэтому, как мог, справлялся сам — писал скрипты на Python.

https://habr.com/ru/articles/867412/

#petproject #python #spacy #tfidf #обработка_данных #text_mining

Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях

Привет, меня зовут Коновалов Андрей, я Data Scientist персональных рекомендаций Wildberries. В этой статье разберем, как можно тюнингом TF-IDF побить BERT4Rec в ретро-тесте рекомендательной системы .

https://habr.com/ru/companies/wildberries/articles/861466/

#ml #recsys #data_science #bert4rec #tfidf #рекомендательные_системы #рекомендации #wildberries

Обнаружение DGA доменов или тестовое задание на позицию intern ML-engineer

В этой статье мы рассмотрим простую задачу, которая используется одной компанией в качестве тестового задания для стажеров на позицию ML-engineer.

https://habr.com/ru/articles/845452/

#rag #python3 #информационная_безопасность #machine_learning #data_science #стажировка #тестовое_задание #nграммы #tfidf

Have people applied #tfidf to code bases? I suppose yes...is it helpful? is it fun?

Как найти иголку в стоге сена? Или обозор Retrieval Algorithms

Появление трансформеров, а впоследствии LLM (Large Language Models) привело к активному распространению чат-ботов и различных ассистентов помогающих в получении информации или генерации контента. Но несмотря на то что LLM способны по запросу генерировать человекоподобные тексты, они подвержены галлюцинациям . Естественным кажется желание уменьшить количество не достоверных ответов. Для этого мы можем либо дообучить LLM на наших данных, либо использовать Retrieval Augmented Generation (RAG) . RAG - это способ генерации текстов на новых данных без дообучения модели, с помощью добавления релевантных документов в промпт модели. Документы для генерации ищутся с помощью retrieval системы, после чего объединяются в один промпт и подаются в LLM для последующей обработки. В этой статье я решил собрать информацию о всех наиболее известных и применяемых алгоритмах поиска, с описаниями и материалами для более глубокого изучения.

https://habr.com/ru/articles/840268/

#bm25 #tfidf #hnsw #hnswlib #kd_tree #ann #product_quantization #LSH

Hi everyone #rstats Does anyone know where #tfidf function in #quanteda package work now. The package was re-vamped and the function is no more in it.

Что такое векторизация текста в NLP и какая она бывает: One-hot encoding, Bag of words, TF-IDF, Word2Vec, BERT и другие

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников , и в этой статье я расскажу про разные способы векторизации текстов. Всем привет! Вдохновившись прикольной и понятной статьей на английском языке, и не найдя сходу чего-то похожего в русскоязычном сегменте интернета, решил написать о том, как обрабатывается текст перед тем, как на нем начинают применять разные модели ИИ. Эту статью я напишу нетехническим языком, потому что сам не технарь и не математик. Надеюсь, что она поможет узнать о NLP тем, кто не сталкивается с AI в продуктах на ежедневной основе. О чем эта статья:

https://habr.com/ru/articles/820159/

#Onehot_encoding #Bag_of_words #TFIDF #Word2Vec #BERT #NLP #nlp_(natural_language_processing) #nlpмодели

How would you go about creating a filter that blocks posts about things that people hate?

I've thought I could build a text classifier, but it could be hard to train since I'd need to guess whether or not the author hates the thing they are posting about.

I wouldn't want it to become a filter for all current events news, but I suspect that's what it would become.

#fediverse #mastodon #machineLearning #tfidf #classification #socialMedia #classifier #textAnalysis #programming #tech #technology

tf-idf 與 BM25

tf–idf 與 BM25 是兩個在資訊檢索 (IR) 裡面的經典演算法，也常被用在搜尋引擎技術上。

前陣子在練 Go，剛好找個主題來練，tf-idf 已經很熟了，但 BM25 沒有實際寫過，而自己的 blog 也累積了七千多篇，這個數量還算好用，不用自己另外 dump 維基百科的文章跑... (而且量太大)

第一步是拆成 token，我這邊就拿 bigram 拆了，但英文的部分把一整個詞當作一個單位，而非一個字母一個字母拆。

btw，這邊 tf-idf 與 BM25 的公式就請大家自己去維基百科上翻了...

tf-idf 概念上很簡單，而也沒有什麼 magic numb

https://blog.gslin.org/archives/2024/02/28/11683/tf-idf-%e8%88%87-bm25/

#Computer #Murmuring #Programming #SearchEngine #algorithm #bm25 #engine #idf #search #tf #tfidf

First #KeyAlgorithms article of 2024 #TfIDF
https://playfultechnology.co.uk/tf-idf.html
#DataScience #NLP @data_science

Qdrant 1.7.0
https://qdrant.tech/articles/qdrant-1.7.x/
#ycombinator #vector_search #new_features #sparse_vectors #discovery #exploration #custom_sharding #snapshot_based_shard_transfer #hybrid_search #bm25 #tfidf #splade #qdrant

On a roll: Qdrant brings sparse vectors, discovery search and custom sharding
https://qdrant.tech/articles/qdrant-1.7.x/
#ycombinator #vector_search #new_features #sparse_vectors #discovery #exploration #custom_sharding #snapshot_based_shard_transfer #hybrid_search #bm25 #tfidf #splade #qdrant

[Перевод] Краткий обзор техник векторизации в NLP

Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную статью. Статья мне показалась изложенной доступно, поэтому я перевел ее для удобства других коллег. Работоспособность большей части кода проверял, вроде работает (см. Jupiter Notebook). Надеюсь, будет полезно. === Технологии NLP — Natural Language Processing, обработки естественного языка — позволяют компьютерам обрабатывать человеческий язык, понимать его значение и контекст, а также связанные с ним эмоциональную окраску и намерения, и далее, использовать эти данные для создания чего-то нового. Как сделать слова понятными для компьютеров? Используется векторизация. Рассмотрим несколько техник такой векторизации.

https://habr.com/ru/articles/778048/

#токен #векторизация #fasttext #word2vec #glove #CBOW #skipgram #tfidf #nlp_(natural_language_processing)

I have plenty more achievable goals for https://schizo.social (like multi-account, or #Calckey support) but something I'd love to try is #classifying posts with #machineLearning #tfidf

I'd like to be able to define "labels" and then train it to identify those on the fly. Then either mute or highlight posts that #classify highly.

Not so much an #algorithm, as a #filter.

#ai #ml #webDev #classifier

planning for #CfgMgmtCamp ? Not sure what track(s) to attend? I have you covered!

Behold, my entirely hacky TF-IDF analysis of the talk submissions, broken down by room & day. In other words, what words are common to each room *specifically* in the talks blurb.

#Rstats #textmining #tfidf

#tfidf

Client Info