#word2vec

2026-02-05

От «яблока» до «королевы»: как нейросети учатся понимать смысл слов через эмбеддинги

Представьте, что вы объясняете ребёнку, что такое «яблоко». Вы покажете картинку, дадите попробовать, расскажете, что оно круглое, сладкое, растёт на дереве, а теперь попробуйте объяснить это нейросети. Она не видит, не пробует, но она понимает только числа. Как же тогда заставить машину понять, что «яблоко» ближе к «груше», чем к «трактору»? Ответ на самом деле кроется в элегантном приёме, который произвёл революцию в NLP- векторных представлениях слов , или эмбеддингах . Проблема «слепого» кодирования: почему one-hot не работает Самый наивный подход- это пронумеровать все слова в словаре и закодировать каждое вектором из нулей и одной единицы:

habr.com/ru/articles/992928/

#эмбеддинги #word2vec #nlp #машинное_обучение #векторные_представления #косинусное_сходство #обработка_естественного_языка #нейросети #нейросеть #нейросети_python

N-gated Hacker Newsngate
2026-01-20

Piotr Migda tries to explain vector math magic in 'king – man + woman = queen' using 🤓, but it's basically just a linguistic Ouija board session. 🤔 Spoiler alert: it's still math, not . 🧙‍♂️✨
p.migdal.pl/blog/2017/01/king-

GripNewsGripNews
2025-11-01

🌘 文件嵌入的word2vec風格向量運算
➤ 探討文件嵌入的類比推理與語義操作
technicalwriting.dev/embedding
本實驗探討了類似word2vec的向量加減法是否適用於技術文件嵌入。作者使用現代嵌入模型生成文件級別的向量,並進行了兩類實驗:同主題不同領域(將Supabase的文件嵌入替換為Angular的術語)和不同主題同領域(將Supabase的文件嵌入中的「測試」概念替換為「向量」)。實驗結果顯示,在特定任務類型(自訂任務類型)下,向量運算能成功捕捉到預期的語義變化,尤其是在同主題不同領域的實驗中,產生的向量與目標領域的測試文件高度相似。而在不同主題同領域的實驗中,即使不更改任務類型,向量運算也能準確地識別出與「向量」相關的嵌入。這證明瞭向量運算在文件嵌入中的潛力,以及任務類型對嵌入模型輸出結果的重要性。
+ 這篇文章很有啟發性!我一直認為word2vec的向量運算只適用於單詞,沒想到應用在文件層級也能有如此有趣且有意義的結

Upgrading from word2vec to OpenAI #code #ml #openai #ithcwy #word2vec Using the Open AI embeddings API to find better related posts for a blog.

fed.brid.gy/r/https://ithought

➴➴➴Æ🜔Ɲ.Ƈꭚ⍴𝔥єɼ👩🏻‍💻AeonCypher@lgbtqia.space
2025-07-16

Pre #2020: #Factorizing Tools

These #AI wre #DeepLearning breakthroughs. #Word2Vec, #DeepDream and #AlphaGo solved novel, previously unsolvable, problems.

If you weren't in the field, you might not think these were AI, and #GPT 2 might have surprised you.

:rss: Qiita - 人気の記事qiita@rss-mstdn.studiofreesia.com
2025-06-24
2025-06-22

[Перевод] Простой механизм поиска с нуля

Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо. Разработанный нами поисковик основывается на векторных представлениях (эмбеддингах) слов. Принцип здесь следующий. Функция получает слово и отображает его в N-мерное пространство (в данном случае N=300 ), где каждое измерение отражает определённый оттенок смысла. Вот хорошая статья (англ.) о том, как обучить собственную модель word2vec, и её внутреннем устройстве. Суть работы созданного нами поиска заключается в преобразовании моих статей, а точнее составляющих их слов, в эмбеддинги, сохраняемые в общем пространстве. Затем при выполнении конкретного поиска текст его запроса преобразуется аналогичным образом и сопоставляется с векторами статей. В результате этого сопоставления, используя метрику косинусного сходства , мы ранжируем статьи по их релевантности запросу. Уравнение ниже может показаться пугающим, но в нём говорится, что косинусное сходство, представляющее косинус угла между двух векторов cos(theta) , определяется в виде скалярного произведения, поделённого на произведение величин каждого вектора. Разберём всё это подробнее.

habr.com/ru/companies/ruvds/ar

#ruvds_перевод #поиск #word2vec #эмбеддинги #косинусное_сходство #векторизация

2025-06-01

9. TL;DR
Word2Vec was more than just a way to embed words.
It showed us that contrastive learning works — and it’s now everywhere in LLMs and beyond.

#LLM #AI #Embeddings #NLP #MachineLearning #Word2Vec #ContrastiveLearning

This was shared by someone recently, but I can't find it now. Otherwise, I would have boosted or h/t the original post.
A simple search engine from scratch
#search #word2vec
bernsteinbear.com/blog/simple-

N-gated Hacker Newsngate
2025-05-20

🚀 Wow, two tech wizards defy all odds and cobble together a "search engine" for a blog using word2vec—a tool they just heard about. 🤯 In a Herculean effort that took mere hours, they bravely ventured into the N-dimensional wilderness, emerging victorious with a masterpiece that finds... things. 🧐🔍
bernsteinbear.com/blog/simple-

2025-05-13

История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!

habr.com/ru/companies/bothub/a

#word2vec #трансформер #токенизация #bert #chatgpt #t5

2025-05-11

Next stop in our NLP timeline is 2013, the introduction of low dimensional dense word vectors - so-called "word embeddings" - based on distributed semantics, as e.g. word2vec by Mikolov et al. from Google, which enabled representation learning on text.

T. Mikolov et al. (2013). Efficient Estimation of Word Representations in Vector Space.
arxiv.org/abs/1301.3781

#NLP #AI #wordembeddings #word2vec #ise2025 #historyofscience @fiz_karlsruhe @fizise @tabea @sourisnumerique @enorouzi

Slide from the Information Service Engineering 2025 lecture, lecture 02, Natural Language Processing 01, NLP Timeline. The timeline is in the middle of the slide from top to bottom, indicating a marker at 2013. On the left, a diagram is shown, displaying vectors  for "man" and "woman" in a 2D diagram. An arrow leades from the point of "man" to the point of "woman". Above it, there is also the point marked for "king" and the same difference vector is transferred from "man - > woman" to "king - ?" asking, what might be the appropriate completion.
Right of the timeline, the following text is displayed: Word2Vec neural network based framework to learn distributed representations of words as dense vectors in continuous space (word embeddings) was developed by Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean at Google. 
These language models are based on the Distributional Hypothesis in linguistics  i.e. words that are used and occur in the same contexts tend to purport similar meanings.

Bibliographical reference:
T. Mikolov et al. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781
2025-04-07

Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект

Многие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А когда того вернули, Суцкевер уволился по собственному желанию в новый стартап Safe Superintelligence («Безопасный Сверхинтеллект»). Илья Суцкевер действительно организовал OpenAI вместе с Маском, Брокманом, Альтманом и другими единомышленниками, причём был главным техническим гением в компании. Ведущий учёный OpenAI сыграл ключевую роль в разработке ChatGPT и других продуктов. Сейчас Илье всего 38 лет — совсем немного для звезды мировой величины.

habr.com/ru/companies/ruvds/ar

#Илья_Суцкевер #Ilya_Sutskever #OpenAI #10x_engineer #AlexNet #Safe_Superintelligence #ImageNet #неокогнитрон #GPU #GPGPU #CUDA #компьютерное_зрение #LeNet #Nvidia_GTX 580 #DNNResearch #Google_Brain #Алекс_Крижевски #Джеффри_Хинтон #Seq2seq #TensorFlow #AlphaGo #Томаш_Миколов #Word2vec #fewshot_learning #машина_Больцмана #сверхинтеллект #GPT #ChatGPT #ruvds_статьи

2025-01-30

@futurebird @krozruch That might be very interesting trained on large enough corpus... Who, for instance is exactly between A and B in "thought-space" and can they understand both sides and help bridge communication? Who is in the space further along the distance from group A and B but more extreme in both directions? Think #Word2Vec math... with writers voices and thinking. Then feed #politicians words in and see where they are relative to public thoughtspace, etc..

2024-12-22

fchollet.substack.com/p/how-i-

"Word2vec enabled you to do basic things like plural(cat) → cats or male_to_female(king) → queen. Meanwhile LLMs can do pure magic — things like write_this_in_style_of_shakespeare(“…your poem…”) → “…new poem…”. And they contain millions of such programs."

Joachim Scharlothjosch@chaos.social
2024-09-12
Eine Liste mit Word2Vec erzeugter Relationsäquivalenzen nach dem Muster "Der Abstand von Deutschland zu Hitler entspricht dem Abstand von Sowjetunion zu Stalin". Die Liste lautet:

 "Arztpraxis" zu "Arzthelferin" ist wie "Universität" zu "Professorin"
 "Küche" zu "Kühlschrank" ist wie "Schlafzimmer" zu "Waschmaschine"
 "Frau" zu "klug" ist wie "Mann" zu "gescheit"
 "Frau" zu "schön" ist wie "Mann" zu "wunderschön"
 "AfD" zu "Volk" ist wie "Grüne" zu "Umerzieher"
 "essen" zu "Brot" ist wie "trinken" zu "Schnaps"
 "Brot" zu "Messer" ist wie "Reis" zu "Küchenmesser"
 "Kopf" zu "denken" ist wie "Bauch" zu "besaufe"
 "reich" zu "leben" ist wie "arm" zu "hausen"
 "Katze" zu "Kater" ist wie "Mensch" zu "Bildungskrise"
 "Tochter" zu "faul" ist wie "Sohn" zu "stinkfaul"
 "Krankenschwester" zu "Kranke" ist wie "Professor" zu "Ordinarius"
 "Tasse" zu "Tee" ist wie "Topf" zu "Kuhdung"
 "Kopf" zu "Hut" ist wie "Fuß" zu "Cowboystiefel"
 "China" zu "Stäbchen" ist wie "Deutschland" zu "Näpfchen"
 "Geschlecht" zu "zwei" ist wie "Gender" zu "drei"
2024-07-21

By vector math, recall #word2vec and nearest word to "king" - "man" + "woman" = "queen".

Learn a #vector representation for writers, philosophers, #political leaders and voices.

Map them and show a visualization of where major figures fall on this vector-space of their words.

Plug in writers who's ideas you like, average them and find the vector at the center and find others in that thought space.

Do the reverse - map voices you hate and see where they are and who's in between, etc.

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst