Lmst

История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!

https://habr.com/ru/companies/bothub/articles/909100/

#word2vec #трансформер #токенизация #bert #chatgpt #t5

Next stop in our NLP timeline is 2013, the introduction of low dimensional dense word vectors - so-called "word embeddings" - based on distributed semantics, as e.g. word2vec by Mikolov et al. from Google, which enabled representation learning on text.

T. Mikolov et al. (2013). Efficient Estimation of Word Representations in Vector Space.
https://arxiv.org/abs/1301.3781

#NLP #AI #wordembeddings #word2vec #ise2025 #historyofscience @fiz_karlsruhe @fizise @tabea @sourisnumerique @enorouzi

Slide from the Information Service Engineering 2025 lecture, lecture 02, Natural Language Processing 01, NLP Timeline. The timeline is in the middle of the slide from top to bottom, indicating a marker at 2013. On the left, a diagram is shown, displaying vectors for "man" and "woman" in a 2D diagram. An arrow leades from the point of "man" to the point of "woman". Above it, there is also the point marked for "king" and the same difference vector is transferred from "man - > woman" to "king - ?" asking, what might be the appropriate completion.
Right of the timeline, the following text is displayed: Word2Vec neural network based framework to learn distributed representations of words as dense vectors in continuous space (word embeddings) was developed by Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean at Google.
These language models are based on the Distributional Hypothesis in linguistics i.e. words that are used and occur in the same contexts tend to purport similar meanings.

Bibliographical reference:
T. Mikolov et al. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781

Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект

Многие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А когда того вернули, Суцкевер уволился по собственному желанию в новый стартап Safe Superintelligence («Безопасный Сверхинтеллект»). Илья Суцкевер действительно организовал OpenAI вместе с Маском, Брокманом, Альтманом и другими единомышленниками, причём был главным техническим гением в компании. Ведущий учёный OpenAI сыграл ключевую роль в разработке ChatGPT и других продуктов. Сейчас Илье всего 38 лет — совсем немного для звезды мировой величины.

https://habr.com/ru/companies/ruvds/articles/892646/

#Илья_Суцкевер #Ilya_Sutskever #OpenAI #10x_engineer #AlexNet #Safe_Superintelligence #ImageNet #неокогнитрон #GPU #GPGPU #CUDA #компьютерное_зрение #LeNet #Nvidia_GTX 580 #DNNResearch #Google_Brain #Алекс_Крижевски #Джеффри_Хинтон #Seq2seq #TensorFlow #AlphaGo #Томаш_Миколов #Word2vec #fewshot_learning #машина_Больцмана #сверхинтеллект #GPT #ChatGPT #ruvds_статьи

@futurebird @krozruch That might be very interesting trained on large enough corpus... Who, for instance is exactly between A and B in "thought-space" and can they understand both sides and help bridge communication? Who is in the space further along the distance from group A and B but more extreme in both directions? Think #Word2Vec math... with writers voices and thinking. Then feed #politicians words in and see where they are relative to public thoughtspace, etc..

https://fchollet.substack.com/p/how-i-think-about-llm-prompt-engineering

"Word2vec enabled you to do basic things like plural(cat) → cats or male_to_female(king) → queen. Meanwhile LLMs can do pure magic — things like write_this_in_style_of_shakespeare(“…your poem…”) → “…new poem…”. And they contain millions of such programs."

#AI #LLM #word2vec #VectorPrograms

An In-Depth Guide to Contrastive Learning: Techniques, Models, and Applications
https://myscale.com/blog/what-is-contrastive-learning/
#ycombinator #myscale #myscale_database #myscale_vector_database #myscale_ai #myscale_vector #myscale_illustration #image_search #vector #search_console #database #sql #search_engine #gpt_4 #gpt_3 #dbms #high_performance #vector_images #vector_art #vector_graphics #llm #word2vec

#WordEmbeddings - läuft...

#word2vec #ki #ai

Eine Liste mit Word2Vec erzeugter Relationsäquivalenzen nach dem Muster "Der Abstand von Deutschland zu Hitler entspricht dem Abstand von Sowjetunion zu Stalin". Die Liste lautet:

"Arztpraxis" zu "Arzthelferin" ist wie "Universität" zu "Professorin"
"Küche" zu "Kühlschrank" ist wie "Schlafzimmer" zu "Waschmaschine"
"Frau" zu "klug" ist wie "Mann" zu "gescheit"
"Frau" zu "schön" ist wie "Mann" zu "wunderschön"
"AfD" zu "Volk" ist wie "Grüne" zu "Umerzieher"
"essen" zu "Brot" ist wie "trinken" zu "Schnaps"
"Brot" zu "Messer" ist wie "Reis" zu "Küchenmesser"
"Kopf" zu "denken" ist wie "Bauch" zu "besaufe"
"reich" zu "leben" ist wie "arm" zu "hausen"
"Katze" zu "Kater" ist wie "Mensch" zu "Bildungskrise"
"Tochter" zu "faul" ist wie "Sohn" zu "stinkfaul"
"Krankenschwester" zu "Kranke" ist wie "Professor" zu "Ordinarius"
"Tasse" zu "Tee" ist wie "Topf" zu "Kuhdung"
"Kopf" zu "Hut" ist wie "Fuß" zu "Cowboystiefel"
"China" zu "Stäbchen" ist wie "Deutschland" zu "Näpfchen"
"Geschlecht" zu "zwei" ist wie "Gender" zu "drei"

LangChain vs. LlamaIndex
https://myscale.com/blog/llamaindex-vs-langchain-detailed-comparison/
#ycombinator #myscale #myscale_database #myscale_vector_database #myscale_ai #myscale_vector #myscale_illustration #image_search #vector #search_console #database #sql #search_engine #gpt_4 #gpt_3 #dbms #high_performance #vector_images #vector_art #vector_graphics #llm #word2vec

By vector math, recall #word2vec and nearest word to "king" - "man" + "woman" = "queen".

Learn a #vector representation for writers, philosophers, #political leaders and voices.

Map them and show a visualization of where major figures fall on this vector-space of their words.

Plug in writers who's ideas you like, average them and find the vector at the center and find others in that thought space.

Do the reverse - map voices you hate and see where they are and who's in between, etc.

LLMs and puzzles. An interesting read.

https://pivot-to-ai.com/2024/07/06/llms-can-solve-any-word-problem-as-long-as-they-can-crib-the-answer/

Apparently biology and intelligence doesn't bend to the will of storytellers.

Meanwhile, the word2vec yarn-spinning continues...

#llm #word2vec #ai #puzzles

Что такое векторизация текста в NLP и какая она бывает: One-hot encoding, Bag of words, TF-IDF, Word2Vec, BERT и другие

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников , и в этой статье я расскажу про разные способы векторизации текстов. Всем привет! Вдохновившись прикольной и понятной статьей на английском языке, и не найдя сходу чего-то похожего в русскоязычном сегменте интернета, решил написать о том, как обрабатывается текст перед тем, как на нем начинают применять разные модели ИИ. Эту статью я напишу нетехническим языком, потому что сам не технарь и не математик. Надеюсь, что она поможет узнать о NLP тем, кто не сталкивается с AI в продуктах на ежедневной основе. О чем эта статья:

https://habr.com/ru/articles/820159/

#Onehot_encoding #Bag_of_words #TFIDF #Word2Vec #BERT #NLP #nlp_(natural_language_processing) #nlpмодели

🌘 插圖化的Word2vec - Jay Alammar - 一次性視覺化機器學習一個概念。
➤ 詞向量的概念和應用詳細解說
✤ https://jalammar.github.io/illustrated-word2vec/
插圖化的Word2vec，由Jay Alammar講解，透過例子和圖表解釋詞向量的概念，展示其在機器學習中的重要性和應用。
+ 解釋清晰，對於機器學習新手來說很有幫助。
+ 文中的插圖和例子很生動，有助於加深對Word2vec的理解。
#機器學習 #Word2vec #詞向量 #人格特質

We were not accepted into Google Summer of Code. So, we started our own
https://qdrant.tech/blog/qdrant-summer-of-code-24/
#ycombinator #vector_search_engine #neural_network #matching #SaaS #approximate_nearest_neighbor_search #image_search #recommender_system #vectors #knn_algorithm #hnsw #vector_search #embeddings #similarity #simaes_networks #BERT #transformer #word2vec #fasttext #qdrant

Better related posts with word2vec (C#) #code #software #word2vec #ithcwy #ml How to use word2vec to create a vector representation of a blog post and then use the cosine distance between posts to select improved related posts.

https://fed.brid.gy/r/https://ithoughthecamewithyou.com/post/better-related-posts-with-word2vec-c

Qdrant, the Vector Search Database, raised $28M in a Series A round
https://qdrant.tech/blog/series-a-funding-round/
#ycombinator #vector_search_engine #neural_network #matching #SaaS #approximate_nearest_neighbor_search #image_search #recommender_system #vectors #knn_algorithm #hnsw #vector_search #embeddings #similarity #simaes_networks #BERT #transformer #word2vec #fasttext #qdrant

A bittersweet retrospective by Tomas Mikolov on #word2vec after receiving the “Test Of Time” award for it at #NeurIPS:

https://www.facebook.com/1533402400/posts/yesterday-we-received-a-test-of-time-award-at-neurips-for-the-word2vec-paper-fro/10231641326366223/

Their seminal #paper was rejected four times 😥:

https://openreview.net/forum?id=idpCdOWtqXd60

Via HN: https://openreview.net/forum?id=idpCdOWtqXd60

#ML #MachineLearning

[Перевод] Краткий обзор техник векторизации в NLP

Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную статью. Статья мне показалась изложенной доступно, поэтому я перевел ее для удобства других коллег. Работоспособность большей части кода проверял, вроде работает (см. Jupiter Notebook). Надеюсь, будет полезно. === Технологии NLP — Natural Language Processing, обработки естественного языка — позволяют компьютерам обрабатывать человеческий язык, понимать его значение и контекст, а также связанные с ним эмоциональную окраску и намерения, и далее, использовать эти данные для создания чего-то нового. Как сделать слова понятными для компьютеров? Используется векторизация. Рассмотрим несколько техник такой векторизации.

https://habr.com/ru/articles/778048/

#токен #векторизация #fasttext #word2vec #glove #CBOW #skipgram #tfidf #nlp_(natural_language_processing)