#tokenizer

2025-12-16

Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.

habr.com/ru/articles/977210/

#проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet

2025-12-08

Это другое. Python нашел замалчивание в поэзии Беллы Ахмадулиной

Творческие секреты поэтессы глазами кода. Что анализ фонетики на Python рассказывает о "шестидесятниках".

habr.com/ru/articles/974658/

#python #tokenizer #чтение #книги #поэзия #проза #ахмадулина

2025-12-04

Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского

Можно ли было читать советские стихи американцам? Пытаюсь выяснить это с помощью Python на примере Андрея Вознесенского.

habr.com/ru/articles/972880/

#python #tokenizer #stanford #pandas #nlp #nltk #чтение #поэзия #проза #говнокод

2025-11-28

Я пена морская. Как BERT не справился с анализом простой поэзии

Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.

habr.com/ru/articles/971172/

#python #nltk #tokenizer #литература #чтение #поэзия #поэзия_серебряного_века #поэзия_и_проза #поэзия_и_поэты_серебряного_века #поэзия_и_интернет

2025-11-26

Splintr - một BPE tokenizer mới viết bằng Rust với Python bindings - đã ra mắt! Nhanh hơn tiktoken của OpenAI (3-4x đơn, 10-12x batch), hỗ trợ streaming decoder và 54 token đặc biệt. Tương thích với vocab cl100k_base, o200k_base. Tác giả đang mong nhận phản hồi từ cộng đồng.
#Rust #Python #Tokenizer #LLM #AI #OpenSource #Splintr #CôngNghệ

reddit.com/r/LocalLLaMA/commen

2025-11-17

Пушкин против Ершова: кто победит в дуэли стилей?

Сравнил Пушкина и Ершова с помощью Python и пытался найти автора "КОнька-горбунка" среди цифр и кода.

habr.com/ru/articles/967162/

#python #nltk_python #tokenizer #pymorphy #matplotlib #литература #литература_художественная #литературная_страничка #литературное_творчество

2025-11-12

Как Python раскрыл поэтический гений Маршака

Маршак хорошо переводил Шекспира, но насколько он был близок к оригиналу? Сохранен ли у него ритм, размер, смысл и структура? Установлю это математически точно с помощью Python.

habr.com/ru/articles/965552/

#python #nltk #nltk_python #tokenizer

2025-10-10

[Перевод] Как открытые веса раскрыли секреты обучения GPT-5

Команда AI for Devs перевела статью, показывающую, что открытые веса — это не только про прозрачность, но и про утечку тайн обучения. На примере модели GPT-oss автор показывает, как можно восстановить части обучающего пайплайна и даже выявить, что GPT-5 видела фразы с сайтов для взрослых.

habr.com/ru/articles/955260/

#OpenAI #GPT5 #GPToss #glitchtokens #trainingdata #membershipinference #tokenizer #embeddings #GitHub #adultcontent

2025-10-08

Tự xây dựng BPE Tokenizer từ đầu: Tối ưu và thử nghiệm! 🚀 Tác giả đã tăng tốc độ training lên 50 lần, inference nhanh hơn 3.7 lần (Rust), và thử nghiệm GPT-2 pre-training với tokenizer tùy chỉnh. Mã nguồn, notes và readme chi tiết đều có trên Github!

#BPE #Tokenizer #MachineLearning #NLP #Vietnamese #LậpTrình #AI #XửLýNgônNgữTựNhiên

reddit.com/r/LocalLLaMA/commen

N-gated Hacker Newsngate
2025-06-30

🚀 Wow, a that's 2-4x faster than OpenAI's! Is it powered by caffeine or just another star chaser? 🤔 Meanwhile, the rest of us are still trying to figure out how to navigate GitHub's labyrinthine menu without a PhD in UI 🤷‍♂️.
github.com/M4THYOU/TokenDagger

2025-01-20

Считаем количество токенов для LLM в исходниках ядра Linux и не только…

Эта статья про новое расширение ахритектуры трансформеров – Titan от Google –, позволяющее расширить рамки LLM до 2 млн токенов, побудила поинтересоваться, сколько токенов, пригодных для LLM, содержат исходники колоссального софта. Какой открытый софт будем «препарировать»:

habr.com/ru/articles/875022/

#llm #ai #tokenizer #token #fun #openai #tiktoken

Idea: Audio-to-StableDiffusion #tokenizer that naively translates #audio chunks to #tokens recognized by #StableDiffusion and generates 1 frame per 1/24th second of audio, then strings the results together. Add a temporal cohesion mechanism to taste.

I wonder what it would look like. 🤔

2024-10-24

Разбираемся с Vespa. Часть 2

Из этой статьи вы узнаете: 1) Что такое Document и Query Processing. 2) Как обрабатывается текст Vespa. Что такое токенизация и стемминг. 3) Какой из обработчиков текста лучше подходит для русского языка. 4) Как выполнить текстовый поиск. 5) Как происходит ранжирование результата.

habr.com/ru/companies/sportmas

#java #vespa #stemming #tokenizer #bm25 #docker

Jeroen Habetsjeroen@habets.dev
2024-02-24

Detailed #explanation of #AI #LLM using my favourite #database #PostgreSQL by Alex Bolenok quassnoi

Nicely describes how all the constituent pieces of an LLM come together:
#Tokenizer, #Embeddings, #Attention/#Masking, #Feedforward, #temperature, #Inference

explainextended.com/2023/12/31

GenAIgenai
2024-02-23

Andrej离开开智公司以后开始讲课了。这个两个小时时长的视频讲的是text tokenizer. 有意思的是他是从byte based 开始讲的。ChaptGPT的tokenizer会把多个空格合并,这样处理Python code的时候更有效。堪称史上最详细的tokenizer教程,推荐以前没有接触过这个概念的朋友。

youtube.com/watch?v=zduSFxRajkE

Reference to the Future<Void>rttf@techhub.social
2024-02-21
GripNewsGripNews
2023-06-13

🌘 GitHub - belladoreai/llama-tokenizer-js: LLaMA基於JS的分詞器
➤ 用於計算客戶端的token數量
github.com/belladoreai/llama-t
這是一個基於LLaMA的JavaScript分詞器,可在瀏覽器中運行,用於計算客戶端的token數量。它易於使用,並且與大多數基於LLaMA的模型兼容。它的運行時間和捆綁大小都經過了優化,並且可以作為npm包或ES6模塊使用。
+ 這是一個非常有用的工具,我很高興能夠在瀏覽器中使用它。
+ 我很喜歡這個分詞器,它易於使用,而且速度非常快。

lorddimwit is now @rk@well.comlorddimwit
2023-05-12

Last night I got a on a tear and wrote a complete for the Manatee programming language in C. I started at…9ish and finished at 1 in the morning

(It is, AFAIK, completely compliant except that I didn’t bother with Unicode. I suppose I could relatively easily augment it to use wchars…which aren’t *necessarily* Unicode but if we stick to standard C we gotta make sacrifices. __STDC_ISO_10646__ FTW I suppose.)

I suppose I should probably write a over the weekend, time permitting

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst