#ner

Scott Gallowayscottgal@hachyderm.io
2026-01-14

Problem: we keep using frontier LLMs as glue for jobs that are already solved.

Solution: run OCR + NER locally in C# with ONNX Runtime. Deterministic extraction on ingest. Store the entities. Use an LLM later only if you actually need synthesis.

OCR with Tesseract, then BERT NER via ONNX in .NET. No Python, no cloud, no tokens.

This is my 'for beginners' article. I'm DEEP in OCR but realised I never explained the quickest way to do this *locally*.

mostlylucid.net/blog/simple-oc

#CSharp #DotNet #ONNX #OnnxRuntime #OCR #NER #LocalAI #RAG #DocumentAI

2026-01-13

Mô hình NER 500 MB (0.1 B tham số) chạy cục bộ, nhận dạng thực thể (người, địa điểm, thời gian, tổ chức…) trong bất kỳ văn bản nào. Có thể tự fine‑tune trên CPU cho mọi lĩnh vực hoặc ngôn ngữ (ví dụ tiếng Tây Ban Nha) bằng thư viện Artifex, không cần GPU. Ngoài ra còn API nếu không muốn tự host. #NER #AI #MachineLearning #CôngNghệ #XửLýNgônNgữ #MôHìnhAI #Vietnam

reddit.com/r/LocalLLaMA/commen

lampagyujtogatolampagyujtogato
2026-01-11

Talán hallottatok róla, hogy a Tisza lefoglalta a biztosvalasztas.hu domaint.

A biztosvalasztas.ru még szabad volt.

Már nem az 😂

2025-12-27

Built a cybersecurity NER model. 13 entity types. 1,500+ security entities. It's on HuggingFace.

Spent months extracting and annotating cybersecurity entities from real job postings, threat reports, and compliance docs. Turning it into a tool anyone can use.

What it extracts:
- Security roles (CISO, SOC Analyst, Pen Tester)
- Certifications (CISSP, OSCP, CEH)
- Tools (Splunk, CrowdStrike, Metasploit)
- Threats (APT, ransomware, phishing)
- Attack techniques (SQLi, XSS, RCE)
- CVEs, frameworks (MITRE ATT&CK, NIST), regulations (GDPR, PCI-DSS)
- Technical skills, acronyms, compliance terms

Built for:
- Threat intel parsing
- Security talent matching
- Skills inventory extraction
- Compliance doc analysis

The tech:
- RoBERTa transformer, domain-adapted on 40K security texts
- spaCy pipeline for easy integration
- 69% F1 score (and improving)

Where I need help:
- More annotated security text (CVs, job posts, threat reports)
- Edge cases the model misses
- Ideas for entity types I haven't covered

Model: huggingface.co/pki/cybersec-ne

#cybersecurity #NER #NLP #infosec #opensource

2025-11-27

Автоматизация обработки ТI-отчетов с помощью NER: как мы сэкономили время аналитиков

Привет, Хабр! Меня зовут Виктор Пронин, я старший аналитик киберугроз в центре компетенций группы компаний «Гарда». Мы формируем для Гарда Threat Intelligence Feeds данные об угрозах на основе обезличенной телеметрии из наших инсталляций, а для получения более полной картины обращаемся, в том числе, и к информации из открытых источников. В статье я расскажу об автоматизированной обработке публикаций по информационной безопасности. Кейс будет полезен аналитикам киберугроз и специалистам, интересующимся применением ML в ИБ.

habr.com/ru/companies/garda/ar

#threat_intelligence #NER #обработка_текстов #искусственный_интеллект #ml

2025-11-24

ChamelOn: как мы создали production-ready систему анонимизации ПД с защитой от ReDoS и 95% точностью

Команда AI Dev Team разработала ChamelOn за 3 месяца как реальный заказ от клиента — крупного колл-центра с тысячами записей разговоров в день. Система уже работает в production на реальных клиентских проектах.

habr.com/ru/articles/969766/

#анонимизация #персональные_данные #gdpr #фз152 #typescript #nodejs #nextjs #re2 #ml #ner

2025-10-30

Một người đam mê #LLM đang tìm lời khuyên về cách trích xuất biến từ mẫu văn bản có chỗ giữ chỗ. Đây là bài toán tương tự #NER nhưng với biến linh hoạt, có thể dùng #OpenNER hoặc tận dụng các ví dụ đã có bằng #RAG. Vấn đề phức tạp với biến lồng nhau & nhiều biến thể. Bạn có kinh nghiệm, hãy chia sẻ nhé!

#LLMViệtNam #XửLýNgônNgữTựNhiên #TríchXuấtDữLiệu #AI #NLP #TechAdvice #LLM #NER #RAG

reddit.com/r/LocalLLaMA/commen

IB Teguh TMteguhteja
2025-10-07

Master Named Entity Recognition NLP in 7 steps! Extract key info & automate tasks using Hugging Face.

teguhteja.id/named-entity-reco

2025-09-17

Как я пытался подружить PHP с NER — драма в 5-ти актах

Это статья - пример небольшого личного опыта, где я пытался решить одну чисто техническую задачу для одного из моих текущих проектов. Задача в конце-концов была решена, насколько правильно - не знаю, но, надеюсь, многим будет интересен и полезен мой опыт. Итак, небольшая драма в 5-ти актах.

habr.com/ru/articles/948014/

#php #ner #named_entity_recognition #nlpмодели #nlp_обработка_текста #nlp4code

2025-08-28

Кофе — мой type, музыка — мой out: строим NERвный-пайплайн на продуктовых запросах

Привет, Хабр! На связи команда Ad-Hoc аналитики X5 Tech. В этой статье расскажем, как мы научили поиск извлекать важные сущности из запросов пользователей. Полный разбор реализации NER (Named Entity Recognition) для продуктового ритейла, шаг за шагом: как мы размечали данные, считали метрики на уровне токенов и сущностей — и почему для коротких и длинных запросов потребовались разные архитектурные решения.

habr.com/ru/companies/X5Tech/a

#ner #ии #искусственный_интеллект #машинное_обучение #nlp #трансформеры

2025-08-05

[LangExtract](developers.googleblog.com/en/i) has got me curious, but I don't get what makes it different from a [spacy-llm/prodigy](prodi.gy/docs/large-language-m) setup. Is it just that I am spared the effort of chunking long input and/or constructing output JSON from entities and offsets by writing the corresponding python code myself?...

Ah, one more difference is that langextract is #OpenSource whereas prodigy is not (?). (On the other hand, prodigy has a better integration with a correction+training workflow.)

#llm #google #langextract #nlp #spacy #prodigy #ner

2025-07-24

We organised a strand of three sessions at this years #IMC in leeds #imc2025 and Tamas wrote a report on it: didip.hypotheses.org/3611 Enjoy reading on #digitaldiplomatics #medieval #DigitalHumanities #charterrific #diplomaticsrulez #htr #network #gis #ner #stylometry

Matthew Brainmatthewbrain
2025-07-14

Natural Language Processing (NLP) - Swayam Infotech

Visit: swayaminfotech.com/.../openai-

Utilise the potential of Natural Language Processing (NLP) with our advanced solutions, including sentiment analysis and Named Entity Recognition (NER). We specialize in machine translation, speech-to-text, text-to-speech, semantic search, and intelligent question-answering to enhance communication and user engagement.

2025-06-25

Что такое NER, зачем он нужен и когда не поможет

Про NER написано немало, но этот материал носит прикладной характер. Статья будет полезна тем, кто интересуется NLP и ищет разные подходы для решения узкопрофильных задач, требующих извлечения сущностей из текста. Для джунов это возможность пройти весь путь — от разметки данных до обучения собственной кастомной NER-модели, попутно понять типичные сложности и ограничения. Привет, меня зовут Александр Агеев, на протяжении года я занимался NER-моделями для определения сущностей на этикетках продуктов питания. Несмотря на мою любовь к NER, у этой технологии есть свои границы — кейсы, которые она не может решить хорошо, поэтому надо подключать другие инструменты. В статье я дам критерии применимости NER для решения практических задач.

habr.com/ru/articles/921698/

#нейросети_python #named_entity_recognition #ner #natural_language_processing #nlp #spacy #примеры_кода #обучение_моделей

Where's Lena? :neocat_hug_ice_3_velaro:lenaontrans@zug.network
2025-06-20

PU auf der Strecke #NN - #NER - #NBA in #NVA, Zug wird über #NNA - #DS:NS umgeleitet, Ankunft #NBA mit +90, #BL mit +70 prognostiziert

2025-06-19

Also presented at #dae2025 : a research platform developed by Dariah PL for uploading, annotating, enriching and sharing #humanities data. The platform also allows collaborations. Interesting features are embedded #OCR and #NER functionalities. Find out more: lab.dariah.pl/en/

CDR Writers Orgcdrwritersorg
2025-06-13

📘 What is the National Engineering Register (NER)?

If you're an engineer looking to boost your credibility and visibility in Australia, NER registration with Engineers Australia is a great step forward.

✅ Recognized qualification
✅ 5+ years of experience
✅ Proven professional competence

Learn more about eligibility, benefits, and how to register ➡️
🔗 cdrwriters.org/blog/what-is-na

What is National Engineer Register?
2025-06-11

От хаоса к порядку: как ML помогает искать и защищать конфиденциальную информацию

В современном мире объемы данных растут экспоненциально: компании ежедневно генерируют и обрабатывают огромные массивы информации — от реляционных баз данных и текстовых документов до изображений, аудио и видео. С ростом объемов информации усложняется и ее защита, особенно в отношении чувствительных сведений: персональных данных сотрудников и клиентов, финансовой информации, корпоративных документов и других конфиденциальных материалов. Традиционные методы обнаружения и классификации информации, основанные на формальной экспертизе и регулярных выражениях, демонстрируют ограниченную эффективность: они неплохо работают для стандартных форматов, таких как email-адреса и банковские карты, но могут не покрывать с должной полнотой обнаружение в реальных сценариях. На помощь приходит машинное обучение, позволяющее автоматизировать процесс классификации, учитывать контекст и работать с разными источниками информации. Меня зовут Вадим Безбородов. Мы c Максимом Митрофановым в департаменте Data science & ML в Positive Technologies занимаемся исследованием и внедрением машинного обучения в продукты компании. В этой статье расскажем о наших исследованиях и внедрении ML в модуль поиска и классификации чувствительных данных в PT Data Security. Читать

habr.com/ru/companies/pt/artic

#машинное_обучение #обработка_естественного_языка #персональные_данные #информационная_безопасность #named_entity_recognition #machine_learning #nlp #data_security #защита_данных #ner

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst