#nlp_%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0

2025-09-24

SteosMorphy: опенсорс замена давно умершему PyMorphy2

PyMorphy2 - самая популярная библиотека для обработки слов в русском языке. Однако последний коммит в репозиторий этой библиотеки был сделан более 5 лет назад, а её установка на Python версии 3.11+ вызывает трудности, что делает использование данной библиотеки в нынешнее время максимально затруднительным. Предлагаю рассмотреть новую Open Source библиотеку SteosMorphy , которая является аналогом PyMorphy, но делает всё быстрее и круче! Ознакомиться

habr.com/ru/articles/949604/

#pymorphy #steosmorphy #обработка_языка #nlp #nlp_обработка_текста #pymorphy2 #обработка_слов #морфология #python #golang

2025-09-19

[Перевод] Часть 5. Обзор техник оценки качества систем RAG

Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь , на вторую часть — здесь , третью часть — здесь , четвёртую часть — здесь ). К некоторым терминам, как и в прошлых частях, добавлены переводы и пояснения для удобства начинающих ИТ-переводчиков. В этой части мы поговорим про техники оценки качества систем RAG и соответствующие им наборы данных. Основная цель — понять и оптимизировать эффективность моделей RAG в различных прикладных сценариях.

habr.com/ru/articles/948786/

#rag #rag_pipeline #nlp #nlp_обработка_текста #искусственный_интеллект #база_знаний #метрики #бенчмарки

2025-09-17

Как я пытался подружить PHP с NER — драма в 5-ти актах

Это статья - пример небольшого личного опыта, где я пытался решить одну чисто техническую задачу для одного из моих текущих проектов. Задача в конце-концов была решена, насколько правильно - не знаю, но, надеюсь, многим будет интересен и полезен мой опыт. Итак, небольшая драма в 5-ти актах.

habr.com/ru/articles/948014/

#php #ner #named_entity_recognition #nlpмодели #nlp_обработка_текста #nlp4code

2025-07-31

СontentCapture+LLM: как мы ускорили работу с неструктурированными документами

В эпоху цифровой трансформации каждая минута работы с документами на вес золота. Юридические отделы, банки, госучреждения ежедневно обрабатывают сотни договоров, доверенностей и судебных приказов. Ручной ввод данных, поиск реквизитов и проверка сроков могут отнимать до 20 минут на документ — и это если сотрудник не отвлекся на кофе. В нашей линейке продуктов есть универсальная IDP-платформа ContentCapture . Она хорошо понимает структурированные документы, а вот при обработке неструктурированных данных раньше могли возникать сложности. Чтобы решить эту проблему, мы в новом релизе продукта настроили интеграцию с облачными большими языковыми моделями (LLM), такими как YandexGPT и GigaChat. Делимся подробностями и рассказываем, как оценивали качество работы LLM с разными типами документов.

habr.com/ru/companies/contenta

#contentcapture #llm #nlp #nlp_обработка_текста #обработка_документов

2025-03-19

BioNNE-L — соревнование по нормализации биомедицинских именованных сущностей на русском и английском языках

Привет, Хабр! Я — Андрей Саховский, исследователь SberAI и аспирант Сколтеха. Занимаюсь биомедицинским NLP, интересуюсь графами знаний, задачами извлечения информации из текстов медицинской тематики, языковыми моделями в хемоинформатике. Если вам тоже интересны эти научные области, обратите внимание на соревнование BioNNE‑L, которое организует наша команда исследователей из AIRI, МГУ и SberAI и которому будет посвящён этот текст.

habr.com/ru/companies/airi/art

#Entity_linking #соревнование #Biomedical_NLP #nlp #извлечение_информации #nlp_обработка_текста

2025-01-27

Используем языковые модели в AI-агентах. Часть 2. Retrievers, TextSplitters

LanhChain - фреймворк, предоставляющий обширный и удобный функционал по использованию LLM, он служит для разработки приложений на основе больших языковых моделей, создания AI-агентов, взаимодействия с векторными хранилищами и т.д. В этой части я разберу способы разделения текста и его хранения.

habr.com/ru/articles/876844/

#nlp #nlp_обработка_текста #langchain #python #агенты #ai_agent

2024-06-20

YandexGPT для распознавания навыков в резюме без смс и разметки данных

Салют! Меня зовут Григорий, и я главный по спецпроектам в команде AllSee. На дворе 2024 год — год ИИ и больших языковых моделей, многие из нас уже приручили новые технологии и вовсю используют их для всего подряд: написания кода, решения рабочих и учебных задач, борьбы с одиночеством. Давайте и мы попробуем применить LLM для решения одной интересной задачки из сферы HR. Сегодня в меню автоматическое определение навыков кандидата по тексту резюме. Поехали? Поехали!

habr.com/ru/articles/823035/

#yandexgpt #машинное+обучение #namedentity_recognition #ner #python #api #nlp #nlp_обработка_текста #yandex_gpt #nlp_(natural_language_processing)

2024-05-22

СТОП фейковым отзывам и рейтингам. Применение машинного обучения в борьбе с фродом рейтинга и отзывов товаров в ритейле

Приветствуем читателей Хабра! Мы, команда дата-сайентистов и дата-аналитиков компании «ДатаЛаб»* (ГК «Автомакон»), продолжаем рассказывать о насущных проблемах ML-разработки, делимся подходами к их решению и рассуждаем на актуальные темы. В данной статье мы рассмотрим технические методы применения ML для борьбы с фродом в рейтингах и отзывах товаров в ритейле.

habr.com/ru/companies/automaco

#автомакон #даталаб #машинное+обучение #машинное_обучение #ml #антифрод #автоэнкодеры #nlp #nlp_(natural_language_processing) #nlp_обработка_текста

2024-02-07

Создаем чат-бота на Python: Полное руководство

В этом полном руководстве от DataTech Community мы шаг за шагом рассмотрим процесс создания чат-бота на Python. Откройте для себя мощь NLTK и TensorFlow в обработке естественного языка и машинном обучении, чтобы создать интеллектуального помощника, способного общаться и отвечать на вопросы пользователей. Научитесь подготавливать данные, строить и обучать модель нейронной сети, а затем интегрировать ее в логику чат-бота для создания эффективного и интеллектуального виртуального помощника.

habr.com/ru/articles/792148/

#Чатбот_Python #NLTK_Python #Разработка_чатбота #TensorFlow_обучение #Создание_AI_чатбота #Машинное_обучение_Python #NLP_обработка_текста #Примеры_кода_чатбота #Обучение_нейронных_сетей #Искусственный_интеллект_чатбот

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst