#%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B5%D1%81%D1%82%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0

2025-04-15

[Перевод] Рекомендательная система для вашего каталога научных работ (и не только!)

Привет, Хабр! Как выжать максимум из своего архива документов? В мире, где объем информации стремительно растет, найти релевантные материалы среди собственных файлов — задача не из простых. В этой статье мы расскажем, как с помощью инструментов обработки естественного языка и теории графов создать умную рекомендательную систему, которая поможет находить нужные документы: будь это научные статьи, презентации или таблицы с экспериментами и даже если они хранятся в самых разных форматах.

habr.com/ru/companies/otus/art

#python #nlp #ml #machinelearning #обработка_естественного_языка #теория_графов #рекомендательная_система

2025-03-25

Умный поиск по API, или NLP против функционального поиска

Всем привет! Это Игорь Густомясов, CTO кластера техноплатформы в МТС, и Никита Бояндин, ведущий разработчик в том же кластере. (Да, мы создали текст вместе.) Рассказываем о поиске данных API для Интеграционной платформы МТС. Наш коллега Александр Бардаш круто расписал, как мы развиваем функции Интеграционной платформы . Так вот: получилось настолько хорошо, что возникла проблема. В экосистеме МТС множество продуктов — от проката самокатов до высокотехнологичных сервисов The Platform . Стоило интеграционной платформе встать на ноги, как на ней резко выросло количество спецификаций API. Так перед нами развернулась двойная задача: не только технически поддержать различные протоколы взаимодействия (HTTPS, gRPC, GraphQL и прочие), но и сделать поиск данных API. Решение — под катом

habr.com/ru/companies/ru_mts/a

#API #Поиск #машинное_обучение #Обработка_естественного_языка #Искусственный_интеллект #Технологии_поиска #Функциональный_поиск #llm #nlp

2025-02-12

Пришёл, накодил, победил: хакатон глазами победителей и организаторов

В этой статье мы хотим поделиться своим опытом, который поможет вам подготовиться к любому хакатону (hackathon). Наверняка вы уже слышали про этот специфический формат соревнований для айтишников. На них ставятся практические задачи, которые участники решают за определённое время, имея ограниченные ресурсы. Обычно участники представлены командами, поэтому крайне важно уметь работать сообща. Помимо денежного приза победители получают известность. В дальнейшем это способствует обращению к ним с заказами на решение подобных задач. Для работодателя хакатон заменяет десятки собеседований и знакомство с заявленными в резюме проектами (которые ещё неизвестно кто и как делал). Он сразу получает представление о реальных возможностях готовой команды разработчиков и может пригласить лучшую на свой проект. Российская ИТ-компания «Криптонит» тоже участвует в хакатонах, причём в разных качествах. Наши молодые специалисты пробуют силы в профильных конкурсах, а их более опытные наставники сами организуют хакатоны для поиска сильных команд. Вот пара историй для лучшего понимания деталей. Veni, cogitavi, vici! У нас есть лаборатория ИИ, сотрудники которой приняли участие в хакатоне SafeSpeak-2024 , организованном университетом МТУСИ и институтом AIRI. Заявки на этот конкурс подали наши специалисты Анна Холькина и Карина Янышевская, специализирующиеся на алгоритмах обработки естественного языка. Задача хакатона была на злобу дня: требовалось представить решение для борьбы с мошенниками, говорящими с жертвой от имени кого-то из её знакомых. Техника таких атак называется аудио-спуфинг и всё чаще используется в генерации дипфейков. Командам нужно было создать модель машинного обучения для обнаружения таких дипфейков и обеспечения безопасности голосовой связи.

habr.com/ru/companies/kryptoni

#хакатон #машинное_обучение #обработка_естественного_языка #речевые_технологии #модели_машинного_обучения #искусственный_интеллект #deepfake #дипфейк

2024-12-09

NLP: когда машины начинают понимать нас (Часть 3)

В этой статье мы продолжим изучение NLP и перейдем к более продвинутым темам, которые являются главными для построения современных приложений и моделей в области обработки естественного языка. А также создадим и обучим модели самостоятельно, используя TensorFlow/Keras и PyTorch.

habr.com/ru/articles/864912/

#обработка_естественного_языка #nlp #natural_language_processing #python #машинное_обучение #machine_learning #keras #tensorflow #pytorch #искусственный_интеллект

2024-12-08

NLP: когда машины начинают понимать нас (Часть 2)

В прошлой статье мы с вами изучили теоретические основы обработки естественного языка (NLP) и теперь готовы перейти к практике. В мире NLP выбор подходящего языка программирования и инструментов играет ключевую роль в успешной реализации проектов. Одним из наиболее популярных языков для решения задач в этой области является Python. Его простота, читаемость и поддержка мощных библиотек делают его идеальным выбором для разработчиков.

habr.com/ru/articles/864778/

#обработка_естественного_языка #nlp #natural_language_processing #machine_learning #машинное_обучение #искусственный_интеллект #python #пайтон #nltk #spacy

2024-12-07

NLP: когда машины начинают понимать нас (Часть 1)

Представьте, что вы можете разговаривать с компьютером так же естественно, как с обычным человеком. Вы задаёте вопросы, получаете ответы, даёте команды - и это всё на вашем родном языке. Именно этим и занимается обработка естественного языка ( Natural Language Proccessing , или NLP) - область искусственного интеллекта, которая фокусируется на взаимодействии между компьютерами и людьми с помощью естественного языка. Цель NLP - научить компьютеры понимать, интерпретировать и генерировать человеческую речь и текст так же, как это делаем мы. Это включает в себя не только распознавание слов, но и понимание их смысла, контекста и эмоций.

habr.com/ru/articles/864656/

#nlp #обработка_естественного_языка #машинное_обучение #machinelearning #ml #natural_language_processing

2024-12-06

[Перевод] VALL-E 2: Нейронные кодировочные языковые модели являются синтезаторами речи с человеческим уровнем в zero-shot

VALL-E 2, последнее достижение в области нейронных кодировочных языковых моделей, которое стало вехой в синтезе речи в zero-shot, достигнув человеческого уровня впервые. Zero-shot - способность модели генерировать речь для голоса, который она не слышала во время обучения. Другими словами, модель может синтезировать речь для нового диктора, основываясь лишь на коротком аудио образце его голоса (prompt). Основанная на своем предшественнике VALL-E, новая итерация вводит два значительных улучшения: Repetition Aware Sampling и Grouped Code Modeling . Repetition Aware Sampling (Выборка с учетом повторений) решает проблему зацикливания, с которой сталкивался предыдущий VALL-E. Если модель начинает повторять одни и те же звуки, она автоматически переключается на более точный метод выбора, чтобы избежать "застревания". Grouped Code Modeling (Моделирование групп кодов) - звуковые коды группируются и обрабатываются вместе, как слоги в словах. Это ускоряет синтез речи и позволяет модели лучше учитывать контекст, делая речь более естественной и связной. Синтез речи из текста ( TTS ) направлен на генерацию высококачественной речи из текстового ввода с высокой степенью ясности и разборчивости.

habr.com/ru/articles/864494/

#обработка_естественного_языка #синтез_речи #nlp #tts

2024-11-26

Как мы создали LLM-модель Cotype Nano

На связи группа фундаментальных исследований MTS AI. В этой статье мы расскажем про дроп трех маленьких моделей Cotype-Nano, Cotype-Nano-4bit и Cotype-Nano-CPU. Расскажем, как нам удалось достичь 1 места на RuGeneralArena в своей весовой категории.

habr.com/ru/companies/mts_ai/a

#искусственный_интеллект #nlp #языковые_модели #llm #opensource #обработка_естественного_языка #открытый_код #нейрон #нейросеть #ии

2024-11-18

[Перевод] Идеально ли текстовые эмбеддинги кодируют текст?

Этот материал посвящён исследованию восстановления текстов из текстовых эмбеддингов. Рост популярности векторных баз данных В последние годы наблюдается стремительное развитие генеративного искусственного интеллекта. Это привело к тому, что многие компании спешат внедрить соответствующие ИИ-инструменты в свои бизнес-процессы. Один из самых распространённых способов это сделать заключается в создании ИИ-систем, которые отвечают на вопросы, имеющие отношение к информации, которую можно найти в некоей базе данных, хранящей документы. Большинство решений этой задачи основано на подходе, называемом «генерация с дополненной выборкой»

habr.com/ru/companies/wunderfu

#ИИ #Искусственный_интеллект #обработка_естественного_языка

2024-10-19

Наш опыт создания контекстного переводчика

Все началось осенью 2017 года, тогда у нас уже был опыт разработки веб-приложений. Искали проект, удовлетворяющий следующим условиям: 1. Можно сделать небольшой командой. 2. Проверенная идея и большой потенциал роста. 3. Понимание как сделать лучше. 4. Оптимальное время разработки и выход на самоокупаемость. 5. Отсутствие проблем с правообладателями и законом.

habr.com/ru/articles/851856/

#переводчик #изучение_языков #контекстный_поиск #обработка_естественного_языка #стартапы

2024-08-20

Гайд по работе языковых моделей для начинающих

Вместе с дата-сайентистом и биоинформатиком Марией Дьяковой подготовили подробный гайд о том, как устроены языковые модели и что нужно знать, чтобы начать с ними работать.

habr.com/ru/companies/skillfac

#языковые_модели #языковая_модель #llm #nlp #nlp_(natural_language_processing) #gpt #bert #pytorch #tensorflow #обработка_естественного_языка

2024-08-14

Быстрее, выше, сильнее в распознавании речи: SpeechKit, SaluteSpeech или SpeechFlow?

Меня зовут Екатерина, я IT-архитектор в ML-команде SimbirSoft , специализируюсь на темах по обработке естественного языка. Сегодня мы обсудим особенности решения задач распознавания речи. Проверим наши предположения на собственных аудиоданных, которые будем переводить из акустического сигнала в текст тремя передовыми коммерческими системами: Yandex SpeechKit , SaluteSpeech от Сбера и SpeechFlow от Bluepulse. Статья будет полезна тем, кто интересуется тенденциями развития машинного обучения или хочет присмотреться к возможностям и уязвимым местам существующих решений для их внедрения в бизнес-приложения. Погрузиться ⚡

habr.com/ru/companies/simbirso

#nlp_(natural_language_processing) #обработка_естественного_языка #stt #asr #yandex_speechkit #salutespeech #hugging_face #large_language_models #nlp

2024-08-07

Семантический поиск (homemade)

Основой семантического поиска может являться ML задача Sentence Similarity , а если быть еще конкретнее, то это Semantic Textual Similarity . Модели, обученные под эту задачу, способны оценивать насколько близки предложения по своему смыслу. Всё, что нам дальше остается, так это засунуть модель в некоторую поисковую систему... Но тут давайте по порядку

habr.com/ru/articles/834356/

#семантический_поиск #машинное_обучениe #обработка_естественного_языка #nlp #bert #machine_learning #sentence_transformer #transformers #deep_learning #ai

2024-08-03

OpenSource на поле против OpenAI: Function Calls здесь и сейчас для самых маленьких… ресурсов

Вызов функций на локально развернутых LLM возможен. Прочитайте статью и узнайте, как это можно реализовать и насколько хорошо это работает!

habr.com/ru/articles/833518/

#искусственный_интеллект #машинное_обучение #обработка_естественного_языка #llm #mistral #natural_language_processing

2024-07-31

Вызов функций с помощью LLM

Всем привет, меня зовут Алан, я разработчик-исследователь из команды фундаментальных исследований MTS AI. Мы изучаем возможности генеративного ИИ, и видим, что большие языковые модели отлично справляются с различными текстовыми задачами, но мы можем расширить их функционал. Например, пока что LLM не может правильно посчитать логарифм, узнать погоду или какую-то другую информацию. Как решить эту задачу? Нужно научить модель пользоваться внешними инструментами/функциями. В этой статье мы поговорим о вызове функций с помощью больших языковых моделей, рассмотрим некоторые проприетарные и открытые модели, связанные исследования, а затем проведем небольшой эксперимент с отправкой электронной почты при помощи LLM.

habr.com/ru/companies/mts_ai/a

#искуственный_интеллект #nlp #языковые_модели #agent #llm #обработка_естественного_языка #нейтронные_сети #нейросети #api #нейросеть

2024-07-29

Долой рандом, или ищем лучшие настройки для аугментации текстов

Всем привет. На связи Игорь Буянов, старший разработчик в MTS AI. Этот пост — текстовый вариант моего доклада, с которым я выступал в прошлую пятницу на Pycon 2024. Расскажу о том, как мы оптимизировали параметры аугментаций для текстовых данных и что из этого получилось. Текст рассчитан на широкий круг читателей, поэтому если вы слышите про аугментации впервые — не пугайтесь, разберемся.

habr.com/ru/companies/mts_ai/a

#аугментация #обработка_естественного_языка #гиперпараметры #оптимизация #pycon

2024-07-04

NER для начинающих: Простое объяснение с примерами на SpaCy

В этой статье мы подробно рассмотрим распознавание именованных сущностей (Named Entity Recognition, NER) и его применение на практике. Простым и доступным языком объясним , как работает NER, приведем примеры кода с использованием библиотеки SpaCy и покажем, как обучать модели для распознавания именованных сущностей. Эта статья поможет вам быстро освоить основы и начать применять NER в своих проектах!

habr.com/ru/articles/826820/

#named_entity_recognition #ner #natural_language_processing #nlp #spacy #машинное_обучение #обработка_естественного_языка #python #примеры_кода #обучение_моделей

2024-05-03

Как LLM учат понимать синтаксис

Скорее всего, вы поняли заголовок правильно, хотя в нём есть стилистическая ошибка — двусмысленность (кто-то учит LLM, или они учат кого-то?). Человеческое понимание языка остается ориентиром и пока недостижимой целью для языковых моделей. При всей небезошибочности первого и при всех невероятных успехах последних. Например, человеку обычно не составляет труда однозначно трактовать двусмысленные фразы исходя из контекста. Более того, мы с удовольствием используем такие каламбуры в шутках разного качества. Из самого известного приходит на ум только “В Кремле голубые не только ели, но и пили” (предложите свои варианты в комментариях — будет интересно почитать). Есть ещё “казнить нельзя помиловать”, но эта двусмысленность разрешается запятой. Самый известный пример в английском: “ Time flies like an arrow; Fruit flies like a banana”. Человек скорее всего после некоторых раздумий поймёт это как “ Время летит как стрела, мухи любят банан ” (хотя мне, например, понадобилось на это несколько секунд). Яндекс переводчик понимает эту фразу так: “ Время летит как стрела, фрукты разлетаются как бананы ”. Google translator демонстрирует зоологическую эрудированность: “ Время летит как стрела; Фруктовые мушки, как банан ”, а ChatGPT предлагает “ Время летит как стрела; Мухи на фруктах летают как бананы ”. В общем, никто не справился.

habr.com/ru/companies/ntr/arti

#llm #nlp #large_language_model #transformers #трансформеры #синтаксис #обработка_естественного_языка

2024-04-07

Жажда «цифровой крови»: Как Google, OpenAI и Meta переступают черту ради развития ИИ

Технологические гиганты OpenAI, Google и Meta* в погоне за онлайн-данными для обучения своих новейших систем искусственного интеллекта готовы на всё: игнорировать корпоративные политики, менять собственные правила и даже обсуждать возможность обхода законов об авторском праве.

habr.com/ru/articles/806021/

#искусственный_интеллект #машинное_обучение #большие_данные #обработка_естественного_языка #чатботы #gpt4 #whisper #синтетические_данные #иимодели #технологические_компании

2024-03-27

ChatGPT и отзывы на приложение: Анализ тональности для улучшения пользовательского опыта

Привет, дорогие читатели Хабра! Сегодня я хочу поделиться с вами своими знаниями и опытом в области анализа данных и машинного обучения, освещая увлекательную и актуальную тему – анализ отзывов на приложения с использованием модели ChatGPT. Этот подход открывает новые горизонты для понимания тональности отзывов, что является ключевым аспектом в изучении общественного мнения. В этой статье я расскажу о том, как можно использовать возможности Natural Language Processing (NLP) для анализа отзывов, собранных из приложения AppStore. Я исследую, как каждый отзыв, содержащий дату, заголовок, текст и оценку пользователя, может быть преобразован в ценные данные для обучения модели анализа тональности. Эта модель будет способна классифицировать отзывы как положительные, негативные или нейтральные, предоставляя нам глубокое понимание эмоциональной окраски пользовательских мнений.

habr.com/ru/companies/otus/art

#машинное+обучение #nlp #bert #roberta #исскуственный_интеллект #обработка_естественного_языка #chatgpt

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst