#%D1%80%D0%B5%D1%87%D0%B5%D0%B2%D1%8B%D0%B5_%D1%82%D0%B5%D1%85%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D0%B8

2025-04-29

Как мы научили GigaChat слышать: погружение в аудиомодальность

В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat , эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте ! Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.

habr.com/ru/companies/sberbank

#мультимодальность #llm #asr #речевые_технологии

2025-04-15

Спецификация формата RTTM: полное техническое описание

RTTM — это формат, в котором каждое событие в аудио точно знает своё место. Он позволяет системам видеть не просто звук, а структуру разговора: кто говорит, когда, как долго — и что происходит в фоновом шуме. В этой статье вы найдёте всё, что нужно знать об этом стандарте: как устроены его 10 полей, какую роль он играет в задачах диаризации и распознавания речи, и почему его до сих пор активно используют лидеры индустрии — такие как pyannote.audio , NVIDIA NeMo , DScore и другие. Узнать больше про RTTM!

habr.com/ru/articles/900988/

#RTTM #RTTM_формат #аннотация_аудио #речевая_разметка #ASR_разметка #структура_RTTM_файла #речевые_технологии #формат_NIST_RTTM #speechtotext_разметка #speaker_diarization

2025-04-09

[Перевод] Беспрецедентный сдвиг в голосовых интерфейсах ИИ

Вы заметили, что уже кричите на голосовых помощников, когда они вас не понимают? Эра разочаровывающих голосовых интерфейсов заканчивается. Узнайте, как эта технология изменит всё: от бизнес-коммуникаций до наших социальных навыков. Это нужно послушать — спор с голосовым ИИ Sesame в реальном времени 🤯

habr.com/ru/articles/896206/

#речевые_технологии #openai #разговорный_ии #голосовые_интерфейсы #социальное_воздействие_технологий #будущее_коммуникаций #голосовой_ии #коммуникация #искусственный_интеллект

2025-02-12

Пришёл, накодил, победил: хакатон глазами победителей и организаторов

В этой статье мы хотим поделиться своим опытом, который поможет вам подготовиться к любому хакатону (hackathon). Наверняка вы уже слышали про этот специфический формат соревнований для айтишников. На них ставятся практические задачи, которые участники решают за определённое время, имея ограниченные ресурсы. Обычно участники представлены командами, поэтому крайне важно уметь работать сообща. Помимо денежного приза победители получают известность. В дальнейшем это способствует обращению к ним с заказами на решение подобных задач. Для работодателя хакатон заменяет десятки собеседований и знакомство с заявленными в резюме проектами (которые ещё неизвестно кто и как делал). Он сразу получает представление о реальных возможностях готовой команды разработчиков и может пригласить лучшую на свой проект. Российская ИТ-компания «Криптонит» тоже участвует в хакатонах, причём в разных качествах. Наши молодые специалисты пробуют силы в профильных конкурсах, а их более опытные наставники сами организуют хакатоны для поиска сильных команд. Вот пара историй для лучшего понимания деталей. Veni, cogitavi, vici! У нас есть лаборатория ИИ, сотрудники которой приняли участие в хакатоне SafeSpeak-2024 , организованном университетом МТУСИ и институтом AIRI. Заявки на этот конкурс подали наши специалисты Анна Холькина и Карина Янышевская, специализирующиеся на алгоритмах обработки естественного языка. Задача хакатона была на злобу дня: требовалось представить решение для борьбы с мошенниками, говорящими с жертвой от имени кого-то из её знакомых. Техника таких атак называется аудио-спуфинг и всё чаще используется в генерации дипфейков. Командам нужно было создать модель машинного обучения для обнаружения таких дипфейков и обеспечения безопасности голосовой связи.

habr.com/ru/companies/kryptoni

#хакатон #машинное_обучение #обработка_естественного_языка #речевые_технологии #модели_машинного_обучения #искусственный_интеллект #deepfake #дипфейк

2024-11-28

ИИ в деле: актуальные сценарии внедрения нейросетей в России

Привет, Хабр! На связи Анна Смирнова, руководитель по развитию технологий ИИ в К2Тех. Сегодня поговорим об искусственном интеллекте без лишнего хайпа. Дело в том, что из новинки, которую все тестировали и примеряли, ИИ превращается в реального помощника в бизнесе. Компании уже осознанно внедряют нейросети в свои бизнес-процессы и оптимизируют производства, повышают безопасность, улучшают логистику и увеличивают продажи. Также обсудим перспективы развития ИИ в России. Вы узнаете о государственной поддержке этой сферы, проблемах внедрения в разных отраслях и о том, как подготовиться к грядущей цифровой трансформации.

habr.com/ru/companies/k2tech/a

#нейросети #развитие_ии #речевые_технологии #видеоаналитика #предиктивные_технологии #большие_языковые_модели

2024-10-17

Сравнение систем распознавания русского языка 2024

После значительной паузы, опять пришло время обновить наше исследование ( прошлое , позапрошлое ) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами. В этот раз ситуация такая: Какая?

habr.com/ru/articles/849932/

#распознавание_речи #речевые_технологии #asr #stt #speechtotext #silero #sber #tinkoff #yandex #voice_kit

2024-06-13

Бот с характером: как образ и персона ботов влияют на клиентов

Привет, Хабр! Меня зовут Ирина Степанова, я занимаюсь аналитикой разговорных интерфейсов в Just AI. Клиенты часто приходят с запросом на «человекоподобных»‎ ботов, но всем ли они нужны? И как специфика компании влияет на образ голосового помощника или чат-бота? В этой статье расскажу, какие боты пользуются популярностью в финтехе, из чего состоит образ бота и дам несколько рекомендаций по разработке личности виртуального помощника.

habr.com/ru/companies/just_ai/

#голосовые_интерфейсы #чатбот #голосовой_помощник #разработка_чатбота #виртуальный_помощник #речевые_технологии #автоматизация_коллцентра #nlp #речевые_информационные_технологии #голосовые_ассистенты

2024-04-27

На пути к полной жизни: Онлайн-синтез речи для людей с неврологическими нарушениями

Многие люди теряют возможность поддерживать собственную независимость, вести активную социальную жизнь и просто взаимодействовать с окружающей средой, в связи с серьезными неврологическими заболеваниями . Болезни и состояния, такие как БАС, инсульт, церебральный паралич, множественный склероз, болезнь Паркинсона, последствия черепно-мозговых травм, дистония , могут привести к частичной или полной потере способности к самостоятельному передвижению, речи и выполнению повседневных задач. Восстановить эти функции очень сложно, а в некоторых случаях вовсе невозможно. Над этой проблемой работают многие исследователи, борясь за улучшение уровня жизни для таких пациентов. В данной статье я расскажу о тестировании возможности применения технологии имплантируемого интерфейса “мозг-компьютер” (brain–computer interface) для онлайн-синтеза речи с использованием активности мозга, регистрируемой внутричерепными электродами, чтобы проложить путь к новым коммуникационным возможностям для людей, потерявших способность говорить. Приятного прочтения!

habr.com/ru/companies/bothub/a

#машинное_обучение #rnn #здоровье #здравоохранение #речь #речевые_технологии #нейроинтерфейсы #инсульт #бас #неврология

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst