#text_to_speech

2025-06-19

Пишем персонального AI-ассистента на Python

Современные голосовые помощники это мощные приложения, сочетающие обработку речи, машинное обучение и интеграцию с внешними API. В этой статье мы разберём, как создать базовый проект персонального ассистента на Python, используя библиотеки whisper, webrtcvad, gTTS и другие. Наш ассистент будет: слушать микрофон; определять начало и конец речи с помощью VAD (Voice Activity Detection); преобразовывать речь в текст через модель Whisper; отправлять запросы на локальный LLM для генерации ответа; читать ответ вслух с помощью gTTS; начинать/останавливать запись по нажатию клавиши. Проект может служить как началом для экспериментов, так и для прототипирования реальных решений.

habr.com/ru/articles/919720/

#Python #Питон #Голосовой_ассистент #Распознавание_речи #Text_To_Speech #voice_assistant

2025-05-17

Show HN: Kokoro TTS – Free Text to Speech Converter with Multilingual AI Voices
kokoroai.org
#ycombinator #text_to_speech #TTS #AI_voice #speech_synthesis #voice_generator

2025-02-05

@MXC48 @niavy Oh, wow ! Je viens de tester #Sherpa #TTS, c'est une dinguerie. Les progrès sont spectaculaires entre il y a quelques années, où je trouvais limite que des voix hyper robotiques, en dehors de la #SynthèseVocale de #Google, et maintenant ^^

#TextToSpeech #SherpaTTS #SpeechSynthesis

#text_to_speech #google_text_to_speech #texttospeech #speechtotext #text_to_speech #google_text_to_speech #opensource #open_source #android #androidapp #FDroid #fdroidstore #fdroidrepo #SpeechToText

2025-01-04

apparently i have resigned all of my free time to doing QA of #gridcosm #podcast mp3 audio file reviews. (my janky ui for doing reviews pictured here.) 🎧

the #text_to_speech #ML i am using is great, but not perfect. so sometimes it glitches out so bad, i have to regenerate (parts of) that level.

i have 1500 levels generated now, and its looking like ~10% will need re-running. not the worst, if my brain can survive the audio onslaught. #surreal #digitalart

sito.org/podcast/

screengrab of interface showing audio files to be reviewed. basically a bunch of numbers in squares - some red, some green, some light gray.
2025-01-02

Text to Speech mit Audiogenipy

Googles freie Text-to-Speech Engine lässt sich sehr einfach in eigenen Projekten oder im Terminal verwenden.

#gTTS #Text_to_Speech #Python #TTS #Linux

gnulinux.ch/text-to-speech-mit

2024-12-30

ИИ-Дед Мороз: создаём новогодние видео-открытки с YandexART и YandexGPT

Салют! Меня зовут Григорий, и я главный по спецпроектам в команде AllSee. Новогодние праздники — не только лучший повод для подарков и взаимных поздравлений, но и время большой праздничной суеты: не всегда хватает времени и сил, чтобы придумать оригинальное поздравление для каждого друга, коллеги или члена семьи. В данной статье я расскажу, как можно применить YandexGPT , YandexART и другие ИИ‑инструменты для генерации новогодних видео‑открыток, превращая рутину новогодних поздравлений в увлекательный эксперимент с искусственным интеллектом. Хо-Хо-Хо! Поехали!

habr.com/ru/articles/870844/

#telegram_bot #автоматизация_рутины #новый_год #yandexgpt #yandexart #новогоднее_поздравление #yandex_api #llm #computer_vision #text_to_speech

2024-10-13

🔥🔥🔥: 3 steps to run HuggingFace 🤗 "Parler TTS" AI Voice on your local machine. New tutorial video out now!

Open Source Parler TTS (Text-to-Speech) allows you to synthesize high class artificial voice audio using a text prompt description text 👏 . Really fun playing around with that.

My step-by-step technical tutorial is now available on my "Thorsten-Voice" youtube channel 😊 .

youtu.be/1X2LxAGn9tU

#tts #huggingface #text_to_speech #texttospeech #opensource @huggingface

2024-09-29

Reviewing a lot of ITIL v4 material for work at the moment as we are adopting as part of a new "operating model" and I am helping set up an Infrastructure and Platform Management Practice.

Seems that not a lot of large companies have progressed much yet so not so much using best practice from industry frameworks as creating it.

Really appreciating modern text to speech tools such as naturalreaders.com/online/ and the amazing new feature from Google (link below) hat can turn source material in rather realistic sounding two-hander podcasts to give me options for how I digest some of the material.

notebooklm.google.com

#ITIL #ITIL4 #text_to_speech

2024-04-14

Интерактивный NPC на Unreal Engine

Всем привет. Я хочу с вами поделиться результатами эксперимента по созданию интерактивного NPC на Unreal Engine 5 . Speech recognition , Text-to-speech , LLM модели, LipSync , MetaHuman и все это без использования сторонних сервисов . Видео работы и ссылка на демо версию прилагается. Если вам интересно увидеть результат и обсудить перспективы интерактивных NPC в игровой индустрии - добро пожаловать под кат.

habr.com/ru/articles/807561/

#speech_recognition #text_to_speech #large_language_models #unreal_engine_5 #metahuman #gamedev #игры

2024-04-08

Распознаем голосовые сообщения Telegram без СМС и пересылок ботам

Как всем известно, люди делятся на две категории: 1. Те, кто любит отправлять голосовые сообщения 2. Те, кто кто надеются, что для первых приготовлен отдельный котел Но мы здесь не для того чтобы осуждать какую-то из этих категорий. Читать сообщения я люблю больше, чем слушать и здесь я расскажу, как я попробовал решить для себя эту проблему.

habr.com/ru/articles/803833/

#telegram #telegram_api #голосовые_сообщения #c# #text_to_speech #мессенджеры #распознавание_речи

Sandro Santillistrk@floss.social
2024-01-10

Did you know #PhanpySocial (Mastodon web client) can read posts aloud for you ? Take a look: phanpy.social/#/jazztodon.com/

#TextToSpeech #text_to_speech

@elif

2023-10-27

Tastatur-Serie: Alternative Smartphone-Tastaturen: Sayboard

Ich habe mir alternative datenschutzfreundliche Tastaturen angeschaut, die ich vorstellen möchte. Weiter geht es mit Sayboard, einer etwas anderen "Tastatur".

#Sayboard #text_to_speech #Spracherkennung #Linux

gnulinux.ch/tastatur-serie-alt

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst