#TTS

2025-12-06

Чего нам стоит перевод фильма AI построить

Начну, пожалуй, с предыстории. Несколько лет назад завел себе домашнего питомца, королевского питона. Пуф вырос классным змеем и сих пор эта наглая колбаса является моим верным антидепрессантом. В итоге это привело к том, что заинтересовался фильмами по змеям. Но, как назло, большинство фильмов идут на английском или испанском языке. Нет, не то, чтобы я не знал английского, будучи разработчиком, да и когда-то заканчивал языковую школу с углубленном изучением ин. языков, однако вечером, с пивасом и креветками смотреть английскую озвучку.... в общем, не каждому это по душе. И тут пришла в голову мысль, "а чтобы нам не использовать ИИ для перевода фильмов", к тому же множество компаний уже предлагают подобные решения. Но мне было ещё интересно изучить этот вопрос и пройти весь путь самим.

habr.com/ru/articles/974080/

#ai #перевод #аудио #tts

2025-12-06

Microsoft phát hành VibeVoice-Realtime-0.5B, model TTS nhỏ gọn, biểu cảm. API tương thích OpenAI, chạy local với Docker hoặc Python, chỉ cần ~2GB VRAM, tối ưu CUDA. Giọng đọc hay hơn Kokoro nhưng chậm hơn.

#TTS #AI #OpenAI #LocalLLaMA #CôngNghệ #VibeVoice

reddit.com/r/LocalLLaMA/commen

2025-12-06

Open Unified TTS - một proxy mã nguồn mở giúp tạo âm thanh không giới hạn độ dài từ các mô hình Text-to-Speech cục bộ. Công cụ này giải quyết vấn đề giới hạn văn bản bằng cách chia nhỏ và ghép nối mượt mà. Tương thích API OpenAI TTS, hỗ trợ nhiều backend.

#TTS #TextToSpeech #OpenSource #AI #CôngNghệ #MãNguồnMở

reddit.com/r/LocalLLaMA/commen

2025-12-06

Qwen3-TTS đã ra mắt! Đây là mô hình tổng hợp giọng nói (Text-to-Speech) mới, cho phép chuyển văn bản thành âm thanh. Hiện có bản demo để bạn trải nghiệm.
#Qwen3TTS #TTS #AI #TextToSpeech #CôngNghệ #TríTuệNhânTạo

reddit.com/r/LocalLLaMA/commen

2025-12-06

"Mã nguồn mở Open Unified TTS tiêm nhộn gây فقر kiến thức TTS! ✨ Chia nhỏ văn bản tự nhiên, kết nối audio chứclauncher bởi crossfade 50ms. Hỗ trợ đa ngôn ngữ, API tương thích OpenAI, điều hướng theo giọng (Morgan, Narrator v.v). Thử nghiệm với 7+ engine. Làm ơn đề xuất backend cần tích hợp! #TTS #OpenSource #AI #M래 #GiFXML #Teknoloji"

reddit.com/r/LocalLLaMA/commen

2025-12-06

VoxCPM 1.5B đã ra mắt! 🚀 Model mới cải thiện chất lượng âm thanh (44.1kHz), giảm LM Token Rate (6.25Hz) và hỗ trợ tinh chỉnh. Thử nghiệm và chia sẻ cảm nhận của bạn!
#AI #TTS #VoxCPM #OpenBMB #MachineLearning #ArtificialIntelligence #CôngNghe #TriTueNhanTao

reddit.com/r/LocalLLaMA/commen

2025-12-06

VoxCPM 1.5B đã ra mắt! 🚀 Model mới cải thiện chất lượng âm thanh (44.1kHz), giảm tốc độ token và hỗ trợ fine-tuning. Thử nghiệm và chia sẻ cảm nhận của bạn!
#AI #MachineLearning #TTS #VoxCPM #OpenBMB #trituenantao #hocmay

reddit.com/r/LocalLLaMA/commen

2025-12-04

🎙️ #VibeVoice – Frontier #opensource Voice #AI by #Microsoft #TTS #MachineLearning #AI

🎧 Generates expressive long-form multi-speaker conversational audio like podcasts from text
⏱️ Synthesizes speech up to 90 minutes with up to 4 distinct speakers

⚡ Realtime streaming TTS model delivers first audio in ~300ms with streaming text input
🔊 Ultra-low 7.5 Hz frame rate tokenizers preserve audio fidelity while boosting efficiency

🧵 👇

2025-12-04

AI Runner v5.1.0 ra mắt! 🚀 Hỗ trợ tạo ảnh, chuyển văn bản thành giọng nói (TTS) và giọng nói thành văn bản (STT) ở chế độ headless server. Ứng dụng này có thể thay thế Ollama để thử nghiệm, học tập và phát triển chatbot. Có cả giao diện GUI! #AI #MachineLearning #TTS #STT #AIRunner #TríTuệNhânTạo #HọcMáy #CôngNghệ

reddit.com/r/ollama/comments/1

2025-12-04

Microsoft vừa ra mắt mô hình Text-to-Speech (TTS) mã nguồn mở mới: VibeVoice-Realtime-0.5B. Đây là mô hình nhẹ (0.5B tham số), hỗ trợ chuyển văn bản thành giọng nói theo thời gian thực với độ trễ chỉ ~300ms. Rất phù hợp cho các dịch vụ TTS trực tiếp và cho phép các LLM bắt đầu nói từ những token đầu tiên.
#VibeVoice #TTS #Realtime #AI #Microsoft #TextToSpeech #MãNguồnMở

reddit.com/r/LocalLLaMA/commen

2025-12-02

Giải pháp mã nguồn mở thay thế API real-time của OpenAI:
- STT: Whisper V3
- LLM: Gemma 3 1B
- TTS: Kokoro
- Hạ tầng: Simplismart.ai
- Framework: Pipecat
Độ trễ dưới 400ms. Dễ dàng thay đổi model theo yêu cầu.
#opensource #AI #LLM #TTS #STT #trituenhantao #maguonmo

reddit.com/r/LocalLLaMA/commen

Orhun Parmaksız 👾orhun@fosstodon.org
2025-12-01

Speech-to-text right from your terminal?? 🎤

⚡ **ostt** — A terminal-based recorder & speech-to-text transcription tool.

💯 Real-time waveform visualization with dBFS volume metering & clipping detection.

⬇️ Demo by the author below

🦀 Written in Rust & built with @ratatui_rs

⭐ GitHub: github.com/kristoferlund/ostt

#rustlang #ratatui #tui #audiotech #tts #transcription #terminal

2025-12-01

Làm sao để sử dụng 4GB VRAM cho TTS (Text-to-Speech)?
Người dùng Reddit đang tìm kiếm giải pháp để chạy các mô hình TTS trên card đồ họa có dung lượng VRAM hạn chế. Liệu có những công cụ nào phù hợp?

#VRAM #TTS #AI #LLaMA #TechTips #ThủThuậtCôngNghệ #TríTuệNhânTạo

reddit.com/r/LocalLLaMA/commen

2025-11-27

Haven't had time to work on the #tts project directly today, but I did find a great implementation of #nupunkt (sentence boundary detection algorithm) that is apparently 91% accurate (per the study) in legal documents where such algorithms often break down. It barely gets outperformed by the ML model they compared it to, and that model takes nearly half a gig of memory!

2025-11-26

A colleague is asking about text to speech options for Linux. I don't have any experience in this area-- any recommendations?

#linux #tts

2025-11-24

@linuxiac

> Removing PulseAudio..continuing the shift to PipeWire

My #GoPiGo3 robot just shuddered in fear of becoming deaf and mute.

#espeak-ng #Vosk #SpeechRecognition #TTS #LinuxAudio

2025-11-24

Phát triển lại Trí tuệ nhân tạo giọng nói Sesame AI! Dự án này không liên quan đến Sesame AI, nhưng đã tái tạo giọng nói, tốc độ, tính cách và cá tính tương tự. Sử dụng GPU giá rẻ, phù hợp cho doanh nghiệp. #TríTuệNhânTạo #SesameAI #AI #TTS #STT #LLM #CloudComputing #GPU #DoanhNghiệp #CôngNghệ #Innovation #ArtificialIntelligence #VoiceAI #PrivateCloud

reddit.com/r/LocalLLaMA/commen

2025-11-24

Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России

Представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим: Модель поддерживает SSML; Модель стала быстрее ещё на 20-25% (она и так была супер быстрой); С живыми дикторами были подписаны договоры на запись их голоса; Запись велась в максимально высоком из практически доступного качестве; Для ряда языков опубликованы модели простановки ударений и / или словари с ударениями в рамках silero-stress ; К модели синтеза применены все оптимизации, как к нашей прошлой публичной модели ; Для демки мы брали шумные публичные данные низкого качества. В этот раз всё хорошо - как следствие существенно выросло качество синтеза.

habr.com/ru/articles/968988/

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка #синтезатор #русский_язык #языки_россии #россия

2025-11-23

Update on that #rust #tts #grpc service. TTS is far more complicated than I imagined even using #ai (machine learning) models. I assumed I'd have to process the text, for the model, but it's coming up that I need more processing than expected.

1. Split it up into sentences

2. Pass it through a phonemizer (phonetic/sound versions of the text)

3. Process the phonemes for the model

4. Run the model to actually generate the speech

I'm gonna have to write a blog post about this when I get done

2025-11-21

Наш новый LLM-based синтез речи

Рассказываем о нашем новом синтезе речи. Мы так и называем его — «новый синтез», или GigaTTS. Под капотом у него GigaChat 3b, аудио адаптер, собственный токенизатор речи и 30 тысяч часов данных. Никаких диффузий. Очень много работы было проделано над обучением модели, на студии и при подготовке данных для обучения. Новый синтез до мурашек естественный. Он говорит как живой человек, умеет смеяться и выражать эмоции со всеми нюансами. По метрикам он обгоняет наши прошлые модели в 2-4 раза, особенно большой выигрыш по естественности голоса. Под катом вас ждем большой технический обзор того, как мы пришли к такому качеству. Покажем freespeech и специально сделанные голоса операторов колл-центров. Поделимся деталями, как у нас получился синтез текста любой длины, prompt following и клонирование голосов

habr.com/ru/companies/sberbank

#tts #синтез_речи #llm #gigachat #речевые_технологии #voice_cloning

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst