#Speech2Text

2025-07-11

Используем API Speech2Text для распознавания записей разговоров

В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную. Распознавание аудио решили делать через сервис Speech2Text, пример использования API которого я и покажу в этой статье. В черновом варианте получаем примерно следующую схему работы (нас сейчас интересует прямоугольник с подписью Speech2Text connector):

habr.com/ru/articles/926918/

#Speech2Text #api

Verfassungklage@troet.cafeVerfassungklage@troet.cafe
2025-04-07

#Speech #Note#Notizen und mehr -

Bei der Recherche für einen Artikel über #Text2Speech und #Speech2Text unter #Linux bin ich auf die kleine App Speech Note gestoßen, nicht zu verwechseln mit dem proprietären SpeechNotes. Insofern ist der Name nicht wirklich clever gewählt. Clever ist dagegen das Konzept der noch jungen Anwendung.

Speech Note ist eine vielseitige Anwendung für Notizen, die durch ihre Funktionen und Datenschutzorientierung hervorsticht.

linuxnews.de/speech-note-notiz

Ça existe les applications libres de #speech2text ? 🤔

utzer [Pleroma]utzer@soc.utzer.de
2025-01-07
Wenn eins ein paar Audiodateien #transkribieren wollen würde, wie würde eins das auf #Debian machen? Ich hatte mal ein Tool irgendwo gefunden, dass das in CLI konnte und dann den Text meine ich sogar mit den Sprechern ausgeworfen hat. Vielleicht hab ich das Tool sogar noch installiert.

Offline wäre super.

#Speech2Text #VoiceRecognition
2024-11-07

New open-source speech-to-text model Moonshine “returns results faster and more efficiently than the current state of the art, OpenAI’s Whisper, while matching or exceeding its accuracy” one of its creators says. “Key improvements are an architecture that offers an overall 1.7x speed boost compared to Whisper, and a flexibly-sized input window.”

Blog post by Pete Warden: petewarden.com/2024/10/21/intr

GitHub: github.com/usefulsensors/moons
Paper: arxiv.org/abs/2410.15608

#GenAI #speech2text

Christopher Starkchristopherstark
2024-09-01
2024-06-25

I'm extracting speech from audio files in French using Wav2Vec2.
the result is really not great, barely readable
"nerla sene reste trop oulué pour les épreuves notiques des gios "

But adding a LLM layer to correct it works like a charm
"La Seine reste trop polluée pour les épreuves nautiques des JO."

So much time saved. No need to tinker with the models and audio anymore.
#speech2text #data #audio

2024-03-09

The implementation of the new @deepgramai „nova-2“ speech recognition model in my self-developed #app "Anruf Fee" has now brought me the hoped for #speech2text improvements for the #German language in this app.

The attached example of an incoming spam call shows how well it works. It saves me having to answer annoying unknown callers, but at the same time ensures that I don't miss anything important by recognizing the caller's topic.
apps.apple.com/de/app/anruf-fe

Bruno Amaralbrunoamaral
2024-01-28

Sonix
Audio and video transcription software online.
sonix.ai/

2023-11-07

So eine #Leuchtschrift hinten am Rücken, die während des #Radfahrens dort anzeigt, was ich gerade sage.

DAS fände ich cool.

Quasi #Speech2Text for Dödel behind!

Sindre Wimbergersindrewimberger
2023-05-23

Facebooks Massively Multilingual Speech (MMS) Modell für 1100 Sprachen 🚀

🤖 Kann und in 1100 Sprachen durchführen.
🤖 Kann 4000 gesprochene Sprachen erkennen.
🤖 Code und Modelle verfügbar unter der CC-BY-NC 4.0 Lizenz.
🤖 Halb so hohe Wortfehlerrate wie OpenAI Whisper.
🤖 trainiert anhand der Bibel des Neuen Testament

Blog: ai.facebook.com/blog/multiling

vous auriez de bons moteurs de text to speech qui font des voix propres et sans fucking accent anglais ? (du texte transformé en voix, pas l'inverse hein)
payant ou non, tant que y'a pas de services de GAFAM dedans et que la voix est vraiment propre sans effet de voix de robot ça m'intéresse.
#a11y #accessibilité #vocalisation #stt #speech2text

Machine Revolutionmachine_revolution@masto.ai
2023-04-25

github.com/modal-labs/quillman A complete chat app that transcribes audio in real-time, streams back a response from a language model, and synthesizes this response as natural-sounding speech.

I was waiting for this, an offline LLM that you can talk to (AS im voice). 🗣️

#ai #machineleraning #chatgpt #voice #text2speech #speech2text

Patrick Weber 🌍🇪🇺🇱🇺Petzlux@mastodon.xyz
2023-04-03

Excited to be part of this challenge in #NLP #speech2text for the public sector here in Luxembourg.
---
RT @GovTechLab_LU
🚨The #GovTechLab is looking for innovative solutions for real-time automatic #transcription in Luxembourgish, French, German and English of video and audio streams for its "Transcribo Vox" #innovation partnership 👉 gd.lu/cwp9H5
@MinDigital_LU
@CTIE_LU
twitter.com/GovTechLab_LU/stat

tobozotobozo
2023-03-02

what happens when you get whisper.cpp to listen to ?

both speak at 16KHz so they should understand each other, right?

github.com/ggerganov/whisper.c

Track: Alpha by @lukhash

2023-02-05

There is a free #opensource tool called #Whisper, based on OpenAI. It can convert speech to text even in offline mode. it works with many languages and can even translate output to English, generate subtitles and more. It only works on WAV files, but you can convert to WAV with ffmpeg. Make sure to download and use the large model for best results, you will have to compile the program yourself: github.com/ggerganov/whisper.c #AI #speech2text

2023-01-28

Gibt es datenschutzfreundliche #Speech2Text-Lösungen für #Android. Eigener Server mit #Whisper käme für mich in Frage. 100% Offline wäre das schönste. Fremde Server scheiden aus (#Datenschutz). #askfedi :BoostOK:

Dervishe the Greydervishe@mastodon.sdf.org
2023-01-26

Connaissez-vous un bon soft de transcription de parole #speech2text libre ?
Ce serait pour retranscrire des interviews

2022-11-06

Do you know any open source speech to text app that can be integrated into Android keyboards?
#android #opensource #speech2text

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst