#speechtotext

2026-03-06

Looking for a Dragon NaturallySpeaking alternative in 2026?

Most alternatives only do dictation. Here is what is different about voice-to-action:

You SPEAK and it EXECUTES:
- Reply to this email professionally - done
- Summarise this page - done
- Draft a LinkedIn post about X - done

Works on ANY website. Learns YOUR tone. 140+ languages. Runs locally in your browser.

40 pounds one-time vs Dragon 200+ or Wispr 180/year.

AssemblyAI (@AssemblyAI)

AssemblyAI의 최고 정밀도 음성 모델인 Universal-3-Pro가 스트리밍을 지원하도록 출시되어 실시간 오디오 전사에 도입됨. 이로 인해 음성 에이전트, 라이브 자막, 실시간 분석 파이프라인 개발자들이 고정확도 전사를 라이브 오디오에 적용할 수 있게 됨.

x.com/AssemblyAI/status/202887

#assemblyai #speechtotext #streaming #realtime

Vaibhav (VB) Srivastav (@reach_vb)

Codex CLI에서 음성 전사 기능 사용법 안내: ~/.codex/config.toml의 [features]에 voice_transcription = true를 설정한 뒤, composer에 포커스한 상태로 Space를 누르고 말하면 Release(해제) 시 전사가 편집기에 삽입됩니다. CLI에서 직접 음성→텍스트 전사가 가능해 개발 작업 흐름과 입력 편의성이 개선됩니다.

x.com/reach_vb/status/20288676

#codex #voicetranscription #cli #speechtotext

Benjamin Bouvier 🥐bnjbvr@tutut.delire.party
2026-03-03

Handy: privacy-preserving open-source speech-to-text.

bouvier.cc/tech/handy

I've recently discovered #Handy, a small #speechtotext (#dictation) application, that is open source and can use only local AI models on Linux, preserving the privacy of what I'm saying out loud by not sending it to some cloud servers. I found it handy (lol), so I figured that I could share some hardships that I've run into while setting it up on #ArchLinux #GNOME #wayland.

Thanks to @Jolivier for the discovery!

Min Wu (@wuminx)

오랫동안 K-pop 팬으로서 자막 없이 아이돌이 무슨 말을 하는지 이해하고 싶어, Twice의 클립으로 4개의 AI 전사(자막) 서비스를 비교 테스트해 어느 서비스가 정확하게 따라오는지 확인한 실험적 리뷰입니다.

x.com/wuminx/status/2026792438

#transcription #speechtotext #ai #kpop

Likely Jan Lukaslikelyjanlukas@mstdn.ca
2026-02-26

I just discovered a fantastic #hack that makes the #iOS #SpeechToText engine work quite well!

1. Go to dentist
2. Require freezing for dental procedure
3. Use iOS speech to text prior to freezing coming out
4. Success!

🤔😳😂

#LifeHacks
#Dentist
#OralHealth
#software
#transcription

2026-02-21

Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

За два месяца я перепробовал три ASR-движка, шесть моделей Whisper, адаптивное чанкование, T5-коррекцию и ансамблевое голосование — и большая часть идей оказалась тупиком. В статье — подробный разбор шести тупиков и одной находки: почему GigaAM от Сбера на обычном CPU показывает 3.3% WER на русском, обходя Whisper large-v3-turbo на RTX 4090 (7.9%) в 2.4 раза. С бенчмарками, кодом и честными оговорками.

habr.com/ru/articles/1002260/

#speechtotext #gigaam #whisper #vosk #onnx #распознавание_речи #WER #голосовой_ввод #ASR #python

2026-02-20

I want to hear from someone who uses speech to text to write - how do you do it? Do you do something while you are speaking? What app do you use, how do you use it, and where does the text go? Where do you store what you dictated?

I am very curious because I once upon a time though I'd try it but never got to it. (^_^)* Would be worthy to give it a try while I am painting and see if my brain can do that at the same time.

#writing #speechtotext #dictating #writer #author

Matthieu ❙❙ ElevenLabs (@matt_elevenlabs)

Scribe v2가 음성-텍스트 변환 분야에서 최고 성능을 기록했다고 트윗에 언급되었습니다. 해당 글은 @ArtificialAnlys의 평가를 인용해 Scribe v2를 ‘세계 최고’ 음성 인식(STT) 모델로 소개하고 있어, 음성 인식 모델 경쟁과 관련된 최신 모델 소식으로 해석됩니다.

x.com/matt_elevenlabs/status/2

#speechtotext #stt #ai #model #scribe

Artificial Analysis (@ArtificialAnlys)

AA-WER v2.0, AA-AgentTalk 및 정제된 데이터셋에 대한 자세한 자료를 안내합니다. 블로그 포스트와 전체 결과 페이지 링크가 제공되며, Hugging Face에 공개된 VoxPopuli-Cleaned-AA 및 Earnings22-Cleaned-AA 정제 데이터셋도 확인할 수 있습니다. 연구/평가 재현과 데이터 접근을 위한 참고 링크입니다.

x.com/ArtificialAnlys/status/2

#aawer #speechtotext #huggingface #dataset #artificialanalysis

Artificial Analysis (@ArtificialAnlys)

STT(음성인식) 시장의 가격·성능 차이를 정리했습니다. Mistral의 Voxtral Mini는 $1/1k분에 AA-WER 3.7%, NVIDIA의 Parakeet TDT 0.6B V3(through Hathora)는 $1.32/1k분에 AA-WER 4.2%를 기록했고, ElevenLabs Scribe v2는 AA-WER 지수에서 2.3%로 선두이며 가격은 $6.67/1k분입니다. 비용 대비 성능의 차이가 큽니다.

x.com/ArtificialAnlys/status/2

#speechtotext #stt #mistral #nvidia #elevenlabs

Artificial Analysis (@ArtificialAnlys)

AA-WER v2.0 음성 인식(Speech-to-Text) 정확도 벤치마크와 음성 에이전트(voice agents)에 초점을 맞춘 신규 비공개 데이터셋 AA-AgentTalk를 발표했습니다. AA-AgentTalk은 음성 에이전트에 중요한 발화에 집중한 홀드아웃 데이터로, 음성비서류 모델 평가의 신뢰도와 실용성을 높이기 위해 설계되었습니다.

x.com/ArtificialAnlys/status/2

#speechtotext #benchmark #dataset #aawer #voiceagents

2026-02-13

@kofu Handy looks great for open source speech-to-text! For voice-to-action (beyond just transcription), there are tools that can actually execute commands and write in your personal tone.

Anyone tried moving beyond basic dictation to full voice automation?

2026-02-12

Nifty tool for speaker to your computer.
handy.computer/

#OSS #speechtotext #accessibility

NERDS.xyz – Real Tech News for Real Nerdsnerds.xyz@web.brid.gy
2026-02-11

Deepgram triples default concurrency limits as voice agents quietly move from pilot to production

fed.brid.gy/r/https://nerds.xy

2026-02-11

Provant el #Pitxu amb diferents combinacions de hardware m'ha portat a descobrir que m'agrada el format #RaspberryPiZero2 + UPS + #WhispayHat, que em dóna el més bàsic per tenir un mini-ordenador autònom amb so i pantalla (i un botó). És molt contingut i portable, se li pot fer una caixeta amb una impressora 3D (fàcil ) i pot quedar molt cuco.

Passa que no tira. Els models de STT i TTS s'encallen, i el Chatbot #Gemini ja el fregeix del tot. Ni l"overclock ni la swap han ajudat gaire.

Avui parlant amb el @miguelflorido ha sortit la idea d'aixecar uns endpoints al Pitxu, per que executi la transcripció #speechtotext i la resposta del #chatbot. Així, el que carrega més la màquina ho fa la RPi5 amb el #AIHat+2, i la RPiZ2W fa de simple client grabant àudio, reproduint la veu, i mostrant per pantalla. El reste ho envia per HTTP.

En un parell d'hores he tingut un #Flask en un thread escoltant peticions, i les proves amb el #Postman són molt bones a la Wifi de casa.

Em molaria molt tenir un #miniPitxu a la butxaca.

Primer pla d'una Raspberry Pi Zero 2W amb un UPS mostrant la bateria cilíndrica a l'esquerra, en vertical, i un PiSugar Whisplay HAT amb la seva pantalla quasi quadrada ajustada als marges laterals de la Raspberry, exposant un botó petit a l'altura del polze.
2026-02-11

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.

habr.com/ru/articles/995416/

#rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

2026-02-11

Language Dove: как я транскрибирую и перевожу фильмы

Я обожаю смотреть иностранные фильмы в оригинале. Во-первых, мне нравится расширять кругозор, погружаться в другую культуру, расшифровывать структуру разных языков, пополнять словарный запас. Во-вторых, мне просто нравится звучание некоторых языков - например, французского, китайского, датского. Также я работаю над сайтом по изучению языков Language Dove , а учить языки по фильмам - это очень эффективно. Так родился проект по генерации идеальных субтитров.

habr.com/ru/articles/994896/?u

#субтитры #перевод #llm #speechtotext #language_dove #изучение_языков #английский #французский #транскреация #youtube

2026-02-10

Language Dove: как я транскрибирую и перевожу фильмы

Я обожаю смотреть иностранные фильмы в оригинале. Во-первых, мне нравится расширять кругозор, погружаться в другую культуру, расшифровывать структуру разных языков, пополнять словарный запас. Во-вторых, мне просто нравится звучание некоторых языков - например, французского, китайского, датского. Также я работаю над сайтом по изучению языков Language Dove , а учить языки по фильмам - это очень эффективно. Так родился проект по генерации идеальных субтитров.

habr.com/ru/articles/994896/

#субтитры #перевод #llm #speechtotext #language_dove #изучение_языков #английский #французский #транскреация #youtube

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst