#speechtotext

Likely Jan Lukaslikelyjanlukas@mstdn.ca
2026-01-07

Welp, this might be the best one yet: #iOS #SpeechToText decided to transcribe my words as "trans #bannock" rather than "trans panic."

#trans
#transcription
#GoodGolly

🙄🤔😂

2026-01-05

EasyWhisperUI: Giao Diện Đơn Giản Cho ChatGPT Whisper
Dự án mã nguồn mở cung cấp giao diện trực quan dễ sử dụng cho mô hình chuyển đổi giọng nói thành văn bản Whisper của OpenAI. Đặc biệt hỗ trợ GPU trên cả Windows và Mac, tăng tốc độ xử lý đáng kể. #AI #SpeechToText #OpenSource #Whisper #MãNguồnMở #XửLýGiọngNói

reddit.com/r/opensource/commen

James House-Lantto (He/Him)Theeo123
2026-01-04

wired.com/story/handy-free-spe

Handy, a free Speech to text app that leverages AI, to make it simple to dictate documents on your system. Simply hold Ctrl+Space while talking, talk as long as you want, and then what you say will be transcribed onto the currently active text-box.

2026-01-01

omniASR-server: API tương thích OpenAI cho mô hình omniASR của Meta với hỗ trợ streaming. Hỗ trợ WebSocket, Docker, GPU (CUDA/MPS), xử lý file âm thanh dài (>40s), tích hợp dễ dàng với Pipecat, LiveKit. Triển khai nhanh bằng Docker.
#ASR #SpeechToText #omniASR #OpenAI #VoiceAI #AI #âmthanh #nhậndiễngiọngnói #AIâmthanh #côngnghệ

reddit.com/r/LocalLLaMA/commen

2026-01-01

Công cụ Transcribe (tx) miễn phí, chạy cục bộ với Whisper, hỗ trợ nhận diện giọng nói theo thời gian thực, phân biệt người nói (diarization) và thời gian chính xác. Hỗ trợ file, mic, âm thanh hệ thống và tích hợp Ollama để tóm tắt nội dung (tùy chọn). Hoạt động ngoại tuyến, đa nền tảng: Windows, macOS, Linux. Giao diện đồ họa và CLI tiện lợi tự động hóa.

#Transcribe #Whisper #Ollama #SpeechToText #Diarization #AI #LocalAI #CôngCụ #TríTuệNhânTạo #ThuyếtTrình

reddit.com/r/LocalLLaM

2025-12-30

So sánh 26 mô hình Chuyển giọng nói thành văn bản (STT) trên dữ liệu hội thoại y tế dài, đánh giá bởi WER (tỷ lệ lỗi từ). Dẫn đầu là Google Gemini 2.5 Pro (10.79% WER), tiếp theo là mô hình địa phương Parakeet TDT 0.6B v3 với tốc độ 6.3s/file và WER 11.9%. GPT-4o Mini cải thiện mạnh (12.82% WER). Google MedASR thất bại nặng (64.9% WER). Mã nguồn và bảng xếp hạng đầy đủ đã được công khai. #SpeechToText #STT #AI #HealthcareAI #Gemini #GPT4o #Parakeet #Whisper #Benchmarks #MôHìnhAI #ChuyểnGiọngNói

2025-12-30

Top STT mô hình xử lý hội thoại y tế: Google Gemini 2.5 Pro dẫn đầu (10.79% WER), tiếp theo là Parakeet TDT 0.6B v3 (11.90% WER) – mô hình địa phương nhanh nhất (~6s/file trên M4). GPT-4o Mini cải thiện đáng kể (12.82% WER). Google MedASR thất bại dù chuyên biệt cho y tế (64.9% WER). Code đánh giá và bảng xếp hạng đầy đủ cho 26 mô hình đã công khai. #STT #SpeechToText #AIytes #Parakeet #Gemini #GPT4o #LocalAI #Benchmarks #NhậnDiễnGiọngNói #TríTuệNhânTạo #YtếSố #AIcụcbộ

reddit.com/r/

Dites vous connaissez un truc bien sur Android pour faire du speech to text libre sans pisteurs qui marche bien ? J'ai vu que sayboard qui fasse ça mais ça marche pas super bien. Et c'est un brin galère, faut changer de clavier pour s'en servir.

#speechtotext #floss

2025-12-20

Tìm kiếm mô hình chuyển giọng nói thành văn bản tốt nhất cho năm 2025? Công ty hiện tại yêu cầu chuyển ghi âm cuộc gọi thành văn bản nội bộ, chạy trên server cao cấp (RTX 4090, 64GB RAM) nhưng mô hình Whisper chỉ đạt 75% độ chính xác và không xử lý tốt tiếng ồn nền. Cần tư vấn kỹ thuật hoặc mô hình tối ưu? #AI #SpeechToText #NhậnDiễn #CôngNghệ #MachineLearning

reddit.com/r/LocalLLaMA/commen

2025-12-16

Handy handy.computer/ À tester, un logiciel open-source de transcription basé sur les modèles de whisper, à installer en local shaarli.obliv.fr/shaare/UUxAfA #speechtotext #opensource

Before a few years ago, speech to text / voice control sucked terribly. Your best option was a £700 piece of software called Dragon, first released in 1997. Whisper and Vosk utterly changed the game for making the transcription accessible, and Talon for controlling your computer.

#SpeechToText #AssistiveTech #TalonVoice

Thinking about what you're trying to say is much easier and faster when you don't have to think about how to write it at the same time.
I put that in a transcription tool based off WhisperX to use as a base for what I'm writing, so I'm starting with thousands of words rather than a blank page.

#WhisperAI #CreativeWriting #SpeechToText

2025-12-10

Tìm mô hình chuyển giọng nói thành chữ nhỏ gọn, chính xác, hoạt động offline trên iOS - hỗ trợ đa ngôn ngữ (cần ít hơn vài trăm MB, không dùng mạng). Apple Speech framework chưa đủ offline, cần giải pháp chạy 100% cục bộ. #AIonDevice #SpeechToText #iOSDev #DeepLearning #TốiƯuHóaApp #OfflineProcessing #MLVietNam

reddit.com/r/LocalLLaMA/commen

2025-12-09

Multi-API Ensemble: 95% точности транскрипции региональных топонимов

В статье полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики. Один STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд.

habr.com/ru/articles/974978/

#speechtotext #whisper #gemini #salutespeech #транскрипция #распознавание_речи #сезон_ии_в_разработке #ensemble #python #asyncio

Tanguy ⧓ Herrmanndolanor@hachyderm.io
2025-12-08

TL;DR: I'm using WhisperIMEplus on my phone, and I think I will finally live in the XXIst century with my phone.
github.com/woheller69/whisperI

I refrained myself from using speech recognition on my android since the beginning because I didn't like the idea of my voice used for other reasons than my need which would have been speech-to-text.

And having on-device speech recognition was pretty niche for a while (I was interested in mycroft and snips at that time). Then there was Mozilla with CommonVoice and deepspeech, unfortunately, DeepSpeech has been shut down (it seems), and the results are far from the Whisper model from OpenAI.

I'm clearly not an OpenAI fan (if you haven't figured it out yet, you will soon if you follow me), but Whisper seems to be the best thing that got out of this, mostly because it's way more open than any other things from OpenAI which are not open at all.

Anyway, I found that now, there is a project called WhisperIMEplus that is used as a keyboard on my android, and it processes my voice, locally, on my device. And the app has NO internet connection rights, so, even if OpenAI added some backdoor to send data online in their Whisper model, well, Android app rights wouldn't allow it.

I'm fine with all of this, so now, I can finally take notes by talking to my phone, in English and French, without having second thoughts about it.

It's good when technology helps you, instead of trying to screw you in different and sneaky ways.

#SpeechRecognition #android #privacy #SpeechToText #OpenAI #whisper #ai

2025-11-25

Cập nhật cách cài đặt **Whisper AI** trên Windows để chuyển đổi âm thanh thành văn bản! Không cần dùng điện toán đám mây, không trả phí ứng dụng – hoàn hảo cho lập trình viên, nhà sản xuất podcast. Dữ liệu và bản ghi được bảo mật cục bộ, hỗ trợ chuyển đổi và dịch nhiều file âm thanh. Tham khảo hướng dẫn chi tiết để tự quản lý hiệu quả. #AI #SpeechToText #Privacy #LocalModel #CôngNghệAI #ĐổiText #BảoMậtDữLiệu

reddit.com/r/LocalLLaMA/commen

Likely Jan Lukaslikelyjanlukas@mstdn.ca
2025-11-25

@Amgine

Randomly-related issue: this month I've discovered #iOS #SpeechToText really doesn't believe such a word exists.

Alas I forget offhand the various unrelated phrases it has used instead, but sheesh, seriously? 🙄😂

Likely Jan Lukaslikelyjanlukas@mstdn.ca
2025-11-25

Welp, this might well be the weirdest #iOS #SpeechToText error I've had yet:

"Sorry to rant"* was transcribed as "Duran Duran."

I did happen to randomly watch something on my YT timeline about a song by that band recently but I can't think of any time I've written the name since acquiring computing technology.

😂😂😂

*Not going to get into this now: maybe later, we'll see what transpires and whether my private ranting needs to escalate to something of a more formal complaint. 😐

2025-11-24

@Xtreix

Thanks for these sources, will check them in time :)

I saw that iodeOS runs on the obscure Brax phones. Is that the main OS for them? I thought they had an own one.

Before reading any of this: it is clear that #GrapheneOS is way more secure than #LineageOS, which is the base for both iodeOS and /e/OS.

I dont know if they added bad things, afaik /e/OS did quite some shady proprietary additions [1]. I know that #iodeOS has some nice additions, but from the outside neither are very transparent.

But I would not call them scams right now. Maybe after I know more about their details.

I know for sure that LineageOS is kinda scary as a base. Their releases are all nightlies and they lack verified boot support even on phones that allow custom keys [2].

[1] like integrating #OpenAI #SpeechToText community.e.foundation/t/70509

[2] Example for the Pixel 9: download.lineageos.org/devices

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst