#分享 自己做了一個語音打字工具,免費開源

我是工程師,最近都在用 Claude Code 同時開好幾個 agent 跑任務,結果發現打字打指令的時間比想問題的時間還長。再加上每天回 email、Slack、寫文件,打到手痠 最先試的是 iPhone 跟 Mac 內建的語音輸入,但它就是原樣聽寫,「嗯」「那個」全部打出來,中英混講更是直接爛掉。後來看了 Wispr Flow($15/月)、Typeless(免費版一週才 4000 字)、SuperWhisper($249 買斷),要嘛月費不便宜,要嘛功能不夠,而且通通要聯網。不想每個月多一筆訂閱費,乾脆自己用 Rust 寫了一個叫 Sumi 不是你說什麼就打什麼,你可以用本地的 AI 幫你把口語整理成書面語 比如我對著電腦說「跟 Alice 說我明天不能吃午餐了工作上有事」,它就會變成: 「Hi Alice, 我明天沒辦法去吃午餐了,工作上臨時有事。改到禮拜四可以嗎?」 或者說「幫我 call 那個 API,然後把 component 移到 banner 右上角」,這種中英夾雜加上術語的,內建語音辨識起來效果很差,但 Sumi 能處理到 另一個我很常用的功能是它會看你在用什麼 App 來調語氣。同一句話,Gmail 出來比較正式,LINE 出來會口語一點還加 emoji,Slack 就短短的。你可以自己調整在哪個App要用哪種語氣 全部都在自己電腦上跑,不會把錄音傳到雲端。我自己每天處理蠻多私人對話跟程式碼的,這點對我來說很重要。程式碼全部公開,不是那種「我們不會上傳你的資料」然後你也沒辦法驗證的平台 (沒有在臭) 完全免費,macOS 跟 Windows 都能用 (Windows Cuda 還要優化),中英文混著講也 OK。 對了還有一個新的會議模式,開會前啟動它,就會在背景持續幫你轉錄,全部存成筆記,目前還在 beta 版本。 有興趣的可以試試看:
有問題歡迎問,我自己做的所以對於產品什麼都能回答 Demo 在這裡,是用英文版介面錄的,想用繁體就把偏好語言改成繁體就好了~
愛心
5
留言
encourage first comment
有些話想說嗎 快分享出來彼此交流吧!