語音轉文字

11款語音轉文字軟體推薦

會議記錄、即時翻譯、字幕生成


語音轉文字是什麼?

語音轉文字是一種將口語音訊轉成書面文字的技術,又可稱為自動語音辨識 (Automatic Speech Recognition, ASR) 或是語音轉文本 (Speech to Text, STT)。

這項技術主要是能夠將錄音檔轉成文字,快速生成逐字稿,能減少人工的文件製作時間,並增加不同輸出形式 (如影片、文件、逐字稿) 的效率,目前已被應用於各領域中。

如何選擇語音轉文字軟體?

在推薦語音轉文字工具之前,我想要分享幾個在選擇上可以多去關注的部分:

語音轉文字軟體選擇方法
  • 支援的語言類別:依據自己常使用的語言來選擇軟體,大部分的軟體都至少支援 3-5 種語言,本文所介紹的軟體都有支援中文。
  • 語音辨識精準度:許多軟體使用了 Open AI 的 Whisper 模型,這個模型具有強大的演算法,因此若需要語言辨識精細度精確,建議選擇使用 Whisper 模型建構的軟體。
  • 語音轉換的速度:語音轉成文字的速度會影響到文檔製作的效率,有些工具轉幾分鐘的音訊需要快一小時,有些則只需要幾秒鐘,這部份在挑選時需要特別確認。
  • 上傳下載的格式:上傳的檔案通常可分為音訊檔、視訊檔這兩大類,而下載的檔案分為含時間戳記的文字檔、不含時間戳記的文字檔。
  • 文字對語音區間:轉換後文字對應到語音上,區間能夠到多細?1 秒一單位還是 5 秒一單位?這對於有上字幕需求的人會特別需要注意。
  • 安全性及隱私權:大部分的語音轉文字軟體都是線上版,就要考慮到這些檔案存取的位置,或是否會定期地做刪除保護好個資,若真的有疑慮建議選擇電腦版,將資料存取在本地資源。
  • 是否有持續更新:因為語言的字詞會不斷的更新,如果語言模型有持續的在精進,會讓辨識的能力不斷進步與節省時間。
  • 費用與方案類型:通常開源的軟體都能免費使用,而付費版軟體會以使用的時間、使用的流量、訂閱制作為付費的依據。

語音轉文字軟體推薦&比較

優點缺點適合對象
雅婷逐字稿• 台灣口音、中英夾雜語音
• 可作為台語轉文字使用
• 無限次數即時轉錄音功能
• 轉換速度較慢
• 時間戳記區段較長
需要轉譯台語或台灣國語的人
Good Tape• 能調整文字稿時間區間
• 精準轉換 90 多種語言
• 無中文介面
• 不支援視訊檔或直播檔案
需眾多語言語音轉檔的人
cSubtitle• 中文操作介面
• 能即時預覽轉換結果
• 免費版只能轉換 3 分鐘文字需要中文語音轉文字的人
MyEdit• 多項 AI 音樂工具
• 可以去除背景噪音
• 不支援視訊檔
• 無法辨識中英夾雜語音
需要多功能音檔編輯的人
Vocal.ai• 整合會議視訊軟體產生逐字稿
• 自動分析摘要及主題
• 操作介面是中文
• 不支援 WAV 檔需要語音會議逐字稿的人
Whsiper JAX• 轉換速度非常快
• 完全免費使用
• 操作介面較陽春
• 輸出沒有標點符號
有免費語音轉換文字需求的人
MacWhisper• 能一次買斷軟體
• 可選擇語言轉換的精確度
• 只能在 Mac 上使用
• 會耗費電腦上的資源
想要一次買斷逐字稿功能的人
cleanvoice• 針對 Podcast 做語音優化
• 自動整理 Podcast 整集重點
• 等待時間較久
• 輸出為簡體中文字
需要自動化編輯 Podcast 的人
VEED.IO• 一站式影音編輯整合
• 支援團隊協作
• 斷句的位置有些奇怪
• 中英轉譯時英文會不準確
需要共同編輯社群影音的新手
Cockatoo• 能轉成不同語言的文字
• 轉換速度非常快
• 輸出沒有標點符號需要快速轉換成不同語言的人
Buzz• 免費無限上傳影音檔案
• 文檔區隔能精細到一個單字
• Mac 會跳出警示
• 會耗費電腦資源
需要文字檔區間非常精細的人

雅婷逐字稿

雅婷逐字稿是專為台灣口音開發的 AI 語音轉文字服務,幕後推手正是 PPT 的創辦人杜奕瑾成立的台灣人工智慧實驗室 (Taiwan AI Lab, AILabs) 所打造,從資料、蒐集、開發都是由台灣一手設計、開發。

主要特色是由台灣本土團隊開發,因此針對台灣口音、台灣國語、台語和中英夾雜的晶晶體都能辨識,支援 Android、iOS 、網頁版、Chrome 擴充功能使用,除了語音轉文字的功能外,還提供了雅提文字轉語音功能,輸出市面上最熟悉的台灣口音。

雅婷逐字稿

雅婷逐字稿的特色功能

  • 即時錄音功能:提供國語、英語、日語、粵語、國語即時錄音轉文字的功能,而且是免費無限次數使用。
  • 上傳影音檔:上傳影音檔能獲得逐字稿,每個帳號支援 20 分鐘免費上傳的語音轉文字功能。
  • Youtube 影片字幕:輸入 YouTube 連結能直接將影片裡的聲音轉成對應字幕。
  • 直播上字幕:提供 YouTube 影音串流金鑰、YouTube 字幕上傳網址,即可在直播時即時輸出字幕,此目前為 Beta 測試版。
  • 共用逐字稿:能將逐字稿產生共用連結,分享給共同參加會議的同事、客戶。
上傳格式MP3、AAC、WAV、FLAC、YouTube
下載格式word、text、pdf、odt、srt
支援語言台灣口音國語、台語、英語、日語

雅婷逐字稿的費用方案

方案內容方案費用(NTD)
免費版20 分鐘音檔轉檔免費
輕量使用1 小時音檔轉檔150/1hr
省 30 元3 小時音檔轉檔420/3hr
省 200 元10 小時音檔轉檔1300/10hr

使用雅婷逐字稿的心得

除了即時錄音、上傳影音檔、YouTube 轉字幕、直播上字幕等功能外,「直播即時字幕」是雅婷逐字稿是特有的功能。這對於常看即時直播的人很適用,畢竟有時候直播的聲音不見得非常清晰,可以透過直播上字幕的功能,強化對影片內容的印象。

另外,它在使用「即時錄音轉文字」時,轉換速度非常的快,很適合在需要即時採訪、收聽演講的時候使用,能快速的產生文件。

不過在上傳「語音檔轉換成文字」的部分,通常需要非常久的時間,我上傳 30 秒的語音檔,大概會需要 30 分鐘的時間做轉換,這對需要大量語音轉文字需求的人會有點困擾。不過在逐字稿裡能夠設定參與者是誰,就會很清楚在幾分幾秒時,誰說了哪句話。

我很推薦使用雅婷逐字稿的台語轉文字功能,這是幾乎所有語音轉文字軟體中,可以分辨台語語音的軟體,尤其在台灣很常會使用台語,就能夠過這個功能輕鬆地轉換成文字使用。

Good Tape

Good Tape 是丹麥的新聞機構 Zetland 推出的語音轉文字軟體,起初是為記者打造,能夠幫助記者將採訪的錄音檔,快速地轉換成文字 。

它運用 API 串接全 Open AI 旗下 Whisper 的技術,希望能打造一個多語言的語音轉文字服務,改變以往的軟體只有在英文上表現比較好的缺失,也提供一個較便宜的語音轉文字服務。

而 Good Tape 的語音轉文字功能,也在台灣媒體界掀起一股熱潮,因為它的準確率高又方便使用,也成為記者和 Podcaster 愛用的工具之一。

Good Tape

Good Tape 的特色功能

  • 語音檔轉換文字:上傳語音檔案後,會產生含有時間戳記的文字檔。
  • 自定文字分段頻率:預設時間戳記是以 15 秒為一個單位,區間最短為 0 秒,最長是 20 秒。
上傳格式大部分的音訊檔案,但 mp3 最合適
下載格式txt、srt
支援語言支援中文、英文、日文、法文等 90 種

Good Tape 的費用方案

方案內容方案費用
Casual1. 每月可免費試用三次
2. 最長可上傳 90 分鐘
3. 需要等待時間
免費
Professional包含 Casual 版本及:
1. 無限制檔案數量
2. 上傳時間無限制
3. 最短等待時間
4. 自動語音標記
5. 無限制存檔數量
6. 高安全性存取
EUR€15 (NT$510) /月
Teams包含 Professional 版本及:
1. 5 個以上用戶協作
2. 更精準語音轉文字
3. 客製化設定
聯絡官方

使用 Good Tape 的心得

Good Tape 一次最多可上傳 90 分鐘的語音,在畫面中間的「Upload audio file」上傳檔案即可開始使用,過程中會詢問你要自動偵測語言或自行選擇對應語言。

在不登入帳號的情況下就能做語音轉文字服務,不過免費版會需要一些轉換的時間,因為系統會先處理專業版的轉換需求,才會處理免費版的轉換,30 秒的語音檔案需要花上約 10 分鐘的處理時間

轉換的結果算蠻準確的,逐字稿上會有對應時間,只要滑動介面上的調整鍵,就能選擇適合的時間精細度,像是以 4 秒一個單位或是 10 秒一個單位。透過這些時間戳記,能很清楚知道字幕對應的時間,也能經由縮小時間區間來做細微字幕的調整,對於想要在影片上字幕的人來說非常方便。

不過 Good Tape 是專門針對語音檔做轉換的設計,因此介面比較簡單,目前還沒有辦法上傳自己想要的 Youtube 影片或影音檔來做文字的轉換。

cSubtitle

cSubtitle 是一個使用最新自然語言處理 NLP 及 AI 技術的語音轉文字軟體,採用線上直接轉換的模式,不需要下載軟體及登入帳號就能立即使用,是一個專門為中港臺地區的語言做設計的軟體,因此在中文化這方面有進行優化的訓練模型。

除了生成既有的文字檔或 Word 檔逐字稿外,cSubtitle 透過內建的 AI 系統會自動幫檔案加上標點符號、分段,並產生具備時間戳記的字幕檔,具備快速的轉換效率,一小時影音檔轉文字只需要 10 分鐘就能完成,準確率高達 94 %。

cSubtitle

cSubtitle 的特色功能

  • 影音檔轉文字:上傳想要轉換的影片或錄音檔,容量在 4GB 內且時長是在 5 小時以內。
  • 批量影音檔轉換:專業版一次可支援 10 個影音檔轉換,每個檔案會生成獨立文字檔下載。
  • 影片上字幕:上傳影片後能自動將影片內容生成字幕,建議將影片先轉換成較低的解析度 (240P、360P),方便快速上傳及轉換。
  • cSubtitle 桌面版:適合需要大量檔案轉換用戶,最多每次能轉換 100 個檔案,自動下載保存在電腦裡面,不過目前僅推出 Windows 版本。
上傳格式MP4、MOV、MP3、WAV、M4A、OGG、WMA
下載格式TXT、DOCX、SRT、VTT
支援語言臺灣國語(繁體)、中國普通話(簡體)、香港粵語廣東話(繁體)、英文

cSubtitle 的費用方案

方案內容方案費用
免費版轉換前 3 分鐘免費
100 分鐘轉換 100 分鐘,有效期 90 天US$9.95 (NT$299)
500 分鐘轉換 500 分鐘,有效期 90 天US$39.95 (NT$1199)
1500 分鐘轉換 1500 分鐘,有效期 1 年US$99.95 (NT$2999)
100 小時轉換 100 小時,有效期 1 年US$349.95 (NT$10499)

使用 cSubtitle 的心得

cSubtitle 是純線上的轉換軟體,使用時只需要選擇對應的語言及上傳檔案就能做轉換,不過因為軟體是針對中文做設計,因此只支援中文或英文,對於專注於中文語音轉換的人來說已經很夠用。

在做語音轉文字時, 30 秒的檔案大概 1 分鐘內就能生成檔案,在輸出頁面中有文字檔案預覽的功能,這個功能我覺得很棒,能夠確認後再下載,而不一定下載下來才能做確認,很省時。

如果想要更改內容,能到線上逐字稿快捷編輯器內做文字調整,在線上編輯器中具備基本的文字編輯功能,像是文字排列、列點、數字、縮排的編輯,很像 word 的基本編輯工具,是個很實用的功能。

在影片轉換部分,免費版只能轉前三分鐘,轉換時間大概是 2-3 分鐘,在做影片上字幕時,輸出介面有預覽模式,會自動將字幕幫你貼在影片上做瀏覽,就能即時知道字幕在影片上的時間及顯示情形,不過這邊就沒有線上文字編輯的功能了,時間戳記的區間也比較長,沒有辦法做調整。

MyEdit

MyEdit訊連科技所開發的軟體,訊連科技旗下有多個影片剪輯、相片編修軟體,像是耳熟能詳的威力導演、相片大師等,MyEdit 則專注在音訊的編輯和處理,具備基本的音樂剪輯和語音轉換功能,如果要更專業的音檔剪輯,就需要使用到電腦版的 Audio Director

在音訊編輯的工具裡,MyEdit 的語音轉文字功能,能夠將錄音檔轉為逐字稿,使用 AI 語音辨識技術,在線上直接上傳檔案就能使用;除了語音轉文字的功能外,還有多項音訊編輯工具,讓音樂編輯、語音編輯在線上就能一站完成。

MyEdit

MyEdit 的特色功能

  • 語音轉文字:透過語音轉文字的 AI 自動辨識技術,製作筆記或 YouTube 字幕,檔案時間長度上限為 60 分鐘,檔案大小上限是 600MB。
  • AI 音效生成器:輸入簡單的文字敘述,就能透過 AI 產生免費音效。
  • AI 變聲器、改變音調:調整錄音檔裡的音調,或轉換成機器人、鴨子、花栗鼠或不同國家語言及性別的聲音。
  • 去除人聲:在無損音質的情況下將音檔中的人聲去除,保留清晰的背景音樂。
  • 去除雜音:去除背景的雜音或風聲,讓錄音檔能夠透過後製的方式,讓音檔保有乾淨的聲音。
  • 音樂及 MP3 剪輯:簡單拖曳圖標就能剪裁上傳的音檔,迅速完成音樂的剪輯。
上傳格式MP3、WAV、FLAC、M4A
下載格式TXT、SRT
支援語言中文、英文、日文、韓文等 9 種

MyEdit 的費用方案

方案內容方案費用
免費版檔案長度上限 60 分鐘
檔案大小上限 600 MB
免費
音訊方案包含免費版及:
1. 所有 AI 工具
2. 不限下載和預覽次數
3. 專屬變聲器效果
4. 每月 600 分鐘語音轉文字
5. AI 工具強化和修復音訊
NT$90/月
音訊 + 圖片方案包含音訊方案及:
1. AI 繪圖生成圖片
2. 批次調整照片尺寸和轉檔
NT$180 /月

使用 MyEdit 的心得

我覺得 MyEdit 有點像是多功能的線上音訊編輯器,有很多音訊編輯的功能,在上面幾乎可以完成所有對於音訊的編輯,而且中文化做得很好,工具列表上能很清楚看到所有音檔編輯的工具。

語音轉文字方面,30 秒的音檔大概不到 1 分鐘就能轉換完成,且檔案中時間點列的非常詳細,包含每段話開始時間和結束時間。不過我發現當音檔裡有包和中文及英文時,對於中文的辨識很不錯,但英文就無法辨識出來,這會需要再人工去做確認。

至於在音檔編輯的功能裡,也提供了「音訊樣本」功能,像是有 AI 音效、去人聲、語音轉文字等音訊範本。在還沒上傳自己的影音檔之前,就能透過內建範本先做測試,清楚地了解轉換前和轉換後的差異,也能從中知道是否需要使用這項工具,我覺得這是還蠻貼心的一項功能。

Vocol.ai

Vocal.ai 是一個透過多種自然語言模型與 AI 技術來提供語音轉文字的服務,用 AI 技術生成對話的逐字稿、摘要與主題,提高團隊的協作效率,而 Vocal 這兩字結合了聲音「Voice」與合作「Collaboration」這兩個英文單字,很清楚的表達了整個軟體的目的。

在 Vocal 的介面能選擇中文、英文及日文使用,主打能夠融合在團隊工作中,除了整合第三方工作軟體,在會議中,語音助理會自動提取會議記錄裡的出待辦事項,提供給團隊協作和編輯。

Vocol.ai

Vocol.ai 的特色功能

  • 即時錄音:點選介面上的開始錄音,就能直接將正在講話的語音內容轉成文字稿。
  • 語音檔轉文字:將語音或影片檔轉為逐字稿,播放時間上限為 180 分鐘,檔案上限為 1 GB 。
  • 整合 Google/Teams 會議錄音機器人:在使用 Google Meet 與 Microsoft Teams 時,能邀請 Vocal.ai 機器人加入會議室產生逐字稿。機器人最多能錄製 60 分鐘的時間,就會離開會議室。
  • AI 分析功能:根據所上傳的音檔分析摘要及主題。
上傳格式aac、mp3、mp4、mpeg、m4a、webm、weba
下載格式srt、txt
支援語言中文、英文、日文

Vocol.ai 的費用方案

方案內容方案費用
免費版1. 具備 V-points 200 點
2. 註冊獲得 200 分鐘數
3. 儲存空間 3000 分鐘
免費
訂閱制每月付款,固定用量。
1. Starter:V-points 300 點、儲存空間 10000 分鐘
2. Worker:V-points 800 點、儲存空間 20000 分鐘
3. Pro:V-points 1600 點、儲存空間 40000 分鐘
Starter:US$11 (NT$330) /月
Worker:US$25 (NT$750 ) /月
Pro:US$46 (NT$1380) /月
流量制一次性支付,沒有使用期限。
1. 輕量級:V-points 300 點
2. 中量級:V-points 800 點
3. 重量級:V-points 1600 點
輕量級:US$16 (NT$480) 
中量級:US$36 (NT$1080) 
重量級:US$66 (NT$1980)

使用 Vocol.ai 的心得

Vocal.ai 具備兩種語音轉文字功能,一個是即時轉文字功能、一個語音檔轉文字功能,在使用即時錄音功能時,辨識精確度蠻快且很精準,也能辨識中文夾雜的語音。

在語音檔轉文字的功能中,如果使用 AI power 的功能,會自動總結整個語音檔的內容,並在時間戳記上產生摘要,另外還會自動生成主題標籤。

不過在檔案選擇方面 WAV 檔案沒有在上傳格式當中,但這個格式也是很常見的語音檔格式,就等於說所有檔案要先轉成 mp3 檔案才能上傳,我認為比較不方便些。

最後,我非常推薦它的會議機器人功能,在工作中常需要視訊會議,它能協助在會議中錄製語音,並於會後產生逐字稿,我們就不用再花時間記錄會議內容,能專注地參與整場會議。

Whisper JAX

Whisper JAX 是採用 Open AI 的 Whisper 語音辨識系統,能將即時錄音、音訊檔、YouTube 影片的語音內容轉換成文字,根據官方頁面提到,整個系統是在 JAX 上運作,後端採用 TPU v4-8,與 A100 GPU 上的 PyTorch 相比,速度快了 70 倍以上。

這款語音轉文字軟體是由 Hugging Face 所開發的工具,介面非常簡單,目前只有英文版,使用完全免費。不過如果遇到許多使用者同時進行轉換時,就會花上比較久的時間轉換,在介面的右上角會出現轉換的排隊序列,會依據排隊順序開始處理。

Whisper JAX

Whisper JAX 的特色功能

  • 語音檔轉文字:將麥克風錄製好的語音檔、或現有語音檔儲存後上傳,即能將檔案轉成文字。
  • 翻譯功能:可將上傳的文字轉換成英文。
上傳格式m4a、mp3、webm、mp4、mpga、wav、mpeg
下載格式頁面上直接複製下載
支援語言中文、英文、日語等 50 種

Whisper JAX 的費用方案

  • 完全免費

使用 Whisper JAX 的心得

在 Whipser JAX 上有三種模式能夠做選擇,分別是麥克風語音轉文字、音訊檔語音轉文字、YouTube 連結語音轉文字功能,其中我很喜歡 YouTube 連結語音轉文字這個功能,只要轉貼連結就能進行文字的轉換,不用額外再把影片下載到電腦再上傳轉換,節省了很多時間。

而且,這款可以做到在不同的模式下能同時做轉換,譬如說我可以在語音轉文字、YouTube 轉文字兩個模式中同時上傳檔案做轉換,進行兩個檔案的同步處理。

在轉換時,上面會顯示大約需要的時間及進度條,16 分鐘的影片大概 2 分鐘的時間就能轉換成文字,轉換的時間非常的快速。

不過因為是完全免費的軟體,功能上比較簡單,像是轉換出來的文字沒有標點符號,也不能直接下載檔案,但是可以點選複製,所以我建議可以跟我一樣,把轉換出來的文字放到 chatGPT 上,轉成有逗點的文字後再做使用。

MacWhisper

MacWhisper 是一款由 Jorfi Bruin 使用 OpenAI Whisper 所開發的語音轉文字工具,專門為 Mac 所設計。它目前沒有推出線上版,只有桌機版,且為英文版介面。

免費版內建許多小型語言模型,若想要達到業界更高水準的精準度,就需要付費升級使用中型和大型語言模型,而 Mac 也需要有 8GB 以上的 RAM 才能達到這樣的轉換效能。

MacWhisper

MacWhisper 的特色功能

  • 即時錄音轉文字功能:直接透過 Mac 內建麥克風錄音,即時將錄音內容轉成文字檔。
  • 音訊檔轉文字功能:上傳音訊、視訊檔案或影片連結,將語音轉成文字並輸出多種格式下載。
  • Podcast 語音轉文字功能:針對 Podcast 的語音檔做文字的轉換。
  • 具備多不同語言模型:能依據自己的使用量來更改語言模型,調整轉換的精準度。
上傳格式mp3、wav、m4a、mov、mp4
下載格式srt、vtt、csv、dote、docx、pdf、html
支援語言中文、英文、西班牙文等 100 種

MacWhisper 的費用方案

方案內容方案費用
免費版使用小型語言模型免費
Pro 版本包含免費版及:
1. 中型及大型語言模型
2. 批量轉換文件
3. YouTube 連結轉換
4. 翻譯成不同語言字幕
1 個帳號 EUR$29 (NT$986) 
5 個帳號 EUR$100 (NT$3400) 
10 個帳號 EUR$180 (NT$6120) 
20 個帳號 EUR$300 (NT$10200)

使用 MacWhisper 的心得

MacWhisper 是少數不用訂閱制的軟體,只要付費一次就能永久使用。

它不同於其他線上軟體,需要在 Mac 上安裝,但也因此轉換速度很快,16 分鐘的影片需要花費大概 3-4 分鐘的時間;不過,如果是透過 YouTube 的連結進行轉換就需要大概 10 分鐘的時間,而且轉換的文字需要升級成付費版才能使用。

另外,我覺得這款工具很棒的一點,是在「品質」選項裡能依據自己的使用精確性、轉換速度來調整想要使用哪種語言模型。基本上免費版的小型模型就非常夠用了,都會隨著版本更新去做優化。

不過也要特別注意,因為這些模型會直接下載在電腦中,所以轉換時電腦資源也會被分配掉一些。

Cleanvoice

Cleanvoice 是一款語音編輯工具,全英文介面,透過 AI 技術消除語音檔多餘的語助詞、口吃音、像是「嗯、啊」這類冗詞,也能消除嘴部無意識發出的聲音、背景噪音,並支持語音轉文字的功能。

它有點像是 My Edit 的中文版本,具備多功能的音訊編輯功能,不過更專注於音訊的雜音消除,特別針對 Podcast 提供了語音轉文字還有整合功能,讓你的 Podcast 經過 AI 處理過後呈現最好收聽的樣貌。

Cleanvoice

Cleanvoice 的特色功能

  • 語音轉文字功能:將音訊檔、Podcast 檔案轉換成文字。
  • 去除各式冗詞:自動化過濾掉多餘的口吃音及語助詞,或嘴巴不自覺發出的雜音、嘆息聲。
  • 去掉停頓點:對於音訊中 5 秒以上的停頓,自動做刪除。
  • 去除背景噪音:將音訊當中空間的噪音、迴響及各式噪音做刪除。
  • 聲音整合功能:把 Podcast 中多聲道的部分音量標準化、音訊平整化。
上傳格式wav、mp3、m4a、flac
下載格式txt、csv、edl
支援語言中文、英文、法文、德文

Cleanvoice 的費用方案

方案內容方案費用
免費版30 分鐘免費試用免費
訂閱制每月付款,固定用量。
1. 10 小時
2. 30 小時
3. 100 小時
10 Hours:EUR$10 (NT$340) /月
30 Hours:EUR$25 (NT$850) /月
100 Hours:EUR$80 (NT$2720) /月
流量包一次性支付,無使用期限。
1. 5 小時
2. 10 小時
3. 30 小時
5 Hours:EUR$10 (NT$340)
10 Hours:EUR$18 (NT$612)
30 Hours:EUR$40 (NT$1360)

使用 Cleanvoice 的心得

在使用 Cleanvoice 時,會讓你先選擇要編輯「單聲道音訊」還是「多聲道音訊」,不過如果是要「語音轉文字」就只能編輯單聲道音訊。

轉完之後,可以選擇完全去除雜音功能或客製化調整功能。在客製化調整裡面,能夠設定要開啟哪些處理功能,像是開啟或關閉去除背景雜音、語音轉文字、聲音優化等功能。

比較特別的是使用語音轉文字功能後,轉換完成時有自動總結的功能,裡面有 Podcast 簡介、重點說明、時間戳記和總結,另外還能自動製作社群媒體貼文的文字、emoji 貼圖、hashtag,非常適合用來做社群媒體的行銷功能。目前支援電子報、Twitter、Threads、Linkedln 的貼文。

不過,Cleanvoice 轉換時沒有常見的 srt 檔提供下載,轉換的文字精確度就沒有那麼的好,而且會以簡體中文呈現,需要再轉換成繁體中文。

VEED.IO

VEED.IO 是一款線上影片編輯器,提供一站式的線上影片編輯功能,支援團隊協作模式,能共同處理影片專案,許多內容創作者會使用它來製作社群媒體上的影片。

使用它,不用特別下載軟體,線上就能進行編輯,其中也包含音訊轉文字的功能,只需做簡單的點擊,就能線上執行轉錄文字的服務,且有高達 95% 的精準度。

VEED.IO

VEED.IO 的特色功能

  • 音訊轉文字:將音檔轉錄成為文字,並提供編輯者能做細微的修正。
  • 影片轉文字:透過上傳原始影片,自動辨識其中的音檔,轉錄成為文字。
  • 影片編輯:具備線上剪輯影片、增加字幕、增加音訊、影片色彩校正等功能。
上傳格式Mp3、WAV、mp4、mov、AVI、FLV
下載格式txt、srt、vtt
支援語言中文、英文、日文等 50 幾種

VEED.IO 的費用方案

方案內容方案費用
免費版1. 儲存空間 20 GB
2. 每月 30 分鐘字幕
3. 1GB 上傳
免費
Basic1. 移除浮水印
2. 1080 影片輸出
3. 輸出 25 分鐘影片
4. 儲存空間 5 GB
5. 每年 720 分鐘字幕
US$12 (NT$360) /月
Pro包含 Basic 版及:
1. 去除雜音
2. 儲存空間 20 GB
3. 音訊及影音素材庫
4. 每年 1440 分鐘字幕
US$24 (NT$720) /月
Business包含 Pro 版及:
1. 影片數據分析
2. 儲存空間 50 GB
3. 每年 8000 分鐘字幕
4. 客製化影片模板
US$59 (NT$1770) /月
Enterprise包含 Business 版及:
1. 客戶經理
2. 品牌模板
3. 教育訓練
4. 儲存空間大於 50 GB
聯絡客服

使用 VEED.IO 的心得

VEED.IO 介面是以編輯影片為基礎設計的,因此畫面中會內建影片編輯視窗。上傳音訊檔或影片檔後,選擇自動辨識字幕,就能進行語音轉文字,轉換完成後會自動上字幕在影片裡,非常方便。

在文字檔中會清楚標記著每段文字開始及結束的時間,不過在轉換時,會發現斷句會有一點奇怪,不會斷在語氣結束的地方;若是中英夾雜的部分,英文轉換也比較不準確,需要花時間在自己手動更改細節;而如果要下載文字的話,則需要升級付費版才能下載轉換後的文字。

這款語音轉文字軟體非常適合編輯影片的新手,不用使用昂貴的影片編輯軟體,在線上就能編輯影片和上字幕,也提供非常多的素材使用。而因為是一套整合型的軟體,所以在語音轉文字上的功能就沒有那麼的精細,不過我覺得對於影片編輯來說已經蠻夠用的。

Cockatoo

Cockatoo 是一款使用尖端 AI 自動將語音產生文字的軟體,軟體名稱翻譯是「鳳頭鸚鵡」,代表能夠像鸚鵡一樣精準地模仿你的語音;slogan 也是 Transcribe anything,任何語音形式都能精確轉換。

透過演算法的設計,就算語音檔中有背景噪音干擾,還是能清楚的辨識語音。官方數據提到如果需要轉錄 1 小時的影片,只需要 2-3 分鐘的時間就能完成,在英文辨識部分有高達 99% 的準確率,其他語言則是高達 95 % 的辨識率,支持非常多種語言。

Cockatoo

Cockatoo 的特色功能

  • 語音轉文字:上傳音訊檔或影片檔,能將其中的語音迅速轉成文字。
  • 語音轉文字翻譯:能設定成不同語言,將語音直接翻譯成不同語言的文字。
上傳格式mp3、mpeg、mp4、wav、acc、mov
下載格式txt、pdf、docx、srt
支援語言中文、英文、日文等 90 種

Cockatoo 的費用方案

方案內容方案費用
免費版1. 免費兩次檔案上傳
2. 30 分鐘字幕
3. 1GB 檔案上傳
免費
Pro包含免費版及:
1. 移除浮水印
2. 每月 10000 分鐘字幕
3. 無限制檔案大小
4. 無限制上傳檔案大小
US$15 /月
Business包含 Pro 版及:
1. 無限分鐘字幕
2. 團隊協作功能
US$29 /月

使用 Cockatoo 的心得

Cockatoo 是專為語音轉文字而功能設計,除了語音轉文字沒有其他額外設計的功能,介面上只要上傳檔案,選擇自己想要轉換的語言,就能進行轉換。

轉換的速度真的非常快,上傳 16 分鐘的影片,大概需要轉換的時間只花了 10 秒就能完成

轉換後的中文字會呈現簡體和繁體夾雜的狀況,沒有標點符號,要自己再加入修改。雖然有時間標記,不過區間有點大,六分鐘才標記一次,對於想要上字幕的人來說會有些不方便。

另外,如果要輸出檔案,免費版只能輸出 txt 檔,其他檔案需要升級才能輸出。

Buzz

Buzz 是一款桌面版語音轉文字軟體,是一個完全免費的服務,沒有上傳數量的限制,具備簡潔的外觀,支援 Windows 系統和 Mac 系統。

使用的模型是基於 Open AI Whisper 的技術,可選擇 Whisper、Faster Whisper、Hugging Face、Open AI Whisper 這四種辨識模型。

目前在有在 Mac App Store 上推出 Mac 的專屬版本,不過這就需要付費。付費版在 UI 介面和功能上都有更好的設計,可以體驗到更完整的功能。

Buzz

Buzz 的特色功能

  • 即時錄音功能:將即時的錄音檔案轉換成文字。
  • 語音轉文字功能:將音訊檔轉換為文字,提供清晰的時間戳記。
  • 影片轉文字功能:將影片檔上傳後,能將影片內容轉換為文字。
上傳格式mp3、wav、m4a、mp4、webm、ogm、mov
下載格式txt、srt、vtt
支援語言中文、英文、日文等 90 種

Buzz 的費用方案

方案限制方案費用
免費版Windows 和 Mac 皆能使用免費
Mac 版僅能在 Mac 上使用US$9.99 (NT$300)

Buzz 的使用心得

Buzz 直接到 github 裡下載就能使用,Windows 或 Mac 系統有相對應的開源版本,不過實測在 Mac 電腦上會被偵測為惡意軟體,需要到隱私權裡設定才能打開。所以這也是 Buzz 為什麼要上架到 Mac App Store 的原因,這樣就不會被電腦視為不信任的軟體。

直接把檔案拖拉到 Buzz 的小視窗後,點選自己想要的模型、模型大小、語言就能進行轉換,過程中會顯示轉換的進度,結束會顯示總共轉換的時間。

轉換的速度不算慢,16 分鐘的影片大約 2-3 分鐘能夠完成,只不過轉換時會消耗電腦資源。

因為是開源的軟體,無限制的上傳檔案都沒關係,而檔案也存取在電腦系統裡,對於上傳雲端有疑慮的人,可以考慮這款軟體。

常見語音轉文字應用場景

AI 語音轉文字線上工具可以準確快速地將音檔、影片轉文字,很適合用來製作筆記、逐字稿、字幕或會議記錄等,因此在不同的使用場景都會有不同的應用情形,以下是常見的錄音轉文字使用場景:

  • 會議記錄:在工作中常會需要做會議記錄,透過語音轉文字功能,能有效率的紀錄會議內容,並完整的記錄下來會議中所有發言的細節,存檔起來方便與會議內容相關者在會後查閱。
  • 訪談紀錄:在訪談之中,記錄受訪者的回答供採訪者做後續的整理和分析,經由語音轉文字的技術,不用重複的聽取錄音檔擷取重點,透過輸出的文字即可彙整採訪的精華。
  • 語音助手:不管是在 iOS 系統還是 Android 系統,手機上都有像是 Siri、Google 助理替你執行任務,理解用戶的語音後,轉成文字並執行相對應的任務。
  • 字幕生成:字幕生成分成兩部分,一個是即時字幕,提供即時線上的會議、演講字幕生成;另一個則是幫助影片上字幕,像是 Youtube 影片、各式各樣的影片、Podcast 字幕生成。
  • 語音搜尋:使用者除了透過文字做網路的搜尋外,也能使用語音進行網路上的搜索,只要使用行動裝置的語音搜索功能,就能快速搜尋資訊,讓搜索的方便性提高。
  • 學習記錄:在課堂、工作時若需要保存課堂上的內容,將課堂上的語音內容轉為文字,方便自己後續整理課堂筆記,也能作為後續的複習及資料保存。
  • 即時翻譯:許多錄音轉文字軟體內建不同種的語言類別,讓影片、電影能自動地將片中的語言轉成另外一種語言文字,作為自動翻譯的工具。
  • 文件製作:不管是在撰寫文件、Email 時,透過語音加快文件的製作,提高文件的輸入效率及準確性,節省了手動打字的時間。

隨著科技的進步以及 AI 應用越來越普及,越來越多相關的應用場景逐漸生成,甚至也有文字轉語音的服務出現,未來也將出現許多整合的應用領域。

結論:根據需求選擇適合的工具

語音轉文字的功能隨著 AI 的發展越來越普及,尤其 Open AI 推出的 Whisper 模型,讓許多軟體藉著這個功能開發出許多應用,也適用於多種語言。

一般來說語音轉文字上傳的檔案會分為三大類別,分別是音訊、即時錄音、影片,依據三個需求來選擇合適的軟體,通常會應用在以下場景:

網路創作工具相關文章

【手機版 表格資訊在下方】

綜合整理文

  • 〔螢幕錄影工具推薦〕

單項教學文

綜合整理文

單項教學文

綜合整理文

單項教學文

綜合整理文

  • 〔預約工具推薦〕

單項教學文

綜合整理文

單項教學文

[end]

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

文章目錄
返回頂端