この記事には広告を含む場合があります。
記事内で紹介する商品を購入することで、当サイトに売り上げの一部が還元されることがあります。
数年前までは議事録やインタビューの文字起こしなどを無料のツールでおこなうには制限が多く、プロ用の高額なアプリを使っても精度の問題などがありました。
しかし、AI文字起こしによって手軽に高精度な文字起こしができるようになり、議事録やインタビューだけでなく動画のテロップ作成などができるようになりました。
今回は、さまざまな場面で利用できるAI文字起こしツールのGladia(グラディア)を紹介していきます。
- 高精度の音声認識 ノイズなどが少ないクリアな環境で高精度な文字起こしができます。
- 各種ソースから文字起こし 動画や音声ファイル・URL(YouTubeなど)から文字起こしができます。
- リアルタイム文字起こし リアルタイムでの音声認識と文字起こしができます。
- 不要な部分のカット 「ええ」「あの」などの不要な言葉を自動的に除去します。
- 話者分離 複数の話者を自動的に検出して、各話者の発言を区別して文字起こしができます。
- 多言語対応 複数の言語に対応していて翻訳機能(99言語)も提供しています。
- 無料の文字起こし 月に10時間まで無料で利用することができます。10時間以降は従量制の有料プランも利用可能です。
Gladiaは、さまざな場面でAIを活用した文字起こしが可能です。
それでは具体的な使い方を紹介していきます。

Gladiaはフランスの企業のWebアプリになっていますので、画面の表示は英語または一部フランス語になっています。日本語に簡易翻訳しながら見ていきます。
画面右上の「Sign up」または「Try for free」をクリックしてアカウント登録画面を表示します。
Gladia公式Webサイト
https://www.gladia.io/

アカウント登録はGoogleアカウントから登録できます。
メールとパスワードから登録する場合は「I accept terms of use and privacy policy(利用規約とプライバシーポリシーに同意します)」を確認してから「Create an account」でアカウントを作成ボタンでアカウントを作成します。

その後に任意の簡単なアンケートが表示されます。こちらも日本語の翻訳した画面を表示しておきます。

画面左のPlayground(遊び場)をクリックします。
- YouTube・Tiktok・FacebookなどのURLから文字起こしをします。
- 動画ファイル(mp4など)音声ファイル(mp3など)をアップロードして文字起こしをします。
- マイクを使ってリアルタイムで文字起こしをします。
選択したら「Next」で次へボタンをクリックします。

- Transcribe ボタンをクリックして文字起こし作業を開始します。
- Audio Language 音声の言語を指定するか自動検出をおこないます。
- Enable code switching 単一の音声から複数の言語を自動検出して文字起こしをします。
- Diarization 複数の話者を検出して話者1・話者2などとテキストを話者で区分けます。
- Translate transcription 音声に関係なく、指定の言語で文字起こしをします。
例えば複数の人の会話や複数の日本語と英語の会話、指定の言語での翻訳などを細かく設定することができます。
60分以上の音声ファイルなどはファイルを分割して下さい。
文字起こしが途中で停止する場合がありますので注意して下さい。

Live transcription(ライブトランスクリプション)の設定では、使用するマイクを設定して「Start recording」から開始することができます。
Hide parameters(パラメーターを表示)をクリックすると、言語の設定やモデル(早い・正確)・韻律(笑い声や音楽)も含めるかなど詳細な設定をすることができます。
こちらは簡易に翻訳画面を参照して下さい。

今回は私のYouTube動画のURLで文字起こしをしてみます。
約10分ほどの動画が2分ほどで文字起こしされました。
文字起こしされたテキストをクリックすると、タイムスタンプで何分何秒のテキストが分かるようになっています。
画面右には①コピーボタンと右上には②「Export(出力)」があります。
出力には、一般的なプレーンテキストの他に動画の字幕に便利なSRTやVTT、APIに便利なJSONなどが可能です。

SRTとVTTは動画編集ソフトで字幕を入れる際に使用される便利なファイル形式です。
テキストに字幕の順番・字幕が表示される開始と終了時間と字幕の内容が入った定型フォーマットです。
2つのファイルは、Gladiaの出力ではSRTファイルとVTTファイルでは表記に違いはありません。
しかし、SRTとVTTでは、表記(フォーマット)に違いが生じる場合があり、最大の違いはVTTファイル形式はテキストの書式設定と字幕配置の情報を追加可能で、利用場面に応じてファイル形式を選択して下さい。

Free(無料プラン)では1ヶ月10時間まで利用でき、ホーム画面などで残りの利用可能時間を確認できるようになっています。
Pro(有料プラン)では1時間0.612ドル(約92円)、リアルタイム文字起こし1時間0.144ドル(約22円)となっています。
その他にEntreprise(法人向けのプラン)もあります。
現在AIを使った文字起こしの方法は多く存在しますが、Gladiaは画面が日本語表示でない以外は精度も高い高性能なWebアプリです。
また、APIでGladiaをアプリなどに組み込むこともできますので、普段利用している画像編集アプリなどにも知らぬ間に組み込まれて利用してるかもしれません。