文字起こし、たいへん。ライターの端くれ(のなかの端くれ)にとって、文字起こしさえ楽にできたら記事執筆捗るんだけどなぁ、なんて甘え。

と思っていたら、Amazonのクラウドサービス"AWS"の音声文字起こしサービス"Amazon Transcribe"が日本語に対応したとのことで、早速使ってみることにしました。機械がやってくれるなら楽ちんじゃんね。

では文字起こしまでの流れを全部、画像付で解説していきます。

まず、AWSに登録しよう

下記手順は、AWSサービスに登録していない人向けです。登録済みの人は次の見出しまで読み飛ばしてください。

Amazon Transcribeのサイトを開こう

googleで"Amazon Transcribe"と検索。すると上記ページリンクがトップに表示されるのでクリック。表示されたら。【無料サインアップ】を押下しましょう。

AWSアカウントを作成しよう

Eメールアドレス、パスワード、AWSアカウント名を入力後、【続行】を押下してください。

アカウントの種類は、個人利用であれば”パーソナル”で大丈夫です。もろもろ入力したら、【アカウントを作成して続行】を押下しましょう。

クレジットカード情報を登録してください。Transcribeは60 分で1.44 USDかかります。登録後12ヶ月間は、毎月60分まで無料です。

⚠注意⚠

ジャックス系のカードで跳ねられました。セキュリティーによるロックで跳ねられることがあるみたいです。(後日ジャックスから電話がかかってきました)
もし駄目な場合は別のカードを使うか、Amazon&カード会社に問い合わせてみてください。

本人確認用の入力画面です。必要事項を入力後、【SMSを送信する】を押下しましょう。

認証コードを電話で受け取ったら、入力、【コードの検証】を押下してください。

⚠注意⚠

登録手順によっては、iPhone上での4桁コードの入力が求められることがあります。私の場合、正しく入力しても反応せず、登録できませんでした。iPhone&Macの組み合わせで登録を進めている方は、Macで着信を受け取り、Mac上から4桁コードを入力するとうまくいくと思います。(私はそうしました)

本人確認が終了したら、【続行】を押下しましょう。

サポートプランは”ベーシックプラン”で大丈夫だと思います。【続行】を押下しましょう。

AWSサービスを使ってみよう

S3(ストレージサービス)に音声ファイルをUPしよう

AWSに登録が終わったので、まずはAWSのストレージに録音ファイルをアップロードします。上記ページが表示されているはずなので、【コンソールにサインイン】を押下しましょう。

先程登録した、AWSアカウントのメールアドレスとパスワードを入力してください。

ログインしたら、"サービスを検索する"に、"Amazon S3"と入力。候補が表示されるので、押下してください。

Amazon S3のサービス画面が表示されます。【今すぐ始める】を押下してください。

"バケット名"は、任意の英数字文字列の入力します。データを保存する箱として、ふさわしい名前の入力してください。【次へ】を押下しましょう。

プロパティはいじらず、【次へ】を押下しましょう。

パブリックアクセスの必要はないので、デフォルト設定のまま【次へ】を押下してください。

確認画面が表示されるので、【次へ】を押下しましょう。

バケットが作成されたので、バケットが表示されている行を押下してください。

バケットには何も入っていない状態です。【アップロード】を押下しましょう。

【ファイルを追加】を押下したら、表示されるエクスプローラーからファイルを選択しましょう。

ファイルを選択したら、【次へ】を押下します。

パブリックアクセスの必要はありません。【次へ】を押下しましょう

デフォルト設定の"スタンダード"のまま、【次へ】を押下します。

選択したファイルが正しいことを確認し、【アップロード】を押下しましょう。

ファイルがアップロードされていれば、ファイルが表示されているはずです。表示された行を押下しましょう。

概要欄に、”オブジェクトURL”があるはずです。そのURLをメモ帳等にコピーしてください。(後で使います)

Amazon Transcribeを使って"文字起こし"しよう

さて、音声ファイルのアップロードまで終わったので、ここから文字起こしサービス、"Amazon Transcribe"を使っていきます。画面左上の”サービス”をクリックし、"Amazon Transcribe"を見つけ、押下してください。(検索して探しても構いません)

画面が表示されたら、"Launch Amazon Transcribe"を押下しましょう。

"Real-Time Transcription"が表示されますが、アップロードした音声ファイルの文字起こしをするので、左側にある"Transcription jobs"の文字を押下してください。

"Create jobs"を押下します。

それぞれの欄に入力してください。"Input file location on S3"の欄には、さきほどコピーしたURLを貼り付けます。

Audio identification欄についてはAmazon公式で下記のように説明されています。

[Channel identification (チャネル識別)] を有効にすると、別々のチャネルで記録された各話者の音声を処理して、チャネルラベルが追加された単一のスクリプトを生成することができます。

[Speaker identification (話者の識別)] を有効にすると、Amazon Transcribe では話者の変更を認識して、文字起こしテキストに適切な属性を設定できます。

とりあえず今回は"Speaker identification"で進めてみした。

"Maximum alternatives"は、話者の人数設定が可能です。今回はインタビュー音声を文字起こししたので、インタビュイーとインタビュアーの2人、"2"に設定しました。

設定が終わったら"Create"を押下しましょう。

画面が切り替わり、処理画面が表示されます。"in progress"になっている時は、処理中です。

時間を経た後、ページを再表示してください。上記のように"Complete"に文字が切り替わります。矢印で示したファイル名を押下してください。

"Download full transcript"を押下すると、文字起こし結果であるjsonファイルをダウンロードできます。FireFox等のブラウザで開くことが可能です。

翻訳精度はまあまあ

録音環境にもよるのでしょうが、翻訳精度はまあまあです。長文ひらがなをそのまま漢字変換しても文意の通りに変換できないのと同じです。そのまま使えるレベルではなく、書き起こした後、それを再編集する必要はあります。英語じゃないからね。。

音声を聞きながら再編集する際は、フットペダルを使うのがオススメです。

再生、停止、巻き戻しをそれぞれ割り当てておくと、キーボードから手を離さずに音声ファイルを操作できますよん。

ではでは!

Twitterでフォローしよう

おすすめの記事