この方法でできること

Zoomの会議中に、自分を含む参加メンバの音声(英語)を自動的に・リアルタイムで文字起こしできる(相手が何を言っているか聞き取る助けになる)

Youtubeなどの動画を再生しながら、リアルタイムに(別ウィンドウだが)字幕をつけることができる(これはChromeの機能などでも同等の機能があるので、わざわざこれを使用する必要はない)

自動文字起こしツールの例

英語のみ

今後日本語もサポートされるかも

日本語に対応

試した限り、使用に耐えられる精度での文字起こしはできなかった。

以下では、Otter.aiを使用する。

設定手順

基本的な設定はこちらの記事によるもの。Windowsの場合は別の設定方法になるので、ググるべし。 Otter.ai, Zoom自身の連携機能でも同様のことをよりスマートにできるが、有料&承認必要なので、代替案としてこちらの方法が使える。

  1. 以下のツール(どれか1つ)をインストール(私はSoundflowerではノイズしか出なかったのでiShowUを利用)

  2. 「Audio MIDI 設定」アプリを開き(アプリ→ユーティリティの中にあるよう)、「Multi-Output Device」を作成する

    1. 「Audio MIDI 設定」アプリの左下の+ボタンをクリック
    2. 「Create Multi-Output Device」をクリック
    3. 1.のツールと、自分がいつも使用している「再生機器」(スピーカー)を選択 → 私の場合は以下のようにZoom時に使用するヘッドセット(Jabra Talk 45)と1.のツールの2つを選択したDeviceを作成した

    Youtubeなどの動画コンテンツの書き起こしをしたい場合は、ここまでの設定で単純に動画を再生する(Mac上で音声を再生する)だけでOK

  3. 同じく「Audio MIDI 設定」で、インプット用のAggregate Degviceを作成する

    1. 「Audio MIDI 設定」アプリの左下の+ボタンをクリック
    2. 「Create Aggregate Device」をクリック
    3. 1.のツールと、自分がいつも使用している「再生機器」(マイク(Inのもの))を選択 → 私の場合は以下のようにZoom時に使用するヘッドセット(Jabra Talk 45)と1.のツールの2つを選択したDeviceを作成した
  4. サウンドの設定画面で出力と入力を設定

    1. 出力では、2.で作成したMulti-Output Deviceを選択
    2. 入力では、3.で作成したMulti-Input Deviceを選択
  5. Zoomを開始

  6. Zoomの音声設定で、マイクは(Same as System、もしくは1.でインストールしたツールを選ばずに)自分の使用したい機器、スピーカーはSame as System(もしくはMulti-Output Device)を選択