目次
- パートナーの朗読の書き起こし
- 声の変化が少ないラジオ放送の書き起こし
- ウィンストン・チャーチルのスピーチの書き起こし 1. OpenAI API キーの取得 2. OpenAI モジュールのセットアップ
3. 文字起こしの作成 結論 - 声の変化が少ないラジオ放送の書き起こし
- はじめに
- TLDR; パターン結果
序章
2018年に
というタイトルのブログを書きました。 Python と Google Cloud Speech API を使用して、Speech to Textual の罵詈雑言を書き起こします。 API が認定した最大 60 秒のオーディオ クリップのおかげで、この任務は非常に高度なものでした。 これを回避するには、音声を小さな記録データに分解し、それらを転記し、それらを 1 つのテキストの宣誓資料ファイルに結合する必要がありました (直接の内容が保持されることなどを保証します)。 Google は API をアセンブルに置き換えましたより長いレコードデータ。 ハッカソンで効果的に機能したのは奇妙です(ただし、元の投稿を更新したことはありません) 2018 年の Google Cloud API と 2023 年の Instruct の違い 声のバリエーションが少ないラジオ放送を書き起こす ある読者から、 から録音された次の音声ファイル (2018 年に abet) が送られてきました) 95.5スポーツハブラジオ(2018年1月26日放送)、タッチャー&リッチモーニングショーコンシール .
この時点で、 OpenAIはWisper APIのopenを導入し、2018年からの成果として評価することにしました Expose: 2018 年の私の実装は以前は不適切でした。 抱きしめましょうか、私は沈黙のポイントを見つける代わりに、時間までにトリッキーな甘やかしをしました。 Google は、5 年前にこの驚くべきノウハウを持っていることで、何百ものクレジット スコアを獲得しています。 この主張は、Google と OpenAI を比較するものではありません。 この投稿は、ランダムな開発者が 2023 年と 2018 年に数行のコードで完成したデータを収集できる能力を比較したものです
TLDR;
私の最初の実装は、楽しい品質に効果的でしたオーディオ レコードはネイティブ スピーカーによって読み取られたデータですが、ウィンストン チャーチルのスピーチの不快な品質の録音に苦労しました。 OpenAI は 3 つのレコードデータすべてで優れており、Python の約 1 行が最も有利でした。
パターン結果
パートナーの朗読の書き起こし 2018年、妻に昔のように声に出して読んでほしいとお願いしました。 Siri に約 1.5 分間口述します。 彼女は地元の英語を話す人で、以前は iPhone 6s で録音されていました (バックグラウンドで私たちの若い人々が参加しています)。
命令は2023年に終了します