非常に長い間、私のウェブを Siri または Alexa 用に完全にネイティブに変更し、両方が私の要求を送信しないように変更することは、おそらく極寒であると考えていました。収益化され、カスタムを達成したいときに完全にプログラム可能であり、新しい時間に利用可能な ML 開発で楽観的に、リクエストの処理に関してははるかにスマートになります。 私が繰り返し考えた最大のセグメントは、以前は正直に使用できなくなっていたスピーチを解決するように変更されましたが、ボイスは想像を絶するものであり、箱から出してすぐに予想を超えて機能するようです. ここに数日間の実験の停止結果があります。合計に達することはなく、貴重なこともありますが、論争を解決し、応答を生成し、それを支持するという閉ループの始まりです. 楽観的に言えば、誰かが極寒の何かを構築するための出発点として役立つかもしれません. マイクから mp3 を録音するのは慎重です。 このコードが*名誉ある*ものであるという主張はどこにもありません。これはすべてダクトテープのプロトタイプです。 今では、流行、有効性、または名誉ある感覚に関する美しい宝石やアドバイスではありません.
scipy.io.wavfile から sd としてサウンドデバイスをインポート pydub から書き込みをインポートimport AudioSegment fs=44100 # パターン価格秒=30 # 録音デバイスの長さ=sd.query_devices() recording_devices=> 0] for i, tool in enumerate(recording_devices): print(f”{i}. {tool[‘name’]}”) myrecording=sd.rec(int(seconds fs), samplerate=fs, channels=2) sd.wait() # 録音が完了するまで待つ write(‘output.wav’, fs, myrecording) # WAV ファイルとして割り当てる sound=AudioSegment.from_wav(“output.wav”) sound.export(“output.mp3″, format=”mp3”) # MP3に変換
OpenAI音声 https://github.com/openai/voice は論争をテキストの主張資料に転記する完璧な仕事であり、多くの言語をサポートしています。 これは、はるかに完璧で最も便利な実行ステップです.
import voice # マネキンをロードすると、いくつかの代替候補が表示されます # mannequin=voice.load_model("obscene") mannequin=voice.load_model("mountainous" ) # オーディオをロードし、30 秒検証するためにパディング/ニートします audio=voice.load_audio("output.mp3") audio=voice.pad_or_trim(audio) # log-Mel スペクトログラムを取得し、マネキンと同じツールにジョグします mel=voice.log_mel_spectrogram(audio).to(mannequin.tool) # 話し言葉を検出 _, probs=mannequin.detect_language(mel) print(f"Detected language: {max(probs, key=probs.get)}") #オーディオの代替提案をデコードする=voice.DecodingOptions() end result=voice.decode(mannequin, mel, alternativeSuggestion) # 既知のテキスト assert マテリアルを出力する print(end result.textual assert material)Transformers ライブラリは、さまざまな事前トレーニング済みアイテムをサポートしていますが、GPT2 は pr ではありませんこのように、箱から出してすぐに使える紛争ベースの完全なデジタルアシスタントであるというタスクに正確に対応します。 ここで達成されるのは、次に何を語ることができるかを予測することです。 これは非常に貴重ではありませんが、ここでの目標は、完成品を繰り返すことではなく、自分で配達することです。 正確な作業は、おそらくここでの決定、美しい調整、および入力と出力の高度なルーティングの作成です。 次のステップは、今のところ読者への発言として残しておきます。すべてここに。 「ライトをオンにします」というフレーズが出てきた場合に機能を実行するのと同じくらい簡単なことを1つ実行すると、正直に美しく機能します.
トランスフォーマーからトーチをインポート import GPT2Tokenizer, GPT2LMHeadModel # トランスフォーマーから import AutoTokenizer, AutoModelForCausalLM # トークナイザーとマネキンをロード tokenizer=GPT2Tokenizer.from_pretrained('gpt2') mannequin=GPT2LMHeadModel.from_pretrained( 'gpt2') # 古いステップで生成された入力テキスト assert マテリアルを準備します入力テキスト assert マテリアルが与えられたトークン #with torch.no_grad(): outputs=mannequin.generate(input_ids, max_length=400, do_sample=Correct, top_k=50, top_p=0.95, num_return_sequences=3 ) 予測=outputs[0] 最終結果=tokenizer.decode(outputs[0], skip_special_tokens=Correct) print(最終結果)
最終的な外見であるスピーチからテキストへの主張材料ステップに対して、このテキストからスピーチへの罰金は山ほどではありません。 このためのライブラリとアイテムの代替提案がたくさんあります。 繰り返しになりますが、ここでの目標は、美しい宝石ではなく、機能するものを1つ持つことです.
espnet2.bin.tts_inference からサウンドファイルをインポートします。 "espnet/kan-bayashi_ljspeech_vits") speech=mannequin(最終結果)["wav"] soundfile.write("out.wav", speech.numpy(), mannequin.fs, "PCM_16")私は、依存関係のホストに Miniconda を使用して、Dwelling ウィンドウで最近の NVIDIA RTX グラフィックス カードをすべて発生させました。
https://scientific doctors.conda.io/en/ most up-to-date/miniconda.html あなたの設定も変化するだけです。 これは、あなたの環境を改善するための完全な電子書籍ではありませんが、質問がある場合は、私が努力して返信することはめったにありません.
conda は pytorch torchaudio トランスフォーマーをセットアップします pytorch-cuda=11.7 -c pytorch -c nvidia
レスポンスの生成、チューニング、コーチング、およびアウトプットの活用のための多様な項目を試してください。正直に言うよりも刺激的なことを達成してください
より良いテキスト アサート マテリアルをスピーチ ライブラリまたはアイテムに追加します
安価なハードウェアでの推論を最適化して、最も便利なハードウェアを使用する準備が整うまでの距離を比較します
聞いて返信するための正確なツールを作成します