OpenAI のジュークボックスとは何ですか?それで何ができますか?

OpenAI のジュークボックスとは何ですか?それで何ができますか?
あなたのような読者は、MUO のサポートを支援します。当サイトのリンクを使用して購入すると、アフィリエイト手数料が発生する場合があります。 続きを読む。

ジェネレーティブ AI は、クリエイティブ業界のますます多くの分野にゆっくりと広がっています。それは AI アート ジェネレーターから始まり、AI が生成するテキストを使った文章に広がりました。これで、そのリストに音楽を追加できます。





近い将来、ゼロから生み出された AI 生成の音楽が現実のものとなるでしょう。実際、OpenAI の音楽作成 AI モデルである Jukebox では、すでにその可能性があります。使いやすいアプリケーションではまだ利用できず、まだ十分に良い音ではありませんが、アルゴリズムの骨はそこにあります.





今日のメイク動画 スクロールしてコンテンツを続ける

OpenAI の Jukebox について知っておくべきことと、それを使ってできることは次のとおりです。





Jukebox: 音楽を生のオーディオとして生成する AI

ジュークボックスは、ジャンル、アーティスト、または歌詞などの入力を与えると、生のオーディオ形式で音楽を生成できるニューラル ネットワークです。 2020 年 4 月に、Dall-E という名前の AI アート ジェネレーターと ChatGPT という名前の AI チャットボットをもたらした OpenAI によってリリースされました。

世界中に急速に広まり、AI をニュースやメディアの熱狂的な話題にした Dall-E とは異なり、Jukebox はリリース後、幅広い関心を集めませんでした。その理由の 1 つは、ユーザー フレンドリーな Web アプリケーションがないことです。少なくとも、まだそうではありません。



コードは OpenAI ウェブサイト 、エンコードとデコードのプロセスがどのように機能するかについての詳細な説明とともに。

もう 1 つの考えられる理由は、膨大な時間と計算能力が必要なことです。参考までに、わずか 1 分間のオーディオのレンダリングに 9 時間かかることがあります。コード形式でモデルを探索する意欲と、AI モデルが音楽を生成するために何ができるかを確認したい場合は、多くの忍耐が必要です。





または、スキップして ジュークボックス サンプル エクスプローラー .これは、OpenAI が Ella Fitzgerald または 2Pac に似た曲を生成する実験を投稿した場所です。

どの食品配達が最も支払うか
  AI によって生成されたサンプルのリストを示す Jukebox サンプル エクスプローラーのスクリーンショット

明確にするために、 その他の AI 音楽ツール 曲の生成を支援するために存在しますが、最初からオーディオを生成するわけではありません。代わりに、事前に録音されたサンプルを組み合わせるか、デジタル シンセサイザーを通過する MIDI 情報を作成します。





ジュークボックスのサウンドは?

Jukebox の結果は認識できますが、奇妙です。曲の形や属しているジャンルを理解するのは難しくありませんが、結果の品質は、最初に録音された音楽を聴いているかのように聞こえます。つまり、ノイズが多くこもっています。

言うまでもなく、Jukebox は、優れたヘッドフォンから聞こえるような忠実度の高いサウンドを生成しません。これは、適切な周波数に完全にチューニングされていないラジオ局から音楽を聞くことに似ています。一部の曲は再演であり、他の曲は既存の曲の続きです。斬新なアーティストやスタイル、未発表の歌詞のカテゴリもあります。

サウンドの品質にもかかわらず、初期の実験者は、Jukebox によって作成された音楽の不気味な美しさと奇妙な性質に畏敬の念を抱いていると述べています。 「未知の文化を持つ未知の国に関するドキュメントのサウンドトラックのように」と書いています。 ミディアムのメルツメンチ .

現在のところ、その結果は、人間が作成した音楽をコピーしたり、置き換えたりするにはほど遠いものですが、テクノロジーは急速に進歩しており、ジュークボックスのようなモデルでもこれらの偉業を成し遂げることができるようになるでしょう.

OpenAI のジュークボックスのトレーニング方法

Jukebox がこれまでにない音楽を作成できる理由の 1 つは、実際のミュージシャンの音楽に基づいてトレーニングされていることです。 OpenAI は次のように説明しています。

「このモデルをトレーニングするために、Web をクロールして 120 万曲 (うち 60 万曲は英語) の新しいデータセットをキュレートし、LyricWiki の対応する歌詞とメタデータと組み合わせました。」

データのクロールは、AI モデルが画像、テキスト、またはこの場合は音楽を生成する際に学習し、決定を下すために使用できる一連のデータを作成するために、一部の AI 企業によって使用される手法です。そもそもデータの所有者から同意が得られないため、クロールによって作成されたデータセットは物議を醸しています。ただし、一部のプラットフォームでは、 データセットからコンテンツをオプトアウトする .

120 万曲は多いと思うかもしれませんが、比較すると、Dall-E 2 はインターネットからの何億もの画像とテキストのペアでトレーニングされています。それを念頭に置いて、ジュークボックスには限界があります。

その比較的小さなトレーニング プールでは、人間の音楽の豊かさと多様性を捉えることができません。 OpenAI は、大部分が西洋音楽で訓練されていると述べており、生成できる音楽に明確な偏りがあることを示しています。

ジュークボックスでできること

では、その制限を念頭に置いて、Jukebox で何ができるでしょうか?その質問に答える簡単な方法は、Jukebox でできないことを言うことです。

1 分間の音楽をレンダリングするのに半日近くかかるため、音楽制作にはあまり役に立ちません。少なくとも、伝統的な意味ではありません。通常、ミュージシャンは楽器をいじくり回す (即興演奏) ことと、曲の構成を計画することの間を行ったり来たりします。 Jukebox では、同じような実験はできません。

この段階でジュークボックスで曲を作るのは簡単ではないので、音楽サンプルを生成する斬新な方法と考えることができます。気に入ったオーディオを生成したら、通常どおりクリエイティブ プロジェクトで使用できます。

下のビデオは、誰かが Jukebox で作成された音楽を使用して短いモンタージュ ビデオを強調した結果です。

人工知能には、創造的なアプリケーション以外にも幅広いアプリケーションがあり、それが価値がある理由です AI とは何か、それがもたらす危険性を理解する .

AI 音楽に感動しましたか?

Jukebox によって生成された音楽は、簡単には却下できません。その奇妙さと不気味さ、人間の機械のような品質にもかかわらず、最終的には音楽のように聞こえます。音楽業界は AI ツールを使用してしばらく経ちましたが、生のオーディオとして音楽を生成する可能性は、今になってようやく実現したものです。

しかし、ジュークボックスのようなモデルは存在しますが、まだ商用ツールにパッケージ化されておらず、人間のミュージシャンの能力にはまだ達していません.