リアルタイムBGMシステム(13)

リアルタイムBGMシステムのアプリ「DetectorOSC」を公開したが、物体検出モデルについては、標準的なYOLOv8モデルをCoreMLに変換して使用していた。そのため、パソコン、テレビ、人、ボトル、コップなどの一般的な物体は検出できるものの、自転車のライド風景でよく見られる信号、街灯、木、建物などのオブジェクトは検出されない。このため、ライド映像や参考元となったThe Chemical Brothers – Star Guitarの映像を「DetectorOSC」で処理しても、人、電車、車以外の物体がほとんど検出されないという課題があった。この状況を改善するため、ライド専用のモデルを作成することにした。

開発ツールとしてRoboflowを使用した。Roboflowはブラウザ上でデータセットの作成、アノテーション、データ拡張、モデルの学習、デプロイ、そして推論までの一連の作業をすべて完結できる点が魅力である。

学習データとして、連載当初から使用している約30秒のライド動画を活用した。

参考サイトを見ながら、私がオブジェクトとして認識したい物体にバウンディングボックスでアノテーションを行なった。認識させるオブジェクトの選定には、The Chemical Brothers – Star Guitarでミシェル・ゴンドリーが採用したオブジェクトを参考にしている。

Star Guitarでは、おそらく以下のような対応関係があると推測している

・キックドラム → 家、車

・スネア、クラップ → 電柱、信号

・ボーカル → 人

・ベース → 給水塔

・シンセfill → 列車のすれ違い

・EQ変化 → 昼夜の切り替え

全てではないが、これらを参考に作成をしている。オリジナルと唯一異なる点は、植物をオブジェクトとして学習させたことである。以下は完全に筆者の解釈であるが、ミシェル・ゴンドリーは自然に生えている木や植物をオブジェクトとして認識せず、人工物のみでオブジェクトを構築していたと思われる。しかし、現代の都市の街路樹は自然の象徴のように見えるが、実際には自然物である木を人間が意図的に配置したものであるため、私はこれらもオブジェクトとして学習させることにした。

以下の比較動画は、今回作成したカスタムモデルと標準的なYOLOv8モデルの検出結果を比較したものである。まだ学習量が不足しており不安定な部分もあるが、標準モデルと比較して、認識してほしい場所でより適切に物体を検出できている印象がある。

次回では、検出したオブジェクトと適切なサウンドの選定を行う予定である。

公開が遅れて申し訳ない

Leave a Reply

メールアドレスが公開されることはありません。 が付いている欄は必須項目です