リアルタイムBGMシステム(14)

前回の記事でRoboflowを使った開発について記述したが、データセット作成で大きな壁にぶつかっている。Roboflowで作るデータセットは、画像から「車・歩行者・信号機」といった特定の物体を検出するためのものである。しかし、AIに「これが車です」「これが歩行者です」と教えるには、人間が膨大な量の画像にラベル付けをする必要がある。もちろん既存のデータセットもあるが、自転車ライド中の風景によく出てくる物体については、まだ十分なデータが存在しない。さらに、自転車は世界中どこでも走れるため、ライド中に何が映るかは予測不可能である。こうした多様な状況すべてをカバーするデータセットを作ることは、現実的ではない。

過去の自転車ライド映像を用いて、都市環境を認識する際の思考プロセスを分析してみた。その結果、物体の厳密な分類よりも、過去の経験に基づく予測的認知が主な役割を果たしているのではないかと考えている。電柱、樹木、標識等は認識するが、詳細な処理は行わず、むしろ既存の知識からの推定に依存していると思われる。この現象は、変化盲などの研究と類似しているかもしれない。モーフィング画像を用いた実験で被験者が変化を検出できない現象は、人間の視覚システムが完全な精度よりも効率性を重視していることを示唆している。

人間でさえ完璧な精度で認識をせず、効率を重視した知覚(都市環境の大まかな理解)をしていると考えられる。そのため、従来の物体検出アプローチが適していない可能性が出てきた。

このような理由から、一度Roboflowを使った開発を中断し、別のアプローチを探してみることにした。

参考↓

https://www.psy.ritsumei.ac.jp/akitaoka/blueeyegirl.html

https://www.psy.ritsumei.ac.jp/akitaoka/blueeyegirl.html

Leave a Reply

メールアドレスが公開されることはありません。 が付いている欄は必須項目です