新しいものづくりがわかるメディア

RSS


Raspberry PiとAIを活用——物体検出技術と音声ナビで視覚障害者の「目」となる支援ツールを開発

AIによる物体検出で視覚に障害がある人を支援するツールの開発プロジェクトをRaspberry Pi公式ブログが紹介した。

このツールは眼鏡型のウェアラブルナビゲーションデバイスで、小型カメラセンサーを使用して視覚情報を取得し、Raspberry Pi 1 Model B+に送信して処理する。カメラセンサーが検出した物体について、ユーザーは音声で説明を聞くことができる。

開発中のツールでは、カメラセンサーやデジタルマイク、XtensaプロセッサーEPS32-S3R8 SoC、8MBフラッシュメモリー、microSDカードスロットなどを搭載した「XIAO ESP32S3 Sense」モジュールを採用している。

Third Eye assistive vision

ESP32S3 Senseモジュールを眼鏡の中央部に搭載し、USB-CケーブルでモジュールとRaspberry Piを接続している。物体を検出して識別するとPythonのテキスト読み上げライブラリーを参照し、物体の名前を読み上げる仕組みだ。カメラなどから収集した視覚情報データをクラウドに送信せず、ローカルで処理することで遅延が少なく高速なリアルタイム応答が可能になる。

また、テキスト音声読み上げには、英エディンバラ大学の音声技術研究センター(CSTR:The Centre for Speech Technology Research)が開発した音声合成システム「Festival Speech Synthesis System」を使用している。

Third Eye assistive vision

さらに、エッジデバイスにおける機械学習向け開発プラットフォームである「Edge Impulse」のWebベースツール「Edge Impulse Studio」を使用して物体検出モデルのトレーニングを実施している。このツールはデータセットの構築に適しているが、今回の目的に合ったデータセットを見つけられなかったため、ゼロからデータセットを構築する必要があったとのことだ。

開発者は、まず椅子やテーブル、ベッドなど6つの物体検出に焦点を当て、トレーニング用のデータとして188枚の画像を使用しシンプルなデータセットを構築した。

物体の画像が多ければ多いほど精度は高まるが、良い結果を得るには独自の大規模データセットが必要となる。現在はより大きなデータセットを作成して物体検出モデルをモジュールにアップロードし、精度の向上を図っている。将来的に大規模な機械学習モデルが必要となる場合を考慮し、ESP32S3 Senseモジュールではなく、Raspberry Piにシステム全体を実装する予定とのことだ。

関連情報

おすすめ記事

 

コメント

ニュース

編集部のおすすめ

連載・シリーズ

注目のキーワード

もっと見る