画像処理とか機械学習とか

画像処理や機械学習関連の事について気まぐれで書いていきます。歩行者検出関係が多いと思います。ハリネズミもたまに出現します。

Deep Learningを用いた歩行者画像理解(CVPR 2015論文読み)

CVPR2015の論文紹介です。

Deep Learningを用いた歩行者画像理解の話で、歩行者と背景の二値分類ではなく、多数のクラス(帽子をかぶっている人、カバンを持っている人、電信柱、道路、木)などへ分類するタスクに挑戦しています。

論文へのリンクは以下から

CVPR 2015 Open Access Repository

 

 

  • 近年の歩行者検出とDeep Learningの関係

これについては、以前紹介した記事で説明している通りです。

hiro2o2.hatenablog.jp

 

  • 背景

以前までのDeep Modelsは歩行者検出を2クラス分類問題として扱っていました。しかし、それでは歩行者の多様性を十分に捉えることが出来ません。

f:id:hiro2o2:20160204221108p:plain

上の画像が歩行者で、下の画像が背景です。

このように、背景とはいえ人間が見ても分類が難しいようなサンプルが現実問題ではごろごろしている状況です。

そこで、歩行者の詳細な理解が必要であると言えます。

 

  •  本論文の提案手法

f:id:hiro2o2:20160204221523p:plain

一番左が以前までの2クラス識別器です。そして、真ん中は複数の識別器(前向きの人、後ろ向きの人・・・)を用いて、識別を行う手法です。

最後に右が本論文の提案手法で、歩行者の詳細な理解と、背景の理解も行う手法です。今までと違うところは、背景も多様な状態があるので、背景も多クラスとして扱うという部分です。

また、類似した属性を有するサンプルは、高次の特徴空間においてグループ化され、分離が可能になります。

 

  • 提案手法の流れ

f:id:hiro2o2:20160204221943p:plain

本論文では、使用するデータセットは既存のデータセット複数組み合わせて使うことで、学習データを集める手間を減らすことが出来ています。また、それらを一緒に使う場合に競合する部分をどう扱うかも提案していました。

 

ネットワークの構造は以下のようになっています。

ネットワークはimagenetなどの一般物体認識で用いられるAlexNetを参考にし、構造を決定しています。4つの畳み込み層と4つのmax-pooling層、そして2つの全結合層があります。

また、全結合層の最後の部分には、画像の輝度勾配を特徴にするHOG特徴量を計算し、k-meansにより100次元の特徴にしたものを併用して用います。

 

f:id:hiro2o2:20160204222310p:plain

 

 

  • 感想

 今回のネットワークはAlexNetを参考にしたネットワークであまりDeepでないにも関わらず、かなりの性能を上げている。これは、データセットをうまく扱う枠組みを導入している部分と、その大量のデータセットを用いて歩行者の理解と背景の理解の2つを行っている部分で、今までの手法と比較して歩行者の検出精度が改善しているものと考えられる。