グローリー株式会社は、自社で開発したAIの画像認識技術を監視カメラに搭載し、2018年10月に行った交通量調査で99%の検知制度を発揮しました。
すでに画像認識やディープラーニングなどのシステムは技術発展が進み、様々な分野で実用化が行われています。
(参考:日刊工業新聞ニュースイッチ、2019/3/14、姿勢も検知する画像認識技術、通行量調査の精度は99%以上)
AIの画像認識の特徴や仕組みをお伝えするとともに、すでに実用化が進んでいる3つの事例を紹介していきます。
画像認識の実力
画像認識とは、画像(や動画など)に写っている被写体が何ものであるか、ということを判別する方法です。
たとえば、画像にネコが大きく映っていれば、私たち人間は瞬時にそれがネコであることが分かります。その人間の認識と同じように、機械にも自動的に「正しい認識」を行ってもらおうというわけです。
画像認識の手法には、大きく分けて以下の3つがあります。
1.分類
画像認識の「分類」とは、特定の画像がどの分野(カテゴリー)に該当するかを機械が半出して、画像を認識する方法です。画像認識のなかでは、もっとも一般的で様々な場面で活用されています。
画像認識の分類を行う場合、以下のような手順を踏むことが多いです。
1.特定の画像情報をインプット(入力)する
2.機械がその画像をクラスごとに分け、分類する前に整理を行う
3.クラス情報をもとに、各カテゴリーに分類していく
この「クラス」という言葉は「カテゴリー」と似ていますが、少しだけ異なる点があります。
とても簡単な言い方で差を表すとすると、クラスは大分類、カテゴリーは小分類です。
たとえば、お仕事などでパソコンに溜まったデータが、膨大な量になってしまうこともありますよね。
そのとき、データを分かりやすく、フォルダなどに分類して整理する方も多いでしょう。しかし、データ量が多くなってくると、一つの分類だけでは不足することがありませんか?
仮に、そのデータが発注用資料なのであれば、大分類に「発注用資料」ときて、その下に「取引先」などの小分類を作りますよね。
すると、後で特定の資料データを探すときに、大分類から小分類をたどっていくと、とてもスムーズに目的のものが見つかります。
画像認識の分類も、上記と同じようにまずクラス(大分類)を参照し、その後カテゴリー(小分類)と分けていくことで、最終的に私たちが求める画像として判断(出力)してくれるわけです。
具体例を挙げると、ネコの画像をAIが認識し、まずは「動物」というクラスに分類を行います。その後、動物のなかでもさらに「ネコ」というカテゴリー情報に分けるということになります。ちなみに、このクラスやカテゴリーについては、人間が自由に作成することが可能です。
2.領域分割
画像認識では、「領域分割」という手法も使われます。先ほどの「分類」がはっきりとした特定の画像認識を行う(ネコなどピンポイントの対象物)のに対して、この「領域分割」は、もう少しぼやっとした対象物を見分ける方法です。
たとえば、特定の画像に写っている対象物の形を大まかに分析することで、「車」や「人物」ということを認識することができます。
ほかにも、人物画像から洋服の色や形状を読み取って、「男」と「女」のどちらかを判別することも可能です。
このように、領域分割は画像内の色や形、模様などの領域に分け、そこから特定の対象物を認識します。
3.マッチング
画像認識のマッチングは、被写体の同一性を確認するときに利用する手法です。
まったく同じ被写体でも、写真を撮る角度や天候、明るさなどの条件が異なれば、見た目に少し差が生まれてしまうこともあります。
こうしたときに、形や色などの特性を分析し、その被写体の特徴点を比較(マッチング)することで、機械が同一物を判断できます。
たとえば、同じ人間でも平常時と笑ったときの顔は少し異なりますよね。人間同士であれば、この人は「Aさん」という認識を瞬時に行えますが、機械が平常時のAさんの顔しか知らなければ、果たして彼が笑ったときにうまく認識できるかは分かりません。
そこで、Aさんの髪形や顔にあるホクロの位置、目の色、眉毛の太さなど、複数の特徴を組み合わせます。
すると、「(笑顔によって少し表情は違うが)これはAさんだ」ということを、機械が判別できるようになるのです。
人工知能(AI)の画像認識の仕組み
人工知能(AI)が画像認識を行う場合、以下のような手順で進められます。
1.画像のノイズ・歪みなどを取り除く
2.被写体の輪郭の強調、明るさ・色合い調整を行う
3.分類や領域分割といった手法で被写体のデータを分析していく
画像は、ピクセルという微小の四角形が大量に集まって構成されています。
画像を拡大したことがある方も多いと思いますが、画質が粗くなって、ところどころギザギザの線が生まれますよね。あれはピクセルが拡大されたことによって、四角形の各辺が目立つことによって表れます。
このピクセルはAIにとって、それぞれ色も細かく異なれば、明るさもまちまちです。
また、画像のなかには、角度や大きさ、明るさなどがまったく違う被写体によって構成されているため、AIにとっては雑多な情報の集まりでしかありません。
そこで、まずは画像のノイズや歪みなどを取り除き、その後、被写体の輪郭を強調したり、明るさや色合いを調整します。いうなれば、AIが画像認識しやすい環境を整えているということです。
こうした調整が終わってようやく認識作業が開始されます。AIは未知の画像を受け取ると、まず「目が二つ」、「口が一つ」などの情報を整理し、人間が設定した分類項目などに従って、「この対象物は人である可能性が高い」という結論を出します(あくまで確率として処理します)。
すると、その情報がコンピュータに蓄積されて、また違う対象物を判別するときにも、「人である可能性が高い」という認識が可能です。これを「ディープラーニング」と呼び、AIも人間と同じく、過去の経験から学んでいくことで画像認識の精度を高めることができます。
人工知能(AI)画像認識の実用化例
現在すでに実用化が進む、具体的な画像認識の事例を紹介していきます。
Google「リアルタイム翻訳」
検索エンジンサービスのGoogleは、100言語以上の翻訳ツールとして「リアルタイム翻訳」というアプリを提供しています。
このリアルタイム翻訳には、AIに画像認識システムが利用されています。
リアルタイム翻訳の使い方は、アプリ内に直接テキストを記入したり、スマホに話しかけたりすることで、その場で機械が翻訳を行ってくれます(こちらは文字認識といいます)。
しかし、それ以外にもカメラで写真を撮影し、それを設定した言語に変換することも可能です。
たとえば、道路で「止まれ」という標識をよく見かけます。これをリアルタイム翻訳アプリで写真撮影すると、すぐに「STOP」などに画像データを修正してくれるのです。
この機能は、画像認識によって、被写体の文字情報を正確に読み取っているからこそできます。
NEC「NeoFace Watch」
NECが開発した「NeoFace Watch」は、画像の顔認識に特化したビジネス向けソリューション製品です。
たとえば、大規模な商業施設の監視カメラや、消費者サポートセンターのスタッフ認証(顔認証)など、ビジネス分野で広く利用が想定されます。
すでに、アルゼンチンのTigre市では、ターミナル駅への監視カメラ設置や、司法機関による行方不明社の捜索などに、このNeoFace Watchが採用されています。
Amazon「Amazon Rekognition」
Amazon Rekognitionは、AIの画像認識技術を取り入れたAPIで、誰でも簡単にこのアプリケーションを利用することができます。
特に、Amazon Rekognition VideoというAPIは、日本でも採用されるケースが増えています。
たとえば、「はいチーズ」というサービスは、上記の画像認識用APIを利用して、特定の人物だけが写った画像を抽出することができます。
たとえば、子供の記念アルバム用に、自分の子供の顔が写った画像だけピックアップすることもできれば、フリーのカメラマンにとっても、取引先に写真リストを簡単に納入できるなど、様々な需要が生まれていることが分かるでしょう。
まとめ
AIの画像認識技術はすでに実用段階を超え、GoogleやNECなどの企業を中心に様々な発展性を世に広めています。
ただ、これから画像認識技術を学びたいという方にとっても、まだまだチャンスの多い市場と言えるでしょう。