この作業は、 Deep Convolutional Neural Networksを使用したStreet View Imageryからの複数桁数認識と呼ばれ、認識目的でのニューラルネットワークの使用を扱います。 明らかなように、問題は多くの要因によって非常に複雑です:家番号の異なる場所、プレートの色、そのさまざまな傾き、プレート自体とその写真の両方の品質、その他多数。
その結果、タスクは11レベルのニューロンを持つDistBeliefニューラルネットワーク(これは、Google が 「深層学習」で概念の意味を特定するために使用するものと同じネットワーク)の変更に移されました。 まず、画像上に番号が正確に存在している必要があり、画像は、希望の番号がその約3分の1を占めるように準備する必要があります。 また、チームは、家番号の長さを5桁に制限できることをかなり合理的に認めました。これは、世界のほとんどの都市番号システムで許容されます。
ニューラルネットワークの生のソースは次のとおりです。

ネットワークのトレーニングには約6日かかり、公開されているストリートビューの家番号データベースの資料に基づいて実施されました。 その結果、トレーニング後のGoogleの認識精度は96%でした。これは、98%の同様の作業の人率に匹敵します。この数値は、さらなる研究の目標となります。
[ ソース ]