たとえば、地域の統計ではなく、自治体の統計です。 犯罪/交通事故の概要ではなく、住所と座標を含む情報。
座標を持つ機関の住所だけでなく、それぞれに関する詳細な情報。
このような詳細なデータは、率直に言って、少し便利な形で。 モスクワを例にとると、モスクワのdata.mos.ruポータルでも、ほとんどのデータは地理データまたは住所およびその他の最小限の情報の形式の地理参照データです。 彼らと本当に面白いことをするのは難しいことは明らかです。 したがって、少なくともこれを明らかにし、より興味深いデータをどこで取得し、それらをどう処理するのかを理解しようとしているモスクワ政府に感謝します。
競技会および競技会
なぜこれが必要なのかという質問にはすぐにお答えします。十分な興味深いデータがないと、開発者のために単一の競争/ハッカソン/競争を行うことは不可能です。 これは、Apps4Russiaコンテストやその他多くのコンテストで開催されたYandex hackathonで発生しました。
したがって、現在、 API Challengeの準備を支援する際に、できるだけ多くの有用なデータを準備することにしました。 また、APIチャレンジはモスクワの当局による競争であり、モスクワに焦点を当てているため、モスクワに関するデータを収集します。

これを達成するために、私たちは何十ものウェブサイトをブラウジングし始め、合法かつ有益に使用できるものを探しています。
どうやって起こったのか
最初に、データを探す場所を理解する必要があります。 普遍的な式は4つの方向にあります。
- 当局の公式ウェブサイト
- 連邦機関の領土区分のサイト(FSIN、法務省、内務省など)
- 国有企業および国規制の独占のサイト
- 市町村のサイト
最後の段落では、モスクワについては弱く言及し、新しい領域についてのみ言及していますが、残りはすべて完全にそこにあり、アクセス可能です。
すべての部門のサイトを見て、 www.mos.ruで興味深いデータのリストを見つけたので、そこにはそれほど多くはありませんが、十分ではありません。 既に持っているデータの一部はdata.mos.ruで公開されていますが、たとえば、 Mosekomonitoringレポートは手動でデータに変換できない大きなPDFドキュメントであるため、PDFドキュメントから抽出するために多大な努力が必要です。
さらに連邦政府の領土管理のサイトで。 モスクワでは、すべての地域と同様、多数の連邦機関の代表事務所があります。これは、わが国では連邦政府と地域の間で多くの権限が分担されているためです。 特に、内務省は連邦政府、連邦刑務所、刑務所、検察庁などに言及しています。 私たちは多くのサイトを見て、最初にロシア連邦政府のウェブサイトでリストを見つけ、次にそれぞれを調べてモスクワのセクションを見つけました。
そして最後に、国有企業と規制対象企業に関するデータは、その使用の可能性に関して最も複雑です。 事実、自然なものは連邦独占禁止局と連邦関税局の命令に従って多くのデータを公開する義務があり、これらのデータはパブリックドメインのみであり、制限はありません。 通常、サイト上のこれらのセクションは「開示」と呼ばれます。 他の情報によると、彼らのウェブサイトには明確な法的純粋性/理解はありません-ここでは、その開放性を規制する都市政策が必要です。 それにもかかわらず、開発者の競争にとって、そのようなデータは、社会的価値が高い場合に非常に適しています。
見つけたもの
抽出した配列へのリンクを使用して、すぐにデータをリストし、すぐにダウンロードして使用できます。
収集したすべてのデータは、オープンデータのハブにアップロードします。 これは、Open Knowledge Foundationのthedatahub.ioに類似したオープンな非営利プロジェクトです。 その上に置かれたものはすべて常に開かれ、ポータルはCKAN APIを介して少なくともすべてのデータをアップロードしたい人を許可します。
弁護士登録
これらのデータは、ロシア法務省のウェブサイト、モスクワ事務所に掲載されています。
これらをデフレートし、正規化されたフィールドを使用してJSON、CSV、およびXLSに変換しました。 これで、データをここからダウンロードできます-http://hubofdata.ru/dataset/mosadv
公証人登録
法務省のウェブサイトからのデータ。
ストーリーはまったく同じです。最初からXLSファイルでした。ダウンロードしてOpenRefineで処理し、JSON、CSVに変換して、ここに配置します-http://hubofdata.ru/dataset/mos-notary
モスクワの刑務所
刑務所の非常に小さなリストは、モスクワのFSINウェブサイト-http://www.77.fsin.su/structure/で入手できます。
非常にシンプルなパーサーで、すべて同じJSON、CSV、XLS形式に変換され、ここに投稿されました-http://hubofdata.ru/dataset/mos-prisons
通り沿いのMosgazユニットの連絡先
前の3つの配列が連邦当局からの状態データに関連する場合、次の配列はモスクワの企業であり、情報開示に関する法律で規制されているMosgazの連絡先に関するデータです。
Mosgazには、通りに入って部隊の連絡先を見つけることができるセクションがあります。 ここはhttp://www.mos-gaz.ru/services/territory/です
このセクションの内部はかなり単純なAJAXコードであることが判明したため、すべての連絡先とすべての部門を短時間で抽出し、多数の連絡先http://hubofdata.ru/dataset/mosgaz-contactsを投稿しました。ユニットをエリアにバインドします。
MosenergoのTPP、水力発電所、州地区発電所の住所
モスクワの自然独占企業の1つであるMosenergoのサイトには、火力発電所、水力発電所、州地区発電所のアドレスがあります-http ://www.mosenergo.ru/catalog/228.aspx
解析してここに配置するのは簡単でした-http://hubofdata.ru/dataset/mosenergo-filials 。 このデータは、モスクワの環境状況に関するアプリケーションを作成することを決定したすべての人にとって有用であり、今のところ、Mosenergoのすべてのデータを処理できたわけではありません。 「 2TP-Air 」 統計レポートセクションには多くの公開レポートがありますが、各ステーションには、どのくらいの廃棄物を投じるかについてのXLS形式のデータがたくさんあります。
ロシアの郵便局の住所と特徴
ロシア郵政公社は政府機関ではありませんが、国営企業は仕事の質の観点からしばしば批判されます。 彼らは部門に関するデータを持っています。特に、いくつかのサイトでそれらを公開しています。その主なものはサイトです。
モスクワのオフィスに関するデータを、その場所の座標、住所、インデックス、労働時間などの情報とともに引き出しました。 このデータは簡単な方法でCSVにパッケージ化できなかったため、単一のJSONファイルhttp://hubofdata.ru/dataset/ruspost-mskで利用可能です
騒音苦情
前述のMosecomonitoringのサイトで、ノイズについての都市住民の苦情からの小さいが奇妙なデータの配列が発見されました。 ここでhttp://www.mosecom.ru/noise/territ/noise_stroy_pl_2013.phpこれらの苦情が収集され、住所に関する情報さえ持っています。つまり、必要に応じてカードに重ね合わせることができます。
また、パーサーを使用してこのデータを取り出し、ハブに投稿しました-http://hubofdata.ru/dataset/msk-noise-req
非営利団体
そして、ここで最大のデータ配列がなくなっています。 この場合、法務省のウェブサイトを見て、非営利組織の登録簿で地域で入手できることがわかりました。 ここ-http://unro.minjust.ru/NKOs.aspx
実際、これはかなり前の今年の初めに行ったもので、データは「棚にほこりを集める」ことでした。 これで作業に便利な形式に変換し、ハブに投稿しました-http://hubofdata.ru/dataset/mos-nko-2013
データは組織のタイプに分類されることに注意してください。 宗教団体と他の団体で別々に働きたい場合。
選挙区と建設日に関するモスクワの家の拠点
最後に、最も有用なデータ。 いくつかのサイトは、モスクワの各家の詳細なデータを示しました。 これらは、dom.mos.ru、gorod.mos.ru、reformazhkh.ru、mosgorizbirkom.ruなどのサイトです。
すべてを処理して家のすべてのデータを単一のデータベースにまとめるという夢を実現する時間はありませんでしたが、最初の一歩を踏み出しました-複数のデータベースを整理し、それらをさらに組み合わせることが可能になりました。
現在利用可能:
- PECを参照するすべての住宅のベース-http : //hubofdata.ru/dataset/mos-elect-houses各PECには、多くの追加情報と投票場所に関する情報があります。
- 家を建てる日付のベースはhttp://hubofdata.ru/dataset/mos-buildings-yearsです 。実際、サイトには各家の詳細な情報がありますが、これまでに建設日を収集しており、すべてを収集したい人がいることを願っていますデータ
もちろん、それだけではありません。 さらにデータがあり、定期的にハブにアップロードします。
すべてのgithubコードは、 https://github.com/infoculture/mosopendataを使用するgithubに配置されます
要約すると、調査結果と提案は何ですか:
- 私たちがモスクワで収集していることはすべて、DITの職員に公式に開示することを提案します。 データはどこを見るべきか既に明らかなので、彼らは拒否しないと思います。 いずれにせよ、モスクワ当局の管轄下にあるデータでは、ここに連邦当局のものがあります-連邦当局にもっと長く尋ねなければなりません。
- お気に入りの地域や都市で同じことを非常にうまく行い、オープンな都市データのポータルを作成したり、一般アクセスのためにハブや他の場所にアップロードしたりできます。
- コンテストやコンテストに参加してください。 そして、私が上で引用したことにおいて、そしてそれはすべてそうなります。 これはあなたのスキルをテストするだけでなく、重要な賞品を受け取る機会でもあります。