5データ可視化実験

この春、私たちの研究室では、World of Tanksゲームの戦車の特性、SDAシミュレーターの正解と不正解の統計、ロシアの都市の気温記録、ニジニノヴゴロドの固定ルートタクシーの運行違反、航空運賃の変更履歴などのさまざまなデータを実験しました。 実験の結果は、5つの視覚的なインタラクティブな視覚化でした。







ビジュアライゼーションの作成方法と、どの原則に従うかをお伝えします。一般的に、各ビジュアライゼーションの例です。 すべての例には、インタラクティブなプロトタイプへのリンクが含まれており、データを独自に「感じて」独自の結論を引き出すことができます。





一般原則



視覚化の作業は、情報の最小不可分単位である「ブリック」を強調表示することから始まります。次に、ブリックから視覚的なマクロ画像を構築し、 インタラクティブで結果を向上させます。



ブリックはデータアトムです。選択するには、顕微鏡でデータを調べる必要があります。 レンガのささいな例は、 第二次世界大戦の損失の印象的な視覚化における千人の死者です(著者:Neil Halloran)。 ブリックを選択した後、ブリックが互いに異なるように(比較可能) 、視覚的に互いに積み重なる(加算性)ように、プロパティを視覚化する視覚的な方法を選択します。 前述の視覚化では、レンガを銃の有無にかかわらず男性が示し、国籍は色分けされています。 ドイツ兵はソビエトの民間人と簡単に区別されます。







そして、数字を合計すると、特定の戦闘、特定の国、または戦争中のすべての国での合計損失が得られます。







高品質の視覚化は、データ構造を反映しています。 データの特性を考慮してブリックをグループ化、ソート、スタックし、重要な測定値を強調します。 ブリックの比較可能性と加算性により、データ全体に固有の規則性と異常性がマクロレベルで現れます。



強力な視覚化の秘Theは対話性です。 ホバーのヒントとポップアップブロックは、追加情報で視覚化を強化します。 フィルター、スライダー、ドロップダウンリストで選択を制御し、さまざまなスライスを比較できます。 スライスは元のレンガから構築され、マクロ画像全体と同じ信頼性と完全性を備えています。



実験に移りましょう。



戦車



目的:World of Tanksゲームで戦車の特性を比較します。 データソース: tanks-vs.com



タンクをレンガとして選択しました。最も視覚的で自然な視覚化方法は、タンクの画像です( 例を参照)。 戦車の主な特徴は、機動性、「攻撃」、「防御」です。 鎧のさまざまな部分の要塞を色で示しているため、タンク全体の保護レベルと弱点がすぐにわかります。 2次元グラフで速度と攻撃を示します。







ライブプロトタイプ: http : //tanks.datalaboratory.ru/


速度は水平方向に遅れ、攻撃パラメーターとして選択された10秒間の最大ダメージは垂直方向です。 グラフ上のポイントは戦場の戦車であり、外観、サイズ、主要な特性を比較できます。 もう1つの直接的な類推:座標の原点から水平方向にタンクが遠ければ遠いほど、タンクはより速く(遠くに)移動します。 国、タイプ、タンクのレベルは、グラフの上のフィルターで構成されます。軸上では、他のパラメーターを選択できます。 タンクにカーソルを合わせると、すべての特性がリストに表示されます。



たとえば、レベル5以上のソ連とドイツの重戦車を比較してください。 最速の戦車IS-7、IS-8(USSR)およびVK 36.01(ドイツ)、後者は最大ダメージで多くの損失を被ります。 E 100は遅いですが、ダメージと耐久性のチャンピオンです。 強度と基本的な損傷のグラフでは、パラメーター間にほぼ線形の関係があります。 これらのパラメーターの比率は、ドイツのTiger I(衝撃より耐久性が高い)とSoviet KV(耐久性より耐久性が高い)のみが他のサンプルタンクと異なります。



装甲の強度については、「トラフィックライト」グラデーションを使用しました:強くて信頼できる-緑、弱くて危険な-赤。 一部の読者にとって、この色の選択は不協和音を引き起こしました。彼らにとって、緑は鎧を容易に貫通することを意味し、赤は複雑を意味します。 この質問は私には基本的なものではないようであり、明確な伝説があればどんな方法でも解決できます。



交通ルール



目的:交通ルールのシミュレータチケットの統計情報を活用する。 Atrenaシミュレーターによって提供されるデータ: pdd.atrena.org



データには、試験に合格するためにどれだけトレーニングする必要があるかという質問に対する答えが含まれています。 これが彼らの主な関心と利益です。 この場合のブリックとは、試行、特定のユーザーによるN回目の特定の質問への回答、および結果(「正しく」または「エラー」)です。 特定の質問の複雑さを評価するために、試行回数に応じてエラーの割合を計算します。



結果は「トラフィックライト」グラデーションでエンコードされ、チケットごとにグループ化された質問のグリッドに表示されます。 質問にカーソルを合わせると、コンテンツと回答のオプションが表示され、正しいものが強調表示されます 。 チケットの1人あたりの平均エラー数を計算し、進行状況インジケーターを追加します。2つ以下のエラー-試験に合格、2つ以上-不合格。







ライブプロトタイプ: pdd.datalaboratory.ru




準備なしで試験に合格することはほとんど不可能であることがわかります。各チケットには平均で3〜5つのエラーがあります。 しかし、最初のトレーニングラウンドの後、状況は大幅に改善されました。2回目の試行で40枚のチケットのうち23枚が引き渡されました。 3回目の試行では、最も困難なものだけが倒れませんでした。11枚目、27枚目、38枚目のチケットで、どの質問が最も大きな問題を引き起こすかは明らかです。 11枚目と27枚目のチケットには、間違いをするいくつかの質問があります。 38日には、13番目の質問が3分の1の学生に問題を引き起こしています。そのため、1人あたりの平均エラー数は2を超えたままです。 4回目の試行から開始して、すべてのチケットは平均で配られましたが、38回目のチケットの13番目の質問は、15回目の試行までの学生の3分の1に困難をもたらします!



「ダブルティック」は、エラーの平均数が1を下回る、つまり高い確率で引き渡されるチケットをマークします。 15回目の試行までに、40回のうち11回です。一般に、5回目と15回目の試行の間の状況はわずかに変化します。 最も顕著な効果は最初のトレーニングサークルからのものであり、チケットを5回以上渡すことはほとんど無意味です。



トピックごとのグループ化も追加しました。 複雑で単純な質問が、トピックに関してほぼ均等に配布されていることがわかります。



天気



目的:毎日の気温記録を表示して、それらを研究するのが面白いようにします。 データソース: rp5.ru



「温度」勾配の点グラフで年間温度グラフを示し、今日の温度と記録を強調し、気候の概要(晴れの日と曇りの日数、年間降雨量)および都市の人口で補完しました-これが私たちのレンガです。 今日の気温と記録に重点を置くと、関連性がさらに高まります。「モスクワでは今では+ 22°であり、2014年にはこの日は+ 10°でした-すごい!」



レンガから、ロシアの数百万を超える都市のマクロ写真を収集し、セバストポリとソチを対照的に追加しました。







ライブプロトタイプ: weather-records.datalaboratory.ru


ノボシビルスクの温度プロファイルはモスクワとそれほど変わらないことがわかりました。 冬には、ロストフ、ヴォルゴグラード、ヴォロネジで気温が定期的にゼロを超えて上昇します。セヴァストポリでは、広がりは+20から-20であり、ソチだけが原則としてゼロを下回らない。 晴れた日の記録保持者-セヴァストポリ、ソチ、そして予想外に、オムスク、反記録保持者-サンクトペテルブルク、モスクワ、ヴォロネジ、チェリャビンスク。 モスクワでは、サンクトペテルブルクよりも降水量が多く、オムスクはノボシビルスクよりも2倍、ヴォロネジはボルゴグラードよりも3倍多く降水量があります。



私のように、都市の相互配置がよくわからない人のために、視覚化のマイクロマップを「修正」しました。対応するレンガの上にマウスを移動すると都市が強調表示されます。



ミニバス



目的:固定ルートタクシーの違反(スケジュールおよびスピード違反)を視覚化する。 Baserideが提供するデータ: baseride.com



1回のフライトでミニバスの逸脱と超過を視覚的に表示する方法は? ストップ間の距離の比例性を維持しながら、ストップを水平に配置します。 特定の停留所を訪れたときのスケジュールからの逸脱は、遅延/リードに数分で比例する面積を持つ円で表示されます。 スピードの速い領域を赤で塗りつぶします。過剰になるほど、領域は赤くなります。 違反のない、または軽微な違反のあるフライトは中立に見え、違反が多いほど、フライトは赤くなります。 画像をより見やすくするために、一時的なスライダーを使用して画像を復活させます。







特定の遅延と超過はホバーで表示できます:







このようなフライトは、簡単に比較できます。 たとえば、すべての朝のフライトを一目で見て、それらを互いの下に配置することができます(左側が開始時間です)。 1日の同じ絵を1行にまとめて、停車地の合計遅延とエリアの合計(半透明)違反を含めることができます。







ライブプロトタイプ: minibus.datalaboratory.ru


最後の4つの停車地は、スケジュール違反の影響を最も強く受けており、ルートの最初と長い区間で最も頻繁に速度を超えることがわかります。 双方向性のおかげで、1日の異なる時間に開始するミニバスがルートに沿ってどのように分布しているのかを見ることができます。誰がどこで、どこで遅れ、逆に総質量よりも先にいます。



このアプローチの利点は、フライトのカットを視覚的に表示できることです。特定の日付または時刻、特定のドライバー、特定の違反、およびこれらのスライスを相互に比較できます。 そのため、任意の期間の統計情報を含むすべての都市ルートを1つの画面に表示できます。 この場合、全体像と各特定のフライトは、さらなる研究に便利な形式で表示されます。



航空運賃



目的:出発日と購入日による航空運賃の変化を表示する。 データTutu.ru:tutu.ru



特定の出発日のチケット価格チャートは、購入日にもよりますが、この場合のブリックです。 このような傾向は、出発の異なる日付と季節、航空会社、方向を調べて比較するのに興味深いものです。 グラフを区別するために、異なる出発日の色のグラデーションを使用します。 垂直リスク軸は価格の分布を示しています。



タイムスライダーとチャートにカーソルを合わせると、特定の出発日を示すトレンドが強調表示されます。 スライダーは選択を制御します。夏、秋、新年、春のトレンド、5月の休日などを見ることができます。







ライブプロトタイプ: ticket-prices.datalaboratory.ru


一般に、出発が近づくほどチケットの価格が高くなるという仮説が確認されています。スケジュールの右側では、より高価な購入があるため、ネットワークはより密集しています。 しかし、このルールにはかなりの例外があります-事前に高価な購入がある下降チャート。



モスクワ→シンフェロポリ(アエロフロートのみ)のフライトに関する最も詳細で均一なデータを慎重に調べます。







去年の夏のシーズンのチケットは、事前と出発の前夜の両方で購入され、平均で5,000ルーブルで、最大7〜10,000のランダムな偏差がありました。秋には、左側の「テール」少し遅れます。 冬には、出発の1か月半前にチケットを購入した人はいませんでしたが、最近の購入価格は著しく上昇しました(最大10〜15,000)春には、顕著なステップ(固定料金)が表示されます。 4月-後。





定性的な視覚化により、データのパターンと異常が表示されるため、肉眼で確認できます。 これは、面倒なソフトウェアや複雑な数学なしでデータを研究するためのツールです。 視覚化はさまざまなタスクで役立つと確信しており、私たちの実験ではこれを確認しています。 実験に参加するには、質問と回答セクションでマークされた data@datalaboratory.ruに興味深いデータを送信します。



All Articles