😍 🏄 🏂🏿 Rの実際の表形式データの分析と視覚化 😘 🎰 😴

この資料は、表形式のデータを分析するためのツールとしてR言語を学習し、主要な処理ステップの実装の横断的な例を確認したい人に役立ちます。

以下は、csvファイルからのデータの読み込み、データクレンジング要素を使用したテキスト文字列の解析、分析測定からのデータの集計、およびチャートのプロットを示しています。

この例では、data.table、reshape2、stringdist、ggplot2パッケージの機能を積極的に使用しています。

モスクワでのタクシーによる乗客および手荷物の輸送に関する活動を実施するために発行された許可に関する情報は、「実際のデータ」とみなされました。モスクワの運輸省および道路交通インフラの開発部門が一般的に使用するために提供されたデータ。データセットdata.mos.ru/datasets/655ページ

ソースデータの形式は次のとおりです。

ROWNUM;VEHICLE_NUM;FULL_NAME;BLANK_NUM;VEHICLE_BRAND_MODEL;INN;OGRN 1;"248197";" «-»";"017263";"FORD FOCUS";"7734653292";"1117746207578" 2;"249197";" «-»";"017264";"FORD FOCUS";"7734653292";"1117746207578" 3;"245197";" «-»";"017265";"FORD FOCUS";"7734653292";"1117746207578" ```

1.一次データをダウンロードする

データはサイトから直接ダウンロードできます。ロードの過程で、すぐに便利な方法で列の名前を変更します。

 url <- "http://data.mos.ru/datasets/download/655" colnames = c("RowNumber", "RegPlate", "LegalName", "DocNum", "Car", "INN", "OGRN", "Void") rawdata <- read.table(url, header = TRUE, sep = ";", colClasses = c("numeric", rep("character",6), NA), col.names = colnames, strip.white = TRUE, blank.lines.skip = TRUE, stringsAsFactors = FALSE, encoding = "UTF-8")

これで、分析と視覚化を開始できます...

2.データ変換

ライセンシーの組織形態と自動車のブランドに応じて、タクシーとして登録された自動車の台数の分布を分析する必要があるとします。対応するデータは個別に強調表示されませんが、すべての必要な情報はフィールドFULL_NAME（LegalNameに名前が変更されました）およびVEHICLE_BRAND_MODEL（車）に含まれています。

ソースデータを変換する過程で、

LegalNameフィールドから、別のOrgTypeフィールドでリーガルフォームを選択します。
Carフィールドから、別のCarBrandフィールドでマシンのメーカーを選択します。
未使用のフィールドを破棄します。

簡単にするために、LegalNameフィールドとCarフィールドの最初の単語はそれぞれ、法的形式とマシンのメーカーであると考えています（例外をどうするかは以下で明らかになります）。不要なフィールドは、移植可能なフィールドの明示的なリストを使用して、data.frameからdata.tableへの変換中に自動的に破棄されます。

 ptn <- "^(.+?) (.+)$" # regexp pattern to match first word dt <- data.table(rawdata)[, list(RegPlate, LegalName, Car, OGRN, OrgType = gsub(ptn, "\\1" , toupper( LegalName )), CarBrand = gsub(ptn, "\\1", toupper( Car ))) ] rm(rawdata) # Clear some memory

3.最初の結果

データから抽出された組織フォームを確認します。

 sort( table(dt$OrgType) )

 ##      ## 1 392 649 17118 17680

データは非常に正確に生成されます。個々の起業家が受け取ったライセンスの数をリードしています（減税？）、有限責任会社、オープンとクローズの合資会社、さらには1つの非営利パートナーシップがあります。

法的形式に応じて、ライセンスを受け取った独立したライセンシー （車ではない）の数を判断するには、法人（PSRN）を一意に特徴付けるフィールドを要約する必要があります。

 dt[, list( N = length( unique(OGRN) ) ), by = OrgType][order(N, decreasing = TRUE)]

 ## OrgType N ## 1:  12352 ## 2:  563 ## 3:  14 ## 4:  6 ## 5:  1

データクレンジング

モスクワではどのブランドの車がタクシーとして使用されていますか？

データセットには多くの自動車ブランド：115が含まれていますが、それらはすべて本当にユニークですか？例として、文字「M」で始まるすべてのマークを表示します。

 sort( unique( dt[grep("^M.*", CarBrand), CarBrand]))

 ## [1] "M214" "MASERATI" "MAZDA" ## [4] "MAZDA-" "MERCEDES" "MERCEDES-BENZ" ## [7] "MERCEDES-BENZ-" "MERCEDES-BENZ-S500" "MERCEDES-BENZC" ## [10] "MERCEDES-BENZE200K" "MERCEDES-BENZE220CDI" "MERCEDES-BNZ" ## [13] "MERCERDES-BENZ" "MERCRDES" "MERCRDES-BENZ" ## [16] "MERSEDES-" "MERSEDES-BENZ" "METROCAB" ## [19] "MG" "MINI" "MITSUBISHI"

残念ながら、多くの自動車ブランドは主にデータエラーによるものです。たとえば、同じブランド-MERCEDES-BENZ-はさまざまな名前で見つかります。分析の前に、データをクリアする必要があります。

テキスト情報をクリアするためのプログラムの基礎は、検索機能「行間隔」です。行のペアごとに、文字の操作を使用して1つの行を別の行に変換する複雑さを特徴付けるメトリックを計算します。行が類似しているほど、必要な操作は少なくなります。理想的には、同じラインの距離はゼロで、最も類似していないラインの距離は1にする必要があります。これは、同じ名前のパッケージのstringdist関数のJaro-Winklerアルゴリズムが正確に機能する方法です。

数行を比較しますが、距離ではなく、類似度である1-stringdistをカウントしましょう。

 1 - stringdist( c("MERCEDES","MERSEDES","MAZDA","RENAULT","SAAB"), "MERCEDES", method = "jw", p = 0.1)

 ## [1] 1.0000 0.9417 0.5950 0.3452 0.0000

一見、データクリーニングタスクは単純に解決されます。各レコードについて、ディレクトリから最も類似した値を選択するだけで十分です。残念ながら、このアプローチは常に機能するとは限りません。まず、ディレクトリが（現在の場合のように）そうでない場合があります。第二に、正確な参照であっても、状況によっては手動でデータを修正する必要があります。たとえば、メソッドの観点からは、3つのブランドが誤った値「BAZ」の代替として同等に適しています。

 1 - stringdist("BAZ", c("VAZ", "UAZ", "ZAZ"), method = "jw", p = 0.1)

 ## [1] 0.7778 0.7778 0.7778

以下では半自動修正方法を使用します。これにより、アナリストが同意または手動で修正できる修正オプションをプログラムで生成することにより、データクレンジングの専門家の作業が大幅に促進されます。

エラーの数が少ない大量のデータでは、頻繁に発生する値が正しいと見なされ、エラーが発生することはほとんどありません。頻度値は重み係数として使用され、行の近接メトリックが比例して増加します。頻繁に出会う自動車ブランドが類似性ではなく量のために前進しないようにするために、しきい値t

を超える類似度の値のメトリックのみが考慮されます（ t

選択について）。したがって、マシンのブランドの可能な値ごとに、推奨される「参照」値が同じデータセットから決定されます。「ブランド-修正案」のペアがcsvファイルに出力されます。分析と修正の後、修正されたcsvファイルがダウンロードされ、辞書として機能します。

まず、既存のデータセットに最適な関数を返す関数を作成します。

 bestmatch.gen <- function(wc, t = 0){ # wc = counts of all base text words # t = threshold: only the words with similarity above threshold count bestmatch <- function(a){ sim <- 1 - stringdist( toupper(a), toupper( names(wc) ) , method = "jw", p = 0.1 ) # Compute weights and implicitly cut off everything below threshold weights <- sim * wc * (sim > t) # Return the one with maximum combined weight names( sort(weights, decr = TRUE)[1] ) } bestmatch }

t

のしきい値t

経験的に選択されます。しきい値パラメーターt = 0.7に対する関数の動作例を次に示します。

  bm07 <- bestmatch.gen( table( dt$CarBrand), t = 0.7 ) s <- c("FORD","RENO","MERS","PEGO") sapply(s, bm07)

 ## FORD RENO MERS PEGO ## "FORD" "RENAULT" "MERCEDES-BENZ" "PEUGEOT"

一見、すべてが素晴らしく機能しました。しかし、喜ぶには早すぎます。データセットでよく表されている類似した名前のよく表されている自動車ブランドは、他の正しい名前を「プルオーバー」できます。

 s <- c("HONDA", "CHRYSLER", "VOLVO") sapply(s, bm07)

 ## HONDA CHRYSLER VOLVO ## "HYUNDAI" "CHEVROLET" "VOLKSWAGEN"

しきい値tを増やしてみましょう。

 bm09 <- bestmatch.gen( table( dt$CarBrand), t = 0.9 ) s <- c("HONDA","CHRYSLER","VOLVO") sapply(s, bm09)

 ## HONDA CHRYSLER VOLVO ## "HONDA" "CHRYSLER" "VOLVO"

大丈夫ですか？ほぼ。異なる線のクリッピングが硬すぎると、アルゴリズムがいくつかの誤った値を正しいとみなすという事実につながります。このようなエラーは手動で修正する必要があります。

 s <- c("CEAT", "CVEVROLET") sapply(s, bm09)

 ## CEAT CVEVROLET ## "CEAT" "CVEVROLET"

これで、すべてのブランドのマシンに固有の値の辞書ファイルを作成する準備が整いました。ファイルは手動で編集する必要があるため、提案された置換が元の値と異なるかどうかを示す追加フィールド（これは常に明らかではない）、ブランド名が表示される頻度、およびレコードに注意を引くラベルがあれば便利ですセットのいくつかの統計的特性。この場合、アルゴリズムがまれな（おそらく誤った）値を正しい値として提供する状況をキャッチしたいと思います。

 ncb <- table(dt$CarBrand) scb <- names(ncb) # Source Car Brands acb <- sapply(scb, bm09) # Auto-generated replacement cbdict_out <- data.table(ncb)[,list( SourceName = scb, AutoName = acb, SourceFreq = as.numeric(ncb), AutoFreq = as.numeric( ncb[acb] ), Action = ordered( scb == acb, labels = c("CHANGE","KEEP")), DictName = acb )] # Add alert flag # Alert when suggested is a low-frequency dictionary word cbdict_out <- cbdict_out[, Alert := ordered( AutoFreq <= quantile(AutoFreq, probs = 0.05, na.rm = TRUE), labels = c("GOOD","ALERT")) ] write.table( cbdict_out[ order(SourceName), list( Alert, Action, SourceName, AutoName, SourceFreq, AutoFreq, DictName) ], "cbdict_out.txt", sep = ";", quote = TRUE, col.names = TRUE, row.name = FALSE, fileEncoding = "UTF-8")

DictNameフィールドの値を確認および編集し、その後のダウンロードのために「cbdict_in.txt」という名前でファイルを保存する必要があります。

分析されたデータセットには、次の点に注意する価値のある機能があります。

車のブランドを含まない行-空または「NO」、および一部のモデルは一意に識別するのが困難です：L1H1、M214; 手動でUNKNOWNまたは同様の擬似値に変更します。
MERCEDESとMERCEDES-BENZの2つのスペルが等しく適用されます。MERCEDES-BENZの1つを残します。
ZAZには2つの視覚的に同一の独立したスペルがあります（出力には2行があり、両方のアルゴリズムが保存をtrue、Action = KEEPとして推奨しています）。どうやら、別のUTF-8コードを含む手紙がどこかに忍び込んだ。
一部のマシン名にはブランドが含まれず、モデルのみが含まれます：SAMAND（IRAN KHODRO）
ブランドTAGAZ-VORTEXおよびJACとの混乱; 簡潔にするために、ブランドがTAGAZ、A21、SUV、SUVT11、VORTEX、JACとして識別される車に一般名TAGAZを割り当てることを（まったく正確ではありませんが）提案します。

データの機能に加えて、手動で調整する必要があるアルゴリズムの制限があります。

アルゴリズムは、有効な代替として誤った名前をいくつか提供します。CEAT、CVEVROLET。
2ワードのスタンプは1つに削減されます：アルファ（アルファロメオ）、グレート（グレートウォール）、イラン（イランコドロ）、ランド（ランドローバー）。

編集したデータをcbdict_in.txtファイルからロードします。

 if ( file.exists("cbdict_in.txt")) url <- "cbdict_in.txt" else url <- "cbdict_out.txt" cbdict_in <- read.table( url, header = TRUE, sep = ";", colClasses = c( rep("character",4), "numeric", "numeric", "character"), encoding = "UTF-8") cbdict <- cbdict_in$DictName names(cbdict) <- cbdict_in$SourceName

そして、データ表の自動車のブランドの値を修正します。

 dt[, CarBrand := cbdict[CarBrand]] dt[is.na(CarBrand), CarBrand := "UNKNOWN"]

車のブランドのユニークな価値をきれいにした後、それはほぼ半分になりました

 length( unique(dt$CarBrand) )

 ## [1] 72

分析的な質問への回答

1.トップ10組織

10の最大のタクシー公園を定義します。この場合、PSRNという1つのディメンションの評価を作成する必要があります。

 st <- dt[, list( NumCars = length(RegPlate)), by = list(OGRN, LegalName) ] head( st[order( NumCars, decreasing = TRUE)], 10)

 ## OGRN LegalName NumCars ## 1: 1137746197104  «» 866 ## 2: 1037727000893  «-» 751 ## 3: 1067746273198  « » 547 ## 4: 1037789018849  «» 541 ## 5: 1127746010700  «-24 » 406 ## 6: 1057748223653  «» 349 ## 7: 5067746596297  «» 288 ## 8: 1027739272175  «14 » 267 ## 9: 1137746133250  « » 255 ## 10: 5077746757688  «» 238

残念ながら、このデータセットには、ライセンシーに関する法的情報のみが保存され、商標ではありません。インターネット上では、組織の名前とOGRNによって、タクシー会社がどのブランドで運営されているかを見つけることができますが、このプロセスは自動ではなく、時間がかかります。最大のタクシー車両の検索結果は、ファイル「 top10orgs.csv 」に収集されます。

 top10orgs <- data.table( read.table( "top10orgs.csv", header = TRUE, sep = ";", colClasses = "character", encoding = "UTF-8"))

data.tableの組み込み機能を使用して、2つのテーブルのJOIN操作を実行します。

 setkey(top10orgs,OGRN) setkey(st,OGRN) st[top10orgs][order(NumCars, decreasing = TRUE), list(OrgBrand, EasyPhone, NumCars)]

 ## OrgBrand EasyPhone NumCars ## 1:  781 81 82 866 ## 2: 956 956 8 956 751 ## 3: - 641 11 11 547 ## 4:   500 0 500 541 ## 5: 24 777 66 24 406 ## 6:   777 5 777 349 ## 7:    940 88 88 288 ## 8: 14  707 2 707 267 ## 9: Cabby 21 21 989 255 ## 10:  927 11 11 238

2.法人の形態に応じて、最も人気のある3つの自動車ブランド

ライセンシーの法的形態に応じて、どのブランドの車が最も人気がありますか？この質問に答えるには、マシンの構成と組織形態という2つの次元でデータを集約する必要があります。

プロセスは3段階に分けられます。

集計されたインジケーターの計算（この場合、PSRNに基づく車の数）。
ランク計算。
ランク制限（上位3）、並べ替え、列の再配布、およびデータ出力。

 st <- dt[, list(AGGR = length(RegPlate)), by = list(OrgType, CarBrand) ] st.r <- st[, list(CarBrand, AGGR, r = ( 1 + length(AGGR) - rank(AGGR, ties.method="first"))), by = list(OrgType)] # ranking by one dimension st.out <- st.r[ r <= 3 ][, list(r, OrgType, cval = paste0(CarBrand," (",AGGR,")"))] dcast(st.out, r ~ OrgType, value.var = "cval")[-1] # reshape data and hide r

 ##      ## 1 FORD (212) CHEVROLET (2465) VOLVO (1) KIA (192) FORD (3297) ## 2 RENAULT (175) FORD (2238) <NA> CHEVROLET (115) RENAULT (2922) ## 3 HYUNDAI (122) RENAULT (1996) <NA> FORD (53) HYUNDAI (2812)

可視化

1.円グラフデータの表示

円グラフ、円グラフは、ビジネス環境で非常に人気がありますが、データ分析の専門家によって批判されています。それにもかかわらず、それは「調理する」ことができなければなりません。

車でのタクシー免許証の数の分布を表示するとします。図をオーバーロードしないために、少なくとも1000ライセンスのブランドのみを表示します。

 st <- dt[, list(N = length(RegPlate)), by = CarBrand ] # Summary table st <- st[, CarBrand := reorder(CarBrand, N) ] piedata <- rbind( st[ N >= 1000 ][ order(N, decreasing=T) ], data.table( CarBrand = " ", N = sum( st[N < 1000]$N) ) ) piedata

 ## CarBrand N ## 1: FORD 5800 ## 2: RENAULT 5093 ## 3: HYUNDAI 4727 ## 4: CHEVROLET 4660 ## 5: KIA 2220 ## 6: SKODA 2073 ## 7: NISSAN 1321 ## 8: VOLKSWAGEN 1298 ## 9: TOYOTA 1075 ## 10: MERCEDES-BENZ 1039 ## 11:   6534

スケジュールを作成するには、このような一連のスタンプを修正したいと思います。これを行わないと、自動ソートにより「その他のブランド」が最後から最初に表示されます。

 piedata <- piedata[, CarBrand := factor(CarBrand, levels = CarBrand, ordered = TRUE)]

チャートを作成するには、ggplot2を使用します。

 pie <- ggplot(piedata, aes( x = "", y = N, fill = CarBrand)) + geom_bar(stat = "identity") + coord_polar(theta = "y") pie

結論はすでに非常に有益です。しかし、私はいくつかの視覚的な改善をしたいと思います：

灰色の背景、境界線、回転軸、ラベルおよびマークを削除します。
より明確なカラースケールを選択し、各「ケーキ」を丸で囲みます。
各セクターの隣のブランドに対応するライセンスの数を付けます。
凡例にテキスト名を付けます。

以下のコードを使用すると、上記のすべてを実行できます。セクターの横にラベルを表示するには、セクターの中心点の計算を含むフィールドを追加する必要がありました（ artelstatistikov.ruを参照）。

 piedata <- piedata[, pos := cumsum(N) - 0.5*N ] pie <- ggplot(piedata, aes( x = "", y = N, fill = CarBrand)) + geom_bar( color = "black", stat = "identity", width = 0.5) + geom_text( aes(label = N, y = pos), x = 1.4, color = "black", size = 5) + scale_fill_brewer(palette = "Paired", name = " ") + coord_polar(theta = "y") + theme_bw() + theme ( panel.border = element_blank() , panel.grid.major = element_blank() , axis.ticks = element_blank() , axis.title.x = element_blank() , axis.title.y = element_blank() , axis.text.x = element_blank() , legend.title = element_text(face="plain", size=16) ) pie

2.棒グラフ

円のより有益な代替手段は、棒グラフ、棒グラフです。列の長さを円弧の長さまたは円セクターの面積よりも比較する方が便利であるという事実に加えて、棒グラフは、たとえば、組織形態ごとのライセンス数の分布を表示できます。

 st <- dt[, list(N = length(RegPlate)), by = list(OrgType, CarBrand) ] # Summary table cbsort <- st[, list( S = sum(N) ), keyby = CarBrand ] # Order by total number setkey(st, CarBrand) st <- st[cbsort] # Join topcb <- st[ S >= 1000 ][ order(S) ] bottomcb <- st[S < 1000, list(CarBrand = " ", OrgType, N = sum(N)), by = OrgType] bottomcb <- bottomcb[, list(CarBrand, OrgType, N, S = sum(N))] bardata <- rbind( bottomcb, topcb) bardata <- bardata[, CarBrand := factor(CarBrand, levels = unique(CarBrand), ordered=T)] # bar <- ggplot(bardata, aes(x = CarBrand, weight = N, fill = OrgType)) + geom_bar() + coord_flip() + scale_fill_brewer(palette = "Spectral", name = "") + labs(list(y = " ", x = " ")) + theme_bw() bar

3.ヒートマップ図

「タクシードライバーの中で、どの自動車ブランドの所有者が最も美しい」「美しい「数字」なのか」という質問に対する答えを得たいとします。この場合、トリプル、111、222などの同じ数字を持つ美しい数字を検討します。

分析は、自動車のブランドと3つの2つの分析ディメンションで実行されます。指標-ブランドとトリプルの特定の組み合わせを持つ車の数。このようなデータセットを視覚化するには、表の視覚的な類似物であるヒートマップ図が適しています。トリプルの人気が高いほど、色はセルの値をより強くエンコードします。

 ln <- dt[grep( "^[^0-9]([0-9])\\1{2}.+$" , RegPlate), list(CarBrand, LuckyNum = gsub("^[^0-9]([0-9]{3}).+$","\\1", RegPlate))] ln <- ln[, list( N = .N), by = list(CarBrand, LuckyNum) ] ln <- ln[, Luck := sum(N), by = list(CarBrand) ] # Total number of lucky regplates per car brand ln <- ln[, CarBrand := reorder(CarBrand, Luck) ] # heatmap <- ggplot(ln, aes(x = CarBrand, y = LuckyNum)) + geom_tile( aes(fill = as.character(N)), color = "black") + scale_fill_brewer(palette = "YlOrRd", name = " «» :") + labs(list(x = " ", y = " ")) + theme_bw() + theme ( panel.grid.major = element_blank() , axis.text.x = element_text(angle = 45, hjust = 1) , axis.title.y = element_text(vjust = 0.3) , legend.position = "top" , legend.title.align = 1 ) heatmap

すべての図は、 Color Brewer 2.0プロジェクトの科学に基づいたカラーパレットを使用します。

Rの実際の表形式データの分析と視覚化