線形回帰を使用して主要製品を定義する

結局のところ、小売は興味深いものです。 特に、分析用のサービスを開発している場合。 店を訪れるたびにミニスタディになります。 あなたは棚に沿って歩き、考えます:

「ソーセージとケチャップまたはキュウリのピクルスの最適な相関関係は何ですか?」 地獄、大丈夫、私はこれとそれの両方を取ります!」

「ヒューガルデンはほぼ故障しましたが、金曜日の夜までまだ半日です。 ああ、どうしてそんなにひどく予測された需要なの? 」



マネージャは売上を予測するために何を使うのだろうか



そして時々、あなたはこの質問で小売店に来て、それに応じて、人々は「Nuuuuu、通常そのようなもの...」と言い、手で幅広いジェスチャーをし始めます。 はい、写真のように、およそ。



画像








そのため、 Datawiz.ioではこのアプローチに強く反対しています。



小売業の相関関係に関する以前の記事では、製品カテゴリの売上が他のカテゴリに及ぼす影響、および店舗全体の売上に与える影響を判断する可能性について検討しました。



しかし、主要製品をより正確に見つけることは可能ですか? 特定のカテゴリの商品の販売の重要性と、それが店舗の売上高にどの程度影響するか。



線形モデルが役立ちます。 店舗の販売構造を記述し、モデル化が簡単な簡単な方程式を作成します。



2つの店舗(食料品店とスーパーマーケット)にすべて同じ初期データを使用します。





テーブルを作成します。

行-週;

列-カテゴリー;

セル-販売されたアイテムの数またはレシートへの参照。



画像








適用します:



feature_selection <- function(df){ drops <- c('.','','.') df <- df[,!names(df) %in% drops] control <- rfeControl(functions=rfFuncs, method="cv", number=10) results <- rfe(df[1:ncol(df)-1], df$sum, sizes=c(1:ncol(df)-1), rfeControl=control) return(results) } results <- feature_selection(df=Gastronom_df) predictors(results) plot(results, type=c("g", "o")) output
      
      







食料品店の製品カテゴリのリストを取得します。

  1. パンとパン
  2. 軽食
  3. 牛乳および乳製品
  4. コーヒー、ココア、お茶
  5. 食料品店
  6. ソーセージ
  7. 保存
  8. 製菓
  9. ソフトドリンク
  10. 糖尿病栄養
  11. たばこ製品
  12. 関連食品
  13. 凍結
  14. 植物油


食料品店の売り上げの分析に必要な機能の数を決定します。



画像








モデルを構築するための最も効果的な機能の数を決定できます。 ご覧のとおり、9を使用するのが最適ですが、トップ6を使用すると便利です。



 create formula Gastronom_formula <- sum~    + +    + , , + +  
      
      





線形回帰を使用します。



 Gastronom_lm <- linear_models(Gastronom_formula,Gastronom_df) coefplot(Gastronom_lm, intercept=FALSE, outerCI=1.96, lwdOuter=1.5)
      
      







モデルは値の係数を提示し、係数が0よりも大きいほど、結果に影響を与えます。



画像








 cv.lm(df=Gastronom_df, Gastronom_lm, m=10) #run cross validation test > sqrt(1629697) #mse [1] 1277 #square root from mse Print coefficients >Gastronom_lm$coefficients (Intercept) 5.53e+02     3.20e+00  4.60e+00     1.18e+00 , ,  9.34e-03  1.23e+00   3.58e+00
      
      







Deliデータを使用して、次の式を取得します。

売上高+-1277 = 5530 + 3.2 *パンおよびベーカリー製品+ 4.6 *スナック+1.18 *牛乳および乳製品+ 0.0934 *コーヒー、ココア、紅茶+ 1.23 *食料品+ 3.58 *ソーセージ

分析後、「コーヒー、ココア、茶」のカテゴリは結果にあまり影響を与えないことがわかります。つまり、精度を損なうことなく除外できます。

取得するもの:

売上高+-1277 = 5530 + 3.2 *パンおよびベーカリー製品+ 4.6 *スナック+1.18 *牛乳および乳製品+ 1.23 *食料品+ 3.58 *ソーセージ



そのため、選択した店舗の売上に大きく影響するカテゴリの商品が表示されます。 販売の変動は最終結果に大きく影響します。



製品カテゴリが売上高ではなく小切手の数に与える影響を考慮したい場合、小切手の商品への参照数に関する他のデータを使用します。



食料品店の領収書の数を分析するために必要な機能の数を決定する

  1. パンとパン
  2. 軽食
  3. 食料品店
  4. 牛乳および乳製品
  5. 製菓
  6. ソーセージ
  7. コーヒー、ココア、紅茶
  8. 保存
  9. たばこ製品
  10. ソフトドリンク
  11. 関連食品
  12. 糖尿病栄養
  13. アルコール


画像








6つの変数を使用します。



 Gastronom_formula <- sum~    + + +    +  +  
      
      







画像








 > sqrt(1033597) [1] 1017 > Gastronom_lm$coefficients (Intercept) 840.105     3.792  3.283  0.741     0.924   0.142   2.358
      
      





方程式を得る

receive_qty + -1017 = 840 + 3.79 *パンおよびベーカリー製品+ 3.29 *スナック+ 0.7 *食料品+ 0.92 *牛乳および乳製品+ 0.14 *菓子+2.358 *ソーセージ



デリによる売上高の2つの方程式と領収書の言及数を比較します



売上高+-1277 = 5530 + 3.2 *パンおよびベーカリー製品+ 4.6 *スナック+1.18 *牛乳および乳製品+ 1.23 *食料品+ 3.58 *ソーセージ

そして

receive_qty + -1017 = 840 + 3.79 *パンおよびベーカリー製品+ 3.29 *スナック+ 0.7 *食料品+ 0.92 *牛乳および乳製品+ 0.14 *菓子+2.358 *ソーセージ



最初の式の係数は2番目の式の係数よりもはるかに高いため、これらのカテゴリの商品の売り上げの増加は、小切手の数よりも店舗の売り上げに影響します。 しかし、同時に、小切手の数は、小さな係数ではありますが、菓子製品の売上の増加の影響を受ける可能性があります。 取得したデータは積極的に使用できますし、使用する必要があります。



同時に、別の店舗の状況は大幅に異なる場合があります。



スーパーマーケットの結果を分析します

スーパーマーケットでの売上高の分析のために商品を選択します。

  1. 糖尿病栄養
  2. パンとパン
  3. 保存
  4. 牛乳および乳製品
  5. コーヒー、ココア、お茶
  6. 食料品店
  7. ソーセージ
  8. 関連食品
  9. ケーキとケーキ
  10. ペット用品
  11. たまご
  12. 凍結
  13. ソフトドリンク
  14. たばこ製品
  15. VATを除く商品
  16. 製菓
  17. アルコール
  18. 植物油
  19. 軽食
  20. 魚介類


画像








3つの機能を使用します。



 universam_formula = sum ~  +     + +
      
      





画像






 > sqrt(9591095) [1] 3097 > universam_lm$coefficients (Intercept) -1612.10   27.77     5.24  1.44
      
      







売上高+-3097 = -1612.10 + 27.77 *糖尿病栄養+ 5.24 *パンおよびベーカリー製品+ 1.44 *保存

製品の興味深い選択、それが何を意味するか、以下で検討します。



スーパーマーケットの小切手での商品の言及数に関するデータ

  1. パンとパン
  2. 牛乳および乳製品
  3. 糖尿病栄養
  4. 製菓
  5. ソーセージ
  6. 保存
  7. コーヒー、ココア、お茶
  8. 食料品店
  9. たまご
  10. ケーキとケーキ
  11. 関連食品
  12. 凍結
  13. 軽食
  14. たばこ製品
  15. ソフトドリンク
  16. 植物油
  17. アルコール
  18. VATを除く商品
  19. ペット用品
  20. 魚介類


画像






 universam_formula = sum ~    +    +  +  +  
      
      





画像






 > sqrt(3382240) [1] 1839 > universam_lm$coefficients (Intercept) 270.43     2.24     1.37   14.81   1.21   1.31
      
      







スーパーマーケットの状況を見ると、デリとは明らかに異なる状況が見られます。



売上高+-3097 = -1612.10 + 27.77 *糖尿病栄養+ 5.24 *パンおよびベーカリー製品+ 1.44 *保存

そして

Receipt_qty + -1839 = 270.43 + 2.24 *パンおよびベーカリー製品+ 1.37 *牛乳および乳製品+ 14.81 *糖尿病食品+ 1.21 *菓子+ 1.31 *ソーセージ



店舗の売上高に影響を与えるのは3つのカテゴリの商品のみで、特に糖尿病の食品は、パンやベーカリー製品のほぼ5倍です。 これはどうして起こるのでしょうか 私たちも興味を持ちました。 このカテゴリーのスーパーマーケットに含まれる製品のリストを見て、さらに掘り下げました。 スーパーマーケットには、糖尿病栄養のカテゴリーにベビーフードの全ラインが含まれており、もちろん、この特定のカテゴリーの売上が大幅に増加しました。



ただし、スーパーマーケットでの小切手の数は、5つの商品カテゴリの影響を受けます。 ただし、たとえば、保存はストアの売上に影響しますが、チェックの数には影響しません。 菓子とソーセージは小切手の数に影響しますが、店舗全体の売上高は低下します。



これの本質は何ですか? この記事で使用されているすべての例は非常に単純ですが、その実用的なアプリケーションは、分析、販売予測、小売業者の作業計画、プロモーションの編成などに優れた範囲を提供します。1つまたは2つの店舗だけでなく、流通ネットワーク全体。



それでは、小売業の予測プロセスに創造的にアプローチするだけでなく、分析的にアプローチしましょう。 よろしく、 Datawiz.io



All Articles