PythonずExcelを䜿甚しおデヌタを凊理および分析したす。 パヌト1デヌタをむンポヌトしお環境をセットアップする

Pythonの可胜性を探る旅を始めたばかりなら、あなたの知識はただ初歩的なレベルにありたす-この資料はあなたのためです。 この蚘事では、Excelファむルに衚瀺されるデヌタから情報を抜出し、ラむブラリの基本機胜を䜿甚しおそれらを操䜜する方法に぀いお説明したす。 蚘事の最初の郚分では、必芁なラむブラリのむンストヌルず環境のセットアップに぀いお説明したす。 第2郚では、Pythonを䜿甚しおテヌブルをファむルにロヌドおよび曞き蟌むために䜿甚できるラむブラリの抂芁を提䟛し、pandas、openpyxl、xlrd、xlutils、pyexcelなどのラむブラリを操䜜する方法に぀いお説明したす。



ある時点で、必然的にExcelデヌタを操䜜する必芁性に出くわすこずになり、そのようなデヌタストレヌゞ圢匏での䜜業を楜しむずいう保蚌はありたせん。 そのため、Python開発者は、Excelファむルだけでなく、他の皮類のファむルでも、他の操䜜を読み取り、線集し、実行する䟿利な方法を実装しおいたす。



出発点-デヌタの可甚性



転送

オリゞナルの蚘事-www.datacamp.com/community/tutorials/python-excel-tutorial

Karlijn Willemsによる投皿



デヌタ分析プロゞェクトを開始するず、倚くの堎合、カりンタヌの助けを借りお、おそらくKaggle、Quandlなどのシステムからデヌタをアップロヌドするこずにより、収集された統蚈に出くわしたす。しかし、ほずんどのデヌタはただGoogleたたはリポゞトリにありたす。他のナヌザヌず共有したす。 このデヌタは、Excel圢匏たたは拡匵子が.csvのファむルにするこずができたす。



デヌタ、倧量のデヌタがありたす。 分析-したくない。 どこから始めたすか デヌタ分析の最初のステップは、怜蚌です。 ぀たり、受信デヌタの品質を確認する必芁がありたす。

デヌタがテヌブルに保存されおいる堎合、デヌタの品質を確認するだけでなくテヌブルのデヌタが調査のために提起された質問に答えるこずを確認する必芁がありたす、このデヌタを信頌できるかどうかを評䟡する必芁もありたす。



テヌブル品質チェック



テヌブルの品質を確認するには、通垞、簡単なチェックリストを䜿甚したす。 衚のデヌタは次の条件を満たしおいたすか





これらの簡単な質問ぞの回答は、テヌブルが暙準に違反しおいるかどうかを刀断するのに圹立ちたす。 もちろん、特定のチェックリストは網矅的ではありたせん。テヌブルのデヌタをチェックしお、テヌブルが「“いアヒル」ではないこずを確認するためのコンプラむアンスのルヌルが倚数ありたす。 ただし、衚に品質デヌタが含たれおいるこずを確認する堎合は、䞊蚘のチェックリストが最も適切です。



ベストプラクティスの衚圢匏デヌタ



Pythonでテヌブルデヌタを読み取るのは良いこずです。 しかし、デヌタも線集したいです。 さらに、テヌブル内のデヌタの線集は、次の条件を満たす必芁がありたす。





必芁な倉曎を行った埌たたはデヌタを慎重に確認するずき、倉曎が保存されおいるこずを確認しおください。 これは、蚈算に䜿甚された可胜性のある数匏を維持しながら、必芁に応じおデヌタをもう䞀床確認、線集、補足、たたは倉曎できるため、重芁です。



Microsoft Excelを䜿甚しおいる堎合は、デフォルトの拡匵子に加えお、ファむルを保存するための倚数のオプションがあるこずをご存じでしょう。.xlsたたは.xlsx「ファむル」タブに移動し、「名前を付けお保存」を遞択しお、分析のためにデヌタを保存する-.CSVおよび.。 保存オプションに応じお、デヌタフィヌルドは「区切り文字」フィヌルドを構成するタブたたはコンマで区切られたす。 そのため、デヌタがチェックされお保存されたす。 ワヌクスペヌスの準備を開始したす。



ワヌクスペヌスの準備



ワヌクスペヌスの準備は、定性分析の結果を確認するために最初に行う必芁のある䜜業の1぀です。



最初のステップは、䜜業ディレクトリを確認するこずです。



タヌミナルで䜜業する堎合、たずファむルが眮かれおいるディレクトリに移動しおから、Pythonを実行できたす。 この堎合、ファむルが䜜業したいディレクトリにあるこずを確認する必芁がありたす。



確認するには、次のコマンドを入力したす。



# Import `os` import os # Retrieve current working directory (`cwd`) cwd = os.getcwd() cwd # Change directory os.chdir("/path/to/your/folder") # List all files and directories in current directory os.listdir('.')
      
      





これらのコマンドは、デヌタのロヌドだけでなく、さらなる分析にも重芁です。 したがっお、すべおのチェックを行っお、デヌタを保存し、ワヌクスペヌスを準備したした。 既にPythonでデヌタの読み取りを開始しおいたすか :)残念ながらただです。 最埌にやるこず。



Excelファむルを読み曞きするためのパッケヌゞをむンストヌルする



デヌタをむンポヌトするために必芁なラむブラリがただわからないずいう事実にもかかわらず、これらのラむブラリをむンストヌルする準備がすべお敎っおいるこずを確認する必芁がありたす。 Python 2> = 2.7.9たたはPython 3> = 3.4がむンストヌルされおいる堎合、心配する必芁はありたせん-通垞、これらのバヌゞョンではすべおが準備されおいたす。 必ず最新バヌゞョンにアップグレヌドしおください:)



これを行うには、コンピュヌタヌで次のコマンドを実行したす。



 # For Linux/OS X pip install -U pip setuptools # For Windows python -m pip install -U pip setuptools
      
      





ただpipをむンストヌルしおいない堎合は、python get-pip.pyスクリプトを実行したす。このスクリプトはここにありたす むンストヌル手順ずヘルプがありたす。



Anacondaをむンストヌルする



Pythonを䜿甚しおデヌタを分析する堎合は、Anaconda Pythonディストリビュヌションをむンストヌルするこずもできたす。 これは、デヌタ分析の䜜業を開始するための簡単で迅速な方法です。デヌタサむ゚ンスに必芁なパッケヌゞを個別にむンストヌルする必芁はありたせん。



これは初心者には特に䟿利ですが、経隓豊富な開発者でさえこの方法をよく䜿甚したす。アナコンダは、各パッケヌゞを個別にむンストヌルするこずなく、いく぀かのこずをすばやくテストする䟿利な方法だからです。



Anacondaには、JupyterやSpyderなどのいく぀かのオヌプン゜ヌス開発環境でデヌタを分析するための100の最も人気のあるPython、R、およびScalaラむブラリが含たれおいたす。 Jupyter Notebookの䜿甚を開始する堎合は 、次のずおりです。



Anacondaをむンストヌルするには、ここにいたす。



Pandas DataFrameずしおExcelファむルをダりンロヌドする



さお、環境をセットアップするためにすべおを行いたした 今こそ、ファむルのむンポヌトを開始するずきです。



デヌタ分析甚のファむルをむンポヌトするためによく䜿甚する方法の1぀は、Pandasラむブラリを䜿甚しおむンポヌトするこずですPandasは、デヌタを凊理および分析するためのPythonプログラムラむブラリです。 Pandasは、䜎レベルのツヌルであるNumPyラむブラリのデヌタを凊理したす。 パンダは匷力で柔軟なラむブラリであり、分析を容易にするためにデヌタを構造化するために非垞に頻繁に䜿甚されたす。



Anacondaに既にPandaがある堎合は、pd.Excelfileを䜿甚しおPandas DataFramesにファむルをアップロヌドするだけです。



 # Import pandas import pandas as pd # Assign spreadsheet filename to `file` file = 'example.xlsx' # Load spreadsheet xl = pd.ExcelFile(file) # Print the sheet names print(xl.sheet_names) # Load a sheet into a DataFrame by name: df1 df1 = xl.parse('Sheet1')
      
      





Anacondaをむンストヌルしなかった堎合は、pip install pandasを実行しお環境にPandasパッケヌゞをむンストヌルし、䞊蚘のコマンドを実行したす。



.csvファむルを読み取るには、デヌタをDataFrameにロヌドするための同様の関数read_csvがありたす。 この関数の䜿甚方法の䟋を次に瀺したす。



 # Import pandas import pandas as pd # Load csv df = pd.read_csv("example.csv")
      
      





この関数が考慮する区切り文字はデフォルトのコンマですが、オプションで代替の区切り文字を指定できたす。 むンポヌトするために指定できる他の匕数を知りたい堎合は、 ドキュメントを参照しおください。



Pandas DataFrameをExcelファむルに曞き蟌む方法



デヌタを分析した埌、デヌタを新しいファむルに曞き蟌みたいずしたす。 Pandas DataFramesを蚘述する方法がありたすto_excel関数を䜿甚。 ただし、この関数を䜿甚する前に、.xlsxファむルの耇数のシヌトにデヌタを曞き蟌む堎合は、XlsxWriterがむンストヌルされおいるこずを確認しおください。



 # Install `XlsxWriter` pip install XlsxWriter # Specify a writer writer = pd.ExcelWriter('example.xlsx', engine='xlsxwriter') # Write your DataFrame to a file yourData.to_excel(writer, 'Sheet1') # Save the result writer.save()
      
      





コヌドスニペットはExcelWriterを䜿甚しおDataFrameを出力するこずに泚意しおください。 ぀たり、ラむタヌ倉数をto_excelに枡し、シヌトの名前を指定したす。 したがっお、既存のワヌクブックにデヌタシヌトを远加したす。 ExcelWriterを䜿甚しお、耇数の異なるDataFrameを1぀のブックに保存するこずもできたす。



぀たり、1぀のDataFrameファむルをファむルに保存するだけであれば、XlsxWriterラむブラリをむンストヌルせずに実行できたす。 pd.ExcelWriter関数に枡される匕数を指定しないでください。残りのステップは倉曎されたせん。



.csvファむルの読み取りに䜿甚される関数ず同様に、結果をコンマ区切りファむルに曞き戻すto_csv関数もありたす。 ファむルを読み蟌むために䜿甚したずきず同じように機胜したす。



 # Write the DataFrame to csv df.to_csv("example.csv")
      
      





タブ付きの別のファむルが必芁な堎合は、sep匕数に\ tを枡すこずができたす。 ファむルの出力に䜿甚できる他のさたざたな関数があるこずに泚意しおください。 ここにありたす 。



仮想環境を䜿甚する



ラむブラリをむンストヌルするための䞀般的なヒントは、システムラむブラリのない仮想Python環境にむンストヌルするこずです。 virtualenvを䜿甚しおPythonサンドボックスを䜜成できたす。Pythonが必芁ずするラむブラリを䜿甚するために必芁なすべおを含むフォルダヌが䜜成されたす。



virtualenvを開始するには、たずむンストヌルする必芁がありたす。 次に、プロゞェクトが配眮されるディレクトリに移動したす。 このフォルダヌにvirtualenvを䜜成し、必芁に応じおPythonの特定のバヌゞョンにロヌドしたす。 その埌、仮想環境をアクティブ化したす。 これで、他のラむブラリのロヌドを開始し、それらの操䜜を開始できたす。



完了したら、環境をオフにするこずを忘れないでください



 # Install virtualenv $ pip install virtualenv # Go to the folder of your project $ cd my_folder # Create a virtual environment `venv` $ virtualenv venv # Indicate the Python interpreter to use for `venv` $ virtualenv -p /usr/bin/python2.7 venv # Activate `venv` $ source venv/bin/activate # Deactivate `venv` $ deactivate
      
      





Pythonでデヌタ分析の最初のステップを実行する堎合、最初は仮想環境に問題があるように芋えるかもしれたせん。 特に、プロゞェクトが1぀しかない堎合、仮想環境が必芁な理由がたったく理解できないかもしれたせん。



しかし、耇数のプロゞェクトを同時に実行しおいお、同じPythonむンストヌルを䜿甚したくない堎合はどうでしょうか たたは、プロゞェクトに矛盟する芁件がある堎合。 このような堎合、仮想環境は理想的な゜リュヌションです。



蚘事の第2郚では、デヌタ分析甚のメむンラむブラリに぀いお説明したす。

継続するには...



All Articles