pandasデータ処理ドリル Pythonによるデータサイエンスの腕試し

別にデータサイエンスまでいかなくても、PythonでExcelでつくったワークシート(一覧表)を扱うときに避けて通れない(と思っている)のがpandasというライブラリです。Pyhtonには標準でインストールされていないので、手動でインストールしないと使えません。xlsxファイルを開く(読み込む)だけなら、openpyxlというライブラリがあれば可能ですが、これまたPyhtonには標準でインストールされていないのです(苦笑)。pandasをインストールすると依存関係でopenpyxlもインストールされます、たぶん。

読み込んだデータを行列で簡単に扱いたいときには、リストや辞書を使うよりもpandas Seriesやpandas DataFrameを使った方が良いのです。ただ、扱い方を誤ると処理にバカみたく時間が掛かるというデメリットがあることは知っておいた方が良いでしょう。コードの書き方によっては同じ処理をさせるのに2倍どころか数十倍、数百倍の違いが出ます。動けば良い、結果が同じなら良いって人は気にしないでしょうが...。