StatsFragments

Python, R, Rust, 統計, 機械学習とか

pandas

Python pandas の算術演算 / 集約関数 / 統計関数まとめ

概要 恒例の pandas 記事。今回は 基本的な算術演算についてまとめた。このあたりの挙動は numpy と一緒で直感的だと思うが、知っていないとハマるポイントがいくつかあるので。 準備 サンプルは DataFrame のみ。だが内容は Series でも同じ ( 行/列 2次元…

pandas でメモリに乗らない 大容量ファイルを上手に扱う

概要 分析のためにデータ集めしていると、たまに マジか!? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、? このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい…

Python pandas データ選択処理をちょっと詳しく <後編>

概要 こちらの続き。これで pandas でのデータ選択についてはひとまず終わり。 Python pandas データ選択処理をちょっと詳しく <前編> - StatsFragments Python pandas データ選択処理をちょっと詳しく <中編> - StatsFragments サンプルデータの準備 データ…

Python pandas データ選択処理をちょっと詳しく <中編>

こちらの続き。 Python pandas データ選択処理をちょっと詳しく <前編> - StatsFragments 上の記事では bool でのデータ選択について 最後にしれっと書いて終わらせたのだが、一番よく使うところなので中編として補足。 まず __getitem__ や ix の記法では、…

Python pandas データ選択処理をちょっと詳しく <前編>

概要 書いていて長くなったため、まず前編として pandas で データを行 / 列から選択する方法を少し詳しく書く。特に、個人的にはけっこう重要だと思っている loc と iloc について 日本語で整理したものがなさそうなので。 サンプルデータの準備 import pan…

Python pandas で日時関連のデータ操作をカンタンに

概要 Python で日時/タイムスタンプ関連の操作をする場合は dateutil や arrow を使っている人が多いと思うが、 pandas でもそういった処理がわかりやすく書けるよ、という話。 pandas の本領は多次元データの蓄積/変形/集約処理にあるが、日時操作に関連し…

Python lifelines で生存分析

サイトのアクセス履歴をみていたら "Python", "生存分析", "Kaplan-Meier" なんかがちらほらあったので、知っている方法を書いてみる。 生存分析とは いくつかのサンプルについて、何らかのイベントが起きるまでの時間とイベント発生率との関係をモデル化す…

Python pandas アクセサ / Grouperで少し高度なグルーピング/集計

日本語の説明がなさそうなので。 概要 pandas では groupby メソッドを使って、指定したカラムの値でデータをグループ分けできる。ここでは少し凝った方法を説明。 ※ dtアクセサ の追加、またグルーピング関連のバグ修正がいろいろ入っているので、0.15以降…

Python rpy2 で pandas の DataFrame を R の data.frame に変換する

pandas の DataFrame を R へ渡す/また R から Python へデータを戻す方法について、本家のドキュメント が書きかけなのでよくわからない。ということで 以前 下の文書を書いたので訳してみる。 DOC: Complete R interface section by sinhrks · Pull Reques…

Python pandas でのグルーピング/集約/変換処理まとめ

これの pandas 版。 R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments 準備 サンプルデータは iris で。 補足 (11/26追記) rpy2 を設定している方は rpy2から、そうでない方は こちら から .csv でダウンロードして読み込み (もしくは…

簡単なデータ操作を Python pandas で行う

先ほどの R の記事と同じ操作を Python pandas でやる。 Rの data.table と data.frame を dplyr で区別なく扱う - StatsFragments Python の場合は Rのようなシンボルの概念がないので、変数が評価される環境を意識する必要が(あまり)ない。 準備 サンプル…

Pythonでdata.go.jpからデータを取得する

データカタログサイト data.go.jp が本稼働したので、そこからデータを pandasのデータフレームとして取得するモジュールを書いた。 日立、オープンデータポータル「DATA.GO.JP」本稼働 data.go.jp に限らず data.go...系は CKAN で構築されていることが多い…