StatsFragments

Python, R, Rust, 統計, 機械学習とか

2014-10-01から1ヶ月間の記事一覧

Python pandas アクセサ / Grouperで少し高度なグルーピング/集計

日本語の説明がなさそうなので。 概要 pandas では groupby メソッドを使って、指定したカラムの値でデータをグループ分けできる。ここでは少し凝った方法を説明。 ※ dtアクセサ の追加、またグルーピング関連のバグ修正がいろいろ入っているので、0.15以降…

R ggplot2 で monthplot

Rで時系列データの周期特性をちゃっと確認したいとき、monthplotという関数を使うとデータを月次に分割してグラフ作成してくれる。 monthplot(AirPassengers) が、出力がちょっとアレなのと 月次以外の周期性をみたい場合があるので、 ggplot2 で作ってみた…

R の {MSwM} パッケージでマルコフ転換モデルをためす

マルコフ転換モデルとは 数式を使わない説明。 サーモンとインターネット広告とマルコフ転換モデル|インターネット広告代理店で働くデータサイエンティストのブログ マルコフ状態転換モデルのRパッケージ{MSwM}の使い方(異常値検出・ステータス変化検出な…

ggplot2でよく使うパッケージを autoplot する

パッケージを書いた。 つかいかた RPubs - Plotting Time Series with ggplot2 and ggfortify RPubs - Plotting Time Series Statistics with ggplot2 and ggfortify RPubs - Plotting PCA/clustering results using ggplot2 and ggfortify RPubs - Plotting…

R prcomp での主成分分析結果から元データを復元する

R

普通はこんなことやる必要ないですが、、、主成分分析 prcomp 関数の結果のみを引数にして、元データ込みの処理を行う関数がどうしても書きたかったので。 # 元データ head(iris) # Sepal.Length Sepal.Width Petal.Length Petal.Width Species # 1 5.1 3.5 …

Python rpy2 で pandas の DataFrame を R の data.frame に変換する

pandas の DataFrame を R へ渡す/また R から Python へデータを戻す方法について、本家のドキュメント が書きかけなのでよくわからない。ということで 以前 下の文書を書いたので訳してみる。 DOC: Complete R interface section by sinhrks · Pull Reques…

Python traits で型強制 + traitsui でカンタン GUI 作成

Python の Canopy ディストリビューションで有名な Enthought.inc が作っている traits, traitsui というモジュールが結構便利なのだが、日本語の情報がないのでメモ。 概要 traits は Python のクラスプロパティに特定の型を強制できるモジュール traitsui …

Python pandas でのグルーピング/集約/変換処理まとめ

これの pandas 版。 R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments 準備 サンプルデータは iris で。 補足 (11/26追記) rpy2 を設定している方は rpy2から、そうでない方は こちら から .csv でダウンロードして読み込み (もしくは…

R dplyr, tidyr でのグルーピング/集約/変換処理まとめ

これの続き。よく使う集約/変換処理もまとめておく。 Rの data.table と data.frame を dplyr で区別なく扱う - StatsFragments 準備 library(dplyr) library(tidyr) (df <- dplyr::tbl_df(iris)) # Source: local data frame [150 x 5] # # Sepal.Length Se…

簡単なデータ操作を Python pandas で行う

先ほどの R の記事と同じ操作を Python pandas でやる。 Rの data.table と data.frame を dplyr で区別なく扱う - StatsFragments Python の場合は Rのようなシンボルの概念がないので、変数が評価される環境を意識する必要が(あまり)ない。 準備 サンプル…

Rの data.table と data.frame を dplyr で区別なく扱う

R を使っていると、組み込み型の data.frame と大規模データ用パッケージである data.table の差異で思わずはまることがあるので使い方をまとめる。どちらか一方しか使わないようにすれば 差異を気にする必要はないのかも知れないが、、。 基本的には データ…

Pythonでdata.go.jpからデータを取得する

データカタログサイト data.go.jp が本稼働したので、そこからデータを pandasのデータフレームとして取得するモジュールを書いた。 日立、オープンデータポータル「DATA.GO.JP」本稼働 data.go.jp に限らず data.go...系は CKAN で構築されていることが多い…

ggplot2でsurvival::survfitさせた生存曲線を描画する

こちらの survival 版: ggplot2でforecastインスタンスを描画する - StatsFragments 同じように survfit 用の fortify を定義すればよい。lung(肺ガンデータ)を使って、男女別のKaplan-Meier曲線を描いてみる。 library(survival) library(ggplot2) library(…

ggplot2でforecastインスタンスを描画する

最近 時系列データを forecast パッケージを使って処理している。便利! library(forecast) d <- AirPassengers d.arima <- forecast::auto.arima(d) d.forecast <- forecast(d.arima, level = c(95), h = 50) plot(d.forecast) この結果を、総称関数 plot …