Rでデータマイニング

Rで疑問に思ったことなどを

forcats

forcats 最近見つけた私にとっての便利なパッケージforcats もともとfactorの扱いが苦手。 今回困ったのはggplotで棒グラフを描いたときに件数順にソートしたくてさっとはできなかった。 使った関数はfct_infreq levelsを件数順にしてくれます。 もともとの…

ggplot2 windows環境でフォントを指定したい

ggplot2 windows環境でフォントを指定したい グラフを書くときにフォントに悩みのはもう終わりにしたい。 メイリオフォントを指定する。 でもメイリオはあまり好みじゃないな。 library(ggplot2) windowsFonts("MEI"=windowsFont("Meiryo")) qplot( data=iri…

開発環境を少し変更

開発環境を再考して少しだけ自分の好みに近づいた。 jupyter R vim key binding 1. jupyter R いままではRstudioを使用していたが満足していなかった。一つ目の理由は余計な機能が多すぎること。2つ目はpythonと異なる2つの開発環境を併用するのが面倒。 こ…

グラフについてとても参考になった。 ダメ出し:ちゃんとしたグラフを描こう

偶然見つけた下記のページ。 ダメ出し:ちゃんとしたグラフを描こう グラフを見ると明らかに分かりやすくなっている。 ggplot2はだめなのか? ggplot2で下のグラフはつくれないのか? 話は変わって愚痴っぽくなるがRで新しいことを試そうとすると躓くことが…

tm:言語処理とちょっとだけ嵌る

tm:言語処理とちょっとだけ嵌る 嵌ったこと 言言処理の前処理が必要でtmパッケージを使用しました。参考情報は下記 Basic Text Mining in R stemDocument関数で英単語が集計しやすい形で出力されるはずなのにされない。 参考情報に従って問題を確認 データは…

今更欠損値対応:mlr

今更欠損値対応:mlr 欠損値対応 TREEベースのアルゴリズムでモデルを構築することが多いので欠損値対応は必要ないと思っていた。 今回はモデルを構築する前にクラスタリングすることにしてkmeansのため欠損値対応が必要になった。 平均値に置換 難しいこと…

そろそろ最適化問題を勉強したい:optim

そろそろ最適化問題を勉強したい:optim 最適化問題をおろそかにしてきた 実務ではパラメータ推計やモデル構築で事足りて最適化問題をおろそかにしてきた。 最適化が必要な状況 順序予測を回帰でモデル構築した後に予測値を離散化して順序にしたい。離散化の…

いろいろ試したい時のデータセット:タイタニック

いろいろ試したい時のデータセット:タイタニック 分析データを見つけるのは難しい 何かを試したい時に適したデータセットを見つけるのはなかなか難しい。複数のデータセットを目的に応じて使い分けるのも骨が折れる。ある程度汎用的に使えるデータセットを…

dplyr:group_by に嵌る

dplyr:group_by に嵌る kanosuke 問題 dplyrのgroup_byを使用してグループ別の集計処理をしたかったのだがグループ処理が働かずに嵌った。 問題例 library(dplyr) library(plyr) mtcars %>% group_by(vs, am) %>% summarise(max = max(mpg)) ## max ## 1 33.…

xgboostを試してみる

xgboostを試してみる kanosuke 2015年11月03日 xgboostで精度の高いモデルを構築できるらしい。それから、fevalでモデル精度指標を指定できるところも良さそう。xgboostを試してみたい。 まずは試してみる。 caretを使用すると色々なモデルが共通の文法で書…

dplyr, mutateを用いたデータハンドリング, data wrangling

dplyr, mutateを用いたデータハンドリング, data wrangling kanosuke 2015年10月21日 モデル構築前の前処理 モデル構築する前には前処理が必要。むしろ、前処理の方がが時間がかかる。モデル構築ではトレーニング用とテスト用に分割するので2つのデータセッ…

caret:trainに慣れる

caret:trainに慣れる kanosuke 2015年10月19日 パッケージ caret The caret Package 色々なアルゴリズムを個別のパッケージで対応してきた。でも、それぞれの使い方を調べながら対応するのが面倒。caretは多くのアルゴリズムを一つのパッケージにまとめてく…

欠損値置換や因子ベクトル化をmutate_eachで

欠損値置換や因子ベクトル化をmutate_eachで kanosuke 2015年10月17日 Rでのデータ加工がいつも捗らなくて困っていた。dplyrをより活用することでもっと効率的にしたい。そのなかでもmutate_eachは使う場面が多そうなので慣れておきたい。 全変数を因子ベク…

経過月数の計算 library(mondate)

KAGGLEの分析で経過月数を求めたいと思った。 過去に書き散らかして放置していたブログでも同様の記事を投稿したことがあった。月日が立ち、そのときに利用していたライブラリ名すら忘れていた。 「r months between」で検索してみるとStack Overflow に質問…