すごいライブラリを教えてもらいました
チュートリアルを見てみると
https://pycaret.gitbook.io/docs/get-started/tutorials
- 分類
- 回帰
- 異常検知
- NLP
- アソシエーション分析
- 時系列解析
などなど、至れり尽くせりです
ちょっと色々試してみましょう
colabで実行してみます。
前準備
!pip install pycaret
# If you are running this notebook on Google colab, run the following code at top of your notebook to display interactive visuals.
from pycaret.utils import enable_colab
enable_colab()
Binary Classification (2値分類)
データの用意
このサンプルでは銀行が与信審査を行うための情報が入ってるものですね。
性別、年齢、最終学歴などが格納されていて与信が下りるかどうかを予測するものとしてちょくちょくみたことがある気がします
from pycaret.datasets import get_data
dataset = get_data('credit')
24000人分の24の項目のデータが含まれているらしいですね
dataset.shape # (24000, 24)
学習データを95%
テストデータを5%
にして分割してあげます。
data = dataset.sample(frac=0.95, random_state=786)
data_unseen = dataset.drop(data.index)
data.reset_index(inplace=True, drop=True)
data_unseen.reset_index(inplace=True, drop=True)
print('Data for Modeling: ' + str(data.shape))
print('Unseen Data For Predictions: ' + str(data_unseen.shape))
"""
Data for Modeling: (22800, 24)
Unseen Data For Predictions: (1200, 24)
"""
いよいよモデルの用意です
というか、データを指定してsetup関数に食わせてあげたらもうほぼ終わってるんですね
楽すぎるwww
なんかエンター押さないといけないっぽい。
from pycaret.classification import *
exp_clf101 = setup(data = data, target = 'default', session_id=123)
あとは、このコードで複数モデルを比較できる
best_model = compare_models()
これはすごい。
チュートリアルのnotebookでは一番いいスコアのセルに色がつくらしいけど、colabではつかなかった...
ひえー、恐れ入りました
これは便利だ