Wednesday, May 20, 2020

Belajar Latihan SKLearn with Grid Search

Kode program yang akan diajarkan di sini bisa diunduh di tautan berikut ini, untuk membukanya upload berkasnya dari Google Colab.
Untuk latihan kali ini kita akan menggunakan bagaimana grid search mencari parameter terbaik pada sebuah model SVR. Dataset yang kita gunakan sama seperti di modul 3 yaitu dataset gaji. Pada latihan tersebut model belum mampu menyesuaikan pola pada data dengan baik.
2020043017423469a6a240d7a34bd10eefcb8f019c997a.png
Pada latihan ini kita akan mencari parameter yang lebih baik dengan menggunakan grid search agar model menjadi lebih baik.
Pertama, undul berkas "Salary_Data.csv", dari tautan berikut ini. Jika sudah jangan lupa upload ke Google Colab Anda.
Pada cell pertama impor library dasar dan ubah berkas dataset menjadi dataframe.

  1. import pandas as pd

  2. from sklearn.model_selection import train_test_split

  3. from sklearn.preprocessing import StandardScaler

  4.  

  5. data = pd.read_csv('Salary_Data.csv')


Kemudian pisahkan atribut dan label pada dataset. Masih ingat bukan, bahwa jika hanya terdapat 1 atribut pada dataset kita perlu mengubah bentuknya agar bisa dipakai pada pelatihan model.

  1. import numpy as np

  2.  

  3. X = data['YearsExperience']

  4. y = data['Salary']

  5. X = X[:,np.newaxis]


Selanjutnya, untuk menggunakan grid search, kita impor library GridSearchCV dari sklearn.model_selection. Lalu kita buat model yang ingin kita uji dengan grid search dalam hal ini model SVR. Kemudian kita buat sebuah python dictionary yang berisi nama parameter yang akan diuji, serta nilai-nilainya. Selanjutnya kita buat objek grid search dan mengisi parameter-parameternya. Parameter pertama adalah model yang akan kita uji. Parameter kedua adalah dictionary yang berisi kumpulan parameter dari model yang akan diuji. Terakhir kita panggil fungsi fit() pada objek grid search yang telah kita buat.

  1. from sklearn.model_selection import GridSearchCV

  2. from sklearn.svm import SVR

  3. model = SVR()

  4. parameters = {

  5.     'kernel': ['rbf'],

  6.     'C':     [1000, 10000, 100000],

  7.     'gamma': [0.5, 0.05,0.005]

  8. }

  9. grid_search = GridSearchCV(model, parameters)

  10. grid_search.fit(X,y)


Setelah grid search mencari parameter terbaik pada model, kita bisa menampilkan parameter terbaik dengan memanggil atribut best_params_ dari objek grid search.

  1. print(grid_search.best_params_)


Selanjutnya Anda bisa mencoba membuat model SVM baru dengan parameter hasil grid search dan melatihnya pada data.

  1. model_baru  = SVR(C=100000, gamma=0.005, kernel='rbf')

  2. model_baru.fit(X,y)


Terakhir kita bisa memvisualisasikan SVR dengan parameter hasil grid search. Dapat dilihat dari hasil plot bahwa grid search berhasil mencari parameter yang lebih baik sehingga meningkatkan performa dari model.

  1. import matplotlib.pyplot as plt

  2. plt.scatter(X, y)

  3. plt.plot(X, model_baru.predict(X))


 20200430175750c0258f1d2bdc64a9fd8bf76dda6d50cb.png
Selamat! Anda telah memahami dan bisa menggunakan grid search untuk mencari parameter terbaik dari suatu model. Dengan grid search Anda akan menghemat banyak waktu dalam mencari parameter terbaik dari model machine learning yang anda kembangkan ke depannya

No comments:

Post a Comment