Kode program yang akan diajarkan di sini bisa diunduh di tautan berikut ini, untuk membukanya upload berkasnya dari Google Colab.
Pada sub modul latihan ini, kita akan menggunakan data yang lebih kompleks dari sebuah numpy array. Untuk coding practice kali ini kita akan memakai dataset Iris, salah satu dataset paling populer yang dipakai dalam belajar ML.
Dataset iris terdiri dari 4 atribut yaitu panjang sepal, lebar sepal, panjang petal, dan lebar petal. Terdapat 3 kelas target pada dataset ini. Data ini dipakai untuk masalah klasifikasi, di mana kita bisa memprediksi spesies dari sebuah bunga berdasarkan atribut-atribut yang diberikan.
Pertama kita akan mengimpor library yang dibutuhkan dan mempersiapkan dataset. Dataset dapat anda unduh di tautan berikut. Setelah data diunduh, masukkan berkas Iris.csv ke dalam Colab. Lalu jangan lupa konversi dataset menjadi dataframe Pandas.
- from sklearn.tree import DecisionTreeClassifier
- import pandas as pd
- from sklearn.datasets import load_iris
- iris = pd.read_csv('Iris.csv')
Untuk melihat informasi mengenai data, Anda bisa memanggil fungsi .head() pada dataframe.
- iris.head()
Tampilan iris.head() saat dijalankan sebagai berikut.
Dapat dilihat bahwa terdapat kolom yang tidak penting pada dataset yaitu kolom ‘Id’. Untuk menghilangkan kolom tersebut kita bisa menggunakan fungsi drop().
- iris.drop('Id',axis=1,inplace=True)
Selanjutnya kita pisahkan antara atribut dan label untuk pelatihan model kita.
- X = iris[['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm' ]]
- y = iris['Species']
Kemudian buat model decision tree kita. Terakhir kita melatih model kita dengan menggunakan fungsi fit(). Keluaran dari cell di bawah menunjukkan bahwa model decision tree telah dilatih dan parameter-parameternya juga ditampilkan. Penjelasan mengenai parameter akan dibahas di modul-modul selanjutnya.
- # membuat model Decision Tree
- tree_model = DecisionTreeClassifier()
- # melakukan pelatihan model terhadap data
- tree_model.fit(X, y)
Kita bisa mencoba model yang telah kita buat untuk memprediksi spesies dari sebuah bunga Iris. Masih ingat bukan, bahwa atribut yang menjadi masukan dari model adalah panjang sepal, lebar sepal, panjang petal, dan lebar petal. Kita masukkan nilai yang sesuai dengan format tersebut secara berurutan dalam satuan centimeter. Pada kode di bawah kita ingin memprediksi spesies dari sebuah bunga iris yang memiliki panjang sepal 6,2 centimeter, lebar sepal 3,4 centimeter, panjang petal 5,4 centimeter, dan lebar petal 2,3 centimeter. Hasil prediksi dari model kita adalah virginica.
- # tree_model.predict([[SepalLength, SepalWidth, PetalLength, PetalWidth]])
- tree_model.predict([[6.2, 3.4, 5.4, 2.3]])
Jika kode tersebut dijalankan, maka tampilannya seperti di bawah ini.
Kita juga bisa melihat visualisasi dari decision tree yang kita buat terhadap data dengan menggunakan library Graphviz. Hasil dari graphviz adalah dot file yang akan muncul pada folder file pada panel di kiri Colab.
- from sklearn.tree import export_graphviz
- export_graphviz(
- tree_model,
- out_file = "iris_tree.dot",
- feature_names = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm'],
- class_names = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica' ],
- rounded= True,
- filled =True
- )
Setelah berhasil dijalankan, hasil dari iris_tree.dot terlihat seperti di bawah ini.
Untuk melihat visualisasi decision tree kita bisa mengkonversi dot file ke dalam file png. Untuk mengunduh berkas iris_tree.dot pada gambar di atas, kita dapat melakukan klik kanan pada berkas tersebut dan mengunduhnya. Untuk konversi berkas dengan ekstensi dot menjadi berkas png dapat dilakukan di situs https://convertio.co/id/dot-png/.
Selamat! Anda telah berhasil membuat sebuah model decision tree untuk klasifikasi spesies bunga Iris. Anda juga telah berhasil menguji model anda untuk memprediksi spesies dari sebuah bunga iris. Untuk belajar lebih mendalam tentang decision tree, kunjungi tautan berikut yah
No comments:
Post a Comment