사이킷런의 내장 예제 데이터
from sklearn.datasets import load_iris
# iris 데이터 객체 선언
iris_data = load_iris()
print(type(iris_data))
iris_data
# 붓꽃 데이터 세트의 키들
iris_data.keys()
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])
키는 보통 data, target, target_name, feature_names, DESCR로 구성돼 있습니다. 개별 키가 가리키는 의미는 다음과 같습니다.
- data는 피처의 데이터 세트를 가리킵니다.(정답값x)
- target은 분류 시 레이블 값, 회귀일 때는 숫자 결괏값 데이터 세트입니다..(정답값)
- target_names는 개별 레이블의 이름을 나타냅니다.
- feature_names는 피처의 이름을 나타냅니다.
- DESCR은 데이터 세트에 대한 설명과 각 피처의 설명을 나타냅니다.
# iris_data.feature_names 확인
print(type(iris_data.feature_names))
<class 'list'>
print(len(iris_data.feature_names))
print(iris_data.feature_names)
4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
# iris_data.target_names 확인
print(type(iris_data.target_names))
<class 'numpy.ndarray'>
print(iris_data.target_names.shape)
print(iris_data.target_names)
(3,)
['setosa' 'versicolor' 'virginica']
# iris_data.data 확인
print(type(iris_data.data))
<class 'numpy.ndarray'>
print(iris_data.data.shape)
print(iris_data['data'])
(150, 4)
[[5.1 3.5 1.4 0.2]
[4.9 3. 1.4 0.2]
[4.7 3.2 1.3 0.2]
[4.6 3.1 1.5 0.2]
[5. 3.6 1.4 0.2]
[5.4 3.9 1.7 0.4]
................
[4.6 3.4 1.4 0.3]
[5. 3.4 1.5 0.2]
[4.4 2.9 1.4 0.2]
[4.9 3.1 1.5 0.1]
[6.3 2.5 5. 1.9]
[6.5 3. 5.2 2. ]
[6.2 3.4 5.4 2.3]
[5.9 3. 5.1 1.8]]
# iris_data.target 확인
print(type(iris_data.target))
<class 'numpy.ndarray'>
print(iris_data.target.shape)
print(iris_data.target)
(150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]