목록분류 전체보기 (18)
곰
인스타그램을 크롤링 하기 위해 처음에 크롬브라우져 웹 드라이버를 미리 설치 하셔야 합니다. https://chromedriver.chromium.org/downloads import pandas as pd import numpy as np # 라이브러리 import # 라이브러리 : 필요한 도구 from selenium import webdriver # 라이브러리(모듈) 가져오라 from selenium.webdriver import ActionChains as AC from tqdm import tqdm from tqdm import tqdm_notebook import re # regular expression (정규표현식) - 해시태그(#) 제거 from time import sleep import..

import sys import os import pandas as pd import numpy as np from bs4 import BeautifulSoup from selenium import webdriver import time from tqdm import tqdm_notebook driver=webdriver.Chrome(path) driver.get("https://m.bunjang.co.kr/") time.sleep(2) # 홈페이지 접속 driver.find_element_by_css_selector(".sc-eNQAEJ.oExpo").click() time.sleep(2) element.send_keys(query_txt) # 검색창 클릭 -> 검색어 입력(query_txt) driv..

오토인코더는 입력을 출력으로 복사하는 신경망입니다. 은닉층의 노드 개수가 입력 값보다 적은 것이 특징입니다. 입력과 출력은 동일한 이미지라고 예상할 수 있습니다. 오토인코더의 은닉층은 입력과 출력의 뉴련보다 굉장히 적습니다. 적은 수의 은닉층 뉴런으로 데이터를 가장 잘 표현할 수 있는 방법이 오토인코더입니다. 오토인코더는 주요부분은 네 가지로 구성됩니다. TIP 은닉층이란? 신경망 학습에서 모든 입력 노드들로부터 입력값을 받아 가중치를 계산하는 부분으로 가중치의 수정으로 인한 학습이 진행되는 부분이다. 완료된 학습 데이터를 출력층으로 전달한다. 1. 인코더 : 인지 네트워크(recognition network)라고도 하며 특성에 대한 학습을 수행하는 부분입니다. 2. 은닉층 : 모델의 뉴런 개수가 최소인..

비지도 학습은 정답이 없는 상태에서 훈련시키는 방식입니다. 비지도 학습으로는 군집과 차원 축소가 있습니다. 1. K-mean ciustering(k-평균 군집화) 군집화는 데이터를 그룹화하고 사용자의 관심분야에 따라 그룹화하여 마케팅에 활용됩니다. 평균군집화는 데이터를 받아 소수의 그룹으로 묶습니다. 학습과정으론 1. 중심점 선택 : 랜덤 하게 초기 중심점을 선택합니다. 2. 클러스터 할당 : 중심점들과 각각의 데이터 간의 거리를 측정한 후 가장 가까운 중심점을 기준으로 데이터를 할당합니다. 이때 클러스터가 구성됩니다. 3. 새로운 중심점 선택 : 클러스터마다 새로운 중심점을 계산합니다. 4. 범위확인 : 선택된 중심점에 더 이상의 변화가 없다면 진행을 멈춥니다. 계속 변화한다면 1~3번 과정을 반복합니..

1. K-최근접 이웃 K-최근접 이웃은 직관적이며 사용하기 쉽기 때문에 초보자가 쓰면 좋습니다. 또한, 훈련 데이터를 충분히 확보할 수 있는 환경에서 사용하면 좋습니다. K-nearest neighbor은 새로운 데이터를 받았을 때 기존 클러스터에서 모든 데이터와 인스턴스 기반 거리를 측정한 후 가장 많은 속성을 가진 클러스터에 할당하는 분류 알고리즘입니다. 머신러닝 코드는 심층 신경망이 필요하지 않기 때문에 사이킷런(scikit-learn)을 이용합니다. 실습은 구글 코랩을 이용하였습니다. https://archive.ics.uci.edu/ml/machine-learning-databases/iris/ Index of /ml/machine-learning-databases/iris archive.ics..

3. 평가(Evaluation) 학습 데이터로 분류 모델을 만들고, 이를 테스트 데이터에 넣어서 좋은 모델인지 성능을 평가하고자 합니다. 이 때 사용되는 분류 성능평가 지표들과 함수들에 대해 알아보겠습니다. - 오차행렬 - 정확도 - 정밀도,재현율 - 정밀도와 재현율의 (trade-off) 관계 - F1 Score - ROC AUC import pandas as pd import numpy as np 3.1 정확도(Accuracy) 정확도는 직관적으로 모델 예측 성능을 나타내는 평가 지표입니다. 하지만 이진 분류의 경우 데이터의 구성에 따라 ML 모델의 성능을 왜곡할 수 있기 때문에 정확도 수치 하나만 가지고 성능을 평가하지 않습니다. 특히 정확도는 불균형한 레이블 값 분포에서 ML 모델의 성능을 판단할..