자연어 처리(Natural Language Processing, NLP) - 인간의 언어를 컴퓨터가 이해하고 처리할 수 있는 형태로 변환하는 기술 - 딥러닝을 하기 전 텍스트를 정제하는 텍스트 전처리 과정 필요 텍스트 토큰화(tokenization) - 토큰(token) : 텍스트 데이터를 작은 단위로 분할하는 과정에서 생성된 단어, 음절, 형태소와 같은 개별적인 단위 - 토큰화(tokenization) : 입력된 텍스트를 잘게 나누는 과정 text_to_word_sequence : 텍스트를 단어 단위로 나눔 : keras에 존재 # 케라스의 텍스트 전처리와 관련한 함수중 text_to_word_sequence 함수를 불러옴 from tensorflow.keras.preprocessing.text imp..
컨볼루션 신경망(CNN) - 입력된 이미지에서 다시 한 번 특징을 추출하기 위해 커널(슬라이딩 윈도)을 도입하는 기법 - 원래 있던 값 x 가중치 값 = 새로 추출된 값 ex. (1x1)+(0x0)+(0x0)+(1x1) = 2 - 커널을 한 칸씩 옮겨 모든 칸에 적용 - 새롭게 만들어진 층을 컨볼루션(합성곱)층이라고 함 - 입력 데이터가 가진 특징을 대략적으로 추출해서 학습 진행 Con2D() : 컨볼루션(합성곱) 층을 추가하는 함수 : keras에 존재 - 첫 번째 인자 : 커널을 몇 개 적용할지 결정 - kernel_size : 커널의 크기를 (행, 열) 형식으로 결정 - input_shape : 맨 커음 층에 입력되는 값을 (행, 열, 색상 또는 흑백) 형식으로 결정 - activation : 활성..
MNIST 데이터 - 미국 국립표준기술원(NIST)이 고등학생과 인구조사국 직원 등이 쓴 손글씨를 이용해 만든 데이터 - 7만 개의 글자 이미지에 각각 0부터 9까지 이름표를 붙인 데이터셋 - keras API를 이용해 불러올 수 있음 이미지 인식 1. 데이터 준비 - X : 불러온 이미지 데이터 / y : 이미지에 0~9를 붙인 이름표 - X_train, y_train : 학습셋 / X_test, y_test : 테스트셋 from tensorflow.keras.datasets import mnist # MNIST 데이터셋을 불러와 학습셋과 테스트셋으로 저장 (X_train, y_train), (X_test, y_test) = mnist.load_data() # 학습셋과 테스트셋이 각각 몇 개의 이미지로..
부동산 가격 예측 데이터 분석 - 아이오와주 에임스 지역에서 2006년부터 2010년까지 거래된 실제 부동산 판매 기록을 보고 집의 가격 예측 - 빠진 부분, 범위에서 너무 벗어난 부분, 가격과는 관계 없는 정보 포함 1. 환경 및 데이터 준비 from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint from sklearn.model_selection import train_test_split import matplotlib.pyplot as plt import seaborn as..
와인 품질 예측 데이터 - 레드 와인과 화이트 와인에 대한 화학적 특성과 품질 등급을 통해 와인의 종류 예측 1. 환경 및 데이터 준비 from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense from sklearn.model_selection import train_test_split import pandas as pd # 데이터 입력 df = pd.read_csv('./data/wine.csv', header=None) # 데이터를 미리 봄 df.head() # 와인의 속성을 X로 와인의 분류를 y로 저장 X = df.iloc[:,0:12] y = df.iloc[:,12] 2. 검증셋 포함하여 모델 ..
k겹 교차 검증(k-fold cross validation) - 데이터셋을 여러 개로 나누어 하나씩 테스트셋으로 사용하고 나머지를 모두 합해서 학습셋으로 사용 - 가지고 있는 데이터의 100%를 학습셋으로 사용할 수 있고, 동시에 테스트셋으로도 사용 가능 - 데이터셋을 k개로 나눈 후 그 중 k-1개를 학습셋으로, 1개를 테스트셋으로 만들어 k번의 학습을 순차적으로 실시 5겹 교차 검증 예제 - 초음파 광물 예측 데이터 - 초음파 광물 예측 데이터 분석은 https://codingmoding.tistory.com/93 여기서 확인! 1. 환경 및 데이터 준비 from tensorflow.keras.models import Sequential from tensorflow.keras.layers import..
초음파 광물 예측 데이터 - 수중 음파 탐지기로 쏜 결과를 보고 광석인지 일반 암석인지 구분 from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense import pandas as pd df = pd.read_csv('./data/sonar3.csv', header=None) # 음파 관련 속성을 X로, 광물의 종류를 y로 저장 X = df.iloc[:,0:60] y = df.iloc[:,60] # 모델 설정 model = Sequential() model.add(Dense(24, input_dim=60, activation='relu')) model.add(Dense(10, activation='rel..