원-핫 인코딩(one-hot encoding) - 단어 또는 문장을 이진 벡터로 변환하여 각 단어 또는 문장 요소의 존재 여부를 표현 - 각 단어를 모두 0으로 바꾸고 원하는 단어만 1로 바꾸어 주는 것 나는 = [ 0 1 0 0 0 0 0 0 ] 그대만큼 = [ 0 0 1 0 0 0 0 0 ] 사랑스러운 = [ 0 0 0 1 0 0 0 0 ] 사람을 = [ 0 0 0 0 1 0 0 0 ] 본 = [ 0 0 0 0 0 1 0 0 ] 적이 = [ 0 0 0 0 0 0 1 0 ] 없다 =[ 0 0 0 0 0 0 0 1 ] ※ 맨 첫 번째는 0 인덱스 자리 1. 토큰화 및 인덱스 값 출력 text = '나는 그대만큼 사랑스러운 사람을 본 적이 없다' token = Tokenizer() token.fit_on_..
자연어 처리(Natural Language Processing, NLP) - 인간의 언어를 컴퓨터가 이해하고 처리할 수 있는 형태로 변환하는 기술 - 딥러닝을 하기 전 텍스트를 정제하는 텍스트 전처리 과정 필요 텍스트 토큰화(tokenization) - 토큰(token) : 텍스트 데이터를 작은 단위로 분할하는 과정에서 생성된 단어, 음절, 형태소와 같은 개별적인 단위 - 토큰화(tokenization) : 입력된 텍스트를 잘게 나누는 과정 text_to_word_sequence : 텍스트를 단어 단위로 나눔 : keras에 존재 # 케라스의 텍스트 전처리와 관련한 함수중 text_to_word_sequence 함수를 불러옴 from tensorflow.keras.preprocessing.text imp..
MNIST 데이터 - 미국 국립표준기술원(NIST)이 고등학생과 인구조사국 직원 등이 쓴 손글씨를 이용해 만든 데이터 - 7만 개의 글자 이미지에 각각 0부터 9까지 이름표를 붙인 데이터셋 - keras API를 이용해 불러올 수 있음 이미지 인식 1. 데이터 준비 - X : 불러온 이미지 데이터 / y : 이미지에 0~9를 붙인 이름표 - X_train, y_train : 학습셋 / X_test, y_test : 테스트셋 from tensorflow.keras.datasets import mnist # MNIST 데이터셋을 불러와 학습셋과 테스트셋으로 저장 (X_train, y_train), (X_test, y_test) = mnist.load_data() # 학습셋과 테스트셋이 각각 몇 개의 이미지로..