IMDB 영화 리뷰 데이터 - 영화 사이트 IMDB의 리뷰 데이터로 리뷰가 긍정인 경우 1, 부정인 경우 0으로 표시한 레이블로 구성된 데이터 IMDB 영화 리뷰 데이터 확인 환경 및 데이터 준비 import numpy as np import matplotlib.pyplot as plt from tensorflow.keras.datasets import imdb (X_train, y_train), (X_test, y_test) = imdb.load_data() 데이터 수 확인 - 카테고리 : 긍정 1, 부정 0 category = len(set(y_train)) print('카테고리 :', category) print('훈련용 리뷰 개수 :', len(X_train)) print('테스트용 리뷰 개수 :..
순환 신경망(Recurrent Neural Network, RNN) - 여러 개의 데이터가 순서대로 입력되었을 때 앞서 입력받은 데이터를 잠시 기억해 놓는 방법 - 기억된 데이터가 얼마나 중요한지 판단하고 별도의 가중치를 주어 다음 데이터로 넘김 1. 다수 입력 단일 출력 ex) 문장을 읽고 뜻을 파악할 때 2. 단일 입력 다수 출력 ex) 사진의 캡션을 만들 때 3. 다수 입력 다수 출력 ex) 문장을 번역할 때 LSTM(Long Short Term Memory) - 반복되기 전에 다음 층으로 기억된 값을 넘길지 여부를 관리하는 단계를 하나 더 추가 - RNN의 기울기 소실 문제를 보완 LSTM 예제 - 로이터 뉴스 카테고리 분류 데이터 - 11,228개의 뉴스 기사를 읽고 이 데이터가 어떤 의미를 지..
자연어 처리(Natural Language Processing, NLP) - 인간의 언어를 컴퓨터가 이해하고 처리할 수 있는 형태로 변환하는 기술 - 딥러닝을 하기 전 텍스트를 정제하는 텍스트 전처리 과정 필요 텍스트 토큰화(tokenization) - 토큰(token) : 텍스트 데이터를 작은 단위로 분할하는 과정에서 생성된 단어, 음절, 형태소와 같은 개별적인 단위 - 토큰화(tokenization) : 입력된 텍스트를 잘게 나누는 과정 text_to_word_sequence : 텍스트를 단어 단위로 나눔 : keras에 존재 # 케라스의 텍스트 전처리와 관련한 함수중 text_to_word_sequence 함수를 불러옴 from tensorflow.keras.preprocessing.text imp..