자연어 처리(Natural Language Processing, NLP) - 인간의 언어를 컴퓨터가 이해하고 처리할 수 있는 형태로 변환하는 기술 - 딥러닝을 하기 전 텍스트를 정제하는 텍스트 전처리 과정 필요 텍스트 토큰화(tokenization) - 토큰(token) : 텍스트 데이터를 작은 단위로 분할하는 과정에서 생성된 단어, 음절, 형태소와 같은 개별적인 단위 - 토큰화(tokenization) : 입력된 텍스트를 잘게 나누는 과정 text_to_word_sequence : 텍스트를 단어 단위로 나눔 : keras에 존재 # 케라스의 텍스트 전처리와 관련한 함수중 text_to_word_sequence 함수를 불러옴 from tensorflow.keras.preprocessing.text imp..
MNIST 데이터 - 미국 국립표준기술원(NIST)이 고등학생과 인구조사국 직원 등이 쓴 손글씨를 이용해 만든 데이터 - 7만 개의 글자 이미지에 각각 0부터 9까지 이름표를 붙인 데이터셋 - keras API를 이용해 불러올 수 있음 이미지 인식 1. 데이터 준비 - X : 불러온 이미지 데이터 / y : 이미지에 0~9를 붙인 이름표 - X_train, y_train : 학습셋 / X_test, y_test : 테스트셋 from tensorflow.keras.datasets import mnist # MNIST 데이터셋을 불러와 학습셋과 테스트셋으로 저장 (X_train, y_train), (X_test, y_test) = mnist.load_data() # 학습셋과 테스트셋이 각각 몇 개의 이미지로..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.