[모두의 딥러닝] 22. 텍스트 전처리 - 토큰화(tokenization), 빈도 수 세기
자연어 처리(Natural Language Processing, NLP) - 인간의 언어를 컴퓨터가 이해하고 처리할 수 있는 형태로 변환하는 기술 - 딥러닝을 하기 전 텍스트를 정제하는 텍스트 전처리 과정 필요 텍스트 토큰화(tokenization) - 토큰(token) : 텍스트 데이터를 작은 단위로 분할하는 과정에서 생성된 단어, 음절, 형태소와 같은 개별적인 단위 - 토큰화(tokenization) : 입력된 텍스트를 잘게 나누는 과정 text_to_word_sequence : 텍스트를 단어 단위로 나눔 : keras에 존재 # 케라스의 텍스트 전처리와 관련한 함수중 text_to_word_sequence 함수를 불러옴 from tensorflow.keras.preprocessing.text imp..