Numpy
수학 및 과학 연산을 위한 python 패키지
Numeric + Python
주로 행렬 연산과 수치 해석을 위해 사용
Python 패키지이지만 내부적으로 C로 구현되어 속도가 빠르다 >> Numpy가 Python보다 빠르다
NLTK
자연어처리(Natural Language Processing, NLP)
인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요분야 중 하나.
전통적인 NLP분석 방법을 제공해주는 도구 모음 패키지
주로 텍스트 데이터의 전처리 과정에서 사용
NLTK를 위한 Data pre - processing(데이터 전처리)
1.Tokenize
2.Stemming
3.Stopwords
Tokenize
문장을 token으로 잘라주는과정
Token : 어휘분석(lexical analysis)의 단위
주로 단어가 Token의 단위로 사용됨
Tokenizer : Tokenize 해주는 객체