Numpy

수학 및 과학 연산을 위한 python 패키지

Numeric + Python

주로 행렬 연산과 수치 해석을 위해 사용

Python 패키지이지만 내부적으로 C로 구현되어 속도가 빠르다 >> Numpy가 Python보다 빠르다

NLTK

자연어처리(Natural Language Processing, NLP)

인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요분야 중 하나.

전통적인 NLP분석 방법을 제공해주는 도구 모음 패키지

주로 텍스트 데이터의 전처리 과정에서 사용

NLTK를 위한 Data  pre - processing(데이터 전처리)

1.Tokenize

2.Stemming

3.Stopwords

Tokenize

문장을 token으로 잘라주는과정

Token : 어휘분석(lexical analysis)의 단위

주로 단어가 Token의 단위로 사용됨

Tokenizer : Tokenize 해주는 객체