요즘같은 AI 언어 모델이 시끄러운 시기에 텍스트 전처리는 데이터를 다루는데 꼭 알고가야 하는 개념이라 판단한다.
텍스트 전처리는 풀고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리하는 작업으로 다양한 순서와 개념이 있다.
텍스트 전처리는 덱스트 데이터를 수집하고 나서 비정형 데이터를 정형 데이터로 바꾸는 작업이다.
크게 다음과 같은 작업으로 이루어 지며 해당 항목들은 지속적으로 다룰 예정이다.
1. 토큰화
2. 정제, 정규화
3. 어간, 표제어 추출
4. 불용어
5. 정규표현식
6. 정수 인코딩
7. 패딩
8. 원 핫 인코딩
9. 데이터 분리.
10. 한국어 전처리 패키지
앞서 언급한 순서로 배우는 텍스트 전처리로 자연어 처리 입문 과정에 큰 도움이 되리라 생각한다.
그럼 다음에 봅세요.
'NLP' 카테고리의 다른 글
CLIP - Contrastive Language-Image Pre-training (1) | 2025.04.09 |
---|---|
LLM zero shot CoT (0) | 2025.02.20 |
언어모델 평가 방법론 (0) | 2025.02.18 |