# Part 6: 머신러닝 모델링과 평가 용어집 ## 핵심 용어 | 용어 (Term) | 설명 (Description) | | --- | --- | | **데이터 시각화 (Data Visualization)** | 데이터 속에 숨겨진 패턴, 관계, 추세, 이상치 등을 쉽게 파악할 수 있도록 데이터를 그래프나 차트 등 시각적인 형태로 표현하는 과정입니다. Matplotlib, Seaborn 등의 라이브러리가 사용됩니다. | | **Matplotlib** | 파이썬에서 가장 널리 사용되는 데이터 시각화 라이브러리입니다. 거의 모든 종류의 정적, 동적, 인터랙티브 시각화를 생성할 수 있는 강력하고 유연한 기능을 제공합니다. (비유: 하얀 도화지) | | **Seaborn** | Matplotlib을 기반으로 더 매력적이고 정보량이 풍부한 통계 그래픽을 쉽게 만들 수 있도록 하는 고수준 인터페이스를 제공하는 파이썬 시각화 라이브러리입니다. 통계적 데이터 탐색에 특히 유용합니다. (비유: 밑그림과 색칠 도구가 갖춰진 스케치북) | | **Scikit-learn** | 파이썬을 위한 대표적인 오픈소스 머신러닝 라이브러리입니다. 분류, 회귀, 클러스터링, 차원 축소, 모델 선택, 데이터 전처리 등 다양한 머신러닝 알고리즘과 도구를 제공하며, `fit()`/`predict()`의 일관된 인터페이스를 가집니다. | | **지도학습 (Supervised Learning)** | 머신러닝의 한 종류로, 입력 데이터(피처)와 해당 데이터의 정답(레이블)이 있는 '지도된' 데이터를 사용하여 모델을 학습시키는 방식입니다. 모델은 입력과 정답 사이의 관계를 학습하여 새로운 입력에 대한 정답을 예측합니다. | | **훈련/테스트 분리 (Train/Test Split)** | 머신러닝 모델의 일반화 성능을 평가하기 위해 전체 데이터셋을 훈련 데이터(Training Data)와 테스트 데이터(Test Data)로 나누는 과정입니다. 모델은 훈련 데이터로 학습하고, 테스트 데이터로 성능을 평가받습니다. | | **데이터 전처리 (Data Preprocessing)** | 원시(raw) 데이터를 머신러닝 모델에 적합한 형태로 변환하는 모든 과정을 의미합니다. 결측치 처리, 이상치 제거, 피처 스케일링, 인코딩 등이 포함되며, 모델 성능에 큰 영향을 미칩니다. "Garbage In, Garbage Out"이라는 말이 있을 정도로 중요합니다. | | **피처 스케일링 (Feature Scaling)** | 데이터의 여러 피처(특성, 변수)들의 값 범위를 일정하게 조정하는 데이터 전처리 기법입니다. 거리 기반 알고리즘이나 경사 하강법 기반 알고리즘에서 피처 간의 단위 차이로 인해 발생하는 문제를 방지하고 모델 학습을 안정적으로 만듭니다. 대표적으로 `StandardScaler`, `MinMaxScaler`가 있습니다. | | **모델 평가 (Model Evaluation)** | 학습된 머신러닝 모델이 얼마나 잘 작동하는지, 즉 새로운 데이터에 대해 얼마나 정확한 예측을 하는지를 측정하는 과정입니다. 정확도, 정밀도, 재현율, F1 스코어, AUC 등 다양한 평가지표가 사용됩니다. | | **정확도 (Accuracy)** | 분류 모델의 성능을 평가하는 가장 기본적인 지표 중 하나로, 전체 예측 건수 중에서 올바르게 예측한 건수의 비율을 나타냅니다. (정확도 = (TP + TN) / (TP + TN + FP + FN)) | --- *이 용어집은 `geumdo_docs/ai lecture/part_6_machine_learning.md` 파일 내용을 기반으로 작성되었습니다.*