머신러닝 알고리즘 종류 완벽 정리!
지도 학습 vs 비지도 학습? 머신러닝 핵심 개념을 총정리
1. 지도 학습(Supervised Learning)
지도 학습은 입력 데이터(특징, Features)와 정답(레이블, Labels)이
주어진 상태에서 모델을 학습시키는 방식입니다.
선형 회귀(Linear Regression)
- 정의
입력 변수와 출력 변수 간의 선형 관계를 찾아내는 모델입니다. - 활용 예시
주택 가격 예측, 매출 예측 등에 활용됩니다. - 수식
선형 회귀는 다음과 같은 수식으로 표현됩니다.
y = β0 + β1 x1 + β2 x2 + ⋯ + βn xn + ε
여기서
y는 예측하려는 출력 값
β0는 절편
β1, β2, …, βn은 각 입력 변수에 대한 계수
x1, x2, …, xn은 입력 변수
ε은 오차 항을 말합니다.
- 특징
- 데이터가 선형적일 경우 매우 효과적입니다.
- 노이즈에 취약할 수 있습니다.
- 데이터가 선형적일 경우 매우 효과적입니다.
알고리즘 | 목적 | 주요 특징 |
선형 회귀 | 연속형 변수 예측 | 선형 관계 가정 |
로지스틱 회귀 | 이진 분류 | 시그모이드 함수 활용 |
결정 트리 | 분류 및 회귀 | 규칙 기반 학습 |
랜덤 포레스트 | 분류 및 회귀 | 여러 결정 트리 결합 |
SVM | 분류 및 회귀 | 고차원에서 효과적 |
KNN | 분류 및 회귀 | 거리 기반 학습 |
신경망 | 복잡한 패턴 학습 | 다층 구조 활용 |
2. 비지도 학습(Unsupervised Learning)
비지도 학습은 정답(레이블)이 없는
데이터를 학습하여 패턴을 찾아내는 방식입니다.
주로 군집화 및 차원 축소에 활용됩니다.
군집화(Clustering)
- 정의
데이터의 유사성을 기반으로 여러 그룹으로 나누는 기법입니다. - 대표 알고리즘
- K-평균(K-Means)
- 계층적 군집화(Hierarchical Clustering)
- DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
- K-평균(K-Means)
알고리즘 | 목적 | 주요 특징 |
K-평균 | 데이터 군집화 | 초기 중심점 설정 중요 |
계층적 군집화 | 데이터 계층적 분류 | 덴드로그램 활용 |
DBSCAN | 이상치 포함 군집화 | 밀도 기반 군집화 |



3. 강화 학습(Reinforcement Learning)
강화 학습은 에이전트가 환경과 상호작용하면서 최적의 행동을 학습하는 방식입니다.
대표적인 알고리즘은 다음과 같습니다.
마르코프 결정 과정(MDP, Markov Decision Process)
- 정의
상태(State), 행동(Action), 보상(Reward)으로 구성된 수학적 모델입니다. - 활용 예시
로봇 제어, 게임 AI 등에 활용됩니다.
Q-러닝(Q-Learning)
- 정의
가치 기반(value-based) 강화 학습 알고리즘입니다. - 특징
환경에서 보상을 최대로 받을 수 있는 정책을 학습합니다.
심층 강화 학습(Deep Reinforcement Learning)
- 정의
강화 학습과 딥러닝을 결합한 알고리즘입니다. - 활용 예시
자율주행, 게임 AI, 로보틱스 등에 활용됩니다.
4. 딥러닝(Deep Learning) 알고리즘
딥러닝은 다층 신경망(Deep Neural Networks)을 활용하여
복잡한 패턴과 특징을 학습하는 기법입니다.
대량의 데이터를 처리하는 데 강력한 성능을 발휘하며,
이미지, 음성, 자연어 처리 등 다양한 분야에서 사용됩니다.
합성곱 신경망(CNN, Convolutional Neural Network)
- 정의
이미지 및 영상 데이터를 처리하는 데 특화된 신경망 구조입니다. - 특징
- 컨볼루션 레이어(Convolutional Layer)를 사용하여 특징을 추출합니다.
- 풀링 레이어(Pooling Layer)를 통해 차원을 축소하고 연산량을 줄입니다.
- 영상 및 이미지 인식, 의료 영상 분석 등에 활용됩니다.
- 컨볼루션 레이어(Convolutional Layer)를 사용하여 특징을 추출합니다.
순환 신경망(RNN, Recurrent Neural Network)
- 정의
순차적인 데이터(예: 시계열 데이터, 자연어)를 학습하는 신경망 구조입니다. - 특징
- 이전 단계의 정보를 기억하는 순환 구조를 가집니다.
- 장기 의존성 문제를 해결하기 위해
LSTM(Long Short-Term Memory) 및 GRU(Gated Recurrent Unit)가 사용됩니다. - 음성 인식, 기계 번역, 주가 예측 등에 활용됩니다.
- 이전 단계의 정보를 기억하는 순환 구조를 가집니다.
트랜스포머(Transformer)
- 정의
자연어 처리(NLP)에서 널리 사용되는 딥러닝 모델로,
병렬 연산이 가능한 구조를 가집니다. - 특징
- 셀프 어텐션(Self-Attention) 메커니즘을 사용하여 문장 내 단어 간의 관계를 학습합니다.
- 기존 RNN 기반 모델보다 병렬 연산이 용이하여 학습 속도가 빠릅니다.
- 대표적인 모델로 BERT, GPT 시리즈 등이 있습니다.
- 기계 번역, 챗봇, 문서 요약 등에 활용됩니다.
- 셀프 어텐션(Self-Attention) 메커니즘을 사용하여 문장 내 단어 간의 관계를 학습합니다.



5. 생성 모델(Generative Models)
생성 모델은 새로운 데이터를 생성할 수 있는 머신러닝 기법으로,
이미지 생성, 음성 합성, 데이터 증강 등에 활용됩니다.
생성적 적대 신경망(GAN, Generative Adversarial Networks)
- 정의
두 개의 신경망(생성자, 판별자)이 경쟁하면서 데이터를 생성하는 모델입니다. - 특징
- 생성자(Generator)는 실제 같은 데이터를 만들어내려 합니다.
- 판별자(Discriminator)는 실제 데이터와 가짜 데이터를 구별하려 합니다.
- 학습이 진행될수록 점점 더 정교한 데이터가 생성됩니다.
- 딥페이크, 이미지 생성, 스타일 변환 등에 활용됩니다.
- 생성자(Generator)는 실제 같은 데이터를 만들어내려 합니다.
변분 오토인코더(VAE, Variational AutoEncoder)
- 정의
데이터의 분포를 학습하여 새로운 데이터를 생성하는 딥러닝 모델입니다. - 특징
- 데이터의 잠재 공간(latent space)을 모델링하여 유사한 데이터를 생성할 수 있습니다.
- 이미지 생성, 데이터 증강 등에 활용됩니다.
- 데이터의 잠재 공간(latent space)을 모델링하여 유사한 데이터를 생성할 수 있습니다.



6. 추천 시스템(Recommendation Systems)
추천 시스템은 사용자의 과거 행동을 바탕으로 맞춤형 추천을 제공하는 알고리즘입니다.
협업 필터링(Collaborative Filtering)
- 정의
사용자 간의 유사성을 기반으로 추천하는 방법입니다. - 특징
- 사용자 기반 협업 필터링(User-Based CF)
비슷한 취향을 가진 사용자 데이터를 활용하여 추천합니다. - 아이템 기반 협업 필터링(Item-Based CF)
비슷한 특성을 가진 아이템을 기반으로 추천합니다. - 넷플릭스, 아마존 등의 추천 시스템에서 많이 사용됩니다.
- 사용자 기반 협업 필터링(User-Based CF)
콘텐츠 기반 필터링(Content-Based Filtering)
- 정의
사용자가 과거에 선호했던 콘텐츠의 특성을 분석하여 유사한 항목을 추천하는 방법입니다. - 특징
- 사용자 개인별 맞춤 추천이 가능하지만,
새로운 사용자에게 적응하기 어려운 단점이 있습니다. - 영화 추천, 뉴스 추천 등에 활용됩니다.
- 사용자 개인별 맞춤 추천이 가능하지만,
하이브리드 필터링(Hybrid Filtering)
- 정의
협업 필터링과 콘텐츠 기반 필터링을 결합하여
더 정교한 추천을 수행하는 방식입니다. - 특징
- 두 가지 기법의 장점을 결합하여 정확도를 높일 수 있습니다.
- 넷플릭스는 사용자 평점 데이터와 콘텐츠 정보를 결합하여 추천합니다.
- 두 가지 기법의 장점을 결합하여 정확도를 높일 수 있습니다.
7. 유전 알고리즘(Genetic Algorithms)과 진화적 계산(Evolutionary Computing)
유전 알고리즘과 진화적 계산은
생물학적 진화 원리를 적용하여 최적의 해답을 찾는 방법입니다.
유전 알고리즘(Genetic Algorithm)
- 정의
자연 선택과 돌연변이 개념을 적용하여 최적의 해를 찾는 알고리즘입니다. - 특징
- 초기 집단을 무작위로 생성하고,
교차(Crossover)와 돌연변이(Mutation)를 통해 최적해를 찾아갑니다. - 복잡한 최적화 문제를 해결하는 데 유용합니다.
- 경로 최적화, 인공지능 게임 플레이 등
- 초기 집단을 무작위로 생성하고,
진화 전략(Evolutionary Strategies)
- 정의
유전 알고리즘과 유사하지만,
돌연변이와 선택 과정에 중점을 두는 최적화 방법입니다. - 특징
- 적응도(Fitness)를 평가하여 더 나은 개체를 선택합니다.
- 산업 설계, 로보틱스, 금융 모델링 등에 활용됩니다.
- 적응도(Fitness)를 평가하여 더 나은 개체를 선택합니다.
8. 기타 머신러닝 기법
앙상블 학습(Ensemble Learning)
- 정의
여러 개의 모델을 결합하여 더 강력한 예측 모델을 만드는 기법입니다. - 특징
- 배깅(Bagging)
다수의 모델을 병렬로 학습하여 평균을 취하는 방법 (예: 랜덤 포레스트) - 부스팅(Boosting)
이전 모델의 오차를 보완하는 방식으로 순차적으로 학습하는 방법 (예: XGBoost, AdaBoost) - 캐글(Kaggle)
경진대회에서 많이 사용되는 기술입니다.
- 배깅(Bagging)
준지도 학습(Semi-Supervised Learning)
- 정의
소량의 라벨링된 데이터와 대량의 라벨링되지 않은 데이터를 함께 학습하는 방법입니다. - 특징
- 데이터 라벨링 비용을 줄일 수 있습니다.
- 의료 데이터 분석, 음성 인식 등의 분야에서 활용됩니다.
- 데이터 라벨링 비용을 줄일 수 있습니다.
온라인 학습(Online Learning)
- 정의
데이터가 지속적으로 유입되는 환경에서 실시간으로 학습하는 방법입니다. - 특징
- 대량의 데이터를 실시간으로 처리할 수 있습니다.
- 스트리밍 데이터 분석, 실시간 추천 시스템 등에 활용됩니다.
- 대량의 데이터를 실시간으로 처리할 수 있습니다.
'IT지식모아' 카테고리의 다른 글
자연어 처리(NLP) 모델 비교, 최신 기술부터 다양한 응용 분야까지 알아보는 완벽 가이드 (0) | 2025.02.12 |
---|---|
파이토치 (PyTorch) vs 텐서플로우 (TensorFlow), 딥러닝 프레임워크의 모든 차이점과 선택 및 추천 (1) | 2025.02.11 |
갤럭시(Galaxy) S25, S25+, Ultra 완벽 비교: 성능, 디스플레이, 카메라, 배터리 차이점과 추천 모델 등 총 정리 (0) | 2025.02.07 |
툴루3(Tülu 3) 완전 분석, GPT-4o 뛰어넘는 오픈소스 AI 모델 (0) | 2025.02.05 |
중국 AI 딥시크, 기술 차별성과 비용 분석, 혁신적 산업 적용 사례 (0) | 2025.02.03 |