[ML]배경지식

Date: 2022.11.05 Updated: 2023.03.24

카테고리: ml

태그: Machine Learning PYTHON

[1] 배경지식

1.1. 인공지능, 머신러닝, 딥러닝

인공지능(AI)
- 인간의 뇌를 모방하는 모든 프로그램
머신러닝(ML)
- 데이터를 기반으로 학습해 무언가를 예측하거나, 데이터 자체의 어떤 특성을 찾아내는 프로그램
딥러닝(DL)
- 머신러닝 알고리즘 중 하나로, 인공신경망에서 진화한 형태.
- 이미지, 비디오, 자연어 분석에 쓰임

1.2. 머신러닝

기계학습
- 머신이 학습을 하는 걸 말함

비교

[전통적인(일반적인) 프로그램] Traditional Programming

데이터  ==> Y = 3x + 10
[1, 3, 5]   ==> Y = 3x + 10 ==> [13, 19, 25]

Machine Learning

[1, 3, 5]    ==>     Y = 3x + 10     ==>     [13, 19, 25]
[샘플 데이터]    ==>    모델    ==>    [13, 19, 25]
[정답 값]        // 정답 값에 근접한 모델을 만듦
[새로운 데이터]  // 위에 만들어진 모델로 새로운 데이터에 대한 값을 예측(Supervised Learning)

1.3. 머신러닝 핵심 라이브러리

넘파이 (Numpy)
- 다차원 배열에 대한 빠른 처리를 지원하는 라이브러리
판다스 (Pandas)
- 넘파이 기반으로 구현한 라이브러리
사이킷런 (Sklearn)
- 데이터 전처리, 모델링, 모델 평가 등 광범위한 분야 지원
맷플롯립 (Matplotlib)
- 시각화 라이브러리
시본 (Seaborn)
- 맷플롯립 기반으로 구현한 라이브러리

1.4. 딥러닝 분야

텐서플로
파이토치
케라스

1.5. 변수

프로그래밍에서의 변수
- 어떠한 데이터/정보를 저장하는 공간
통계에서의 변수
- 관찰하려는 대상의 ‘특성’을 의미
- 변수(컬럼)
독립변수 (Independent Variable)
- 예측에 사용되는 재료와 같은 변수들
- 피처 변수(Feature Variable), 피처(Feature)라고도 부름.
- 예) 키, 몸무게, 성별
종속변수 (Dependent Variable)
- 예측을 하려는 대상 변수
- 목표 변수 (Target Variable), 타깃이라고도 부름.
- 예) 보험료

1.6. 판다스

두 가지 자료구조 제공
- 데이터프레임
- 시리즈
  - 데이터프레임의 한 열만 떼어내면 시리즈가 됨

1.7. 데이터셋 split (Train Test Split)

학습셋(Train), 시험셋(Test) 구분하지 않고 예측 모델을 만드는 경우
- 전체 데이터를 가지고 모델링(학습)을 하고, 또 다시 전체 데이터에 대해서 예측값을 만들어서 종속변수와 비교해 예측이 잘 되었는지 평가함
  
  제대로 잘 예측할수 있을지 장담할 수 없음.
전체 데이터셋 = 학습셋 + 시험셋
- 시험셋으로 예측/평가를 했을 때 예측력이 좋게 나타난다면, 향후 예측하게 될 새로운 데이터에 대해서도 잘 작동할거라고 기대할수 있음
학습셋 : 시험셋 = 7:3 혹은 8:2

1.8. 데이터셋 나누기

X_train, X_test, y_trin, y_test
- X 는 대문자,
  - X 는 변수가 여러 개 있는 데이터프레임(DataFrame)이기 때문에 대문자로 씀.
- y 는 소문자
  - y 는 변수가 하나인 시리즈(Series)이기 때문에 소문자로 씀.
독립변수 / 종속변수, 학습셋 / 시험셋 조합으로 총 4개 데이터셋이 나옴
- X_train, X_test, y_trin, y_test

seungm2n

[ML]배경지식

[1] 배경지식

1.1. 인공지능, 머신러닝, 딥러닝

1.2. 머신러닝

1.3. 머신러닝 핵심 라이브러리

1.4. 딥러닝 분야

1.5. 변수

1.6. 판다스

1.7. 데이터셋 split (Train Test Split)

1.8. 데이터셋 나누기

ml 카테고리 내 다른 글 보러가기

댓글 남기기

최근 글 10 개 :)