Patrick's 데이터 세상

사내 교육 3주차 - 머신러닝 본문

Deep Learning/NLP 강의

사내 교육 3주차 - 머신러닝

patrick610 2023. 3. 10. 23:38
반응형
SMALL

 

 

 

 

머신러닝 Machine Learning

경험을 통해 자동으로 개선하는 컴퓨터 알고리즘 연구

핵심 : 표현, 일반화

 

 

 

기존 프로그래밍의 한계

 

작업 : 주어진 사진으로부터 고양이 사진인지 강아지 사진인지 판별하는 일

def prediction(이미지 as input):
    어떻게 코딩해야하지?
    return 결과

 

 

 

머신러닝 모델 훈련 과정

 

 

 

 

머신러닝 모델 Task

분류(Classification)
회귀(Regression)

 

 

분류(Classification)

 

이진 분류(Binary Classification)

주어진 입력에 대해서 두 개의 선택지 중 하나의 답을 선택

ex) 시험 성적표를 보고 합격, 불합격 판단, 메일을 보고 일반 메일, 스팸 메일 판단 등

 

다중 클래스 분류(Multi-class Classification)

주어진 입력에 대해 세 개 이상의 선택지 중 답을 선택

ex) 서점에서 새 책이 들어올 때, 과학, 영어, IT, 학습지, 만화로 구분, 새로운 뉴스가 생기면 사회, 경제, IT, 과학, 정치로 구분.

 

회귀 문제(Regression)

어떤 연속적인 값의 범위 내에서 예측값이 나오는 문제

ex) 역과의 거리, 인구 밀도, 방의 개수 등을 입력하면 부동산 가격을 예측, 시계열 데이터를 이용한 주가 예측 등

 

 

 

머신러닝 종류

지도 학습(Supervised Learning)
비지도 학습(Unsupervised Learning)
자기지도 학습(Self-Supervised Learning, SSL)

 

지도 학습(Supervised Learning)

레이블이라는 정답과 함께 학습하면서 지도하면서 학습.

기계는 예측값과 실제값의 차이인 오차를 줄이는 방식으로 학습.

자연어 처리는 대부분 지도 학습

레이블 : y, 실제값,  예측값: ŷ

ex) 앞서 말한 분류, 회귀 문제

 

비지도 학습(Unsupervised Learning)

별도의 레이블 없이 학습.

ex) 토픽 모델링 알고리즘 LSA, LDA 등

 

자기 지도 학습(Self-Supervised Learning, SSL)

모델이 학습을 위해 스스로 데이터로부터 레이블을 만들어서 학습.

ex) Word2Vec 워드 임베딩 알고리즘, BERT 등

 

 

머신러닝 데이터 구조

제목 본문 주제
80년대생 맥콜·밀키스도 대세에 올라탔다…'제로칼로리' 열풍 음료업계 '제로 칼로리' 열풍이 거세지고 있다. 신제품뿐 아니라 오랜 시간 소비자에게 인기를 끈 스테디셀러들도 제로 칼로리 버전을 새로 선보였다. 소비자들도 익숙해진 콜라 제품뿐만이 아니라 익숙한 음료들도 여럿 제로 칼로리로 옷을 갈아입는 추세다. 경제
카톡 오픈채팅 개인정보 유출 논란…카카오 "구조상 불가능, 법적 조치" 한 온라인 마케팅 업체가 카카오톡 오픈채팅방 이용자의 전화번호 등 개인 정보를 유출해 판매한다는 글을 올리면서 논란이 일고 있다. 카카오 측은 "기술 구조상 불가능"하다며 해당 업체에 대한 수사를 의뢰한다는 입장이다. IT
3년 만에 재개된 크루즈 관광..."설악산, 선교장 멋져요" 코로나로 끊겼던 크루즈 뱃길이 3년여년 만에 다시 열렸습니다. 지역 상권도 오랜만에 찾아온 외국인 단체 관광객에 대한 기대감에 들떴는데요, 올해만 크루즈 160여 척이 한국을 찾을 전망입니다.
독일 국적의 2만 9천톤급 국제 크루즈선, 여행객과 승무원 800여 명을 태운 '아마데아호'가 속초항에 들어옵니다.
사회
구름 사이로 햇살이…큐리오시티, 황혼 드리워진 화성 포착 화성에서 어둑한 구름 사이로 햇살이 비추는 황혼 무렵의 장면이 카메라에 포착됐다. 7일(현지시간) 미 항공우주국(NASA)은 머나먼 붉은 행성에서 ‘호기심’을 해결 중인 화성탐사로보 큐리오시티(Curiosity)가 촬영한 흥미로운 하늘의 모습을 사진으로 공개했다. 과학

 

 

머신러닝 평가 지표

  예측 참 예측 거짓
실제 참 TP FN
실제 거짓 FP TN
  • True Positive(TP) : 실제 True인 정답을 True라고 예측 (정답)
  • False Positive(FP) : 실제 False인 정답을 True라고 예측 (오답)
  • False Negative(FN) : 실제 True인 정답을 False라고 예측 (오답)
  • True Negative(TN) : 실제 False인 정답을 False라고 예측 (정답)

 

정밀도 Precision

모델이 True로 분류한 것 중 실제 True인 비율

재현율 Recall

실제 True인 것 중 모델이 True라고 예측한 비율

정확도 Accuracy

전체 예측 데이터 중 정답을 맞힌 비율

F1 Score

정밀도와 재현율의 조화 평균

 

 

머신러닝 학습 결과

머신러닝에서 훈련을 학습, 훈련하는 과정 : 적합(fitting).

적합하는 과정 중에 모델의 오류로 판단하는 두 가지 상황 존재.

 

과적합 Overfitting

모델이 훈련 데이터를 과하게 학습한 경우

ex) 하나의 문제지를 과하게 풀어서 문제 번호만 봐도 정답을 맞히는데 다른 문제를 풀면 맞추지 못하는 상황

기계가 훈련 데이터에 대해서만 과하게 학습을 하면 테스트 데이터나 실제 서비스에서는 정확도가 좋지 않은 현상이 발생.

훈련 데이터에서는 오차가 낮지만, 테스트 데이터에 대해서는 오차가 커짐.

 

과소적합 Underfitting

테스트 데이터의 성능이 올라갈 여지가 있음에도 훈련을 덜 한 경우

훈련 자체가 부족한 상태이므로 훈련 데이터, 테스트 데이터 모두 정확도가 낮음.

 

딥 러닝 학습 시에는 과적합을 막을 수 있는 드롭 아웃(Dropout), 조기 종료(Early Stopping) 등과 같은 방법으로 위 상황을 예방.

 

 

 

반응형
LIST
Comments