목록Machine Learning (7)
Patrick's 데이터 세상

Sklearn에서 제공하는 Classifier 모듈을 활용하여 분류 모델을 만듭니다. Task는 긍정, 중립, 부정 3개로 분류하는 감성 분류 모델입니다. 👉🏻 Data Load & Check vectorize는 content 데이터로 TF-IDF vectorizing 한 'vec'을 활용하였습니다. df.head() 👉🏻 Train Test Split from sklearn.model_selection import train_test_split train_data, test_data = train_test_split(df, test_size=0.2, random_state=42) train_data = train_data.reset_index() test_data = test_data.reset_ind..
토픽 모델링은 문서 집합에서 토픽을 찾아내는 프로세스. LDA(잠재 디리클레 할당)는 토픽 모델링의 대표적인 알고리즘이다. 문서의 토픽 혼합으로 구성되어 있으며, 토픽들은 확률 분포에 기반하여 단어들을 생성한다 가정한다. 👉🏻 Summary 문서1 : 저는 사과랑 바나나를 먹어요 문서2 : 우리는 귀여운 강아지가 좋아요 문서3 : 저의 깜찍하고 귀여운 강아지가 바나나를 먹어요 만일 LDA에 위 3문장에서 2개의 토픽(토픽 개수 k=2)을 찾으라고 요청한다. 문서1 : 토픽 A 100% 문서2 : 토픽 B 100% 문서3 : 토픽 B 60%, 토픽 A 40% 토픽A : 사과 20%, 바나나 40%, 먹어요 40%, 귀여운 0%, 강아지 0%, 깜찍하고 0%, 좋아요 0% 토픽B : 사과 0%, 바나나 0%..

기계 학습에서 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로 훈련 과정에서 구성한 다수의 결정 트리로부터 분류 또는 평균 예측치(회귀분석)를 출력함으로써 동작한다. wikipedia 출처 RanDomForest는 DecisionTree(의사 결정 트리)가 여러 개 모여서 Forest를 이룬 듯한 구조를 가지고 있다. 만일 feature가 9개라면, Random Forest에서 3개의 Tree에 각각 3개의 feature를 쪼개어 할당한다. 간단히 말해 2개의 Tree가 dead라고 예측하였으니, 심슨은 dead라고 예측될 것이다. - 집단 학습을 기반으로 고정밀 분류, 회귀, 클러스터링 구현 - 학습 데이터로 다수의 의사결정 트리를 만들고 그 결과의 다수결로 결과 유도 랜덤포레스트를 이해하..

본 포스팅은 캐글(Kaggle)에서 제공하는 'Book-Crossing 사용자 리뷰 평점 데이터 세트'를 활용하여 Surprise를 이용한 잠재 요인 협업 필터링 추천을 실습하기 위한 목적으로 작성하였습니다. Git url https://github.com/hipster4020/RecommendationSystem/blob/master/LatentFactorCollaborativeFiltering_Surprise.ipynb hipster4020/RecommendationSystem Contribute to hipster4020/RecommendationSystem development by creating an account on GitHub. github.com 분석 도구 : Google Colabor..

본 포스팅은 캐글(Kaggle)에서 제공하는 'Book-Crossing 사용자 리뷰 평점 데이터 세트'를 활용하여 콘텐츠 기반 필터링을 실습하기 위한 목적으로 작성하였습니다. Git url https://github.com/hipster4020/RecommendationSystem/blob/master/ItemNearestNeighborCollaborativeFiltering_Books.ipynb hipster4020/RecommendationSystem Contribute to hipster4020/RecommendationSystem development by creating an account on GitHub. github.com 분석 도구 : Anaconda Jupyter Lab 활용 데이터 :..

본 포스팅은 캐글(Kaggle)에서 제공하는 'TMDB 5000 영화 데이터 세트'를 활용하여 콘텐츠 기반 필터링을 실습하기 위한 목적으로 작성하였습니다. Git url github.com/hipster4020/RecommendationSystem/blob/master/ContentsBasedFiltering_Movies.ipynb hipster4020/RecommendationSystem Contribute to hipster4020/RecommendationSystem development by creating an account on GitHub. github.com 분석 도구 : Google Colaboratory 활용 데이터 : 유명한 영화 데이터 정보 사이트인 IMDB의 많은 영화 중 주요 5..