'Machine Learning' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록Machine Learning (7)

Patrick's 데이터 세상

Sklearn Classifier

Sklearn에서 제공하는 Classifier 모듈을 활용하여 분류 모델을 만듭니다. Task는 긍정, 중립, 부정 3개로 분류하는 감성 분류 모델입니다. 👉🏻 Data Load & Check vectorize는 content 데이터로 TF-IDF vectorizing 한 'vec'을 활용하였습니다. df.head() 👉🏻 Train Test Split from sklearn.model_selection import train_test_split train_data, test_data = train_test_split(df, test_size=0.2, random_state=42) train_data = train_data.reset_index() test_data = test_data.reset_ind..

Machine Learning/Classifier 2022. 9. 27. 00:45

LDA(Latent Dirichlet Allocation)

토픽 모델링은 문서 집합에서 토픽을 찾아내는 프로세스. LDA(잠재 디리클레 할당)는 토픽 모델링의 대표적인 알고리즘이다. 문서의 토픽 혼합으로 구성되어 있으며, 토픽들은 확률 분포에 기반하여 단어들을 생성한다 가정한다. 👉🏻 Summary 문서1 : 저는 사과랑 바나나를 먹어요 문서2 : 우리는 귀여운 강아지가 좋아요 문서3 : 저의 깜찍하고 귀여운 강아지가 바나나를 먹어요 만일 LDA에 위 3문장에서 2개의 토픽(토픽 개수 k=2)을 찾으라고 요청한다. 문서1 : 토픽 A 100% 문서2 : 토픽 B 100% 문서3 : 토픽 B 60%, 토픽 A 40% 토픽A : 사과 20%, 바나나 40%, 먹어요 40%, 귀여운 0%, 강아지 0%, 깜찍하고 0%, 좋아요 0% 토픽B : 사과 0%, 바나나 0%..

Machine Learning/Topic Modeling 2022. 4. 8. 18:28

RandomForest

기계 학습에서 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로 훈련 과정에서 구성한 다수의 결정 트리로부터 분류 또는 평균 예측치(회귀분석)를 출력함으로써 동작한다. wikipedia 출처 RanDomForest는 DecisionTree(의사 결정 트리)가 여러 개 모여서 Forest를 이룬 듯한 구조를 가지고 있다. 만일 feature가 9개라면, Random Forest에서 3개의 Tree에 각각 3개의 feature를 쪼개어 할당한다. 간단히 말해 2개의 Tree가 dead라고 예측하였으니, 심슨은 dead라고 예측될 것이다. - 집단 학습을 기반으로 고정밀 분류, 회귀, 클러스터링 구현 - 학습 데이터로 다수의 의사결정 트리를 만들고 그 결과의 다수결로 결과 유도 랜덤포레스트를 이해하..

Machine Learning/Classifier 2022. 4. 7. 11:32

본 포스팅은 캐글(Kaggle)에서 제공하는 'Book-Crossing 사용자 리뷰 평점 데이터 세트'를 활용하여 Surprise를 이용한 잠재 요인 협업 필터링 추천을 실습하기 위한 목적으로 작성하였습니다. Git url https://github.com/hipster4020/RecommendationSystem/blob/master/LatentFactorCollaborativeFiltering_Surprise.ipynb hipster4020/RecommendationSystem Contribute to hipster4020/RecommendationSystem development by creating an account on GitHub. github.com 분석 도구 : Google Colabor..

Machine Learning/Recommend system 2020. 9. 23. 21:18

본 포스팅은 캐글(Kaggle)에서 제공하는 'Book-Crossing 사용자 리뷰 평점 데이터 세트'를 활용하여 콘텐츠 기반 필터링을 실습하기 위한 목적으로 작성하였습니다. Git url https://github.com/hipster4020/RecommendationSystem/blob/master/ItemNearestNeighborCollaborativeFiltering_Books.ipynb hipster4020/RecommendationSystem Contribute to hipster4020/RecommendationSystem development by creating an account on GitHub. github.com 분석 도구 : Anaconda Jupyter Lab 활용 데이터 :..

Machine Learning/Recommend system 2020. 9. 11. 23:11

본 포스팅은 캐글(Kaggle)에서 제공하는 'TMDB 5000 영화 데이터 세트'를 활용하여 콘텐츠 기반 필터링을 실습하기 위한 목적으로 작성하였습니다. Git url github.com/hipster4020/RecommendationSystem/blob/master/ContentsBasedFiltering_Movies.ipynb hipster4020/RecommendationSystem Contribute to hipster4020/RecommendationSystem development by creating an account on GitHub. github.com 분석 도구 : Google Colaboratory 활용 데이터 : 유명한 영화 데이터 정보 사이트인 IMDB의 많은 영화 중 주요 5..

Machine Learning/Recommend system 2020. 9. 3. 23:36

Prev 1 2 Next

목록Machine Learning (7)

Patrick's 데이터 세상

티스토리툴바