목록Machine Learning/Topic Modeling (1)
Patrick's 데이터 세상
LDA(Latent Dirichlet Allocation)
토픽 모델링은 문서 집합에서 토픽을 찾아내는 프로세스. LDA(잠재 디리클레 할당)는 토픽 모델링의 대표적인 알고리즘이다. 문서의 토픽 혼합으로 구성되어 있으며, 토픽들은 확률 분포에 기반하여 단어들을 생성한다 가정한다. 👉🏻 Summary 문서1 : 저는 사과랑 바나나를 먹어요 문서2 : 우리는 귀여운 강아지가 좋아요 문서3 : 저의 깜찍하고 귀여운 강아지가 바나나를 먹어요 만일 LDA에 위 3문장에서 2개의 토픽(토픽 개수 k=2)을 찾으라고 요청한다. 문서1 : 토픽 A 100% 문서2 : 토픽 B 100% 문서3 : 토픽 B 60%, 토픽 A 40% 토픽A : 사과 20%, 바나나 40%, 먹어요 40%, 귀여운 0%, 강아지 0%, 깜찍하고 0%, 좋아요 0% 토픽B : 사과 0%, 바나나 0%..
Machine Learning/Topic Modeling
2022. 4. 8. 18:28