목록전체 글 (173)
Patrick's 데이터 세상

https://arxiv.org/abs/2003.10555 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators Masked language modeling (MLM) pre-training methods such as BERT corrupt the input by replacing some tokens with [MASK] and then train a model to reconstruct the original tokens. While they produce good results when transferred to downstream NLP tasks, the arxiv.org 제목 ELECTRA: Pre-train..

https://arxiv.org/abs/1905.03677v1 Learning Loss for Active Learning The performance of deep neural networks improves with more annotated data. The problem is that the budget for annotation is limited. One solution to this is active learning, where a model asks human to annotate data that it perceived as uncertain. A variet arxiv.org 제목 Learning Loss for Active Learning 저자 Donggeun Yoo, In So Kw..
토픽 모델링은 문서 집합에서 토픽을 찾아내는 프로세스. LDA(잠재 디리클레 할당)는 토픽 모델링의 대표적인 알고리즘이다. 문서의 토픽 혼합으로 구성되어 있으며, 토픽들은 확률 분포에 기반하여 단어들을 생성한다 가정한다. 👉🏻 Summary 문서1 : 저는 사과랑 바나나를 먹어요 문서2 : 우리는 귀여운 강아지가 좋아요 문서3 : 저의 깜찍하고 귀여운 강아지가 바나나를 먹어요 만일 LDA에 위 3문장에서 2개의 토픽(토픽 개수 k=2)을 찾으라고 요청한다. 문서1 : 토픽 A 100% 문서2 : 토픽 B 100% 문서3 : 토픽 B 60%, 토픽 A 40% 토픽A : 사과 20%, 바나나 40%, 먹어요 40%, 귀여운 0%, 강아지 0%, 깜찍하고 0%, 좋아요 0% 토픽B : 사과 0%, 바나나 0%..

기계 학습에서 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로 훈련 과정에서 구성한 다수의 결정 트리로부터 분류 또는 평균 예측치(회귀분석)를 출력함으로써 동작한다. wikipedia 출처 RanDomForest는 DecisionTree(의사 결정 트리)가 여러 개 모여서 Forest를 이룬 듯한 구조를 가지고 있다. 만일 feature가 9개라면, Random Forest에서 3개의 Tree에 각각 3개의 feature를 쪼개어 할당한다. 간단히 말해 2개의 Tree가 dead라고 예측하였으니, 심슨은 dead라고 예측될 것이다. - 집단 학습을 기반으로 고정밀 분류, 회귀, 클러스터링 구현 - 학습 데이터로 다수의 의사결정 트리를 만들고 그 결과의 다수결로 결과 유도 랜덤포레스트를 이해하..

data 전처리 시에 dataframe, series를 빠르게 apply를 적용하면서 progress bar를 사용할 수 있는 패키지. A package which efficiently applies any function to a pandas dataframe or series in the fastest available manner https://pypi.org/project/swifter/ swifter A package which efficiently applies any function to a pandas dataframe or series in the fastest available manner pypi.org 👉🏻 설치 pip install swifter 👉🏻 소스 코드 df['conten..

2022.02.27 - [Deep Learning/NLP(Natural Language Processing)] - Transformer Encoder 카테고리 분류 개발 후기 - 1. Tokenizer Transformer Encoder 카테고리 분류 개발 후기 - 1. Tokenizer그동안 회사에서 작업했던 30개 카테고리 class 분류 모델 개발 과정 및 삽질 과정을 기록하려고 한다. 전체 프로세스에 대한 공유 목적이자 다시 공부하려는 목적이기도 하다. https://github.com/hipstehipster4020.tistory.com Transformer Encoder 카테고리 분류 모델 1부에서 BPE Tokenizer 학습에 대해 정리해보았다.2부에서는 model train 전체 프로..