목록Deep Learning/이론 (14)
Patrick's 데이터 세상

기계는 실제값과 예측값의 오차로부터 옵티마이저를 통해서 가중치를 업데이트합니다. 머신 러닝에서는 이 과정을 학습이라고 합니다. 이를 현실의 학습에 비유하면 사람은 문제지의 문제를 풀고, 정답지의 정답을 보면서 채점을 하면서 부족했던 점을 깨달으며 머릿속의 지식이 업데이트되는 과정입니다. 그런데 사람마다 동일한 문제지와 정답지를 주더라도 공부 방법은 사실 천차만별입니다. 어떤 사람은 문제지 하나를 다 풀고 나서 정답을 채점하는데 어떤 사람은 문제지의 문제를 10개 단위로 끊어서 공부합니다. 문제 10개를 풀고 채점하고 다시 다음 문제 10개를 풀고 채점하고 반복하는 방식으로 학습한다는 거죠. 또한 게으른 사람은 문제지를 3번 공부하는데, 성실한 사람은 문제지의 문제를 달달 외울만큼 문제지를 100번 공부합..

loss는 손실 함수를 의미합니다. 손실 함수는 실제 값과 예측 값의 차이를 수치화해주는 함수입니다. 이 두 값의 차이 즉, 오차가 클수록 손실 함수의 값은 크고 오차가 작을수록 손실 함수의 값은 작아집니다. 회귀에서는 평균 제곱 오차, 분류 문제에서는 크로스 엔트로피를 주로 손실 함수로 사용합니다. 손실 함수의 값을 최소화하는 두 개의 매개변수인 가중치 w와 편향 b를 찾아가는 것이 딥러닝의 학습 과정이므로 손실 함수의 선정은 매우 중요합니다. loss: 손실함수. 훈련셋과 연관. 훈련에 사용. 1) 크로스 엔트로피(Cross-Entropy) Cross Entropy는 일반적으로 분류 태스크에 사용되는 손실함수입니다. 값이 낮을수록 예측한 확률이 실제 데이터의 확률과 비슷하다는 것을 뜻합니다. 두 개의..

사용자가 필요로 하는 정보를 수집하고, 그 내용을 분석한 뒤 찾기 쉬운 형태로 조직해서, 정보에 대한 요구가 발생했을 때, 해당 정보를 찾아 제공하는 시스템. 데이터베이스(Data Retrieval System) 정보 검색(Information Retrieval System) 데이터의 저장 & 관리 데이터의 빠른 검색 정형화된 데이터(row & column) 비정형화된 데이터(text, video, voice, ...) 정확한 해답 제공 확률이나 예측에 근거한 해답 제공 근접도 정렬 구성 - Crawler(수집기) : 대상 데이터의 수집 - Indexer(색인기) : 수집된 데이터를 빨리 찾을 수 있도록 구조화 - Searcher(검색기) : 요구에 적합한 정보 검색 고려사항 검색 대상 폭발적으로 증가하..

문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 비해 빈도 값을 부여해 피처 값을 추출하는 모델입니다. Bag of Words는 문서 내 모든 단어를 한꺼번에 봉투 안에 넣은 뒤에 흔들어서 섞는다는 의미입니다. 문장 : 'I love this movie! It's sweet, but with satirical humor. The dialogue is great and the adventure scenes are fun... It manages to be whimsical and romantic while laughing at the conventions of the fairy tale genre. I would recommend it to just about anyone..

먼저 NLP(National Language Processing)와 텍스트 분석(Text Analytics) 중 NLP는 머신이 인간의 언어를 이해하고 해석하는데 좀 더 중점을 두고 기술이 발전해 왔으며, 텍스트 마이닝(Text Mining)이라고도 불리는 텍스트 분석은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점을 두고 개발되었습니다. 텍스트 분석은 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스(Business Intelligence)나 예측 분석 등의 분석 작업을 주로 수행합니다. 텍스트 분석은 비정형 데이터인 텍스트를 분석하는 것입니다. 머신러닝 알고리즘은 숫자형의 피처 기반 데이터만 입력받을 수 있기 때문에 텍스트를 피처 형태로 추출하고 추출..

차원 감소 (Dimension reduction) 데이터를 분석할 때 피쳐가 많으면 데이터 분석이 어렵고, 특히 3개 이상(3차원)의 피쳐가 존재할 경우 시각화가 어려워집니다. 머신러닝의 경우에 학습용 데이터의 피쳐가 많으면, 연산량이 많아지고, 특히 학습을 위해서 더 많은 데이터가 필요했는데 이렇게 피쳐가 많음으로써 발생하는 문제를 차원의 저주(Dimension Curse)라고 합니다. 이 차원의 수를 줄이는 방법을 차원 감소 방법(Dimension reduction)이라고 합니다. 차원 수를 줄인 다는 것은 다른 말로는 피쳐의 수를 줄인다는 말과 같고, 앞에서 언급한 바와 같이 데이터 분석에서는 차원을 줄여서 시각화를 가능하게 해서 데이터 분석을 용이하게 할 수 있다. 3차원이 넘어가는 데이터는 시각..