목록Deep Learning (41)
Patrick's 데이터 세상
이번 포스팅에서는 회사 업무에서 사용했던 형태소 분석기의 간략한 설명과 code 예시를 정리해보려고 한다. 형태소 분석기는 Pororo, Okt(Open Korean Text), Mecab, Soynlp LTokenizer 등을 사용하였다. 구축 환경 : Google Colaboratory Pro Plus 👉🏻 Pororo 뽀로로는 카카오 브레인(Kakao Brain)에서 개발한 자연어 처리 라이브러리이다. 자연어 처리와 음성 관련 태스크를 수행하기 위한 목적으로 만들어졌다. 뽀로로는 설치가 좀 까다롭다. model을 load 하는 방식이다 보니 cuda를 사용하는 부분이 있는데 server에서 따로 container 가상화를 구축하고 있지 않은 경우에서는 충돌이 일어나기 때문에 내 정신 건강을 위해 코..
언어 자연언어 : 한국어, 영어, 일본어 등 인공언어 : 프로그래밍 언어, 에스페란토어 등 NLP란 무엇인가? 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다. 구현을 위해 수학적 통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야이다. 정보검색, QA 시스템, 문서 자동 분류, 신문기사 클러스터링 등 다양한 응용이 이루어지고 있다. - Wikipedia - NLP는 Natural Language Processing, 말 그대로 우리가 일상적으로 사용하는 자연어를 처리하는 것을 뜻합니다. NLP Model 자연어 처리 모델은 자연어를 입력받아서 해당 입력이 특정 범주일 확률을 반환하는 확률 함수 입력 :..
https://arxiv.org/abs/1910.13461 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension We present BART, a denoising autoencoder for pretraining sequence-to-sequence models. BART is trained by (1) corrupting text with an arbitrary noising function, and (2) learning a model to reconstruct the original text. It uses a standard Tranformer-b..
개발할 때 작업자가 직접 formatting 하는 것은 한계가 있기 때문에 vscode에서 사용하는 자동 formatting을 맞춰주는 것이 정신건강(?)에 이롭다. vscode에서 1차로 자동 포매팅을 하고 git pre-commit에서 2차로 확인하도록 세팅해 두었다. Black 엄격한 코드 포매터 (커스텀할 여지가 많지 않음) 한 줄이 88자가 넘어가지 않도록 강제 개행 시켜주는 기능이 대표적입니다 isort Black이 잡아주지 못하는, import 순서 정렬해 주는 기능을 담당합니다 파이썬 built-in 모듈인지, first party 모듈인지, third party 모듈인지도 구분해 줍니다. Flake8 앞선 두 코드 품질 관리 도구가 형식적인 측면을 잡아주는 반면, 개발자의 실수가 유발될 ..
개발 환경 구축은 농사 짓기 전 터를 잡고 밭을 가는 것과 동일하게 매우 중요한 초석을 다지는 일이다. 필자는 pyenv+pyenv-virtualenv로 환경을 잡았고 poetry도 적극 활용하려고 하였으나 버전이 잘 맞지 않아 poetry는 생략하고 후에 적용해보려고 한다. pyenv 설치 brew update brew install pyenv pyenv 설정 echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.zshrc echo 'export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.zshrc echo -e 'if command -v pyenv 1>/dev/null 2>&1; then\n eval "$(pyenv init -)"\nfi' >> ~/..
https://arxiv.org/abs/1901.11196 EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks We present EDA: easy data augmentation techniques for boosting performance on text classification tasks. EDA consists of four simple but powerful operations: synonym replacement, random insertion, random swap, and random deletion. On five text classificati arxiv.org 소개 Te..