목록Deep Learning (37)
Patrick's 데이터 세상

이번 포스팅에서는 회사 업무에서 사용했던 형태소 분석기의 간략한 설명과 code 예시를 정리해보려고 한다. 형태소 분석기는 Pororo, Okt(Open Korean Text), Mecab, Soynlp LTokenizer 등을 사용하였다. 구축 환경 : Google Colaboratory Pro Plus 👉🏻 Pororo 뽀로로는 카카오 브레인(Kakao Brain)에서 개발한 자연어 처리 라이브러리이다. 자연어 처리와 음성 관련 태스크를 수행하기 위한 목적으로 만들어졌다. 뽀로로는 설치가 좀 까다롭다. model을 load 하는 방식이다 보니 cuda를 사용하는 부분이 있는데 server에서 따로 container 가상화를 구축하고 있지 않은 경우에서는 충돌이 일어나기 때문에 내 정신 건강을 위해 코..

https://arxiv.org/abs/1910.13461 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension We present BART, a denoising autoencoder for pretraining sequence-to-sequence models. BART is trained by (1) corrupting text with an arbitrary noising function, and (2) learning a model to reconstruct the original text. It uses a standard Tranformer-b..

https://arxiv.org/abs/1901.11196 EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks We present EDA: easy data augmentation techniques for boosting performance on text classification tasks. EDA consists of four simple but powerful operations: synonym replacement, random insertion, random swap, and random deletion. On five text classificati arxiv.org 소개 Te..

2022.11.21 - [Deep Learning/NLP 개발] - Huggingface 허깅페이스 파헤치기 Huggingface 허깅페이스 파헤치기자연어 처리 포함 모든 딥러닝 학습 시에 pretrained 된 모델을 사용하다 보면 가장 많이 접하는 것이 바로 Huggingface이다. 이 포스팅에서는 Huggingface를 좀 더 자세히 알아보고 주요 기능에 대한 documehipster4020.tistory.com이전 포스팅에서 Huggingface의 전체적인 기능에 대해 알아보았다. 이번에는 Huggingface의 많은 기능 중에서 내가 중점적으로 다루는 NLP(Natural Language Processing) 기능에 대해 알아보려고 한다. 👉🏻 Use tokenizers from Hug..

import konlpykonlpy.data.path 먼저 konlpy.data.path를 통해 자신의 pc에 konlpy가 설치된 경로를 찾는다.나 같은 경우에는 m1 mac으로 '/Users/seonghwanpark/.pyenv/versions/3.8.15/envs/shpark/lib/python3.8/site-packages/konlpy/java'에 설치되었다. import osos.chdir('/Users/seonghwanpark/.pyenv/versions/3.8.15/envs/shpark/lib/python3.8/site-packages/konlpy/java')os.getcwd() !jar xvf open-korean-text-2.1.0.jar먼저 konlpy/java에 open-korea..
okt import 후에 인스턴스 생성 시, zshrc에 java_path를 jdk있는 경로로 잡았는데도 가상환경에서 뭔가 충돌난건지... jvm 경로를 자꾸 다른 경로를 찾는 오류가 있어서 argument에 jvmpath를 직접 넣는 아래 커맨드로 해결했다. from konlpy.tag import Okt jvm_path = "/Library/Java/JavaVirtualMachines/zulu-15.jdk/Contents/Home/bin/java" okt = Okt(jvmpath=jvm_path)