목록Deep Learning (36)
Patrick's 데이터 세상
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/rj0ek/btrZchogiA3/IvrkUQqvkejtSJj98PgwKk/img.png)
https://arxiv.org/abs/1910.13461 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension We present BART, a denoising autoencoder for pretraining sequence-to-sequence models. BART is trained by (1) corrupting text with an arbitrary noising function, and (2) learning a model to reconstruct the original text. It uses a standard Tranformer-b..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ccwTUF/btrVjSzrNZI/Bkfcg6Kontuks3XG8FOD4k/img.png)
https://arxiv.org/abs/1901.11196 EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks We present EDA: easy data augmentation techniques for boosting performance on text classification tasks. EDA consists of four simple but powerful operations: synonym replacement, random insertion, random swap, and random deletion. On five text classificati arxiv.org 소개 Te..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bfeoVm/btrSCdmPQ74/e6cv4teOK58oJz2f4K0vG0/img.png)
2022.11.21 - [Deep Learning/NLP 개발] - Huggingface 허깅페이스 파헤치기 Huggingface 허깅페이스 파헤치기자연어 처리 포함 모든 딥러닝 학습 시에 pretrained 된 모델을 사용하다 보면 가장 많이 접하는 것이 바로 Huggingface이다. 이 포스팅에서는 Huggingface를 좀 더 자세히 알아보고 주요 기능에 대한 documehipster4020.tistory.com이전 포스팅에서 Huggingface의 전체적인 기능에 대해 알아보았다. 이번에는 Huggingface의 많은 기능 중에서 내가 중점적으로 다루는 NLP(Natural Language Processing) 기능에 대해 알아보려고 한다. 👉🏻 Use tokenizers from Hug..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cShwg0/btrSw6goZ4r/RyHj8k6v5hAtWzaM1k0wWK/img.png)
import konlpykonlpy.data.path 먼저 konlpy.data.path를 통해 자신의 pc에 konlpy가 설치된 경로를 찾는다.나 같은 경우에는 m1 mac으로 '/Users/seonghwanpark/.pyenv/versions/3.8.15/envs/shpark/lib/python3.8/site-packages/konlpy/java'에 설치되었다. import osos.chdir('/Users/seonghwanpark/.pyenv/versions/3.8.15/envs/shpark/lib/python3.8/site-packages/konlpy/java')os.getcwd() !jar xvf open-korean-text-2.1.0.jar먼저 konlpy/java에 open-korea..
okt import 후에 인스턴스 생성 시, zshrc에 java_path를 jdk있는 경로로 잡았는데도 가상환경에서 뭔가 충돌난건지... jvm 경로를 자꾸 다른 경로를 찾는 오류가 있어서 argument에 jvmpath를 직접 넣는 아래 커맨드로 해결했다. from konlpy.tag import Okt jvm_path = "/Library/Java/JavaVirtualMachines/zulu-15.jdk/Contents/Home/bin/java" okt = Okt(jvmpath=jvm_path)
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/NEaxQ/btrRMK6XAwG/FvXnlfQyO7Zyjxvoq74IR0/img.png)
네이버 한글 맞춤법 검사기로 만들어진 패키지로써 대화형 전처리 시에 굉장히 유용할 것 같아서 사용해보기로 했다. hanspell 설치 방법으로는 2가지가 있다. 👉🏻 pip 설치 pip3 install py-hanspell pip3로 설치하면 실패한다. 👉🏻 git setup.py 설치 다음으로 git에 있는 setup.py로 설치하는 방법으로 설치했다. git clone 후 python3 setup.py install 구문으로 설치하는 방법으로 설치해봤는데 해당 방법으로는 설치가 안됐고 아래 구문으로 설치했다. pip3 install git+https://github.com/ssut/py-hanspell.git from hanspell import spell_checker checked_sent1 = ..