목록Deep Learning/개발 관련 (5)
Patrick's 데이터 세상
이번 포스팅에서는 회사 업무에서 사용했던 형태소 분석기의 간략한 설명과 code 예시를 정리해보려고 한다. 형태소 분석기는 Pororo, Okt(Open Korean Text), Mecab, Soynlp LTokenizer 등을 사용하였다. 구축 환경 : Google Colaboratory Pro Plus 👉🏻 Pororo 뽀로로는 카카오 브레인(Kakao Brain)에서 개발한 자연어 처리 라이브러리이다. 자연어 처리와 음성 관련 태스크를 수행하기 위한 목적으로 만들어졌다. 뽀로로는 설치가 좀 까다롭다. model을 load 하는 방식이다 보니 cuda를 사용하는 부분이 있는데 server에서 따로 container 가상화를 구축하고 있지 않은 경우에서는 충돌이 일어나기 때문에 내 정신 건강을 위해 코..
import konlpykonlpy.data.path 먼저 konlpy.data.path를 통해 자신의 pc에 konlpy가 설치된 경로를 찾는다.나 같은 경우에는 m1 mac으로 '/Users/seonghwanpark/.pyenv/versions/3.8.15/envs/shpark/lib/python3.8/site-packages/konlpy/java'에 설치되었다. import osos.chdir('/Users/seonghwanpark/.pyenv/versions/3.8.15/envs/shpark/lib/python3.8/site-packages/konlpy/java')os.getcwd() !jar xvf open-korean-text-2.1.0.jar먼저 konlpy/java에 open-korea..
okt import 후에 인스턴스 생성 시, zshrc에 java_path를 jdk있는 경로로 잡았는데도 가상환경에서 뭔가 충돌난건지... jvm 경로를 자꾸 다른 경로를 찾는 오류가 있어서 argument에 jvmpath를 직접 넣는 아래 커맨드로 해결했다. from konlpy.tag import Okt jvm_path = "/Library/Java/JavaVirtualMachines/zulu-15.jdk/Contents/Home/bin/java" okt = Okt(jvmpath=jvm_path)
네이버 한글 맞춤법 검사기로 만들어진 패키지로써 대화형 전처리 시에 굉장히 유용할 것 같아서 사용해보기로 했다. hanspell 설치 방법으로는 2가지가 있다. 👉🏻 pip 설치 pip3 install py-hanspell pip3로 설치하면 실패한다. 👉🏻 git setup.py 설치 다음으로 git에 있는 setup.py로 설치하는 방법으로 설치했다. git clone 후 python3 setup.py install 구문으로 설치하는 방법으로 설치해봤는데 해당 방법으로는 설치가 안됐고 아래 구문으로 설치했다. pip3 install git+https://github.com/ssut/py-hanspell.git from hanspell import spell_checker checked_sent1 = ..
M1 Mac 환경에서 konlpy 사용 시에 Jvm Path 관련 이슈가 발생하였다. from konlpy.tag import Okt okt = Okt() JVM dll not found 오류가 발생하여 여러 포스팅을 봤는데 Oracle 공홈에서 mac용 JVM을 다시 깔아서 해결했다는 분들도 봤는데, 나의 경우는 Zulu Open JDK arm64용 15버전으로 해결하였다. 16 이상 버전은 호환이 되지 않는 듯 하다. https://www.azul.com/downloads/zulu-community/?version=java-15-mts&os=macos&architecture=arm-64-bit&package=jdk Downloads No matter the size of your company, Az..