-
[개발일지] 한국어 위키 데이터 다운로드개발일지 2021. 3. 15. 22:28728x90
text 머신러닝을 위해
한국어 위키 데이터를 다운 받았다.
주소는 아래와 같다.
dumps.wikimedia.org/kowiki/20210301/
kowiki dump progress on 20210301
kowiki dump progress on 20210301 This is the Wikimedia dump service. Please read the copyrights information. See Meta:Data dumps for documentation on the provided data formats. Older versions of the 7zip decoder on Windows are known to have problems with s
dumps.wikimedia.org
.bz2 파일이 받아지는데,
github.com/attardi/wikiextractor
attardi/wikiextractor
A tool for extracting plain text from Wikipedia dumps - attardi/wikiextractor
github.com
위 사이트의 wikiextractor를 이용하여 데이터를 확보한다.
window에서는 thread 문제로
EOFError: Ran out of input 에러가 발생할 수 있는데,
이때는
github.com/j-min/WikiExtractor_To_the_one_text
j-min/WikiExtractor_To_the_one_text
Simple extension of WikiExtractor(https://github.com/attardi/wikiextractor) - j-min/WikiExtractor_To_the_one_text
github.com
위 사이트를 이용하자.
'개발일지' 카테고리의 다른 글
[개발일지] T5 학습시키기(2) - tokenizer 만들기 (bpe, byte pair encoding) (0) 2021.07.10 [개발일지] T5 학습시키기(1) - 데이터 준비 (0) 2021.07.10 [개발일지] Colab Pro 결제 (0) 2021.04.03 [개발일지] 비트코인 분봉 데이터 쌓기 (0) 2021.03.07 [개발일지] 화질보정하기 (0) 2021.02.26