2-1. 데이터 수집 & 정리

2020. 7. 29. 14:48데이터 분석/R

https://hyebit.tistory.com/23?category=903232

 

1-2. Melon 시대별 차트 크롤링 하기

앞서 https://hyebit.tistory.com/15?category=903232 1-1. 웹크롤링 준비하기 우선 저는 R selenium 패키지를 이용하였습니다. 제 주위 사람들 중에서 chromedriver만 설치하여도 가능한 사람이 있었고, 그렇게..

hyebit.tistory.com

멜론 노래 가사들을 크롤링하는데에 있어 

앞서 사용했던 크롤링 코드와 바뀐부분이 있습니다.

 

노래 가사를 크롤링해오는 데 있어 결과들을 보니

깔끔하게 끊어져 있지 않아 코드를 수정하였습니다.

 

연도별 데이터 분할하기
명사추출

연도별로 데이터를 분할한 자료를 활용하여 문장부호는 제거하고,

명사만 추출하여 정리합니다.

 

여기까지 제가 웹크롤링을 한 결과를 활용하여

팀원들과 함께 저희가 정한 기준의 장소 어휘를 추출하여

(구체적인 장소 명사, 추상적인 장소 포함(ex. 꿈속, 어둠, 암흑...))

메모장에 장소어휘 사전을 만들었습니다.