1-1. 웹크롤링 준비하기

2020. 5. 12. 03:19데이터 분석/R

우선 저는 R selenium 패키지를 이용하였습니다.

제 주위 사람들 중에서 chromedriver만 설치하여도 가능한 사람이 있었고,

그렇게 하면 작동이 되지 않는 사람이 있었는데요.

저는 후자 여서 r selenium 패키지를 어떻게 해야 사용할 수 있는지 찾아보다가

 

우선 제일 먼저 JAVA를 설치해 줍니다.

 

https://www.java.com/ko/download/manual.jsp

 

 

모든 운영 체제용 Java 다운로드

모든 운영 체제용 Java 다운로드 권장 사항 Version 8 Update 251 릴리스 날짜: 2020년 4월 14일 Oracle Java 중요 라이센스 업데이트 Oracle Java 라이센스는 2019년 4월 16일 릴리스부터 변경되었습니다. 새로운 O

www.java.com

여기 사이트에 들어가서 본인 컴퓨터의 운영체제와 일치하는 Java를 설치해 줍니다.

Java

이렇게 잘 설치된 모습을 확인할 수 있습니다.

 

 이렇게 주소 복사를 한 뒤

 

제어판 -> 시스템 및 보안 -> 시스템에 들어가서

고급 시스템 설정을 눌러줍니다.

 

제어판

 

시스템 속성에서 고급 -> 환경 변수를 선택해 줍니다.

 

환경 변수에서 시스템 변수 밑에 있는 새로 만들기를 눌러줍니다.

환경변수

변수 이름은 JAVA_HOME 으로 설정하고

변수 값에는 위에서 복사한 주소를 붙여 넣어 줍니다.

 

그리고 난 다음에는 환경변수에 위 쪽에 위치한

사용자 변수에서 Path를 선택하고 밑에 있는 편집을 눌러줍니다.

밑에 그림처럼 선택된 주소를 찾아 편집을 눌러줍니다.

 

뒤에 ; 이 있다면 그대로 위에서 복사한 주소 C:\Program Files\Java\jre1.8.0_251를 붙여주고

; 이 없다면 ;C:\Program Files\Java\jre1.8.0_251 이렇게 입력해 주면 됩니다.

 

마지막으로 Rstudio에서 

Sys.setenv(JAVA_HOME='C:/Program Files/Java/jre1.8.0_251') 

이렇게 지정해 주면 Java에 대한 설정이 끝납니다.

 


Java를 설치 해 줬으니 이제 r selenium 패키지만 준비하면 됩니다.

그러기 위해선 

 

selenium

이렇게 selenium 이라는 이름의 파일을 만들어 

chromedriver와 geckodriver, selenium-server-standalone을 설치하여주었습니다.

 

1). ChromeDriver

아래 링크에 들어가서 설치하면 되는데, 중요한 것은

본인 컴퓨터에 있는 크롬과 같은 버전인 크롬 드라이버를 설치하여야 합니다.

 

이렇게 크롬 우측에 있는 점 3개를 눌러 도움말 -> Chrome 정보를 이용해서

 

크롬버전

자신의 크롬 버전이 무엇인지 확인할 수 있습니다.

 

 

https://sites.google.com/a/chromium.org/chromedriver/

 

ChromeDriver - WebDriver for Chrome

WebDriver for Chrome

sites.google.com

2) geckodriver

https://github.com/mozilla/geckodriver/releases/tag/v0.17.0

 

mozilla/geckodriver

WebDriver for Firefox. Contribute to mozilla/geckodriver development by creating an account on GitHub.

github.com

3) selenium-server-standalone

http://selenium-release.storage.googleapis.com/index.html

 

http://selenium-release.storage.googleapis.com/index.html

 

selenium-release.storage.googleapis.com

 

 

 

설치한 크롬드라이버를 통해 포트번호를 확인해 주었습니다.

 

 

그다음 명령 프롬프트인 cmd를 관리자 권한으로 실행해 줍니다. 

cmd

 

이렇게 cmd창이 열린 상태에서

cd + selenium파일의 경로를 입력해 줍니다.

저 같은 경우에는 cd C:\selenium 이렇게 입력해 주었습니다.

 

그다음 selenium 파일 안에 있던 selenium-server-standalone을 활용하여

java - Dwebdriver.gecko.driver="geckodriver.ese" - jar + 자신의 selenium-server-standalone + port 번호를 설정

 

저 같은 경우에는 

java - Dwebdriver.gecko.driver="geckodriver.ese" - jar selenium-server-standalone-4.0.0-alpha-1.jar - port 9515

이렇게 입력하여 실행시켜 줍니다.

실행시켰을 때 밑에 그림과 같이 4줄이 뜨면 성공한 것이고,

만약 여러 줄이 뜨며 에러가 뜨면 port번호를 바꿔보거나 

자신이 잘 설치하였는지 확인해 보는 것을 추천드립니다.

 

 

여기까지 하면 이제 r selenium을 사용하기 위한 모든 준비가 끝났습니다!!