1-2. 중복데이터 제거 및 파일 합치기

2020. 7. 16. 11:17데이터 분석/파이썬

https://hyebit.tistory.com/49

 

1-1. 인스타그램 크롤링하기

위의 그림 처럼 해시태그 관광을 찾으면 주소가 아래와 같이 나옵니다. https://www.instagram.com/explore/tags/관광/?hl=ko #관광 해시태그 • Instagram 사진 및 동영상 www.instagram.com 따라서 특정 검색어..

hyebit.tistory.com

위의 글에서 인스타그램의 게시글과 해시태그를 크롤링하는 작업을 했습니다.

 

저는 경북관광에 대한 사람들의 생각을 알아보기 위해 

#경상북도여행, #경북여행, #경북나들이, #경북나드리, #경북투어 의 단어들을 활용하여 크롤링하였습니다.

각각의 단어들로 크롤링을 하였지만 크롤링 결과 같은 게시물이 존재할 수 있기 때문에

여러 개의 파일을 통합하여 중복 데이터를 제거하는 과정을 진행해야 합니다.

Gyeongbuk_insta_df = pd.DataFrame( [ ] )

folder = 'C:/Users/Desktop/'
f_list = ['경북여행.xlsx', '경상북도여행.xlsx', '경북나들이.xlsx', '경북나드리.xlsx' , '경북투어.xlsx']
for fname in f_list:
    fpath = folder + fname
    temp = pd.read_excel(fpath)
    Gyeongbuk_insta_df = Gyeongbuk_insta_df.append(temp)

Gyeongbuk_insta_df.columns =['content','data','like','place','tags']

 

Gyeongbuk_insta_df.drop_duplicates(subset = [ "content"] , inplace = True)
Gyeongbuk_insta_df.to_excel('C:/Users/Desktop/Gyeongbuk.xlsx', index = False)

#(지역) 여행, #(지역) 나들이(나드리) 같은 경우에는 사람들이 직접 그 장소를 체험하고 글을 올리는 경우가 많았고,

#(지역) 관광, #(지역) 투어의 결과 같은 경우 공공기관이나 다른 기관에서 홍보차 언급한 경우와

단순히 나열해 놓은 경우가 많았습니다.

 

따라서 식당 홍보글, 이벤트성 글은 엑셀의 필터 기능을 활용하여 원치 않는 글을 제거해 주었습니다.

 

 

< 위 글은 "직장인을 위한 데이터 분석 실무"를 참고하였습니다 >

'데이터 분석 > 파이썬' 카테고리의 다른 글

1-4. 시각화  (0) 2020.07.16
1-3. 해시태그 정리하기  (1) 2020.07.16
1-1. 인스타그램 크롤링하기  (0) 2020.07.16
1.경상북도 관광 해시태그 분석  (0) 2020.07.16