1-2. 중복데이터 제거 및 파일 합치기
2020. 7. 16. 11:17ㆍ데이터 분석/파이썬
1-1. 인스타그램 크롤링하기
위의 그림 처럼 해시태그 관광을 찾으면 주소가 아래와 같이 나옵니다. https://www.instagram.com/explore/tags/관광/?hl=ko #관광 해시태그 • Instagram 사진 및 동영상 www.instagram.com 따라서 특정 검색어..
hyebit.tistory.com
위의 글에서 인스타그램의 게시글과 해시태그를 크롤링하는 작업을 했습니다.
저는 경북관광에 대한 사람들의 생각을 알아보기 위해
#경상북도여행, #경북여행, #경북나들이, #경북나드리, #경북투어 의 단어들을 활용하여 크롤링하였습니다.
각각의 단어들로 크롤링을 하였지만 크롤링 결과 같은 게시물이 존재할 수 있기 때문에
여러 개의 파일을 통합하여 중복 데이터를 제거하는 과정을 진행해야 합니다.
Gyeongbuk_insta_df = pd.DataFrame( [ ] )
folder = 'C:/Users/Desktop/'
f_list = ['경북여행.xlsx', '경상북도여행.xlsx', '경북나들이.xlsx', '경북나드리.xlsx' , '경북투어.xlsx']
for fname in f_list:
fpath = folder + fname
temp = pd.read_excel(fpath)
Gyeongbuk_insta_df = Gyeongbuk_insta_df.append(temp)
Gyeongbuk_insta_df.columns =['content','data','like','place','tags']
Gyeongbuk_insta_df.drop_duplicates(subset = [ "content"] , inplace = True)
Gyeongbuk_insta_df.to_excel('C:/Users/Desktop/Gyeongbuk.xlsx', index = False)
#(지역) 여행, #(지역) 나들이(나드리) 같은 경우에는 사람들이 직접 그 장소를 체험하고 글을 올리는 경우가 많았고,
#(지역) 관광, #(지역) 투어의 결과 같은 경우 공공기관이나 다른 기관에서 홍보차 언급한 경우와
단순히 나열해 놓은 경우가 많았습니다.
따라서 식당 홍보글, 이벤트성 글은 엑셀의 필터 기능을 활용하여 원치 않는 글을 제거해 주었습니다.
< 위 글은 "직장인을 위한 데이터 분석 실무"를 참고하였습니다 >
'데이터 분석 > 파이썬' 카테고리의 다른 글
1-4. 시각화 (0) | 2020.07.16 |
---|---|
1-3. 해시태그 정리하기 (1) | 2020.07.16 |
1-1. 인스타그램 크롤링하기 (0) | 2020.07.16 |
1.경상북도 관광 해시태그 분석 (0) | 2020.07.16 |