2020. 7. 16. 11:29ㆍ데이터 분석/파이썬
1-2. 중복데이터 제거 및 파일 합치기
https://hyebit.tistory.com/49 1-1. 인스타그램 크롤링하기 위의 그림 처럼 해시태그 관광을 찾으면 주소가 아래와 같이 나옵니다. https://www.instagram.com/explore/tags/관광/?hl=ko #관광 해시태그 • Insta..
hyebit.tistory.com
위의 글에서 정리한 엑셀 파일을 활용하여 시각화를 해 볼 것입니다.
import pandas as pd
raw_total = pd.read_excel('C:/Users/Desktop/Gyeongbuk.xlsx')
raw_total['tags']
크롤링할 때 해시태그를 [] 안에 불러오도록 설정해 주었기 때문에 [ ] 안에 있는 내용만 추출하도록 명령해 줍니다.
또한 ,로 나열되어 있어 split 함수를 활용하여 , 를 기준으로 나눠줍니다.
tags_total = []
for tags in raw_total['tags']:
tags_list = tags[2:-2].split("', '")
for tag in tags_list:
tags_total.append(tag)
['#비밀의숲',
'#감성사진',
'#안동',
'#낙강물길공원',
'#지베르니',
'#피크닉',
'#언택트여행',
'#힐링',
'#낙강물길공원',
'#산책',
'#생활속거리두기',
'#국내여행',
'#대한민국구석구석📷',
'#해안도로',
'#후포항',
'#경북',
'#울진',
'#후포해안도로',
'#등기산스카이워크',
'#언택트여행지',
'#드라이브코스',
'#해상산책',
'#후포면',
'#언택트여행',
'#생활속거리두기',
'#국내여행',
'#대한민국구석구석📷@ont_foto',
'#서석지',
'#영양여행',
'#여행에미치다',
'#일상을여행으로',
'#경주_숙조당..경주',
'#감성숙소_경주✔',
'#감성숙소_경상북도...',
'#경상북도',
'#경주',
'#숙조당-',
'#경주여행',
'#경주펜션',
'#경주독채펜션',
'#경주풀빌라',
'#경주민박',
'#경주독채민박',
'#경북여행',
'#경북독채펜션',
'#독채펜션',
'#GMMASTER',
'#렌즈의한계를뛰어넘다',
'#A7M3',
'#SEL2470GM',
'#맹동산',
'#영양여행',
'#여행에미치다',
'#일상을여행으로',
'#대청마루에',
'#여행하는달콤양',
'#청송',
'#체크인유럽',
'#여행하는달콤양',
'#안동',
이런 식으로 결과가 나오게 됩니다.
위의 해시태그를 활용하여 빈도수 계산 후 빈도수가 높은 순으로 나타내어 보기 쉽게 정리합니다.
from collections import Counter
tag_counts = Counter(tags_total)
tag_counts.most_common(50)
이렇게 정리하면 여행과는 상관없는 해시태그들이 보입니다. 상관없는 해시태그들을 정리해줍니다.
STOPWORDS = ['', '#일상', '#아들스타그램', '#줌마그램', '#데일리그램', '#여섯살아들', '#도치맘', '#육아그램', '#소소한일상',
'#요리그램', '#홈쿡', '#얼집등원룩', '#뱀띠아들', '#6년차주부', '#daily', '#소통', '#데일리', '#2019', '#맞팔',
'#korea', '#2020', '#좋아요', '#koreatravel', '#photography', '#소니이미지갤러리', '#snap','#육아스타그램',
'#southkorea', '#선팔', '#2018', '#fff', '#셀스타그램', '#좋아요반사', '#ig_korea' ,'#주말일상','#딸스타그램','#스히',
'#sony','#팔로우','#selfie', '#대한민국', '#셀카','#a7m3','#육아소통','#사랑해','#기록','#scenery','#스냅','#today',
'#대구맘','#선팔하면맞팔','#lance_rover','#lance','#lance865','#lancetruckcamper','#truckcamper','#truckcamperlife',
'#모터홈라이프','#motorhomelife','#알빙','#arving','#sel2470gm','#beautifuldestinations','#소통해요','#ootd','#selca',
'#f4f','#인친','#아들','#2015','#문경시SNS서포터즈','#igtravel','#가산수피아','#2017','#visitkorea','#instagramer',
'#꽃비원라이프','#사춘기메들리','#Repost','#더정성스냅','#SonyImageGallery','#iphone8','#셀피','#육아맘','#백현그램',
'#데일리룩','#igdaily','#2014','#a7ii','#selfi','#pet','#sonyphotography','#good', '#멍스타그램','#ig_asia','#좋아요',
'#koreabyme','#dailylook','#해시태그','#오늘','#캐논이미지스토밍','#ig_color','#instadaily','#temple','#점심','#닭띠아기',
'#예쁜아기','#귀여워','#부산사진동호회여담','#instagood','#goout','#gooutside','#꼬꼬마부부','#exploringKorea','#environment',
'#유기견','#고령강아지', '#고령유기견','#고령요크셔테리어','#고령유기동물','#요크셔테리어','#다음은어디','#가보고싶은곳밀',
'#sunset','#굿모닝','#2016','#2012','#ig_photo','#후추동반여행','#아들맘','#딸맘','#southkoreatrip','#southkoreatravel',
'#2020특별여행주간','#여름원피스','#❤️','#육아소통','#travelkorea','#traveller','#리틀포레스트','#koreanlife','#likeforlikes',
'#longexposure','#사랑','#대환투어','#대환투어on','#대환투어는계속된다','#아기일상','#baby','#cutebaby','#심장폭행',
'#워킹맘','#직장인', '#베이비스타그램','#딸둘','#화이팅','#gbnadri','#durchatmen','#로랑_여행','#사진소통','#방콕','#외출',
'#럽럽','#럽럽럽','#럽럽럽💕','#90mm', '#ig_world','#ig_koera','#pine', '#follow','#선팔하면맞팔가요', '#利潤益',
'#gailbookshelf','#writeaboutmyself','#naturaldyescarf','#내고장알리미연합회','#오오티디','#following','#follower',
'#follow4like','#likeforfollow','#안녕경주야','#portrait','#kinfolklife','#후추','#엄마와아들']
위에서 지정한 상관성 없는 단어들을 if 함수를 활용하여 not in으로 위의 단어들이 제거되게끔 지정했습니다.
tag_total_selected = []
for tag in tags_total:
if tag not in STOPWORDS:
tag_total_selected.append(tag)
# 상위 100개 단어 추출하기
tag_counts_selected = Counter(tag_total_selected)
tag_counts_selected.most_common(100)
[('#경북투어', 426),
('#경북나들이', 307),
('#경북여행', 305),
('#경상북도여행', 251),
('#경북나드리', 202),
('#여행', 160),
('#여행스타그램', 146),
('#국내여행', 120),
('#먹스타그램', 120),
('#안동', 116),
('#경주', 114),
('#경북가족여행', 112),
('#울가족경북여행', 112),
('#경상북도', 111),
('#경북가족추억소환', 110),
('#포항', 94),
('#가족나들이', 92),
('#먹방', 88),
('#안동여행', 82),
('#데이트', 81),
('#경북도청신도시', 78),
('#가족여행', 77),
('#엄마와아들', 76),
('#집밥', 76),
('#경북', 75),
('#경주여행', 67),
('#여행에미치다', 67),
('#대구', 66),
('#travel', 62),
('#경북여행', 61),
('#경북가볼만한곳', 54),
('#대한민국구석구석', 52),
('#영덕', 52),
('#주말', 51),
('#문경여행', 47),
('#주말나들이', 45),
('#문경', 42),
('#사진스타그램', 41),
('#영주', 41),
('#군위', 40),
('#경상북도여행', 39),
('#나들이', 38),
('#여름휴가', 37),
이런 식으로 결과가 나왔습니다.
표를 활용하여 정리 하면
경북 관광에 대한 해시태그 중 지역은 안동, 경주, 대구, 포항, 문경 ... 순으로 언급이 되었고,
여행목적으로는 먹고, 풍경을 보고, 사진을 찍기 위해 여행하며,
가족, 혹은 연인과 함께 여행한다는 것을 알 수 있었습니다.
< 위 글은 "직장인을 위한 데이터 분석 실무"를 참고하였습니다 >
'데이터 분석 > 파이썬' 카테고리의 다른 글
1-4. 시각화 (0) | 2020.07.16 |
---|---|
1-2. 중복데이터 제거 및 파일 합치기 (0) | 2020.07.16 |
1-1. 인스타그램 크롤링하기 (0) | 2020.07.16 |
1.경상북도 관광 해시태그 분석 (0) | 2020.07.16 |