1-3. 해시태그 정리하기

2020. 7. 16. 11:29데이터 분석/파이썬

https://hyebit.tistory.com/50

 

1-2. 중복데이터 제거 및 파일 합치기

https://hyebit.tistory.com/49 1-1. 인스타그램 크롤링하기 위의 그림 처럼 해시태그 관광을 찾으면 주소가 아래와 같이 나옵니다. https://www.instagram.com/explore/tags/관광/?hl=ko #관광 해시태그 • Insta..

hyebit.tistory.com

위의 글에서 정리한 엑셀 파일을 활용하여 시각화를 해 볼 것입니다.

import pandas as pd
raw_total = pd.read_excel('C:/Users/Desktop/Gyeongbuk.xlsx')
raw_total['tags']

크롤링할 때 해시태그를 [] 안에 불러오도록 설정해 주었기 때문에 [ ] 안에 있는 내용만 추출하도록 명령해 줍니다.

또한 ,로 나열되어 있어 split 함수를 활용하여 , 를 기준으로 나눠줍니다.

tags_total = []

for tags in raw_total['tags']:
    tags_list = tags[2:-2].split("', '")
    for tag in tags_list:
        tags_total.append(tag)
['#비밀의숲',
 '#감성사진',
 '#안동',
 '#낙강물길공원',
 '#지베르니',
 '#피크닉',
 '#언택트여행',
 '#힐링',
 '#낙강물길공원',
 '#산책',
 '#생활속거리두기',
 '#국내여행',
 '#대한민국구석구석📷',
 '#해안도로',
 '#후포항',
 '#경북',
 '#울진',
 '#후포해안도로',
 '#등기산스카이워크',
 '#언택트여행지',
 '#드라이브코스',
 '#해상산책',
 '#후포면',
 '#언택트여행',
 '#생활속거리두기',
 '#국내여행',
 '#대한민국구석구석📷@ont_foto',
 '#서석지',
 '#영양여행',
 '#여행에미치다',
 '#일상을여행으로',
 '#경주_숙조당..경주',
 '#감성숙소_경주✔',
 '#감성숙소_경상북도...',
 '#경상북도',
 '#경주',
 '#숙조당-',
 '#경주여행',
 '#경주펜션',
 '#경주독채펜션',
 '#경주풀빌라',
 '#경주민박',
 '#경주독채민박',
 '#경북여행',
 '#경북독채펜션',
 '#독채펜션',
 '#GMMASTER',
 '#렌즈의한계를뛰어넘다',
 '#A7M3',
 '#SEL2470GM',
 '#맹동산',
 '#영양여행',
 '#여행에미치다',
 '#일상을여행으로',
 '#대청마루에',
 '#여행하는달콤양',
 '#청송',
 '#체크인유럽',
 '#여행하는달콤양',
 '#안동',

이런 식으로 결과가 나오게 됩니다.

위의 해시태그를 활용하여 빈도수 계산 후 빈도수가 높은 순으로 나타내어 보기 쉽게 정리합니다.

from collections import Counter
tag_counts = Counter(tags_total)

tag_counts.most_common(50)

이렇게 정리하면 여행과는 상관없는 해시태그들이 보입니다. 상관없는 해시태그들을 정리해줍니다.

STOPWORDS = ['', '#일상', '#아들스타그램', '#줌마그램', '#데일리그램', '#여섯살아들', '#도치맘', '#육아그램', '#소소한일상', 
            '#요리그램', '#홈쿡', '#얼집등원룩', '#뱀띠아들', '#6년차주부', '#daily', '#소통', '#데일리', '#2019', '#맞팔',
            '#korea', '#2020', '#좋아요', '#koreatravel', '#photography', '#소니이미지갤러리', '#snap','#육아스타그램',
            '#southkorea', '#선팔', '#2018', '#fff', '#셀스타그램', '#좋아요반사', '#ig_korea' ,'#주말일상','#딸스타그램','#스히',
            '#sony','#팔로우','#selfie', '#대한민국', '#셀카','#a7m3','#육아소통','#사랑해','#기록','#scenery','#스냅','#today',
            '#대구맘','#선팔하면맞팔','#lance_rover','#lance','#lance865','#lancetruckcamper','#truckcamper','#truckcamperlife',
            '#모터홈라이프','#motorhomelife','#알빙','#arving','#sel2470gm','#beautifuldestinations','#소통해요','#ootd','#selca', 
            '#f4f','#인친','#아들','#2015','#문경시SNS서포터즈','#igtravel','#가산수피아','#2017','#visitkorea','#instagramer',
             '#꽃비원라이프','#사춘기메들리','#Repost','#더정성스냅','#SonyImageGallery','#iphone8','#셀피','#육아맘','#백현그램',
             '#데일리룩','#igdaily','#2014','#a7ii','#selfi','#pet','#sonyphotography','#good', '#멍스타그램','#ig_asia','#좋아요',
             '#koreabyme','#dailylook','#해시태그','#오늘','#캐논이미지스토밍','#ig_color','#instadaily','#temple','#점심','#닭띠아기',
             '#예쁜아기','#귀여워','#부산사진동호회여담','#instagood','#goout','#gooutside','#꼬꼬마부부','#exploringKorea','#environment',
             '#유기견','#고령강아지', '#고령유기견','#고령요크셔테리어','#고령유기동물','#요크셔테리어','#다음은어디','#가보고싶은곳밀',
             '#sunset','#굿모닝','#2016','#2012','#ig_photo','#후추동반여행','#아들맘','#딸맘','#southkoreatrip','#southkoreatravel',
             '#2020특별여행주간','#여름원피스','#❤️','#육아소통','#travelkorea','#traveller','#리틀포레스트','#koreanlife','#likeforlikes',
             '#longexposure','#사랑','#대환투어','#대환투어on','#대환투어는계속된다','#아기일상','#baby','#cutebaby','#심장폭행',
             '#워킹맘','#직장인', '#베이비스타그램','#딸둘','#화이팅','#gbnadri','#durchatmen','#로랑_여행','#사진소통','#방콕','#외출',
             '#럽럽','#럽럽럽','#럽럽럽💕','#90mm', '#ig_world','#ig_koera','#pine', '#follow','#선팔하면맞팔가요', '#利潤益',
             '#gailbookshelf','#writeaboutmyself','#naturaldyescarf','#내고장알리미연합회','#오오티디','#following','#follower',
             '#follow4like','#likeforfollow','#안녕경주야','#portrait','#kinfolklife','#후추','#엄마와아들']

위에서 지정한 상관성 없는 단어들을 if 함수를 활용하여 not in으로 위의 단어들이 제거되게끔 지정했습니다.

tag_total_selected = []

for tag in tags_total:
    if tag not in STOPWORDS:
        tag_total_selected.append(tag)
        
# 상위 100개 단어 추출하기        
tag_counts_selected = Counter(tag_total_selected)
tag_counts_selected.most_common(100)
[('#경북투어', 426),
 ('#경북나들이', 307),
 ('#경북여행', 305),
 ('#경상북도여행', 251),
 ('#경북나드리', 202),
 ('#여행', 160),
 ('#여행스타그램', 146),
 ('#국내여행', 120),
 ('#먹스타그램', 120),
 ('#안동', 116),
 ('#경주', 114),
 ('#경북가족여행', 112),
 ('#울가족경북여행', 112),
 ('#경상북도', 111),
 ('#경북가족추억소환', 110),
 ('#포항', 94),
 ('#가족나들이', 92),
 ('#먹방', 88),
 ('#안동여행', 82),
 ('#데이트', 81),
 ('#경북도청신도시', 78),
 ('#가족여행', 77),
 ('#엄마와아들', 76),
 ('#집밥', 76),
 ('#경북', 75),
 ('#경주여행', 67),
 ('#여행에미치다', 67),
 ('#대구', 66),
 ('#travel', 62),
 ('#경북여행', 61),
 ('#경북가볼만한곳', 54),
 ('#대한민국구석구석', 52),
 ('#영덕', 52),
 ('#주말', 51),
 ('#문경여행', 47),
 ('#주말나들이', 45),
 ('#문경', 42),
 ('#사진스타그램', 41),
 ('#영주', 41),
 ('#군위', 40),
 ('#경상북도여행', 39),
 ('#나들이', 38),
 ('#여름휴가', 37),

이런 식으로 결과가 나왔습니다.

 

표를 활용하여 정리 하면

 

여행지역
여행목적
여행

경북 관광에 대한 해시태그 중 지역은 안동, 경주, 대구, 포항, 문경 ... 순으로 언급이 되었고,

여행목적으로는 먹고, 풍경을 보고, 사진을 찍기 위해 여행하며,

가족, 혹은 연인과 함께 여행한다는 것을 알 수 있었습니다.

 

 

 

 

< 위 글은 "직장인을 위한 데이터 분석 실무"를 참고하였습니다 >

'데이터 분석 > 파이썬' 카테고리의 다른 글

1-4. 시각화  (0) 2020.07.16
1-2. 중복데이터 제거 및 파일 합치기  (0) 2020.07.16
1-1. 인스타그램 크롤링하기  (0) 2020.07.16
1.경상북도 관광 해시태그 분석  (0) 2020.07.16