글 목록
일반음식점 데이터베이스 불러오기
지난 포스팅에서 '최초 신고부터 2022년 7월 31일까지' 지자체에 신고된 일반음식점 정보가 전국 취합된 데이터베이스 자료를 제공하고 그 데이터를 활용해서 몇 가지 정보들을 살펴보았습니다.
이번 포스팅에서는데이터베이스 자료를 활용하여 우리가 필요로 하는 정보만으로 정돈해 보겠습니다.
데이터 정돈하기
앞에서 전국 일반음식점 데이터 2,012,833건을 불러와서 2022년 7월 31일 현재 폐업한 1,323,135개 업체 정보를 제외하고, 영업 중인 689,698개의 일반음식점을 df 데이터프레임으로 불러왔습니다.
데이터프레임에서 각 열에 어떤 정보가 있는지 열 이름을 다시 보겠습니다.
df.columns
> 실행결과
Index(['번호', '개방서비스명', '개방서비스아이디', '개방자치단체코드', '관리번호', '인허가일자', '인허가취소일자',
'영업상태구분코드', '영업상태명', '상세영업상태코드', '상세영업상태명', '폐업일자', '휴업시작일자', '휴업종료일자',
'재개업일자', '소재지전화', '소재지면적', '소재지우편번호', '소재지전체주소', '도로명전체주소', '도로명우편번호',
'사업장명', '최종수정시점', '데이터갱신구분', '데이터갱신일자', '업태구분명', '좌표정보(x)', '좌표정보(y)',
'위생업태명', '남성종사자수', '여성종사자수', '영업장주변구분명', '등급구분명', '급수시설구분명', '총직원수',
'본사직원수', '공장사무직직원수', '공장판매직직원수', '공장생산직직원수', '건물소유구분명', '보증액', '월세액',
'다중이용업소여부', '시설총규모', '전통업소지정번호', '전통업소주된음식', '홈페이지', 'Unnamed: 47'],
dtype='object')
위 열 중에서 의미 있는 데이터인 사업장명, 업태구분명, 도로명 전체주소, 소재지전체주소, 소재지전화, 인허가 일자만 가져와서 새로운 데이터프레임을 생성해 보겠습니다.
row_select01 = ['사업장명', '업태구분명', '도로명전체주소', '소재지전체주소', '소재지전화', '인허가일자']
df_save = df[row_select01]
# 열 이름중 어색한 부분 변경
df_save.rename(columns={'도로명전체주소':'도로명주소'}, inplace=True)
df_save.rename(columns={'소재지전체주소':'지번주소'}, inplace=True)
df_save.rename(columns={'소재지전화':'전화번호'}, inplace=True)
df_save.rename(columns={'업태구분명':'업종'}, inplace=True)
df_save.to_csv(path_rearrange, index = None, encoding = 'utf-8-sig')
csv_T = path_rearrange
df_T = pd.read_csv(csv_T, encoding = 'utf-8')
df_T
> 실행결과
우리가 원하는 정보만을 담은 6개의 열로된 새로운 데이터프레임이 생성되었습니다. 열 이름이 원래 소스에서 어색한 것은 이해하기 편하게 이름을 변경했습니다. (예: 소재지전체주소 > 지번주소)
자료 다운로드(일반음식점 현황)
결측값 살펴보기
새롭게 생성한 데이터프레임 df_T를 보면 전화번호 열에 'NaN'이라는 값이 있네요. 데이터베이스상에 정보가 들어있지 않은 결측 값입니다. 해당 업체의 전호번호가 없는 것은 신고 때 기입하지 않았거나, 데이터베이스 입력 시 누락되었거나, 데이터베이스를 취합하는 과정에서 누락되었거나 여러 가지 이유가 있을 수 있습니다.
이렇게 값이 누락된 데이터가 얼마나 있는지 알아봅시다.
df_T.isnull().sum()
> 실행결과
사업자명이 없는 행도 있네요;;; 위 결과에서 보듯이 업종은 1건, 도로명주소는 7,682건 지번주소는 1,589건 전화번호는 288,609건 비어있는 것을 확인할 수 있습니다. 일반음식점 전체 689,698개에서 전화번호는 400,000만개 정도 확인이 가능하네요.
이 자료는 공시된 자료이므로 마케팅 등 여러가지 목적으로 활용이 가능하겠습니다. 일반음식점을 운영하시는 사장님들에게 도움이 되도록 활용되었으면 좋겠습니다.
예고
다음 포스팅에서는 정돈된 자료를 가지고 시각화를 해보겠습니다. 시각화는 데이터 파일로 그래프를 그려보는 것입니다. 데이터를 그래프로 살펴보면 통계적으로 읽을 수 있기 때문에 다양한 분석 방법들이 존재하는데요. 몇 가지 살펴보도록 하겠습니다.
'일반행정' 카테고리의 다른 글
관광유흥음식점업, 외국인전용유흥음식점업 (0) | 2022.09.07 |
---|---|
기타유원시설업 (0) | 2022.08.29 |
종합유원시설업, 일반유원시설업 (0) | 2022.08.25 |
카지노업 (0) | 2022.08.25 |
외국인환자 유치업 (0) | 2022.08.25 |
댓글