Notice
Recent Posts
Recent Comments
관리 메뉴

GIS & Spatial Analysis in KOREA

라돈 - 02 공간분석 활용데이터 정의 및 수집 구축 본문

Spatial Analysis/01 전국 라돈 검출 학교

라돈 - 02 공간분석 활용데이터 정의 및 수집 구축

Borin78 2018. 6. 20. 15:37

[Spatial Analysis]

#GIS #QGIS #Spatial Data Analysis #Big Data #Data #Map #Radon #School

#데이터 #지도 #공간데이터 분석 #빅데이터 분석 #라돈 #발암물질 #학교 #실내공기질

 


[ 02 활용데이터 정의 및 수집 구축]



앞선 Step 1에서 문제 정의 및 분석 방향이 구체적으로 설정된다면 자연스럽게 분석에 필요한 데이터 목록이 정리된다.

우선 전국 라돈 검출 초등학교 관련 공간 데이터 분석을 위해서 가장 중요한 데이터는 교육부가 2017년 실시한학교 실내공기질 측정 결과일 것이다. 하지만 교육부 홈페이지 등 자료를 제공할 만한 곳을 아무리 검색해봐도 간혹 시군구 단위별로 제공하는 자료는 있으나 전국으로 제공하는 자료는 찾아보기 어렵다. 사실 데이터 분석을 진행하다 보면 데이터 수집 및 구축에 가장 많은 시간을 쓰게 되는데, 바로 분석 할 수 있도록 입맞에 딱 맞게 제공되는 자료는 거의 없다.


 경험상 데이터 분석에 사용할 데이터를 수집하는 방법은 크게 2가지 세부적으로 6가지 정도로 보인다.

     I. 인터넷을 통한 자료 수집

     1.     인터넷 웹서핑을 통한 기구축 자료 수집

     2.     정보공개포털(http://www.open.go.kr)의 자료공개청구 창구를 통한 자료 수집

     3.     공공/민간 제공 공개 API 활용한 자료 수집

     4.     인터넷 페이지를 직접 크롤링해 데이터베이스 구죽

     II. 물리적 방법을 통한 자료 수집

     5.     필요한 자료를 확보하고 있는 공공/민간 담당자들을 통한 직접 수집

     6.     조사요원와 데이터베이스 구축 앱을 활용한 직접 구축

2013년부터 전국적으로 빅데이터바람이 불기 시작하면서 현재 인터넷을 통해 공개적으로 제공되는 자료들이 굉장히 많다. 물론 신뢰도와 정확도는 분석 담당자가 제대로 검증하고 확인해 봐야 한다여기서는 자료 수집이 어려운 관계로 ‘I-4. 인터넷 페이지를 직접 크롤링해 데이터베이스를 구축하도록 하겠다.


앞선 시사저널의 기사 중 ‘[단독공개] 라돈 기준치 초과한 전국 학교 명단기사에서 *.png’ 형태의 이미지 파일로 되어있는 4장의 이미지를 확보한다. (이미지 위 > 마우스 우클릭 > 이미지를 다른 이름으로 저장)


이렇게 이미지 형태로 구축된 파일을 분석이 가능한 데이터베이스 형태(*.xls, *.txt, *.csv )로 재구축해야 한다. 이미지와 Excel을 열어놓고 하나씩 작성해도 되지만 데이터 양이 클 경우 구축 시간이 어마어마하게 들것이다.



  하지만, 현대 사회는 불편하다고 생각되는 부분의 거의 대부분을 누군가 개선해 놓았다. 일일이 수작업으로 작성하는 방법을 대신해 이미지를 불러들여 문자로 인식해 데이터로 작성해주는 기능을 광학문자인식(OCR)’이라 하며 Adobe PDF 유료 버전에 포함되어 있으며, 구글에서 ‘OCR’로 검색해보면 PDF나 각종 이미지 파일을 무료로 Word, Text, Excel로 변환해주는 웹페이지(http://www.onlineocr.net)도 있다.


무료 OCR 변환 웹페이지를 이용해 ‘*.png’ 이미지 파일을 ‘*.xls’ 엑셀 파일로 변환하는 방법은 아래와 같다.

    ‘Select file’을 클릭해 변환하고자 하는 데이터를 불러옴


    변환하고자 하는 파일의 언어(Korean)와 결과물 저장방식(Word, Text, Excel 중 택 1)을 선택함


    ‘Convert’를 클릭해 변환을 시작함


    결과물 확인 후 파일 아이콘을 클릭해 다운로드 받음


변환결과 Excel 데이터는 다음과 같은 형태로 저장된다.


데이터베이스로 구축을 했으나 간간히 정확하게 변환되지 못한 자료들이 있다데이터 검수 과정을 통해 자료가 정확하게 변환됐는지 확인하고 수정이 필요한 부분은 수작업으로 고치는 과정이 반드시 필요하다.

     앞서 설명한 과정대로 수집한 4장의 이미지 자료를 Excel 형태의 자료로 변환 구축하면 분석 시 가장 중요한 자료 수집이 완료된다.


- -


Comments