일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 인스톨
- 지도
- AI
- 인공지능
- Mapbox
- Uber
- 우버
- 웹지도
- Big data
- Web GIS
- 머신러닝
- Web Mapping
- 데이터 시각화
- CARTO
- QGIS
- data visualization
- machine learning
- plugin
- install
- 플러그인
- Data Analysis
- GIS
- 데이터 분석
- Kepler.gl
- map
- 공간데이터 분석
- mapping
- 설치
- 빅데이터
- Spatial Data Analysis
- Today
- Total
GIS & Spatial Analysis in KOREA
03 [과학] 새빨간 거짓말, 통계 본문
[Book Review]
#Book #Review #How to lie with Statistics
#Darrell Huff #Irving Geis #W. W. Norton & Company
#책 #독서감상문 #과학 #새빨간 거짓말, 통계 #대럴 허프 #박영훈 #더불어책
[ 새빨간 거짓말, 통계 ]
- 원제: How to lie with Statistics
- 대럴 허프 지음, 박영훈 옮김, 더불어책
- 2004년 04월 12일 출간
조지 오웰의 ‘1984’ 소설 속 사회는 ‘빅 브라더’가 이끄는 당에의해 통제된다. 개인의 집과 거리 곳곳에 ‘텔레스크린’과 ‘마이크로폰’이라는 감시 도구를 설치해 놓고 이를 통해 사람들을 감시한다. 하지만, 그것보다 우울한 것은 기계들뿐 아니라, 사람이 사람을 감시하기도 하는데 남편이 아내를, 어린 아이들이 부모를 감시하고 고발하는 것이 소설속 사회에서는 미덕으로 추앙된다는 점이다.
‘새빨간 거짓말, 통계’를 읽으면서 조지 오웰의 소설이 계속 오버랩된 것은 왜 일까?
“p9 – 사회나 경제의 동향, 기업의 경영상태, 여론조사, 국제조사 등 방대한 데이터를 기록하는데 통계적 방법과 통계적 용어는 결코 없어서는 안 될 용어들이다. 그러나 그 용어를 올바르게 이해하고 정직하게 사용하는 발표자와, 사용된 용어의 뜻을 올바르게 이해할 수 있는 대중들이 함께 하지 않는다면 그 결과는 황당한 말장난에 불과할 것이다. (본문 중)”
우리는 어떤 정보에 숫자가 들어가면 은연중에 전문적이고 정확한 자료라고 판단하게 된다. 그 만큼 숫자는 현대 사회를 살아감에 있어서 어떤 면에서는 정직을 의미하고 있다. 그래서 많은 통계 자료들을 바탕으로 과거와 현재를 분석하고 미래를 예측하며, 행동의 방향성을 정한다. 그리고 그러한 자료를 만든 사람들이 우리보다 그 부분에 있어서는 훨씬 더 전문적이라고 인정하면서 무비판적으로 받아들이는 경향이 있다.
대럴 허프는 표본, 평균, 오차, 그래프, 지수 등을 비롯한 민주사회에서 필요한 여러 도구들을 정확하게 묘사하였다. 또 통계전문가들이 즐겨 사용하는 모든 형태의 통계를 죄다 늘어놓으며, 표본 연구, 도표화, 인터뷰 기법, 숫자로부터 결론을 추출하는 방법 등을 파고 들어가, 정보를 전달하기보다는 오히려 사람을 바보로 만들기 위해 쓰인 수많은 속임수들을 드러내어 보여 준다.
그리고, 마지막 10장(통계의 속임수를 피하는 다섯 가지 열쇠)에서는 다섯 가지 간단한 질문을 통해 올바르고 건전한 데이터를 식별해 내는 방법에 대해 알려주고 있다.
1. 누가 발표했는가? 출처를 캐봐야한다.
예를 들어, 어떤 실험실에서 무엇인가를 검증하였다면, 자신이 주장하는 이론의 완벽성을 과시하기 위해서인지, 또는 명예를 위해서인지 또는 돈을 목적으로 하는 것인지 알아볼 필요가 있다.
2. 어떤 방법으로 알게 되었는지 조사 방법에 주의해야 한다.
표본의 왜곡 여부, 표본의 추출방법, 표본의 크기, 상관관계가 정말 의미 있는 것으로 결론 지을 만큼 많은 표본 크기, 유의한 결론을 내릴 만큼 충분한 사례 등
3. 빠진 데이터는 없는지 숨겨진 자료를 찾아 보아야 한다.
표본의 크기, 신뢰도에 관한 자료(확률 오차, 표준편차 등)가 빠져있는 상관관계, 산술평균값과 중앙값의 차이가 클 것으로 예상되는 경우 편차가 명시되어 있지 않은 평균값, 비교할 다른 숫자가 없는 경우, 백분율만 표기되어 있고 실제 숫자는 빠져있는 경우, 지수를 알고 있다 하더라도 그 지수 외에 무엇이 생략되어 있는가, 생략된 것은 무엇인가 등.
4. 내용이 뒤바뀐 것은 아닐지 쟁점 바꿔치기에 주의해야 한다.
기초가 된 데이터와 결론 사이에 어떤 바꿔치기가 있었는지 주의해야 한다. 전후관계와 인과관계의 혼동 등
5. 상식적으로 말이 되는 이야기인가 살펴 봐야한다. 석연치 않은 부분은 조사해라.
증명되지도 않은 가정을 토대로 장황하게 이야기가 전개될 때 ‘상식적으로 말이 되는 이야기인가?’와 같은 질문은 통계숫자를 과대평가하지 않고 제대로 파악할 수 있게 해 주는 역할을 한다.
“실증주의 역사와 해석학적 역사의 딜레마(?)”
데이터를 분석하는 직업을 가진 사람으로써 항상 데이터 자체의 오류와 분석 과정속의 왜곡에 대해 중요하게 생각한다. 하지만 데이터의 분석은 언제나 복잡하게 보이며 수학적/논리적이다. 따라서 분석을하는 입장에서도 객관적으로 보인다. 그리고, 실제로 컴퓨터 프로그램 속에 내재되어 있는 편향된 기능을 쓰는 것 만으로도 과학적/수학적/논리적으로 보인다. 데이터 자체는 거짓말이 아니지만 분석 및 해석하는 과정 속에서 의도하건 의도하지 않건 왜곡될 소지가 큰게 사실이다. 당면한 과제 해결을 위해서 관점을 가지고 방향을 잡지 않는다면 분석을 진행 할 수 없다. 데이터 분석은 방향을 잃고 앞으로 나아가질 못한다. 역사학자들 처럼 이는 분석가가 가지고 있는 딜레마라고 생각된다.
현실적으로 분석가들도 일반 대중들도 정보의 약자이다. ‘빅 브라더’ 만큼 정보를 갖는 것은 둘 다 현실적으로 불가능하다. 하지만 ‘빅 브라더’의 의도를 알아차리고 왜곡된 정보에 대해 질문을 던질 수 있다면 통계는 세상을 바꿔갈 최고의 도구가 될 수 있을 것이다.
- 끝 -
'Book Review' 카테고리의 다른 글
02 [자기계발] 세상에 없던 생각 (0) | 2018.07.10 |
---|---|
01 [경제/경영] 보도 섀퍼의 돈 (0) | 2018.07.06 |