본문 바로가기
데이터분석

[책 리뷰] 빅데이터 시대, 성과를 이끌어 내는 데이터 문해력

by 맑은청이 2023. 1. 28.
728x90
반응형

데이터 문해력(literacy)

데이터 문해력이란 데이터를 읽고 해석해서 활용하는 능력이다. 또 데이터에서 찾아낸 인사이트를 자신의 결론으로 이끄는 이야기를 만드는 능력으로 요새 비즈니스적으로 강조되는 개념이다. 책은 목적과 문제를 올바른 데이터와 연결지어 가치 있는 결론을 낼 수 있는 사고방식과 기술을 안내한다. 

 

1. 앞으로 필요한 건 데이터 문해력: 분석보다 활용

통계를 배워도 활용하지 못하는 이유

 

데이터 활용에 필요한 3가지 상자

(2)번 상자는 통계지식이나 분석 방법 듣 기계와 도구가 더 잘하는 부분이다. 1번 상자라는 인풋을 통해 3번 상자라는 아웃풋을 내야한다. 2번 상자의 결과물은 계산과 분석의 '결과'에 지나지 않아서 다른 사람에게 전달했을 때 설득력이 떨어진다. 그리고 사람들은 보통 데이터 분석이 잘 안 될 경우 (2)번 상자에 집중한다. 책에서는 이렇게 통계학과 데이터 분석 방법을 발전시키는 것은 고민에 본질적인 해결책이 될 수 없다 말한다.  중요한 건 통계와 분석 방법을 활용하기 위한 '사고방식'이다.

 

목적사고력

데이터 작업 전에 무슨 말을 하고 싶은지, 무엇을 알고 싶은지를 생각해보고 이에 필요한 데이터를 활용해 작업을 진행하는 접근방식, 작가는 데이터 안에 답은 없기에 데이터를 먼저 보지 말라고 한다. 

 

데이터 활용을 못하는 사람들의 공통적인 문제점

1. 눈앞에 있는 데이터를 보는 것에서부터 시작한다. 

그래프를 그려보고, 평균과 합계를 내보는 등의 행동, 대체로 데이터를 건드리다 보면 유용한 정보가 나올 거야라고 생각한다. 

 

2. 데이터와 (2)작업을 선행한다. 

데이터가 직접적으로 답을 주는 경우는 없다. 아무리 고난도의 통계와 분석 방법을 구사하더라도 말이다. 대신 '무엇이 알고 싶은지, 알게 되면 무엇을 하고 싶은지, 이를 위해서는 어떤 데이터(지표)가 필요한지를 구체적으로 생각하는 것이 무엇보다도 중요하다. 

 

작가는 이러한 문제점을 사람들이 극단적으로 느끼게 하기 위해서 '데이터 안에는 해답 따위가 존재하지 않는다' 라고 이야기한다고 한다. 이 책에서 전하고자 하는 메시지는 '데이터 분석 자체가 목적이 되기 십상'임을 자꾸 인식시킨다. 

 

데이터 활용에 실패하는 두 가지 이유

1. 풀고자 하는 문제가 명확하지 않다. 

Are you solving the right problem?

 

2. 정의한 문제와 사용하는 데이터가 일치하지 않는다.

Are you using the right data?

 

아래의 그래프는 책을 읽으면서 기억해둬야겠다고 생각한 데이터 활용 프로세스이다. 

 

데이터 활용 프로세스 – 목적 및 문제를 정의한다.

B. 목적 및 문제를 정의

목적을 설정하지 않은 채 진행한 것은 앞선 그림의 'D'에서 출발한 것과 같다. 그러면 B,C가 빠져 버리게 된다.

데이터 활용에서 먼저 해야 하는 작업은 '목적과 문제를 정의하는' 것이다. 

 

- 나는 무엇을 알고 싶은가

- 나는 무엇을 해결하고자 하는가

 

이 두 가지를 명확히 하는 것에서부터 활용 프로세스는 시작한다. 

그러면 목적과 문제를 정의할 때 확인해야 할 포인트는 두 가지다.

 

포인트 1: 사용된 언어가 구체적이고 명확한가.

포인트 2: '문제', '원인', '해결방안'을 구분하고 있는가?

 

문제정의의 주의할 사항

- '문제'가 무엇인가

- 그 문제를 일으키는 '원인'은 무엇인가

- 그 원인에 대한 '해결방안'은 무엇인가' 

 

예시)

인재 파견 회사의 경우

'사무직 관련 제안이 많은 회사라는 이미지가 생겨서 제조업종 관련 인재 확보가 어렵다.'

 

'제조업종 관련 인재 확보가 어렵다'라는 '문제와 '사무직 관련 제안이 많은 회사라는 이미지가 생겼기 때문에'라는 문제의 '원인'이 섞여있다. 데이터라는 객관적인 정보를 이용해서 문제의 원인을 규명하고 그 해결 방안을 수립하고자 하는데 시작도 하기 전에 주관적인 자신의 추측(사무직 관련 제안이 많은 회사라는 이미지가 생겼다)을 가지고 원인을 단정하는 건 바람직하지 않다. 

 

또한 '제조업종 관련 인재 확보가 어렵다'라는 말보다 구체적으로 어떤 문제가 일어나고 있는지 제시하는 것이 더욱 명확한 문제 제기이다. 예를 들어 '제조업종 관련 채용 정보를 많이 올리고 있는데 그 수요를 충족시킬 인재가 충분하지 않아서 기회 손실이 막대하다'가 더 낫다.  이 경우, 제조업 관련 채용 정보 수를 자사의 인재 풀 수와 비교하고 이를 다른 업종과 대비해서 보는 사람도 '이게 문제점이군'이라고 판단할 수 있다. 

 

C. 지표를 결정

 

결론에 도달하는 프로세스와 프레젠테이션 할 때의 순서는 차이가 있다.

자가 점검을 해보자.

'나는 올바른 데이터(지표)를 활용하고 있는가', 상대방의 입장에서 생각해보면 자신의 개선점이 보일것이다. 


비교의 기술, 평균과 편차를 활용한다. 

문제 해결 프로세스에서 많은 이들인 곧바로 '해결 방안'에 무턱대고 달려드는 실수를 저지른다. 

해결 프로세스는 1. 현상을 파악하고 2. 목적 및 문제를 정의한 후 3. 지표를 결정 한다. 그리고 4. 현재 상태를 파악/평가한다. 5. 이로 인한 원인을 분석하고 6. 해결 방아능ㄹ 모색한다. 현재 상태를 파악하고 해결 방안을 바로 모색하는 것은 데이터 기반이라고 할 수 없다. 

 

그리고 해결방안을 생각할 때는 '자기부정'과  '짝짓기(개인과 조직 등)'을 활용하면서 끝없이 '왜'를 반복해야 한다. 

제일 중요한 건 '데이터 안에 답이 없다'는 것이다. 데이터에서 가설을 수립하는 것이 아니라 가설을 설립하고 데이터로 논리적이고 객관적으로 검증하는 것이 맞는 순서이다.  검증 과정에서는 상관계수, 산포도, 군집 등을 활용할 수 있고 평가자가 알아듣기 쉽게 설명해내는 게 중요하다. 화려한 기법이 필요한 게 아니다. 

 


데이터 분석을 위해서 데이터 문해력이 얼마나 필요한지를 보여주는 책이다. 기법을 많이 아는 게 중요한 게 아니라 데이터의 인과 관계를 잘 파악하고 데이터를 잘 분석하기 위해서는 분석가의 시야와 주관적인 의견이 얼마나 중요한지 알 수 있었다. 그리고 데이터에서 답을 찾는 게 아니라는 말이 새삼 충격이었는데 데이터 분석의 참 뜻을 알 수 있어서 좋은 책이었다. 

 

 

728x90
반응형