칼럼

[칼럼 - 유영학] 살아 있는 데이터와 지식경영

양정우 기자

| 기사입력 2022/06/27 [16:58]

오피니언 >칼럼

[칼럼 - 유영학] 살아 있는 데이터와 지식경영

양정우 기자

| 입력 : 2022/06/27 [16:58]

유영학 / 한국정책방송 전문위원 © 한국공공정책방송

나이가 들면 자주 듣는 소리가 있다.

“ 요즘 건강하시지요? 매우 젊어 보이 십니다”

“ 감사합니다. 그래도 나이가 있는데요.”

“ 나이는 숫자에 불과 합니다”

“그렇지만, 숫자는 사실(fact)이 아닌가요.”

여기서 숫자(나이)는 유년기, 청년기, 장년기, 노년기를 판단하는 데이터이고, 건강을 상징하는 바로미터이다. 최근에 자주 사용되는 말 중에는 빅 데이터, 출구조사, 오차, 신뢰수준 등이 있다. 김 아무개는 51%, 이 아무개는 48%인데 오차가 ±3.2%이고, 신뢰수준 95% 등의 통계 용어 등이 우리 생활에 깊숙이 들어와 있다. 개표를 완료하기 전에 미리 알고 싶을 때, 출구조사라는 이름으로 샘플링 조사를 한다.

출구조사는 투표자가 10만 명인 데 그중 1000명을 출구에서 조사하는 것이 출구조사이고, 10만 명 중 1천 명을 추려내는 기술을 “샘플링 한다”라고 표현한다. 여기서 10만 중에 5천 명을 조사할 것인지, 1천 명을 조사할 것인지, 100명을 샘플링 할 것인지는 조사 시간, 조사비용과 관련이 있지만, 오차의 크기와 직접 관련이 있다. 여기서 오차란, 조사한 데이터의 정확도와 상반되는 개념이다. 오차가 크면 클수록, 조사 결과의 정확도는 떨어진다. 출구조사서 투표하고 나오는 어떤 사람에게 물었더니, 김 아무개에게 찍었다고 해서 김 아무개가 당선된다고 판단할 사람은 아무도 없을 것이다. 10만 명 중 1사람에게 물어봤기 때문이다. 즉 오차가 커서 믿지 않는다. 그러면 오차는 얼마나 될 것인가. 1명을 조사할 경우, 오차는 100%이다. 아래 오차 근사식으로 계산해 보세요.

상식적으로 오차 크기의 근사식은 1/√n*100%이다(√n은 n의 제곱근,√36=6 임). 1000 명이면, 1/1000*100%=1/31.62 * 100%=3.2%이므로 오차는 ±3.2%(오차 범위는 0~6.4%)이다. 시간을 절약하기 위해 조사 대상자를 100명으로 할 경우, 1/√100으로 오차는 ±10%이다. 이 경우 두 후보자 간의 차이가 20%일지라도, 오차 범위 내에 있다고 말한다. 차이가 20%나 되는 데에도, 누가 당선될 것인지 판단할 수 없다.

시간이나 비용은 줄일 수 있어도 출구조사의 의미가 없다. 오차를 줄이기 위해 10,000명을 조사하면, 오차가 ±1%로서 조사 수는 1000명 때보다 10배 증가시켰지만, 오차의 크기는 크케 변동이 없다(3.2%가 1% 됨). 비용을 고려한다면, 10000명 보다 1000명을 선택하게 된다. 조사비용도 줄이고, 오차도 크게 변하지 않으므로 보통 1000명 정도 조사하면 오차와 비용 등이 적정하다.

신문 지상에서 여론조사 결과를 발표하는 경우, 대개 조사의 크기가 1000명 수준인 것을 이해할 수 있을 것이다. 또 신뢰수준 95%란 무엇인가? 1000명의 조사를 할 경우, 오차가 0~6.4% 범위일 확률이 95%이다. 즉 20번 조사하면 1번은 오차 범위가 0~6.4%를 벗어날 수 있다는 의미이다.

따라서 신뢰수준이 100%가 아니고 20번 중 1번은 확률적으로 잘못되므로 신뢰수준이 95%[(20-1)/20*100%]인 것이다. 95%를 믿으시겠습니까, 5%를 믿으시겠습니까. 오차가 ±3.2%임을 95%로 신뢰할 수 있다. 이것을 신뢰수준이라고 한다.

이제 빅 데이터에 대하여 알아보자. Big 데이터에서 Big이 얼마나 커야 빅이라는 말을 붙일 수 있을까? 데이터를 목적에 맡게 측정하여 얻은 데이터를 사용해서 판단한 결과, 샘플링 오차가 0이거나(이론적으로 0은 없음) 0에 가까우면, 데이터는 Big Data라고 할 수 있다.

이제 데이터에 대하여 더 알아보자.

출구조사는 여러 기관에서 실시한다. 이 데이터를 전부 모아서 승자와 패자는 각자에게 필요한 분석을 하게 되면 많은 자금을 들여서 수집한 빅 데이터를 무료로 사용하게 되고, 이 데이터를 다른 목적으로도 사용하게 되면, 선거 끝나고 버려진 데이터가 다시 살아 있는 데이터로서 역할을 할 수 있을 것이다.

이러한 경우, 그 데이터를 이용하여, 승패인을 분석하게 되면, 다음 재출마 시에 과학적 전략을 수립할 수 있을 것이다, 지난 지방선거에서 시소 게임을 한 지역은 더욱 그러하다. 경기도 경우는 경기 북부, 남부별로, 또 동이나 면별로 데이터를 분류하고, 다시 남녀, 연녕별 등 선거 결과에 영향을 미칠 수 있는 요인별로 분류하여 분석한다.

이것을 층별(stratification)이라고 한다, 이렇게 데이터를 층별하면, 목적에 따라 과학적 승패 요인 분석이 될 것이다. 이러한 사고방식은 제조 현장에서도 불량 원인 조사하는 기법으로 많이 이용하고 있다. 목소리 큰 사람의 의견을 원인으로 결정해서는 안 될 것이다. 모든 경쟁에서 과학적 접근 방법이 승리한다는 것을 잊어서는 안 된다. 결과를 이용하여 원인별 전략을 세우면, 주먹구구식으로 덤벼드는 상대보다 승산이 있다는 것은 명약관화하다. 과학적 경영전략이다.

이를테면, 어떤 항공사가 매년 매월 승객수에 대한 데이터를 20년 동안 모았다면, 이 데이터의 갯수는 240개이지만, 이 데이터를 이용하여 간단한 시계열 그래프를 1개만 그려 보아도, 매년 승객수에 대하여 경향성을 판단할 수 있다. 빅 데이터를 활용한 것이라고 말 할 수 있다. 데이터 수가 100 만개, 1000 만개 라고 해서, 빅 데이터가 되는 것은 아니다.

여기서 20년이나 된 데이터를 지금에 와서, 그 데이터를 활용했다면 이 데이터는 그동안 죽었던 데이터가 살아난 것이다. 제조 현장에 가면, 태어나자마자 죽어버리는 데이터가 너무 많다. 데이터가 태어나려면, 측정자, 측정 기구, 샘플, 계산 프로그램 등을 이용하므로 조사비용이 발생한다. 테이터는 측정해서 숫자로 표기하면 모두 데이터가 되는 것이 아니다. 처음부터 데이터의 수집 계획, 목적, 분석 방법 등을 정해서, 데이터의 수집 계획을 실행하여야 한다. 데이터의 한 개 한 개를 사용하고 바로 버린다면, 일 년 내내 죽은 데이터를 생산하는 결과가 된다. 안타까운 일이다. 데이터의 낭비가 된다. 데이터를 하드 카피로 프린트하면, 그 분량은 회사 규모에 따라, 1년에 한 트럭도 넘을 것이다. 그러함에도 왜 지속적으로 죽은 데이터를 생산하는가?

이를테면, 종이 회사의 생산과정에서 종이의 평량 기준이 80±2g/m² 이다.

공정에서 측정치가 81g/m²이면, 양호품이라고 판단한다. 이 값을 후에 증거로 남기기 위해서 기록한다. 매일 30분마다 측정한 결과, 48개 데이터를 기록해 둔다. 측정치가 계속 기준 범위 내에 있으면 생산 담당자는 물론, 그 상사들도 줄줄이 안심하게 된다. 이러한 종류의 기록 데이터를 안심용 데이터라고 한다.

그 기록의 내용이 관련자를 안심시키는 순간, 그 데이터는 수명을 마치게 되어 안타까운 일이다. 10년이고 20년이고 쌓아 놓기만 한다면, 컴퓨터의 쓰레기가 될 뿐이다. 그러나 앞서 설명한 항공사의 11년 동안의 매년 매월의 데이터를 이용하여 아래와 같이 그래프 화하여 새로운 정보를 획득하였다면, 이런 데이터는 산 데이터이고, 활성화 되었다고 한다. 데이터를 모아서 통계적 분석을 하게 되면, 그것으로부터 새로운 지식을 얻게 된다. 통계적 분석을 통한 지식경영의 한 단면을 보게 된다. 아래 그림은 과거 11년 동안의 항공사의 승객수를 시계열 런 차트를 그린 것이다.

11년 동안 매월 승객수를 점으로 표시한 것이다(총 데이터의 수는 132개임). 첫 시작점이 2009년 1월 승객수, 그다음이 2월,.., 마지막 점이 2020년12월이다,

이와 같이 데이터를 수집할 때 수집 목적을 정해서 데이터 수집계획을 세우는 것이 매우 중요하다. 이 경우는 매년 매월 승객수를 파악할 수 있으므로 단기 목적용도 되고, 10년, 20년 후의 데이터일지라도 활용이 가능하다.

단숨에 끝나는 죽은 데이터를 몇 십년 씩 쌓아 두는 것은 바보짓이다. 이 항공사는 이 그림을 보고 언제 새 비행기를 구입할 것이며, 2030년경에는 매출이 얼마나 될 것인지 예측도 해 볼 수도 있을 것이다. 데이터가 산더미처럼 쌓여 처리를 못하고 전전긍긍하는 회사가 너무 많다.

이제 모든 조직의 리더는 리더십을 발휘하기 위해선 경험적 지식만으로는 의사 결정하기가 어렵게 되었다. 가보지 못한 세계에 대하여 데이터를 모아서 과학적 접근 방식으로 의사 결정을 해야 한다. 권력이나 권위로 조직을 이끌어 갈 수 없다. 사실(fact), 즉 데이터를 모아서 분석하여 얻어진 정보를 이해할 수 있어야 부하나 상사와 의사 소통이 되고 상호 이해가 가능하다.

데이터는 제조업, 은행, 병원, 학교, 정부, 공공기관 등 제조업이나 서비스업 등 가릴 것 없이 죽은 데이터만 열심히 생성하고 있지 않은지 검토해야 한다. 데이터는 안심용이 아니고, 보석 같은 정보 데이터를 생성하는 것이 smart 경영의 핵심이 된다. 수 없이 쏟아지는 데이터를 분석해서, 개선 개혁하는데 활용할 수 있다면, 어느 조직이고 간에 미래는 밝을 것이다.

유영학 /

전)경기대학교 산업정보대학원 대우교수

전)한국품질경영학회장

한국품질진흥원(KSQ)원장

한국정책방송 고문, 전문위원