PGR21.com
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
Date 2015/06/22 22:48:15
Name 개고기라면
File #1 연구수업_ppt(피지알용).pptx (956.1 KB), Download : 141
File #2 연구수업_수업지도안(피지알용).hwp (29.0 KB), Download : 41
Subject [일반] 우리가 확률를 학습해야 하는 이유
※ 해당 글은 제가 교생 실습 연구수업으로 시연했던, 확률 단원 대단원 마무리 수업을 피지알에 맞게 수정한 것입니다.
    혹시나 읽으시는 데 도움이 될까하여 개인정보를 삭제한 수업지도안과 ppt를 올립니다. (이 글의 구성과는 조금 다릅니다.)
    애초 대상이 고등학교 2학년이었던 고로, 이 게시판에서 보기에는 보는 분에 따라 조금 [꼰대]스러울 수 있습니다.
    이 점 먼저 양해 부탁드립니다.
  



안녕하세요.
첫글이네요.
사실 위 두 줄을 써넣고 한 일년동안 이 밑으로는 지웠다 썼다, 제목은 수십차례 바뀌고 그랬더랬습니다.
과연 피지알의 글쓰기 버튼은 무거웠지요.
오늘 이런 저런 생각을 하다가, 역시 피지알 첫 글로는 자신있는 것을 쓰는 것이 좋겠다 싶어서 작정을 하고 컴퓨터 앞에 앉았습니다.
수학에 관련한 내용입니다.
수학, 이라는 두 자에 바로 이전 버튼을 누르지는 마시고.. 좀더 읽어주시면 감사하겠습니다.



0.
저는 개인적으로 "학교 수업 왜 들어 쓸데없는 거 천지삐까리" 이 말을 듣기 싫어합니다.
물론 천상 사회에 나와서 한 거라곤 남 가르치는 분야에서 종사해본 일 밖에 없어 그런 것일수도 있습니다만,
길지 않은 세월 살아본 바로, 들어서 손해보는 경우는 [어설프게 배워서 다시 배워야 하는] 상황 외에는 없었다고 생각하기 때문입니다.
확률 수업도 마찬가지입니다.
확률 정말 어렵죠.
나름 중고딩 수학은 좀 한다고 생각하는 저도, 확률에서는 벼라별 희한한 모델에 고개를 젓곤 합니다.
그럼에도 피지알에 방정식도 아닌, 공간도형도 아닌, 확률에 대한 글을 쓰는 이유는,
확률, 그리고 나아가 통계 단원은
(확률과 통계가 수학의 분과로서 인정받는가에 대한 논쟁은 차치하고)
수학을 왜 배우는지에 대한 가장 명확한 통찰을 제공하고, 나아가 우리가 삶을 사는 데에 큰 도움을 주기 때문입니다.



1.
이 글을 보시는 분들 중 상당수의 분들이 주업 부업 넘어서 3~4순위 정도의 직업으로 소환사의 협곡에 종사하고 계십니다.
그리고 이 라이엇 소속 재택근무자 분들 중 또 상당수는 검색에서 네이버 구글을 쓰듯이 전적사이트 op.gg를 쓰시고 말이지요.
우리는 왜 같은 팀의 아이디를 op.gg에서 검색을 할까요?

예를 들어서, 같은 팀에 열파참마이 스탯을 주구장창 찍어대는 팀원 A가 있다고 합시다. 이 사람은? 트롤입니다. 정확하게는, 높은 확률로 무분별한, 무차별의, 무관용적 트롤을 할 거라고 추측할 수 있습니다. 다른 예를 들죠. 5경기 연속으로 높은 kda로 명백히 팀을 캐리한 사람이 우리 팀원 B입니다. 이 사람은? 대리입니다. 역시 정확하게는, 높은 확률로 기사님이 전용차로로 운전중이시라고 추측할 수 있지요.
그렇다면 그 다음 우리의 선택은 어떠한가요? A를 만난 우리의 유효한 전략 중 하나는 '닷지' 입니다. 약 5분 정도(맞나요? 제가 lol을 한게 시즌2가 마지막이라..)의 시간 낭비를 통하여 무기력한 20분과 부조리한 mmr의 감소, 그리고 1패의 스트레스를 방지할 수 있습니다. B를 만난 우리의 마음가짐은? 캐리하겠다는 욕심을 버리고, 궁휼한 마음으로 1인분을 충실히 지켜 기사님 전용차로 지나가시는데 방해가 되어서는 안되겠죠.


lol과 op.gg의 예시에서 보듯, 인생은 정보의 취합과 그에 기반한 선택의 연속이죠. 이 과정에서 여러 가지 선택에 대한 기준이 제시됩니다만, 오늘 제가 얘기하고자 하는 것은 확률입니다. 확률을 정확하게 아는 것을 통하여 우리는 [미래를 예측하고, 그 예측을 토대로 현재의 선택을 결정하는 데] 도움을 받을 수 있습니다. 현재의 선택을 온전히 결정하는 것은 아닙니다. 미래 또한 그렇죠. 대부분의 경우 확률은 1이 아닙니다. 위에서 보았던 A가 이번 판부터는 마음 잡고 정상적으로 게임을 할 수도 있는 것이고, 우리가 B를 만난 판이 하필이면 기사님 운행 끝나고 본주가 잡기 시작한 판일 수 있습니다. 이렇게 되면 희비는 정반대가 되겠지요. 하지만 우리가 이런 예외적 상황을 알고 있음에도, 자주 op.gg를 이용하는 것은 그만큼 이런 정보 수집의 경험들이 유효하다는 것이겠지요.

확률은 이처럼 우리가 [바른 판단]을 하는 데 유용한 도구가 되어 줍니다. 사실 이것은 수학 교육에서의 목표이기도 합니다. 여러 가지 수학적 능력을 기르는 것의 궁극적인 목표는 결국 실생활에서의 [바른 판단]을 하기 위해서입니다. 현재 수학 교육이 이 목표를 정확히 쟁취하기 위하여 움직이는지는.. 다른 글에서 나중에 논의해 볼만한 사항입니다. 하여간 확률에 대한 고민은 인생 사는 데 도움이 됩니다.


몇 가지 예시를 제시해볼까 합니다.



2.
먼저, 이 두 문장입니다.

1) 스타벅스를 이용하는 소비자 비율은 남성보다 여성이 더 높다.
2) 여성 소비자가 스타벅스를 이용하는 비율은 남성보다 높다.

이 두 문장은 같은 의미를 가지고 있을까요?




이 글은 수학에 대한 글이고, 따라서 생각보다 많은 분들이 눈치채시리라 믿습니다. 실제로 두 문장은 다른 의미를 가지고 있지요.
하지만 놀랍게도, 맥락이 없이 저 두 문장만 던져줬을 때, 굉장히 높은 비율로 사람들은 위 두 문장을 같은 의미로 해석합니다.
두루뭉실하게, 그냥 대충 남자보다 여자가 더 많이 간다는 거 아냐? 이런 식으로 해석하지요.

하지만

이 표를 토대로 각 문장을 분석해보면,

1) 스타벅스를 이용하는 소비자는 총 25명, 그 중 여성은 60%이므로 남성의 40%보다 높습니다. 따라서 참입니다.
2) 여성 소비자 전체 중 스타벅스를 이용하는 비율은 15/45, 즉 1/3이며, 이는 남성의 10/15, 즉 2/3보다 낮습니다. 따라서 거짓입니다.

따라서 위의 두 문장은 다른 의미를 가지고 있습니다.

이 예시는 확률을 전체 경우의 집합 중 사건의 집합의 비율로 해석한다는 점에서, 상황에 대한 확률 접근시 상황을 명확하게 파악하고 그에 맞는 적절한 모델링을 해야 한다는 것을 반영하고 있습니다. 약간의 변형만으로도 상황이 극적으로 변할 수 있으며, 그 지점을 명확히 파악해야만 확률을 바르게 판단할 수 있다는 것이지요.



3.
다른 예시를 하나 더 들어보겠습니다. 이 글의 모델이 된 수업은 5월말에 이루어졌는데, 하필이면 전염병 관련 이야기라 해놓고 나서 나중에 시껍했던 기억이 있습니다. 좌우간..

"유병율이 천 명당 한 명인 바이러스성 질병을 진단하는데, 보균자는 100 % 양성 판정을 할 수 있으나, 비보균자에 대해서는 1 %의 오진율을 가진다고 한다. 이 진단법은 훌륭한 진단법이라고 할 수 있는가?"

이 물음에 대한 정확한 답은 무엇일까요?





정답은 없습니다. (...)
open-ended problem라는 유형의, 학생의 사고를 자극하여 마음껏 답을 요구하는 문제이기 때문이지요.
상당수의 학생, 그리고 대부분의 일반인들은 적절한 진단법이라고 답변하곤 합니다. 일단 보균자는 100 % 다 걸러낼 수 있기 때문이라는 근거가 있습니다. 비보균자도 1 %만 오진이 나고, 그게 보균자들을 감시 범위망 밖으로 나가게 하는 경우는 아니니까 괜찮다고 얘기합니다. 맞는 말이지요.
하지만 의학계에 종사하시는 분들은 본능적으로 이 검사에 문제가 있다고 여기십니다. (몇 분들이.. 그랬습니다. 다 그런지는 몰라요.)
그리고 약간 더 깊게 생각하면, 생각보다 그렇게 좋은 진단은 아닐 수 있습니다.
만약, 이 진단을 단 한 번 시행할 수 밖에 없는 긴급한 상황이라면? 혹은 정말 아주 위험한 질병이라면?
저는 그다지 추천하고 싶지는 않습니다. 왜냐하면, 실제로 [이 검사로 실제 보균자를 골라낼 수 있는 확률은 10 %도 채 되지 않기 때문]입니다.

예를 들어, 인구 2만의 소도시에 이 진단을 적용한다고 치면,
- 보균 판정(그리고 실제 보균자): 20명
- 보균 판정(하지만 비보균자):     19980*0.01=199.8명......... 얼추 2백명
입니다. 즉 보균 판정을 받은 사람 중 실제 보균자는 10 %도 채 되지 않는다는 것이지요.
만약 전염병 발생에 의한 격리 차원에서 시행되는 진단이라면, 2만의 인원을 2백2십으로 줄인 것에 아주 고무적인 진단이라고 할 수도 있겠지요. 하지만 격리되었을 때, 2백명의 실제 비보균자에 대한 인권은? 뭐 일단은 모델이니까 인권은 치우고서라도, 만약 이 진단이 임상실험, 그것도 반복진단할 시료가 부족하여 아주 정밀한 결과가 요구되는 실험에 사용되는 진단이라면? 실격이지요.
가타부다 사설이 많지만 어쨌든, 중요한 것은 이 진단으로 보균자를 뽑아낼 수 있는 확률은 생각보다 매우 작다는 것입니다.

이 예시는 상황을 적절히 이해하고 있다 하더라도, 필요하다면 (여기서는 확률을 이용한) 심도 있는 분석을 통해 상황에 대한 숨겨진 정보를 명확히 이끌어내야 한다는 것을 반영하고 있습니다. 드러난 정보만을 이용하여 직관적으로 판단하는 것은 적당한 판단이 되는 경우가 상당수 있고 어떤 때에는 굉장히 훌륭한 결과를 이끌어내기도 하지만(아이들에게 무한도전의 정총무가 쏜다! 특집을 편집하여 보여줬더니 다들 난리가 나더군요), 때에 따라서는 위 예시와 같이 아주 치명적인 결과를 초래할 수도 있기 때문이지요.




4.
두 가지 예시를 드리면서 이 글을 마무리하까 하는데요. (아이들과는 하나를 더 했습니다만, 그건 진짜 수학 문제라서..)
이 내용을 피지알에 정리하게 된 이유는, 생각보다 우리가 살면서 확률에 대하여 너무 쉽게, 그리고 잘못 생각한다는 안타까움에서 출발했습니다.
얼마 전 올라온 [야구계의 대표적인 헛소리 5가지] https://ppt21.com../pb/pb.php?id=freedom&no=59115 의 일례만 들어도,
수학적 확률과 통계적 확률 사이의 간극과 그 함의, 독립시행의 의미와 의의, 독립과 배반의 차이 등등..
이런거 고등학교 때 다 했거든요. (물론 선생님이 어떻게 가르쳐주셨느냐에 대한 논의는 있겠습니다만.. 엉엉)
학교에서 배우는거 다 천지삐까리 쓸데없다, 는 말은 최소한 확률에서는 지워주셨으면 하는 바램이 있습니다. 허헣

뭐 지금 고등학생이라고 사실 크게 다르지는 않습니다. 사실 수능에서 확률과 통계 영역은 난이도가 낮은 편이고, 학생들은 그 바람에 이 단원은 조금 등한시하는 것이 사실입니다. 그러다보니 학생들은 확률이 어렵네 귀찮네 해도 문제 자체는 기계적으로 풀 수 있는 편이니, 이해가 잘 안간다고 해도 크게 신경을 쓰지 않고 넘어가는 편이지요. 개인적으로 그런 부분들이 안타까운 마음이 있었는데, 이번에 마침 교생 실습 진도가 확률이었고, 지도 교사 분이 연구수업은 선생님 하고 싶은대로 맘대로 하세요~ 하시는 바람에 이런 연구수업 치고는 무모한 주제를 건드렸었습니다. 다행히 학생들 반응이 좋아서 만족스러운 수업이 되었던거 같구요. (이시키들은 사실 그냥 진도 안 나가는 게 좋았던 걸지도..)


교육에 관련한 학도로서 이것저것 고민하고 있는 요즘인데, 자료 정리를 하다가 이건 피지알 분들도 보시면 좋겠다 싶어서 정리해서 이렇게 올립니다. 첫글이라 중언부언 하는데 용서해주시길 바라며..

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
사상최악
15/06/22 23:04
수정 아이콘
통계는 모든 학문의 기본이죠. 철학이 그렇듯.
15/06/22 23:17
수정 아이콘
개인적으로 로또연구가분들 안타까워요.
전에 화성인 바이러스에 나오신분 매일 5시간씩 자면서 로또연구하시던데..
LoNesoRA
15/06/22 23:29
수정 아이콘
추천하고 갑니당. 잼써요 흐흐
15/06/22 23:31
수정 아이콘
베이지안적인 사고에 기반한 글이 아닌가 싶어 반갑네요.
통계학전공이지만서도 여전히 통계는 어렵습니다.
통계의 본질이 예측에 있다고 하나 그 수치가 100이아니라면 틀린 예측은 있기 마련이고, 그 부분에 대한 리스크를 단순히 수치화하기는 여전히 어렵다 생각해서일까요.
어쩌면 그냥 수학을 공부하는게 저에게 더 나은 길이었을지도 모른다는 생각이 드네요 하하;;
개고기라면
15/06/22 23:55
수정 아이콘
한국 뿐만의 문제는 아니긴 한데, 중등 교육과정에서 통계 관련 내용을 수학에 묶어버려서 수학과 통계학 사이의 간극을 학생 시절에 명확히 해주기 어렵다는 것이 근원적인 문제인거 같습니다.
사실 수학을 갖다 쓸 뿐이지, 수학-통계학 사이의 거리는 수학-물리나 수학-경제만큼 멀리 떨어져 있는 거신데 엉엉
15/06/23 00:17
수정 아이콘
그부분은 조금은 다른데 통계는 수학뿐은 아니지만 대부분이 수학에 기반하고 있다고 생각하긴 합니다. 다만 그 분야가 너무 지엽적이라 해야 할까요.
수학자체에서도 확률론은 상당히 마이너한 분야였고 실제로 오랜기간 무시당하기도 했죠.
근래 들어서야 확률론 분야에서 최초로 필즈상 수상자가 나오기도 했고요.
제 기준에선 고등과정에서 통계학의 본질에 관한 정확한 교육이 이루어지지 않는게 문제가 아닐까라는 생각을 합니다.
제가 배운 그리고 실제 주변에서 별생각없이 통계학을 전공하게 된 많은 사람들이 처음에 통계학의 본질은 정교한 추론임을 모르고 온 사람들이 대부분이었거든요ㅠ
김테란
15/06/23 00:25
수정 아이콘
대부분의 통계학 책들이 발전 배경을 포함한 왜 라는 의문에 대해 절반이상을 할애하고 있음에도,
고등학교때는 그런 것 전혀 없이 시험에 나올 단순패턴 계산만 배우게 되니..
개고기라면
15/06/23 00:34
수정 아이콘
통계가 아무래도 단원으로서 수학에 묶여있다보니 그런 설명이 너무 부족하지요. 이번 교육과정에서 좀 개선된다고 하던데 어찌 될지 모르겠습니다 엉엉
15/06/23 00:21
수정 아이콘
아 그리고 수학과 통계학의 간극 자체는 말씀하신부분에 심히 공감합니다 흐
김테란
15/06/22 23:39
수정 아이콘
통계의 아주 기초적인 단계에서 말도 안되는 해석을 한 예가 최근 메르스 관련해서도 있었죠.
정부는 처음에 0.8이란 수치를 제시하며 환자 한명이 여러명을 감염 시킬 위험은 없다 했습니다.
결론 자체만 놓고 보더라도 감염시킬때마다 감염률이 떨어진다는 것은 상식적으로도 말이 안되긴 합니다.
[여기부터 중간까지는 전제가 되는 추론자체가 틀렸네요, 댓글 맨밑부분 보시면 아시겠지만 이보다 더 어이없어 배제했던 성질의 수치를 제시한거인듯 하군요.]
확진 200명에서 완전 종식되었고, 5명이상 전염시킨 수퍼감염자는 없으며 5명이 감염원인 미상이라면 1차감염자인 1번환자까지 고려하여
환자 한명당 사람에게 감염시킨 수는 194/200=0.97
만일 1번환자 혼자 평택에서 194명에게 감염시켰고, 5명은 병원밖 원인미상이며, 거기서 틀어막았다 치더라도 194/200=0.97입니다.
애초에 0.8이란 수치는 평균에 불과하며 어느경우에도 1보다 작게 나올 수 밖에 없습니다.
여기에 정부가 원하는 의미를 그나마 더해보려 한다면 정작 중요한건 어차피 1이하인 평균이 아닌 최소한 σ(표준편차)는 제시하는 것이 기본입니다.
그럼 무엇을 의미하는가 사람에게 전염된 경우가 아닌 1차감염자들과 원인미상인 감염자수가 20%정도라는 것
즉 80%의 높은 확률로 감염경로를 추적할 수 있다는 것으로 감기등 다른 전염병과는 감염양상이 얼마만큼 다른지를 의미하는 것일 뿐이죠.

또 하나, 사우디보다는 의료수준이 높아서 치사율은 40%대 보다는 낮을 것이다.
무수한 변인들중 달랑 하나 들고 결론내리는게 우습긴 하지만, 나머지 여건들이 비슷하다면, 여기까지는 그나마 타당성이 있습니다.
근데 사망자가 1~2명 나오니 하는 말이 거봐라 5%정도 밖에 안된다.
아직 대부분의 환자 이제 막 증세발현이 시작된 지라, 예측할 데이터를 전혀 뽑아낼 수 없는 단계인데도 말이죠.
그 동안 헛소리로 국민들을 우롱했던 사람들은 을사5적과 함께 영원히 기억해야 할 것입니다. 국민들을 뭘로 보고 대체 이딴 짓을 하는 지 모르겠네요.
현재 추세라면 속이지만 않는다면 대한민국의 경우 20%는 넘을 듯 합니다.
참고로 사우디와 대한민국 제외 다른 국가들 치사율은 대략 25%정도, 유럽은 표본은 적지만 7/15 입니다.
15/06/23 01:22
수정 아이콘
음... 기초감염재생산수가 어떤건지 모르시는 것 같습니다. 10 넘는 병들도 있어요. 애기들 필수 예방접종 맞추는건 대충 5 이상 된다고 보면 됩니다. 기초감염재생산수는 1 이상이냐 아니냐의 문제지 일반인에게 알릴때 거기까지 신경쓸 건 없을 것 같은데요.
김테란
15/06/23 01:32
수정 아이콘
http://www.koreahealthlog.com/?p=8929
그건 계속 퍼져나가고 있음에도, 일부를 표본에서 추출할 경우인 것이죠.
이것도 붙여드리죠.

양병국 질병관리본부장은 28일 브리핑에서 "기초감염재생산수는 평균 개념이고 의료기관 내 전파와 지역사회 내 전파 간 기초감염재생산수는 조금씩 다르다"고 해명했다.
그는 "사우디에서 발간된 논문을 보면 한 의료기관의 메르스 기초감염재생산수가 7명인 사례도 있다"고 설명했다.
15/06/23 01:34
수정 아이콘
죄송한데 지금 이 댓글이 이해가 안됩니다. 링크는 왜 걸어주신 것인지 댓글 내용은 제 댓글과 무슨 관련이 있는지 이해가 안되는데 저는 제 탓은 아니라고 생각하거든요. 설명 좀 더 해주시겠어요.
김테란
15/06/23 01:39
수정 아이콘
전염병확산이 종식 된 후에 표본을 모집단으로 확장시키면 1이하인 평균이 될 수 밖에 없어요.
15/06/23 01:41
수정 아이콘
[기초감염재생산수가 어떤건지 모르시는 것 같습니다.] 라고 했잖아요. 지금 말씀하시는건 기초감염재생산수가 아닙니다.
김테란
15/06/23 01:46
수정 아이콘
그걸 질병관리본부장이 해명했잖아요.
Cogito님께서 생각하시는 기초감염재생산수라 보기 힘든 것을 끌고 온거에요.
예를 들어 병원 내라도 그 안에서 틀어막았다면 거기서도 1이하가 되는 것이죠.
질병관리본부장은 그것도 기초감염재생산수라 보는 것이고 표본이 그리 설정되면 평균의 개념에 불과하다는 것이죠.
15/06/23 01:55
수정 아이콘
진영싸움으로 가는 것 같네요 ;; 전 그냥 김테란님 댓글에서 말이 안되는 부분이 있어서 지적했을 뿐입니다. 정부가 잘했고 못했고랑 관계 없이요. 근데 제 댓글에 대한 이야기는 없이 쓴 댓글은 수정하고 정부 얘기만 하고 있으니 좀 동문서답으로 보이네요.
김테란
15/06/23 02:00
수정 아이콘
종식되지 않았거나 설령 종식되었다 해도 그 중 극히 일부로도 아주 충분한 표본을 추출할 수 있을 경우만
Cogito님이 생각하시는 기초감염재생산수의 의미를 갖는 것이에요,
현재의 메르스 같은 전염병엔 같은 방식으로 계산한다해도 그런 의미가 담기기 힘들 뿐인거죠.
이해가 안되신다기에 질병관리본부장의 해명이면 반쯤은 설명된다 여겨 붙여드린건데
여기에 진영논리가 왜 필요한지.
15/06/23 02:08
수정 아이콘
김테란 님// 진영논리가 필요 없는데 진영논리적 감정을 가지고 댓글 쓰시는 것 같아 불편해서 제가 그 말을 꺼낸거죠. 진영싸움 하자고 하는 건 전혀 아닌데요.

제가 처음 쓴 댓글을 보세요. 기초감염재생산수의 정의를 모르는 것 같다(기초감염재생산수 관련해서 틀린 내용이 있다) 는 말인데 이상한 방향으로 흘러가니까 그런 의심을 했습니다. 그리고 댓글 수정하는 방향이나 어투를 볼 때 솔직한 이야기를 하기 보다는 말싸움에서 어떻게든 이겨 보려고 그 때 그 때 검색해서 기존의 생각과 다른 댓글을 쓰시는 것 같아요. 그게 아니라면 혹시 처음 댓글 쓰실 때부터 기초감염재생산수가 뭔지 (비교적) 정확하게 알고 댓글을 쓰신건가요?
김테란
15/06/23 02:16
수정 아이콘
댓글이 이해 안가신다기에 바로 추가해 드린것 때문에 오해가 있으신 것 같은데
그럴 의도는 전혀 없습니다.
애초에 둘다 링크해드리려다가 모르고 쓴다는 댓글엔 위의 것이면 충분한 것 같아서 그것만 링크했던 것이거든요.
그리고 전 계속 일관적으로 말씀드리고 있는데, 무엇이 잘못된 것인지를 좀 분명히 말씀해주셨으면 합니다.
15/06/23 02:25
수정 아이콘
김테란 님// 김테란님의 정의대로라면, 유행 종식시점에서 모든 감염병의 기초재생산지수는 1 이하가 되거든요. 뭔가 이상하다고 생각하지 않으신가요?
김테란
15/06/23 02:28
수정 아이콘
[종식되지 않았거나 설령 종식되었다 해도 그 중 극히 일부로도 아주 충분한 표본을 추출할 수 있을 경우만]
이라고 위에 말씀드렸듯이 모든 경우는 아니죠.
부연설명 드리자면 굳이 종식되었냐 아니냐의 문제보단 충분한 표본추출이 가능할 정도로 모집단이 엄청나게 크냐의 문제에 달린 것이겠죠.
허나 현재의 메르스같이 쉽게 종식되고 모집단도 아주 작을 경우에 같은 방식으로 계산하면
이게 기초감염재생산수라 말할 수 있냐 없냐는 즉, 질본장 말이 맞냐 Cogito님 말이 맞냐는 전 사실 지금도 별로 관심이 없어요.
현 메르스의 경우 그리 계산했을 경우 뭔가 잘못 해석하고 있는데, 그건 어떤 의미를 갖는 것이냐에만 관심있을 뿐였죠.
15/06/23 02:43
수정 아이콘
김테란 님// 기초감염재생산 지수가 "종식되지 않았거나 설령 종식되었다 해도 그 중 극히 일부로도 아주 충분한 표본을 추출할 수 있을 경우만" 구할 수 있으며, 이 경우에만 의미있는 값이라고 말씀하시는 것인가요? 만약 그렇게 생각하신다면, 그렇게 생각하시는 근거가 궁금합니다. 명확한 근거 없이 그렇게 생각하시는 경우에는 기초감염재생산지수의 정의가 무엇인지, 그리고 어떻게 계산하는지 알아보시는 것이 좋을 것 같네요. 저도 김테란님께서 기초감염재생산지수의 정의와 의미를 확실하게 알고 계신것 같지 않다는 인상을 받고 있거든요...

(저도 댓글을 자꾸 수정하여 죄송합니다만... 부연설명이 있길래)
아예 조금 명확하게 말씀드릴께요.
1. 기초감염재생산지수의 계산은 모집단이 엄청나게 크냐와는 별 상관이 없습니다.
2. '기초감염재생산지수라 말할 수 있냐 없냐'는 '질본장 말이 맞냐 Cogito님 말이 맞냐'로 해석되지 않을 뿐만 아니라, 실제로 가장 중요한 문제입니다. 여기에 관심이 없으시면서 기초감염재생산지수의 산출 과정을 통해 무엇인가를 비판하는 것은 별로 논리적으로 보이지는 않네요.
3. 잘못된 정의로 잘못된 해석을 하면, 높은 확률로 잘못된 의미를 가지게 되겠지요.
김테란
15/06/23 02:52
수정 아이콘
어디까지 기초감염재생산수의 이름을 붙일 수 있는가가 중요한 문제는 아닌 것 같은데요.
어떻게 계산된 수치를 상황에 따라 어떻게 해석할 수 있느냐를 처음부터 말씀드리고 싶었고,
계속 같은말씀 드리고 있는데.
산출과정은 이미 위의 댓글에 링크로 붙여드렸습니다.
15/06/23 02:56
수정 아이콘
김테란 님// 아니요. 매우 중요합니다. 이건 단언할 수 있어요. 저도 계속 같은 말씀드리고 있구요.
애초에 잘못된 정의에 기반하여 내린 잘못된 해석이 여러가지 의미를 가진다 한들, 그 각각의 큰 의미를 가지기는 어렵겠지요...

(수정사항에 대해) 기초감염재생산수의 개념에 관심이 없으신 분께 이렇게 말씀드리는 것이 맞는지 싶지만, 이왕 나온김에 말씀드려야겠네요. 애초에 제시해주신 링크에 "이 기본감염재생산수는 질병마다 다릅니다.(질병의 고유 특성입니다.)" 라고 쓰여져 있습니다. 그러니까, 김테란님 방법대로 기본감염재생산수를 계산하지는 않고, 그래서도 안됩니다. 질병관리본부에서 발표한 기초감염재생산수 0.7도 란셋 리뷰 논문에 근거해서 발표한 것이고(아마도?), Data collection의 문제때문에 비판은 받지만, 어쨌든 estimation을 거쳐서 발표한 값입니다.

물론 김테란님의 계산방식이 아예 잘못된 방법은 아닙니다. 이는 individual level에서의 R0(기초감염재생산수)를 구하는 방법인데, 이 방법으로 구한 R0는 threshold를 구하는데는 도움이 되지 않습니다. 즉, 이렇게 구한 R0 값이 얼마가 되었든, 그것이 감염병의 유행상태(epidemic)을 예측하지는 못합니다. 다만 어느정도 참고는 할 수 있겠지만 말이죠.
김테란
15/06/23 03:03
수정 아이콘
창예 님// 다시 말씀드리는데,
설령 질본장의 말이 틀려서 기초감염재생산수라 말할 수가 없는 상황의 수치라 하더라도
전 정부가 들고 온 수치와 그것을 계산한 방법 및 해석에 대해서 말씀드리는 겁니다.
15/06/23 03:08
수정 아이콘
김테란 님// 네. 감사합니다. 드디어 다행히 얘기할 수 있는 부분이 왔네요.
1. 정부가 들고 온 수치가 어떻게 계산되어 왔는지
2. 정부가 들고 온 수치를 어떻게 해석해야 하는지.
요 두 질문에 대한 답만 주시면, 상대적으로 명쾌하게 해결될 것 같습니다.
15/06/23 03:17
수정 아이콘
김테란 님// 그러면 쉽게쉽게 가보죠. 님이 쓴 첫번째 댓글은 "자연수 범위 내에서 3-5 = -2 이다" 랑 비슷한 얘기입니다. 전 당황해서 "자연수가 뭔지 잘 모르시는 것 같아요 ;;" 라고 했습니다.

정의를 알고 있었다면 알면서도 왜 그렇게 썼는지에 대한 이유가 나와야 정상이죠. 하지만 김테란님은 자연수에 관한 네이버 링크를 걸어놓았으니, 대체 이걸로 뭘 어쩌란건지 싶은거죠. 모르고 글을 썼어도 검색해서 그 정도 링크는 걸 수 있는 거잖아요.

님 말이 일관성이 있으려면 기초감염재생산수가 뭔지 알고 있었다면 2번째 댓글에 알고는 있지만 정부가 구라를 쳐서 이런 댓글을 썼다 식의 이야기가 나왔어야 된다고요. 근데 님은 제가 왜 모른다고 말했는지조차 모르고 있었던거에요. 이정도면 분명하죠? 저야말로 꽤 일관적으로 답변을 요구했고 김테란님은 본인이 알고 썼다/모르고 썼다에 관한 이야기는 이제 와서야 거의 처음 하시는데요.
15/06/23 03:18
수정 아이콘
창예 님//그냥 말이 안됩니다 크크크. 제가 알기로 메르스 R0가 1 미만인거 사이언스지급 저널에 실린걸 토대로 했다고 알고 있는데요, 자세히는 몰라도 그따구로 허접하게 계산하진 않았겠죠.
김테란
15/06/23 03:19
수정 아이콘
창예 님//
1.1000정도의 전수로 계산했거나
2.그 몇안되는 모집단에서도 일부 표본을 추출했겠죠.
3. 랜덤표본추출 했을 수도 있겠네요.
허나 2의 경우에도 병원을 자꾸 옮겨다닌다던지 하지 않거나, 그 병원내의 처리가 안된 경우가 아니라면
1의 경우와 별 차이가 없는 수치가 되는 것이겠죠.
모집단이 워낙 작아서 질본장 말대로 다른 표본으로 계산하면 7이 나오는 등, 많이 차이나게 나올수도 있는지라 1,2,3의 경우 모두 현재의 메르스를 놓고 볼땐 기존의 기초감염재생산수의 의미를 맞추긴 힘들다 보는 것이구요.
15/06/23 03:22
수정 아이콘
김테란 님// 정부가 들고온 수치가 그런 식으로 계산했다는건 100% 김테란님 추측 같습니다. 뭐 근거가 있나요?
김테란
15/06/23 03:29
수정 아이콘
Cogito 님// 표본추출하는데 다른 방법이 있나요?
그리고, 전 질본장의 28일 브리핑때의 말은 구라라고 생각하지 않았으니 그리 말씀드린 것입니다.
15/06/23 03:34
수정 아이콘
김테란 님// 아... ;; 뭔 방법을 쓰건간에 님이 말한 방법으로 하진 않습니다 ;;;; 정부 까고 싶으면 그냥 정부 까고싶다고 하세요 야밤에 뇌내망상으로 소설쓰지 마시고. 모르면 모른다고 하면 되지 왜 자꾸 우겨서 엄한 사람들 피곤하게 만듭니까
김테란
15/06/23 03:35
수정 아이콘
Cogito 님// 그럼 직접 설명해보시죠.
15/06/23 03:39
수정 아이콘
김테란 님//
1. 추측인가요. 아님 확신인가요. 제가 여쭤본 것은, 전수든 추출이든 "어떻게" R0 값을 계산하였을까에 대한 질문입니다. 어쨌거나 김테란님이 정부가 들고온 수치가 어떻게 계산되어 왔는지 모른다는 점은 확실하네요. 왜냐면, 0.7을 추정할때 MERS의 전수는 1000이 안됐습니다. 당시 논문에서 2013년 사우디의 outbreak 자료만 이용해서 계산했었거든요. 물론 다른 자료를 인용했을지도 모르겠습니다만, 아마 그러지는 않았을 거에요.

2.에 대한 답은 명확히 댓글에 보이지는 않네요. 서로 다른 표본에서 기초감염재생산지수의 값이 다르다. 정도면 동의합니다만, 애초에 그 정도 말씀만 하셨으면 제가 이 시간에 댓글을 달고 있을 이유도 없겠지요.

3. 요약할께요. 김테란님은 정부가 가져온 기초재생산지수가 0.7이라는 것을 비판하시면서도, 어떻게 0.7이 계산되어 왔는지 전혀 모르고 계십니다. 또한 기초재생산지수가 어떤 의미를 가지고 있는지도 피상적으로만 알고 계십니다. 피상적으로 알고 있고, 어떻게 계산되어 나왔는지도 모르는 값을 가지고 비판의 날을 세울 때에는 보다 신중하셨으면 좋겠네요. 혹시 단순한 본인의 생각이 아니라, 이 사안을 가지고 왜 정부를 비판해야 하는지에 대해서(저도 이 건에 대해서는 정부의 설명에 문제가 있다고 생각하는 편입니다.) 진정으로 알고 싶으시다면, 언제 시간을 내어 설명드리도록 하겠습니다.
15/06/23 03:41
수정 아이콘
김테란 님// 크크크크. 야채라면 광고 생각나네요. 그냥 그거 관련해선 그 당시엔 정부 말이 맞았다고 보면 됩니다. 님 같은 분께 설명할 엄두가 안나요
15/06/23 03:41
수정 아이콘
Cogito 님// 추출이야 뭐 할수도 있지요. 실제로 bootstrap같은 방법을 쓰기도 하고... 지금 중요한 건 전수냐 추출이냐가 아니라, 어떻게 R0를 estimation했느냐... 겠지요.
15/06/23 03:49
수정 아이콘
창예 님// 맞는 말씀입니다.
김테란
15/06/23 03:59
수정 아이콘
창예 님// 썼다가 다시로그인 하라해서 다시씁니다.
1,2를 좀 구분해서 부연설명하죠.
1. 1~3중 어느방법을 썼는지는 일단은 모릅니다. 질본장이 말한 '사우디에서 발간된 논문을 보면 한 의료기관의 메르스 기초감염재생산수가 7명인 사례도 있다' 이 경우는 2의 경우겠죠. 계산은 각자가 감염시킨 총합을 총감염자수로 나누면 되며 이 경우 확산자체가 그 표본안에 닫혀 있으면 1이하일 것이고 아니면 그 이상이 나올 수가 있겠죠.
2. 2,3의 경우 모두 그냥 표본추출을 어떻게 했는가를 보고 그 선에서 참고정도는 할 수 있어도 표본수가 워낙 작기때문에 실제로 고유지수여야 하는 메르스의 확산정도를 설명하기엔 신뢰도가 심각하게 떨어진다 보는 것입니다.
그러므로 모집단자체가 워낙에 작기에 전수에 거의 근접하거나 일치하는 표본을 추출했다 보는 것이죠. 허나 전수에 근접해도 일치할때의 문제는 마찬가지로 생깁니다. 즉 확산이 닫혀있거나 그에 근접할 시 처음 글에 적었듯이 그건 확산정도를 설명하지 못한다는 것이죠.
15/06/23 04:10
수정 아이콘
김테란 님// 네 감사합니다.
1. "계산은 각자가 감염시킨 총합을 총감염자수로 나누면 되며" -> 틀렸습니다. 정확히 말씀드리면(앞 댓글 재인용), 이렇게 구한 기초감염재생산 수(R0)는 감염병의 유행상태(epidemic)을 예측하지는 못합니다. 따라서 보통은 말씀하신 방법이 아닌 population level에서의 R0를 제시합니다.

2. 현재의 R0가 메르스의 확산정도를 설명하기에 신뢰도가 떨어진다는 점은 어느 정도 동의합니다. 표본문제일 수도 있고, 다른 문제일 수도 있습니다. 애초에 이정도만 말씀하셨으면 보다 건설적인 논의가 가능하였을 텐데 아쉽네요. 그러나, 이 사안을 "통계의 아주 기초적인 단계에서 말도 안되는 해석을 한 예"로 볼 수는 없습니다. 정부가 R0를 직접 계산 해서 발표한 것도 아니고, 학술자료를 인용한 건데요. 물론 내일이라도 참고문헌에 오류가 있어 철회되는 상황이 생긴다면 저도 제 주장을 철회하겠지만요.

3. (부연에 대해서) 애초에 population-level R0는 적절한 조치를 취하지 않았을때 사회에 유행이 발생할 경우인지 아닌지를 판단하기 위한 지표입니다. 당연히 확산이 닫혀있으면 (격리/백신 등) 상황이 달라지겠죠. 즉, 선후가 바뀌었습니다. R0가 높으니까 조치를 취하는 거고, 그러니까 확산정도가 줄어드는 거죠. 어쨌든 그래서 요새는 R0도 보지만 Re(적절한 조치가 가능해진 다음의 R0값) Rt(시간의 흐름에 따른 R0의 변화)등을 보기도 하고, 애초에 R0를 추정할 때 이러한 확산의 감소(decay)를 반영한 방법으로 추정하기도 합니다.
김테란
15/06/23 04:30
수정 아이콘
창예 님//
1.계산하는 방법자체를 제시해주시기 바라며(표본추출별로 그 수치자체가 얼마나 유의미하게 달라지는지도 볼 수있게)
2.저는 위에 말한 이유로 전수이거나 그에 가까운 데이터일 것이라 생각했고,
28일 질본장의 해명 역시 그런 의미로 이해됩니다.
글쎄요, 창예님께선 그냥 아니라고만 하시고 계실 뿐 직접 제시하셔서 저의 해석과 얼마나 차이나는지를 설명하지 않고 계십니다.
만일 질본장의 두번째 예대로 둘다 표본이 너무 작아 0.8도 7도 나올 수 있는 신뢰도의 것이라면 표본에 대한 설명없이 잘못된 해석을 한 것이라 보고 있으며,
처음에 설마 그런 자료를 들고 왔겠느냐 해서 충분한 표본수일 거라 보고 첫 글처럼 얘기한 것이구요.

<추가하신 것에 대해서 추가>
1 이하라는 것 자체가 확산단계가 아닌 확산이 닫히거나 근접한 것이겠죠.
예를 들어 4차감염이상까지 갔고 3차감염까지의 표본으로 계산한다면 1 이하가 나올 수 있을까요.
0.8이 조치없이 확산정도가 일정한 상태로 계산한 것으로 치면
환자가 900명이라면 10차감염까지 갔을 경우에도 1차감염자만 200명은 필요하겠군요.
이건 현실과도 다르고 설령 같다 치더라도 조치를 안취해도 자연소멸되는 중으로 보이는군요.
그나저나 Cogito님은 제가 두줄 붙인것 가지고 뭐라하시면서 저분은 계속 대화중에 필요하면 붙이시는데도 아무말씀 안하시네요.
15/06/23 05:09
수정 아이콘
김테란 님//
1. 어쩔수 없네요. 여러 감염병 중 MERS 기반으로 알려드리겠습니다. 다행히 오픈 엑세스라...
1-1) R0 < 0.7을 제시한 문헌입니다. 2013년 outbreak 자료구요
Synthesizing data and models for the spread of MERS-CoV, 2013: Key role of index cases and hospital transmission, Epidemics Volume 9, December 2014, Pages 40–51
http://ac.els-cdn.com/S1755436514000607/1-s2.0-S1755436514000607-main.pdf?_tid=b12d9378-1910-11e5-aef2-00000aacb35e&acdnat=1434999698_1ce8ea087568e97481bf9817251ecb91
SEIR trasmission model을 기반으로 category를 나누어 추정하였습니다.

1-2) 2014년 outbreak를 대상으로 R0를 제시한 문헌입니다.
Estimation of MERS-Coronavirus Reproductive Number and Case Fatality Rate for the Spring 2014 Saudi Arabia Outbreak: Insights from Publicly Available Data, PLOS ONE, December 18, 2014
http://currents.plos.org/outbreaks/article/obk-14-0037-estimation-of-mers-coronavirus-reproductive-number-and-case-fatality-rate-for-the-spring-2014-saudi-arabia-outbreak-insights-from-publicly-available-data/
이건 IDEA 방법으로 R0를 추정하였습니다.

더 이상 설명할 필요는 없다 보이고, 문헌을 보시면 알겠지만, population-level R0의 추정은 명료한 하나의 수식으로 이루어지지 않습니다. 여러 가정이 필요하지요... 그래서 김테란님의 방법이 질본에서 발표한 R0와는 '다르다'고 이야기 할 수 있습니다. 그리고 몇번 말씀드렸지만 해석이 문제가 아니고 계산하는 방법이 문제입니다.

2.
2-1) "예를 들어 4차감염이상까지 갔고 3차감염까지의 표본으로 계산한다면 1이하가 나올 수 있을까요." ->
뭐 그럴수도 있겠습니다만, 이렇게 계산한 것이 무슨 의미가 있을까요.
2-2) "0.8이 조치없이 확산정도가 일정한 상태로 계산한 것으로 치면"
-> 어쨌든 김테란님의 방법대로 계산한 것은 아닙니다.
2-3) "조치를 안취해도 자연소멸되는 중으로 보이는군요."
-> 조금더 복잡한 설명이 필요합니다만, 개략적으로 R0 < 1 이면 그 지역사회에서 self-limit 될 것이라 보고는 있습니다. 적어도 원칙적으로는요. 물론 MERS가 워낙 신종 질병이다보니 R0를 잘못 계산한 것 아닌가 의심해볼 수는 있지만 말이죠.
김테란
15/06/23 05:13
수정 아이콘
창예 님// 네 링크 감사하며 너무 늦었으니 후에 차분히 읽어보겠습니다. 일단 이만 쉬세요.
<추가>아침에 잠깐 2013 먼저 읽어보니 600환자발생즘에 122추출이고, 설마 말도 안되는 경우의 수치를 제시하겠어 하며 다른 경우들 배제하고 전수에 가까워 확산이 닫힌 표본으로 계산했기에 1 이하가 나온 것이라 생각한 것은 분명히 제 잘못이네요. 아무래도 처음 맞이하는 질병인데다 표본도 적으니 현실과 다른 모델링으로 인해 자연소멸 가능한 1 이하 값이 나온듯 하군요. 게다 한국은 완전 다르니, 차라리 대략 2~7인 R_hosp 을 참고했어야 했던것 같은데, 이건 더 큰 문제인듯 하네요.
15/06/23 05:15
수정 아이콘
김테란 님// 네 김테란님도 잘 쉬십시오. 늦은 시간까지 고생 많으셨습니다.
15/06/22 23:59
수정 아이콘
첫글 반갑습니다.

통계에서 혼란을 느끼는 경우중에 하나는,
현실 세계에서는 문제에 명시되지 않는 전제 조건이 더 깔려있을 때 일겁니다.

제시하신 첫번째 문제의 경우,
우리는 현실세계에서 남녀 각각의 인구수가 비슷하다라고 인식하고 있잖아요. 이러한 전제가 깔리면, 1번과 2번은 완전히 다른 명제이지만 사실상 거의 동시에 참 혹은 동시에 거짓이 되지요.

수학 문제에 현실의 전제를 대입하는 건 무식한 일(ㅠㅠ)이지만, 한편으로 현실 세계에서 통계적 확률을 논하는데 수학 문제와 마찬가지로 무균 상태로만 논의하고자 하는 것은 자칫 일말의 가능성을 무시하는 오류를 범할 수도 있습니다.
개고기라면
15/06/23 00:24
수정 아이콘
1번 문제의 경우는 실제로 미국에서 고등학생을 대상으로 하는 통계 수업에서 나온 내용입니다. 스타벅스의 한 지점 방문자에 대한 통계 프로젝트를 구성할 때 무엇을 어떻게 조사할 것이냐, 에 대한 학생들의 주의 환기 차원에서 교사가 제시한 문제인데요. 실제 교사는 위 질문 외에도 "스타벅스가 여대(또는 군부대 또는 등등)에 있으면 어떤 방법이 스타벅스 방문자를 적확히 분석하는 데 도움이 될까?" 등등의 발문를 통해서 학생들이 자료를 수집하고, 그 자료를 분석하는 데 대한 통찰을 제공합니다.

위 모델이 원 모양의 호수가 있다는 식(...)의 아주 현실과 동떨어진 모델은 아닐 뿐더러(위와 같이 스타벅스가 여대 안에 있다던가), 저는 확률과 통계를 학습하는 과정에서 가장 경계해야 할 부분이 이런 [일반적이지] 않은 부분이라고 생각합니다. 사실 대부분의 실생활에서는 주사위 눈이 뭐 나올 확률 얼마인가 구할 정도면 능히 확률 계산이 가능합니다. (대표적으로 타율이 있겠군요) 두 예시는 모두 그런 수준의 직관적인 확률 계산의 맹점을 지적하고, 결과적으로 확률을 체계적으로 학습해야 한다는 좋은 예시로 생각했는데..
제가 글을 못 쓴 탓이죠 엉엉 죄송합니다.
cadenza79
15/06/23 00:51
수정 아이콘
저도 처음에 읽으면서 probe님과 똑같은 생각을 했습니다.
과거에 문제를 출제하는 일을 좀 했던터라 바로 눈에 보이더군요.
사람들이 당연하다고 생각하는 부분은 가급적 배제한다는 점을 적시해야 나중에 항의가 없거든요.

본문의 예시만으로는 아주 우수한 그룹에 속하는 사람들도 쟁점을 찾아내기가 쉽지 않습니다.
이런 경우 말씀하신 대로 원래의 문제대로 수식어 하나만 더 붙이면 교육용으로 적절한 예시가 되지 않을까 싶습니다.

"A 건물에 있는"
1) 스타벅스를 이용하는 소비자 비율은 남성보다 여성이 더 높다.
2) 여성 소비자가 스타벅스를 이용하는 비율은 남성보다 높다.
개고기라면
15/06/23 01:02
수정 아이콘
아! "모든" 스타벅스로 오해할 수 있는 지점이었군요.
좋은 말씀 감사합니다!
15/06/23 01:01
수정 아이콘
헐레.. 본문에 쓰신 의견에 반대를 하는 것이 전혀 아닌데 문맥이 그렇게 읽혔나 보네요. ㅠㅠ

수학문제 푸는데 문제에 제시되지 않은 현실적 전제를 대입하는 것은 무식무식열매를 섭취한 게 맞지요.


제가 얘기한 것은,
수학 문제 풀 때가 아니라 현실 세계에서 확률을 구할 때도,
수학 문제 풀 때 처럼 명시되지 않은 전제 조건을 싸그리 무시하는 경우였어요.

예를 들어 야구 경기에서 한 투수에게 타율 3할3푼의 타자가 앞선 두 타석에서 무안타로 물러났다.
그러면 세 번째에서는 어떤가?

수학 문제에서야 당연히 독립시행이니 역시 안타 칠 통계적 확률이 1/3이라 해야 하겠죠.

그렇지만 현실 세계에서 본다면 조금(아주 조금??)은 다를 가능성도 있잖아요.
앞선 타석에서 투수의 공을 면밀히 분석했다면,
세 번째 타석에서는 안타를 만들어낼 확률이 앞선 타석보다 좀더 올라갔을 수 있으니까요.

뭐 해설자분들이 앞에 두번 실패했으니 세번째는 칠겁니다.. 라고 얘기하는 게,
이러한 부분을 고려해서 나오는 발언인지까지는 모르겠지만요.
개고기라면
15/06/23 01:09
수정 아이콘
아! 제가 잘 시간이 지났는가 정신이 없네요 엉엉
실생활에 대한 수학적 모델링은 과연 어디까지 해야 하는가, 에 대한 논의는 지금도 가장 핫한 화제죠.
사실 확률도 그것에서 벗어날 수 없는 영역이고..
사실 그래서 확률적 사고라는 것이 결국은 통계의 도구가 되지 않나 그렇게 생각도 해봅니다.
통계야말로 그런 현실의 카오스에 가까운 조건을 '임의' 라는 마법의 단어로 묶고 있으니..
15/06/23 05:29
수정 아이콘
인간의 사고가 베이지안에 가깝다는 말로 대신할수 있지 않을까요.
우리는 알게모르게 어떤 사건에 대한 사전정보들을 고려해 그 가능성을 조정하거든요.
이러한 관점으로 생각한다면 투수의 공을 분석하며 프라이어를 조정해 안타의 확률이 달라질 수 있다는 논리전개는 당연하다고 볼수도 있습니다.
회색사과
15/06/23 00:28
수정 아이콘
좋은 글 재미있게 잘 읽었습니다.
하지만 저는 다음 부분에 대해 약간 지적을 해보고 싶습니다.

"하지만 의학계에 종사하시는 분들은 본능적으로 이 검사에 문제가 있다고 여기십니다. (몇 분들이.. 그랬습니다. 다 그런지는 몰라요.)"

저 부분 이하의 설명은 분명 조건부 확률이 사람의 직관을 거스르는 대표적인 예시입니다. 아주 잘 설명해 주셨지요.
하지만 말씀하신 케이스의 문제는 발병률이 0.1%라는 전제 조건과 함께 이어졌을 때 생기는 문제이지,
검사에서 환자를 100%로 잡아내고, 정상인에게 1%의 에러가 난다는 것만으로 생기는 문제는 아니거든요..

환자는 100%잡아내고, 정상인에게 양성 반응이 나오는 케이스가 0%라는 이상적인 결과가 나온다면 좋겠지만..
실제 상황에서,어떤 검사나, filtering 의 조건 등은 서로 상충되는 경우가 많아, 환자를 잘 잡아낼수록, false positive 역시 올라가는 경우가 많습니다.
손쉬운 예시로.. 브라우저의 안전 등급을 높게 해 두면, 정상적인 페이지 역시 안 보이는 경우가 많죠?
위험 페이지에 대한 민감도를 높게 설정하면 자연스레 일반 페이지임에도 걸러지게 되는 겁니다..

그런 상황이라면 threshold에 대해 선택을 하게 됩니다. 정상인에게 양성 반응이 나오는 것을 감수하더라도 환자를 확실하게 잡아낼 것인지, 환자를 조금 못 잡아 내더라도 정상인은 정상이라고 보고하게 해 줄 것인지요.

스팸 메일 필터링 기능을 생각해보면...
스팸 메일 좀 못 걸러 내더라도, 정상 메일을 스팸처리하지 않는 것이 일반적으로는 더 중요하다고 생각하는 경우가 많습니다.

하지만 환자라면? 그 질병이 매우 위험할 수 있는 질병이라면?
환자를 정상이라고 판별하는 것과 정상인을 환자라고 판별하는 것. 어느 것이 더 위험할까요?

여기서 말씀하신 "검사를 한 번 밖에 할 수 없다면." 이라는 전제가 붙는다면. 이 검사의 결과는 의학적인 진단에 무의미한 결과일 수 있습니다

하지만 저 전제 조건이 주어지기 이전에 "이 검사 에 문제가 있다". 는 표현은 자칫 잘못된 선입견을 심어줄 수 있다고 생각합니다.

이런 경우 문제가 있는 부분은 "검사 한 번만을 하고서 확진하는 행동" 이 위험한 것이지 "검사에 문제가 있다" 는 아니거든요..
일반적으로는 이런 경우라면 검사를 반복하여 false positive에 의한 부분을 고려하게 될 테니까요..
개고기라면
15/06/23 00:45
수정 아이콘
보균자의 오진률과 비보균자의 오진율이 서로 (정확하게는 음의) 상관관계가 있을수 밖에 없다는 말씀이시지요? 그 부분은 생각 못했네요. 실제 수업할 때도 한 친구가 "반복검사를 하면 충분히 좋은 진단이다." 는 요지의 발표를 하여 제 의견을 명확히 전달하기 위해서 좀 억지를 쓴 면이 있습니다. 아무래도 타과에서 가져다 쓰다보니 이런 오류가 나타나네요 엉엉
회색사과
15/06/23 00:52
수정 아이콘
있을 수밖에 없다! 는 아니구요. [precision이랑 recall이 아주 훌륭한 훌륭한 테스트셋 내지는 시약이 있을 수도 있겠죠]
있는 경우가 많다 정도로 봐주세요. 흐흐
재미지게 잘 읽었습니다!
체코의혼
15/06/23 00:39
수정 아이콘
비전공자로써 통계학을 접해보고 싶은데 입문서라고 추천할만한 책이 있을까요??
개고기라면
15/06/23 00:59
수정 아이콘
지는 통계학 전공은 아니고 일개 수학교육학도인지라.. 엉엉
궁리에서 나온 [세상에서 가장 재미있는 통계학]이 적절히 고등학교부터 대학 초입까지 아우르는 수준의 책 같네요.
만화책이라 쉽게 읽히지만 외국책이라 번역투 때문에 조금 생소할 수 있습니다..
체코의혼
15/06/24 00:39
수정 아이콘
답변 감사합니다.
오빠나추워
15/06/23 02:30
수정 아이콘
정말 재밌게 잘 읽었습니다. 저같은 바보도 이해가 쉽게 잘 설명해주셨네요! ^^
지호수민아빠
15/06/23 02:35
수정 아이콘
확률은 완전할 수 없는 영역이죠 애초의 가정이 시행횟수가 무한번을 가정한것인데 수명이 제한적인 상황에서는 그런 전제는 무의미하죠 곡선도 극한적으로 부분만 보면 선형입니다 진짜 어렵죠 패턴을 단정할 수는 없는겁니다
근성러너
15/06/23 08:05
수정 아이콘
저는 확률과통계 덕분에 수포자에서 3등급이되었습니다?(왱알왱알) 사랑합니다 확통
15/06/23 08:57
수정 아이콘
샘플링쪽을 주로 공부하진 않아서 기억이 가물가물한데 3번 예시는 지난번 cottonstone님이 쓰신 베이지안관련글에서 느꼈는데 샘플링이 잘못됐다 말할수 있을것 같습니다. 보통 이런 유병률이 낮은 질병들은 케이스 스터디를 하죠.
토다기
15/06/23 13:33
수정 아이콘
통계학 입문 책은 위에 추천 해주셨고 (다른 책들도 있으면 추천 부탁드립니다) 학교에서 배운거 쓰잘데기 없다는 말에는 저도 동의하지 않습니다. 과학을 말리한 죄로 아직까지도 자동차 운전히다 갸울에 서리가 끼면 어떻게 해야하는 지 몇 번을 들어도 까먹거든요. 퀴즈프로그램보면 대학을 가야만 알 수 있는 문제들이 별로 없죠. 노동, 부동산 든 실생활에 필요한 것들을 더 가르쳐야 한다는 것에는 동의하지만 지금 배우는 게 쓰잘데기 없다고 생각안합니다. 평생가요. 진짜 평생...
데오늬
15/06/23 13:39
수정 아이콘
저도 학교에서 쓸데없는 거 배운다는 말 정말 싫어합니다.
배운 걸 제대로 못 써먹으면서 쓸데없는 걸 가르쳤다고 하는 경우가 상당히 많다고 생각하거든요.
15/06/24 10:23
수정 아이콘
좋은 글인데 제가 댓글로 깽판친 것 같아서 죄송합니다 ㅜㅜ

학교에서 쓸데없는 거 배우는게 아니라는 데는 동의합니다. 근데 그건 이미 엘리트인 사람들이 만든 교육과정이고, 충분한 지적 능력이 없는 사람은 그렇게 느낄 만 하기도 하고요.
개고기라면
15/06/24 12:04
수정 아이콘
아닙니다. 저만의 글도 아닐 뿐더러, 잘못된 것은 바로 잡아야지요.

엘리트에 의하여 만들어진 교육과정 역시 같은 생각입니다. 교육과정에 대한 공청회도 열리고 현장 교사들도 교육과정 수립 과정에 점차 참여도가 늘어나는 등 좋은 방향으로 계속 움직이고는 있다고 봅니다만 , 보통교육을 표방하는 교육과정치고는 저 역시 여전히 갈 길이 멀다고 생각합니다.
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회 추천
59298 [일반] 철인의 시대. 경찰관의 시대. 서버의 시대 [31] probe6326 15/06/23 6326 29
59297 [일반] [펌] '왕좌의 게임 작가의 양판소 일침' 인터뷰 전문 [26] 삭제됨10637 15/06/23 10637 0
59296 [일반]  [테니스] 남자 싱글 빅3 비교 - 3. 로저 페더러 [65] 김연아7918 15/06/23 7918 4
59295 [일반] 올드게이머 인사드립니다. [178] oldgamer11221 15/06/23 11221 2
59294 [일반] [야구] 2015 프리미어 12의 전체 일정이 공개되었습니다. [55] 키스도사6990 15/06/23 6990 0
59293 [일반] 삼성병원은 적자입니다. 하지만 유지합니다. 왜일까요? [192] 삭제됨16371 15/06/23 16371 4
59292 [일반] 내가 이 곳에 오는 이유 [5] 웃다.2899 15/06/23 2899 6
59291 [일반] 타이타닉, 아바타, 브레이브하트 작곡가 제임스 호너 사망 [8] 어리버리3684 15/06/23 3684 0
59290 [일반] 신경숙 작가의 사과 인터뷰가 올라왔네요. [118] uncle.BOB8007 15/06/23 8007 1
59289 [일반] [해축] 트위터를 통해본 전세계 프리미어리그 팬 분포도 [37] KARA7133 15/06/23 7133 2
59288 [일반] 메르스 관련 삼성그룹 입장 발표 [126] 삼성그룹11896 15/06/23 11896 1
59287 [일반] 소녀시대 "Catch Me If You Can" 8인 버전과 9인 버전 [18] 효연광팬세우실7515 15/06/23 7515 1
59286 [일반] 어제 유게를 보고 바로 자지 말걸.... [20] 작은 아무무7741 15/06/23 7741 13
59284 [일반] [해축] 어제의 bbc 이적가십 [21] pioren3427 15/06/23 3427 2
59283 [일반] [스포주의] 냉부 맹기용 셰프의 오시지 표절논란 [143] CoMbI CoLa10785 15/06/23 10785 1
59282 [일반] EXID LE로 보는 걸그룹 포인트가드론 [26] 좋아요8079 15/06/23 8079 21
59280 [일반] 19세기 전투함으로 본 미친 기계 발전의 모습 [18] swordfish-72만세10103 15/06/22 10103 9
59279 [일반] 우리가 확률를 학습해야 하는 이유 [65] 개고기라면8786 15/06/22 8786 9
59278 [일반] 썸머 걸그룹 페스타 6월 라인업 3팀 단상 [30] 좋아요5437 15/06/22 5437 0
59277 [일반] [역사] 1849년, 어느 일본인이 본 아편전쟁.txt [9] aurelius6249 15/06/22 6249 3
59276 [일반] 흔한 교대생의 글 [52] Ataraxia110018 15/06/22 10018 2
59275 [일반] [KBO] LG 정찬헌 음주사고로 3개월 출장정지 징계 [80] SKY928889 15/06/22 8889 0
59273 [일반] 달리기 이야기 [17] 퐁퐁퐁퐁4216 15/06/22 4216 11
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로