자연과학/통계학

베이즈 이론 적용 예시 (질병 검사 결과 해석)

Retyper 2024. 6. 27. 19:26

 

 

사진1. 질환으로 고통받고있는데 검사결과 음성이 나왔다면? 안심해도 될까?

 

 

단순포진 바이러스, 헤르페스(Herpes)

 

단순포진(herpes simplex)이란 헤르페스 바이러스(human herpes viruses)에 속하는 단순포진 바이러스가 피부와 점막에 감염을 일으켜 주로 수포(물집)가 발생하는 병입니다. 단순포진 바이러스에는 1형과 2형이 있는데 1형은 주로 허리 위에, 2형은 허리 아래, 특히 외음부에 감염을 일으킵니다. 단순포진 1형 바이러스 감염은 주로 감기에 걸리거나 몸이 피곤한 경우 입가에 물집이 생기는 증상으로 나타나며, 단순포진 2형 바이러스 감염은 주로 성기 부위에 발생하는 음부포진이 특징입니다. 모든 연령에서 감염될 수 있으나 대개 젊은 성인에서 호발합니다. - 질병관리청

 

흔히 나는 입병 중에 하나인 헤르페스 바이러스. 인간에게 걸리는 8형 중 1형과 2형이 단순포진 바이러스 인데 증상은 경미하고 확실한 치료제가 존재하고 있지만 신경절에 잠복하고 있어 완치가 불가능하다는 공포감 때문에 최근 관심도가 높아지고 있다. 보통 환부의 접촉을 통해 전파가 되고 입술과 그 주변, 성기와 그 주변에 주로 생긴다 헤르페스에 대한 상세한 내용은 다음에 다루어보도록 하고, 이번에는 이 헤르페스 검사를 가지고 해석해보면서 베이즈 이론을 더 이해하고자 한다.

 

사진2. 단순포진바이러스의 전자현미경 사진. - 위키피디아 제공

 

헤르페스를 알게되고 병원에 간 야근맨 폰모씨(29세)

 

폰모씨는 평소에 몸이 힘들고 피곤하면 입병이 쉽게 생긴다. 컨디션이 안 좋으면 감기에 잘 걸리듯, 누구나 그런게 한 두 개 쯤 있다고 생각하고 1년에 1번쯤 올라오더라도 짧으면 하루 길면 일주일 참고 말았다. 그런데 최근 헤르페스라는 질병이 존재한다는 걸 알게 되고 한번 걸리면 평생 나을 수 없다는 뉴스 기사를 읽은 뒤 공포감에 사로잡혀 병원으로 향했다. 지금은 입에 병변이 없어 의사 선생님은 소변검사를 처방해주셨지만, 유투브에서 헤르페스 소변검사는 정확도가 떨어지고 혈액검사를 해야 확실히 진단 가능하다는 이야기를 보았다. 그래서 폰모씨는 소변검사 말고 헤르페스 1,2 형에 대한 혈액검사를 요청하고 채혈을 받았다. 이틀 뒤, 검사결과를 확인하러갔다. 다행히도 검사 결과 두 바이러스 전부 음성이 나왔다. 하지만 의사선생님께 자세히 증상을 얘기하니, 헤르페스는 너무 흔한 질병이라서 누구나 있을 수 있고 검사결과 음성이 나왔더라도 폰모씨의 증상은 헤르페스일 가능성이 높다고 말했다. 과연 검사결과 음성이 나온 폰모씨가 실제로는 헤르페스 감염자일 확률은 얼마나 될까?

 

 

헤르페스 혈액검사의 정확성

 

예전에 헤르페스 1형은 입에, 2형은 성기에 감염된다고 알려져 왔었지만 최근에는 발생위치상만으로 큰 의미가 없을정도로 입에서도 2형이 많이 발견된다고 한다. 그래서 폰모씨는 혈액검사 정확성에 관한 논문을 찾아보았고 다음 자료에서 헤르페스 2형 혈액검사의 민감도(sensitivity)와 특이도(specificity)를 확인할 수 있었다.

 

  • 민감도 95%~99% = 검사결과 양성인 사람들 중 실제 감염자인 사람의 비율
  • 특이도 81%~ 89% = 검사결과 음성인 사람들 중 실제 비감염자인 사람의 비율

 

Resource: https://pubmed.ncbi.nlm.nih.gov/27997660/

 

Serologic Screening for Genital Herpes: An Updated Evidence Report and Systematic Review for the US Preventive Services Task For

Serologic screening for genital herpes is associated with a high rate of false-positive test results and potential psychosocial harms. Evidence from RCTs does not establish whether preventive antiviral medication for asymptomatic HSV-2 infection has benefi

pubmed.ncbi.nlm.nih.gov

 

헤르페스의 유병률

 

헤르페스가 이미 많은사람들이 걸려있는 질병이란건 들어서 알게 되었지만 얼마만큼 흔한지 폰모씨는 궁금했다. 유병률이란, 어느 한 시점에 특정 인구집단 또는 지역에서, 질병을 가지고 있는 인구의 수를 대응되는 전체 인구의 수로 나눈 것을 말한다. 아시아인 대상 관련 논문을 찾아보니 헤르페스 1형의 유병률은 다음과 같았다.

 

  • 유병률 = 성인에서 76.5%, 20~39세 67.9%

 

Resource: https://academic.oup.com/cid/article/68/5/757/5055267

 

The Epidemiology of Herpes Simplex Virus Type 1 in Asia: Systematic Review, Meta-analyses, and Meta-regressions

Herpes simplex virus type 1 (HSV-1) epidemiology is transitioning in Asia with lower seroprevalence in youth. Yet, 50% of children and 75% of adults are in

academic.oup.com

 

음성이 나온 폰모씨가 실제로는 감염자일 확률

 

조건부 확률를 구하기 위해 위에서 확인한 값들을 활용해야한다. 검사의 정확성을 최대한 보수적으로, 부정확하게 판단한다면 민감도는 95%, 특이도는 81%라고 할 수 있다. 유병률에 대해서도 보수적으로 적용할 경우, 워낙 흔한 질병이므로 검사결과와 상관없이 이미 걸려있을 확률이 높다고 판단한다면 76.5%라고 할 수 있다. 따라서 만약 10만명의 아시아인을 모아두고 헤르페스 검사를 실시한다면, 다음과 같은 결과가 나오게 될 것이다.

 

성인 아시아인 10만명 검사결과 양성 검사결과 음성
감염 (전체 76,500명) 76500 * 95% = 72675명 76500 * (100% - 95%) = 3825명
비감염 (전체 23,500명) 23500 * (100% - 81%) = 4465명 23500 * 81% = 19035명

 

폰모씨가 원하는 것은 검사결과 음성이 나온 사람들 중에서 실제로 감염된 사람의 비율(P(A|B))이다. 이미 알고있는 확률을 기반으로 구하면 다음과 같다.

 

  • P(A) = 10만명 중 실제 감염자일 확률 = 유병률 76.5%
  • P(B) = 10만명 중 검사결과 음성일 확률 = 감염자가 잘못된 결과로 음성나올 확률 + 비감염자가 올바른 결과로 음성나올 확률 = 유병률 76.5% * (1 - 민감도 95%) + (1 - 유병률 76.5%) * 특이도 81% = 22.9%.
  • P(A∩B) = 10만명중 실제로는 감염자이면서 잘못된 결과로 음성인 사람일 확률 = 유병률 76.5% * (1 - 민감도 95%) = 3.8%

 

P(B)는 확률 계산시 복잡해 보이지만 표로 보면 단순하다. 검사결과가 음성이 나온 사람들 숫자를 전부 센 다음에 10만명으로 나눠주면 끝이다. 22860 / 100000 = 22.9%. P(A∩B) 는 더 간단하게 감염 + 음성인 사람의 숫자를 세면 된다. 3825 /100000 = 3.8%. 그러면 최종적으로 우리가 관심있어하는 확률을 구할 수 있다.

 

  • P(A|B) = 검사결과 음성인 사람들(2.3만명) 중 실제 감염자일 확률 = P(A∩B) / P(B) = 3.8% / 22.9% = 16.6%. 

즉, 음성나온 폰모씨가 실제로는 감염자일 확률은 16.6 % 이다. 좀더 쉽게 표를 통해 이해하자면, 전체 음성결과나온사람(3825 + 19035 명) 중 감염되었지만 검사가 잘못되어 음성이 나온 사람(3825명)의 비율은 3825 / 22860 = 16.7% 라는 뜻이다. 소수점 반올림 문제로 인해 0.1정도 차이나지만 확률로 계산하든 상상속 실험으로 계산하든 결과는 같다.

 

아냐! 나는 안 걸렸을수도 있어!

 

흔한 질병이기 때문에 앞에서는 더 보수적으로 폰모씨가 걸려있을 가능성을 높게 계산했다. 하지만 폰모씨는 의사선생님의 진단을 부정하고 자기는 원래 그런 병이 없을 거라고 생각했다. 그래서 자신이 걸리지 않았을 확률을 높여 낮은 유병률67.9% 를 적용했다. 이렇게 변경했을때 음성나온 폰모씨가 실제로는 감염자일 확률은 어떻게 될까?

 

20~39세 아시아인 10만명 검사결과 양성 검사결과 음성
감염 (전체 67,900명) 67900 * 95% = 64505 67900 * 5% = 3395
비감염 (전체 32,100명) 32100 * 19% = 6099 32100 * 81% = 26001

 

  • P(A) = 10만명중 실제 감염자일 확률 = 유병률 67.9%
  • P(B) = 10만명중 검사결과 음성일 확률 = 29396 / 100000 = 29.4%
  • P(A∩B) = 10만명중 실제로는 감염자이면서 음성인 사람일 확률 = 3395/100000 = 0.03395%
  • P(A|B) = 검사결과 음성인 사람들(2.9만명) 중 실제 감염자일 확률 = P(A∩B) / P(B) = 3395 / 29396 = 11.6%

 

놀랍지 않게도 폰모씨가 감염자일 확률이 줄어들었다(11.6%). 자신이 비감염자라고 더 확신할수록 다른 주변의 사람들이 걸려있을 확률도 낮아져야 하기때문에 낮은 유병률을 적용한 계산에서 더 본인이 원하는 확률을 얻게된 것이다.

 

유병률 조사결과는 틀렸어! 

 

만약 폰모씨가 유병률 조사결과 값을 무시하고 헤르페스에 걸려있을 확률이 모든 사람에게 50:50이라고 생각한다고 해보자.

 

20~39세 아시아인 10만명 검사결과 양성 검사결과 음성
감염 (전체 50,000명) 50000 * 95% = 47500 50000 * 5% = 2500
비감염 (전체 50,000명) 50000 * 19% = 9500 50000 * 81% = 40500

 

  • P(A) = 50.0%
  • P(B) = 43.0%
  • P(A∩B) = 2.5%
  • P(A|B) = 2500/43000 = 5.8%

 

기저율을 임의로 조작하여 자신이 병에 걸려있을 확률을 이전보다 절반으로 깎아버렸다(5.8%).

 

혈액검사는 소변검사보다 정확해! 생각보다 정확할 수 있어!

 

검사결과의 보수적인 접근도 포기한 폰모씨는 음성이 나온 결과를 믿기 위해 더 개방적으로 민감도와 특이도를 적용했다. 민감도 99%, 특이도 89%를 적용하여 계산하면 폰모씨가 실제로 감염자일 확률은 훨씬 더 감소할 것이다.

 

20~39세 아시아인 10만명 검사결과 양성 검사결과 음성
감염 (전체 50,000명) 50000 * 99% = 49500 50000 * 1% = 500
비감염 (전체 50,000명) 50000 * 11% = 5500 50000 * 89% = 44500

 

  • P(A) = 50.0%
  • P(B) = 45.0%
  • P(A∩B) = 0.5%
  • P(A|B)  = 0.01%

 

한계를 넘어선 폰모씨의 감정편향은 멈출 줄 모르고 자신의 검사결과를 왜곡하려 하고있다(0.01%).

 

현대의학은 최고야! 혈액검사는 모든면에서 99.9% 신뢰할수 있어!

 

공포로부터 도망치고 싶어한 폰모씨는 이제 검사결과의 신뢰성도 거의 무조건적으로 믿게 되었다. 상황은 더 극적으로 치닫는다. 민감도와 특이도를 모두 매우 극단적인 값(99.9%)으로 설정한 폰모씨는 10만명 중에서 단 100명만이 잘못된 검사결과를 받았다고 생각했다. 이제 어떻게 되는지 보자

 

20~39세 아시아인 10만명 검사결과 양성 검사결과 음성
감염 (전체 50,000명) 50000 * 99.9% = 49950 50000 * 0.1% = 50
비감염 (전체 50,000명) 50000 * 0.1% = 50 50000 * 99.9% = 49950

 

  • P(A) = 50.0%
  • P(B) = 50.0%
  • P(A∩B) = 0.05%
  • P(A|B) = 0.001%

 

강렬한 감정이 불러온 편향은 기저율무시, 확률조작 등을 야기하여 알고자 했던 조건부 확률을 믿고싶은 만큼까지 축소시키는데 성공하였다(0.001%). 이로서 헤르페스 음성이 나온 폰모씨는 안심하고 본인이 99.999%로 헤르피스 음성이 맞다고 확신할 수 있게 되었다.

 

결론

 

확률은 미래에 일어날 일 혹은 과거에 발생했을 일을 예측하는데 사용하는 도구이다. 이를 계산하기 위한 조건들을 어떤 관점을 가지고 대하느냐에 따라 결과는 판이하게 달라진다. 폰모씨는 자신이 감염자일수 있는 조건을 최대한 받아들이면서 확률을 계산할수도, 자신에게 유리한 정보만 편집하여 확률을 계산할수도 있다. 사실 이 상황에서 더 분명해질수 있는건 같은 검사를 한 번 더 해본 뒤 그 결과에 대한 조건부 확률을 계산하는 것이지만 이제 베이즈 이론은 약간 질린듯 하니 다음에 언젠가 생각나면 해봐야겠다.

반응형