컨센서스(Consensus) AI로 본 초음파 가이드 치료 | 구로디지털단지 한의원

2025. 12. 23. 09:00최신 연구 동향

구로디지털단지 한의원 ❘ 컨센서스(Consensus) AI로 본 초음파 가이드 치료

 

 

AI가 추천한 논문, 100% 믿어도 될까요?

 

구로디지털단지 한방내과 전문의 송원장입니다.

최근 학술 논문을 검색하고 요약해 주는 AI 툴들이 

인기를 끌고 있습니다. 

그중에서도 '컨센서스(Consensus)'는

수많은 논문을 분석해 "Yes/No" 형태의

정량적인 답변을 내놓는 기능으로 유명합니다.

저는 최근에야 이러한 서비스를 알게 되어서,

시험삼아 다음과 같은 질문을 던져 보았습니다.

"근막통증증후군(MPS) 치료에서

'초음파 가이드하 유발점 주사(US-guided TPI)'가

'블라인드 주사(Blinded injection)'보다

실제 임상에서 효과적인가가?

라는 질문을 던져보았습니다.

AI의 답은 매우 명쾌했지만,

구체적인 내용에 있어서는 한계가 있었습니다.

1. AI의 답변: "83%의 연구가 Yes라고 합니다"


제가 컨센서스에 던진 질문은 다음과 같았습니다.
"Is ultrasound-guided trigger point injection

actually superior to blinded injection for MPS

in recent high-quality RCTs?"

이에 대해 컨센서스는 83%의 높은 수치로

"Yes"라는 결론을 내렸습니다.

최근의 무작위 대조군 연구(RCT)들이

통증 점수(VAS)와 기능 개선(NDI 등) 측면에서

초음파 가이드가 더 효과적임을

입증했다는 것이었죠.

구로디지털단지 한의원 ❘ 컨센서스(Consensus) AI가 제시한 양질의 RCT 연구


특히 승모근 MPS 환자들을

대상으로 한 연구들을

주요 근거로 제시했습니다.
표면적으로 보면

AI의 답변은

매우 논리적이고 믿음직해 보입니다.

하지만 그 답변의 근거를 확인해야겠죠?

AI가 가장 양질의 연구라고 추천한 논문을 보니,

의구심이 생기기 시작했습니다.

 

이게 "클리어리스트 하이퀄러티 RCT 연구"라고?

 


2. 사례 분석: Kang 등(2019) 연구[각주:1]


AI가 '고품질 근거'로 제시한

대표적인 논문인 Kang 등의 연구는 

국내 재활의학과 논문입니다.

비록 RCT 연구의 정의를 만족시키지만,

저자들이 말하였듯이 '예비연구 [각주:2] '일 뿐이지,

효과 유무를 판별할 수 있는 자료는 아닙니다.

때문에 Diep등[각주:3]은,

'높은 편향성'을 가졌다고 분류한 논문이지요.

 

해당 논문이 가지는 한계를 대충 살펴 보면

다음과 같습니다.

 

1) 예비연구의 선을 넘은 결론

해당 연구는 엄밀한 효능을 평가한 게 아니고,

예비적인 연구에 불과합니다.

이는 저자들도 서론에서 선언한 부분입니다.

하지만 제목에 명시되어 있지 않고,

초록과 결론에서는

'초음파 유도 주사가 더 유용하다'고

확증적인 결론을 내렸습니다[각주:4].

이 경우 전문가라면

예비연구임을 감안해서 평가하겠지만,

AI는 논문의 신뢰도를

과대평가 한 거 같습니다.

 

2) 표본 수 계산(Power Analysis)의 부재

연구 대상자가 41명으로 설정되었으나,

이 숫자가 통계적 검정력을 확보하기에 충분한지,

근거가 전혀 제시되지 않았습니다.

최근의 연구동향을 생각할 때,

이 역시 예비 연구라는 전제하에 가능한 것이지,

엄밀한 연구라면 부적절한 태도입니다.

3) 1차 평가지표(Primary Outcome) 미지정

VAS, NDI, SPADI 등 여러 지표를 동시에 측정하면서

무엇이 가장 핵심적인 결과인지 명시하지 않았습니다.

이는 결과가 잘 나온 지표만을 강조하는

'사후 해석(Post-hoc analysis)'의 위험을 내포합니다.

이 역시 예비연구로써

다양한 가능성을 탐색하기 위해 허용된 것이지,

엄밀한 효능평가는 아닙니다.

4) 연구 프로토콜 사전 등록 누락

연구 시작 전 분석 계획을

공인 기관에 등록하지 않았습니다.

때문에 Diep등 [각주:5]

 '보고된 결과 선택 편향(D5)' 영역에서

'일부 우려' 판정을 내렸습니다.

5) 측정 편향(Measurement Bias) 위험

통증관련이니 VAS를 이용하는 것은

어쩔 수 없습니다.

때문에 이를 보완하기 위해 많은 노력이 필요한데요,

침치료 연구 같은 경우

'가짜침'을 개발하려고 노력한다거나,

하다 못해 '평가자'라도 맹검하려고 노력합니다.

하지만 Kang의 연구에서는,

주관적 지표인 VAS 등을 측정하면서

평가자에게 피험자의 할당 그룹을 은폐시켰다는

선언이 없습니다.

그래서, '결과 측정 편향(D4)' 영역에서

'높은 위험(High Risk)' 판정을 받았습니다.

 

물론 이는 해당 연구자들이

특별히 잘못한 것은 아닙니다.

그저 '예비연구'로써의

보편적인 약점이지요.

초록등에서 좀 확정적 어조를 내보였지만,

인간 연구자라면,

'데이터'를 가지고 판단했을 것입니다.

따라서,

만약 사람이 제가 한 질문에 직면했다면,

"양질의 RCT 연구는 미흡하고,

아직 결론을 내리기 힘들다[각주:6]"

라고 대답했을 것입니다.

그러나 AI는

과도하게 확고하게 말하는 예비연구를 토대로

지나치게 확고한 결론을 내린 것입니다.

 

3. Consensus의 한계 

그렇다면 왜 AI 기반 논문 검색 도구는

이 논문을 고품질의 '대표 RCT'로 분류했을까요?

저는 관련 AI 전문가는 아니지만,

다음과 같이 생각합니다.


1)형식 중심의 분류 오류

AI는 논문 내의 'Randomized', 'Trial', 'Control' 등의

키워드와 설계 형식을 보고 이를 RCT로 분류하지만,

그 설계가 얼마나 부실한지(High risk of bias)에 대한

질적 평가(Quality Assessment) 능력은 여전히 부족합니다.

저자들은 서론에서 명백히 예비연구임을 밝혔지만,

제목에는 명시되지 않았기에,

이러한 오류가 생겼다고 생각합니다.

 

2)초록(Abstract)의 긍정 편향

Kang 등의 논문 초록은 예비연구임에도 불구하고,

"초음파 유도 주사가 더 유용하다"라고

매우 단정적이고 긍정적인 결론을 내리고 있습니다.

(서론 부분에서 예비 연구임을 인정하고 있습니다)

AI는 논문의 전체를 평가하지는 못하기 때문에

초록에서의 이러한  '톤'을

신뢰도와 동일시하여

가중치를 부여했을 가능성이 높습니다.

3)비평적 데이터 연동 문제

전문가 집단의 체계적 문헌고찰(Systematic Review) 결과가

해당 논문의 개별 신뢰도 등급과 실시간으로 연동되지 않아,

비판받는 논문을 여전히 우수 논문으로 추천하게 된 거 같습니다.

 

구로디지털단지 한의원 ❘ AI 그리고 전문가

 

전문가든 논문이든 AI든,

강력한 영향력을 발휘하기 위해

과도한 주장을 하는 경우는 종종있습니다.

따라서 우리는,

상대방의 '어조'가 아니라 '근거'를 

살펴야 합니다.

최근 '의사의 헛소리'라는 글을 소개해 드렸는데요,

이번 사례 역시,

'전문가의 과도한 선언'

그리고

'전문가의 선언을 신뢰한 AI'

가 과도한 결론을 내릴 수 있음을 보여주는

하나의 사례라고 봅니다.

 

 

첨언) 구로디지털단지 한의원에서,

'초음파 유도 약침'을 반대하는 것은 아닙니다.

다만 '초음파로 실시간으로 본다'는 것이

반드시 의미있을 만큼

더 안전하고 효과적이 되는 것은 아닙니다.

숙련된 한의사라면,

보지 않아도

꽤나 안전하고 효과적으로 치료하기 때문에,

그 차이를 확보하는게

결코 쉽지 않기 때문입니다.

따라서 구로디지털단지 한의원에서는,

추나치료나

초음파 유도 약침이

정말 환자분께 이득이 되게 하려면

언제 어떤 방식으로 권유되어야 할지

고민하면서 치료를 권유할 따름입니다.

오늘 소개해 드린 사건도,

그러한 확인 과정에서 발생한

사건에 불과합니다.

질환이 '근막통증증후군'만 있는 것도 아니고,

근막동통증후군에 한정하더라도,

아직 근거가 덜 확립된 것이지,

'효과가 부족하다'고 결론지을 문제도

결코 아닙니다.

  1. [Kang, J. J., Kim, J., Park, S., Paek, S., Kim, T. H., & Kim, D. K. (2019). Feasibility of Ultrasound-Guided Trigger Point Injection in Patients with Myofascial Pain Syndrome. Healthcare (Basel, Switzerland), 7(4), 118. https://doi.org/10.3390/healthcare7040118 [본문으로]
  2. 사람을 대상으로 하는 임상연구는, 윤리적 이유, 경제적 이유 등으로 엄밀하게 규정되어야 합니다. 너무 대상자가 적으면 의미가 없는 연구가 되고, 대상자가 많아지면 사람을 위험에 빠뜨릴 수가 있죠. 따라서 임상연구가 정당한지, 어떤 점을 평가해야 할 지, 어느 규모로 연구해야 할 지 등을 조사하기 위해 예비연구를 시행합니다. 달리 말하며 예비 연구는 그 자체로 효과 유무를 판정할 수 없습니다. 우연히 효과가 있다고 나오거나 반대로 우연히 효과가 없다고 나올 수 있기 때문입니다. [본문으로]
  3. Diep, D., Chen, K. J. Q., & Kumbhare, D. (2021). Ultrasound-guided interventional procedures for myofascial trigger points: A systematic review. Regional Anesthesia & Pain Medicine, 46(1), 73–80. https://doi.org/10.1136/rapm-2020-101898 [본문으로]
  4. '연구 한계'를 언급할 때 조차, 예비 연구의 한계를 언급하지 않습니다. 전문가라면 그 의미를 알겠지만, AI는 이러한 확신에 찬 어조를, 진정한 고품질의 근거로 오해한 것 같습니다.

    [본문으로]

  5. Diep, D., Chen, K. J. Q., & Kumbhare, D. (2021). Ultrasound-guided interventional procedures for myofascial trigger points: A systematic review. Regional Anesthesia & Pain Medicine, 46(1), 73–80. https://doi.org/10.1136/rapm-2020-101898 [본문으로]
  6. 가령 앞서 소개해 드린 Diep등은, "임상적 유의성의 한계, 작은 표본 크기, 효과 크기(point estimate)의 규모가 작다는 문제로 인해, 초음파 유도 주사의 잠재적 가치를 보다 명확히 규명하기 위해서는 고품질의 추가 연구가 필요"라고 말하고 있습니다."The value of US-guided interventions remains unclear for treatment of MPS. Although there is some evidence that pain and functional outcomes are improved with the addition of US-guidance, issues with clinical relevance, limited sample sizes, and small point estimates warrant more high-quality research to validate and build on current findings." [본문으로]