700여 개 가설 평가서 거짓 판별 정확도 16.4%…동일 질문에도 답변 뒤바뀌는 현상 확인
생성형 인공지능 챗GPT가 과학적 사실 판단에서 기대보다 낮은 수준의 추론 능력과 일관성 문제를 보였다는 연구 결과가 나왔다. 사진=게티이미지뱅크
생성형 인공지능 챗GPT가 과학적 사실 판단에서 기대보다 낮은 수준의 추론 능력과 일관성 문제를 보였다는 연구 결과가 나왔다.
미국 워싱턴주립대의 메수트 치체크 교수팀은 챗GPT가 과학 논문에 기반한 가설을 정확히 판별할 수 있는지 평가하기 위해 실험을 진행했다.
연구진은 2021년 이후 비즈니스 학술지에 발표된 719개의 가설을 활용해 각 가설이 연구로 뒷받침되는지 여부를 '참 또는 거짓'으로 판단하도록 했다. 동시에 동일 질문을 10회 반복 제시해 응답의 일관성도 함께 분석했다.
그 결과, 챗GPT의 표면적 정답률은 2024년 77%, 2025년 80%로 나타났다. 그러나 무작위 추측(정답 확률 50%)을 보정하자 실제 성능은 우연 수준보다 약 60% 높은 정도에 그쳤다. 연구진은 이를 높은 신뢰도로 보기 어렵다고 평가했다. 특히 '거짓' 진술을 판별하는 능력이 크게 떨어져 정확도는 16%에 불과했다.
응답의 일관성 문제도 확인됐다. 동일한 질문을 10번 반복했을 때 일관된 답을 유지한 비율은 약 73%에 그쳤다. 같은 질문에도 '참'과 '거짓'을 번갈아 제시하는 사례가 다수 관찰됐으며, 일부 가설에서는 10번 중 5번은 참, 5번은 거짓으로 답변이 나뉘기도 했다.
연구진은 이러한 결과가 생성형 AI의 구조적 한계를 반영한다고 설명했다. 챗GPT는 문장을 유창하게 생성할 수 있지만, 복잡한 맥락과 다변수 요소를 고려한 논리적 판단에서는 제한된 성능을 보인다는 것이다.
특히 과학적 가설처럼 다층적 해석이 필요한 문제를 단순한 참·거짓으로 환원하는 과정에서 오류 가능성이 커지는 것으로 분석됐다.
치체크 교수는 "문제는 단순한 정확도가 아니라 일관성"이라며 "같은 질문에도 서로 다른 답이 나온다는 점은 신뢰성 측면에서 중요한 한계"라고 지적했다.
이어 "현재의 AI는 인간처럼 개념적으로 이해하는 것이 아니라 학습된 데이터를 기반으로 답을 생성할 뿐"이라고 설명했다.
이번 연구 결과는 ⟪Rutgers Business Review⟫에 게재됐으며, 연구진은 복잡한 판단이 요구되는 분야에서 AI 활용 시 검수 절차가 필수적이라고 강조했다. 또한 기업 및 의사결정자들이 AI 결과를 그대로 수용하기보다 비판적으로 해석하고 활용해야 한다고 제언했다.