Artificial intelligence responses to penile fracture: assessing accuracy and clinical utility

Hacıbey, Ibrahım; Halis, Ahmet

pdf

Volume: 28 Issue: 1 Year: 2026

28/1Current Issue Archive Most Accessed Articles

INDEXES

Content of this journal is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

Artificial intelligence responses to penile fracture: assessing accuracy and clinical utility []

. 2025; 27(3): 150-154 | DOI: 10.24898/tandro.2025.56244

Artificial intelligence responses to penile fracture: assessing accuracy and clinical utility

Ibrahım Hacıbey¹, Ahmet Halis²
¹Basaksehir Çam and Sakura City Hospital, Department of Urology, Istanbul, Türkiye
²Yedikule Chest Diseases and Chest Surgery Training and Research Hospital, Department of Urology, Istanbul, Türkiye

OBJECTIVE: This study aims to assess the accuracy and clinical utility of artificial intelligence (AI) platforms in responding to questions related to penile fracture, a rare but urgent urological emergency.
MATRERIAL and METHODS: Twenty-five questions addressing key clinical aspects of penile fracture were submitted to four AI platforms: ChatGPT, Copilot, Gemini, and Perplexity. Two expert urologists evaluated each response across five domains –relevance, clarity, structure, utility, and factual accuracy– using a 5-point Likert scale. Inter-rater reliability was assessed using the intraclass correlation coefficient (ICC), and statistical comparisons were made using one-way ANOVA and Tukey’s post-hoc tests.
RESULTS: Copilot and ChatGPT scored highest overall, with mean scores of 4.90 and 4.89 respectively, while Perplexity scored significantly lower (4.68; p <0.001). Copilot also achieved the highest ratings in clarity and factual accuracy. Inter-rater reliability was high, and dimensional analysis confirmed the consistent superiority of Copilot and ChatGPT in clinical relevance and clarity.
CONCLUSION: While AI platforms –especially Copilot and ChatGPT– show promise in generating medically relevant content about penile fracture, limitations in factual accuracy and clinical specificity remain. Caution is advised in using these tools in urgent care settings without professional oversight.

Keywords: artificial intelligence, clinical accuracy, emergency medicine, large language models, penile fracture, urology

Penil fraktüre yönelik yapay zekâ platformlarının verdiği yanıtların doğruluğu ve klinik kullanılabilirliğinin değerlendirilmesi

Ibrahım Hacıbey¹, Ahmet Halis²
¹Başakşehir Çam ve Sakura Şehir Hastanesi
²Yedikule Göğüs Hastalıkları ve Göğüs Cerrahisi Eğitim ve Araştırma Hastanesi

AMAÇ: Bu çalışmanın amacı, yapay zekâ (YZ) platformlarının nadir ancak acil bir ürolojik durum olan penis fraktürü ile ilgili sorulara verdikleri yanıtların doğruluğunu ve klinik yararlılığını değerlendirmektir.
GEREÇ ve YÖNTEMLER: Penis fraktürüyle ilgili temel klinik konuları kapsayan 25 soru, dört YZ platformuna (ChatGPT, Copilot, Gemini ve Perplexity) yöneltilmiştir. Her yanıt, iki uzman ürolog tarafından beş puanlık Likert ölçeğiyle “ilgililik”, “anlaşılırlık”, “yapı”, “klinik yararlılık” ve “gerçeklik” başlıklarında değerlendirilmiştir. Değerlendiriciler arası uyum intraclass korelasyon katsayısı (ICC) ile ölçülmüş ve istatistiksel analiz için tek yönlü ANOVA ile Tukey post-hoc testleri kullanılmıştır.
BULGULAR: Genel ortalama puanlara göre Copilot (4,90) ve ChatGPT (4,89) en yüksek puanları almıştır. Perplexity’nin skoru anlamlı şekilde daha düşük bulunmuştur (4,68; p <0,001). Copilot, özellikle anlaşılırlık ve gerçeklik kriterlerinde en iyi puanları almıştır. Değerlendiriciler arası uyum yüksek bulunmuş ve boyutsal analiz, Copilot ve ChatGPT’nin klinik açıdan tutarlı şekilde üstün performans sergilediğini göstermiştir.
SONUÇ: Yapay zekâ platformları –özellikle Copilot ve ChatGPT– penis fraktürü hakkında tıbbi açıdan anlamlı içerikler oluşturma potansiyeline sahiptir. Ancak, tüm modellerde gözlenen gerçeklik ve klinik detay eksiklikleri, bu araçların acil klinik kararlarda profesyonel gözetim olmaksızın kullanılmaması gerektiğini göstermektedir.

Anahtar Kelimeler: yapay zeka, klinik doğruluk, acil tıp, büyük dil modelleri, penis fraktürü, üroloji

Corresponding Author: Ibrahım Hacıbey, Türkiye
Manuscript Language: English

CITE

Full Text PDF Download citation RIS EndNote BibTex Medlars Procite Reference Manager Send email to author Similar articles PubMed Google Scholar

(17 accesses)
(270 downloaded)

Quick Search

Artificial intelligence responses to penile fracture: assessing accuracy and clinical utility

Penil fraktüre yönelik yapay zekâ platformlarının verdiği yanıtların doğruluğu ve klinik kullanılabilirliğinin değerlendirilmesi