Content of this journal is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.
OBJECTIVE: This study aims to assess the accuracy and clinical utility of artificial intelligence (AI) platforms in responding to questions related to penile fracture, a rare but urgent urological emergency.
MATRERIAL and METHODS: Twenty-five questions addressing key clinical aspects of penile fracture were submitted to four AI platforms: ChatGPT, Copilot, Gemini, and Perplexity. Two expert urologists evaluated each response across five domains –relevance, clarity, structure, utility, and factual accuracy– using a 5-point Likert scale. Inter-rater reliability was assessed using the intraclass correlation coefficient (ICC), and statistical comparisons were made using one-way ANOVA and Tukey’s post-hoc tests.
RESULTS: Copilot and ChatGPT scored highest overall, with mean scores of 4.90 and 4.89 respectively, while Perplexity scored significantly lower (4.68; p <0.001). Copilot also achieved the highest ratings in clarity and factual accuracy. Inter-rater reliability was high, and dimensional analysis confirmed the consistent superiority of Copilot and ChatGPT in clinical relevance and clarity.
CONCLUSION: While AI platforms –especially Copilot and ChatGPT– show promise in generating medically relevant content about penile fracture, limitations in factual accuracy and clinical specificity remain. Caution is advised in using these tools in urgent care settings without professional oversight.
AMAÇ: Bu çalışmanın amacı, yapay zekâ (YZ) platformlarının nadir ancak acil bir ürolojik durum olan penis fraktürü ile ilgili sorulara verdikleri yanıtların doğruluğunu ve klinik yararlılığını değerlendirmektir.
GEREÇ ve YÖNTEMLER: Penis fraktürüyle ilgili temel klinik konuları kapsayan 25 soru, dört YZ platformuna (ChatGPT, Copilot, Gemini ve Perplexity) yöneltilmiştir. Her yanıt, iki uzman ürolog tarafından beş puanlık Likert ölçeğiyle “ilgililik”, “anlaşılırlık”, “yapı”, “klinik yararlılık” ve “gerçeklik” başlıklarında değerlendirilmiştir. Değerlendiriciler arası uyum intraclass korelasyon katsayısı (ICC) ile ölçülmüş ve istatistiksel analiz için tek yönlü ANOVA ile Tukey post-hoc testleri kullanılmıştır.
BULGULAR: Genel ortalama puanlara göre Copilot (4,90) ve ChatGPT (4,89) en yüksek puanları almıştır. Perplexity’nin skoru anlamlı şekilde daha düşük bulunmuştur (4,68; p <0,001). Copilot, özellikle anlaşılırlık ve gerçeklik kriterlerinde en iyi puanları almıştır. Değerlendiriciler arası uyum yüksek bulunmuş ve boyutsal analiz, Copilot ve ChatGPT’nin klinik açıdan tutarlı şekilde üstün performans sergilediğini göstermiştir.
SONUÇ: Yapay zekâ platformları –özellikle Copilot ve ChatGPT– penis fraktürü hakkında tıbbi açıdan anlamlı içerikler oluşturma potansiyeline sahiptir. Ancak, tüm modellerde gözlenen gerçeklik ve klinik detay eksiklikleri, bu araçların acil klinik kararlarda profesyonel gözetim olmaksızın kullanılmaması gerektiğini göstermektedir.