Objective: This observational, cross-sectional study evaluated the responses of three artificial intelligence–powered chatbots (ChatGPT, Gemini 3, and Microsoft Copilot) to the Hypertension Knowledge-Level Scale in terms of information quality, reliability, and readability.
Methods: On January 15, 2026, all scale items were entered into the three chatbots. The responses were evaluated by 11 experts specializing in internal medicine nursing using the Ensuring Quality Information for Patients (EQIP) and DISCERN tools. Readability was assessed using the Average Reading Level Consensus (ARLC) calculator.
Results: A statistically significant difference was found among the chatbots in EQIP scores (p=0.040), with Gemini 3 achieving the highest quality score (55.00±13.23) and Microsoft Copilot the lowest score (42.13±18.41). DISCERN scores also differed significantly among the groups (p<0.001), with ChatGPT demonstrating the highest information reliability (57.42±8.19). Readability levels were similar across the chatbots and were generally difficult to read.
Conclusion: AI-powered chatbots have notable potential to support patient education in hypertension; however, due to limitations in content accuracy, reliability, and readability, they are not sufficient as standalone tools in nursing practice. Their use should be guided and supervised by nurses and supported by further multicenter experimental studies evaluating patient outcomes.
Keywords: Artificial intelligence, ChatGPT, hypertension, nursing, patient education.
Amaç: Bu araştırma, üç farklı yapay zekâ destekli sohbet robotunun (ChatGPT, Gemini 3 ve Microsoft Copilot) Hipertansiyon Bilgi Düzey Ölçeği (HİB-DÖ) maddelerine verdikleri yanıtların bilgi kalitesi, güvenilirlik ve okunabilirlik açısından değerlendirilmesi amacıyla gözlemsel ve kesitsel bir araştırma olarak gerçekleştirildi.
Yöntem: Araştırmada, 15.01.2026 tarihinde Hipertansiyon Bilgi Düzey Ölçeği’nin (HİB-DÖ) her bir maddesi üç farklı yapay zekâ destekli sohbet robotuna girilerek yanıt vermesi istendi. Her ölçek maddesine verilen yanıtlar, iç hastalıkları hemşireliği alanında uzman hemşireler ve akademisyenlerden oluşan 11 uzmanın görüşüne sunuldu. Uzmanlardan, yapay zekâ destekli sohbet robotları tarafından verilen yanıtları Ensuring Quality Information for Patients (EQIP) ve DISCERN Uzman Görüşleri Değerlendirme Formu ile değerlendirmeleri istendi. Ayrıca, her ölçek maddesine verilen yanıtlar Average Reading Level Consensus (ARLC) hesaplayıcısı kullanılarak okuma güçlüğü açısından değerlendirildi.
Bulgular: EQIP puanları açısından üç sohbet robotu arasında istatistiksel olarak anlamlı fark saptandı (p=0,040). En yüksek kalite puanının Gemini 3’e ait olduğu bulunurken (55,00±13,23), en düşük yazılı kalite puanı Microsoft Copilot’ta görüldü (42,13±18,41). DISCERN puanları bakımından gruplar arasında istatistiksel olarak yüksek düzeyde anlamlı fark bulundu (p<0,001). ChatGPT, bilgi güvenilirliği açısından en yüksek ortalamaya sahipti (57,42±8,19). ARLC okunabilirlik düzeyi açısından üç sohbet robotunun yanıtları benzer düzeydeydi ve genel olarak zor okunur nitelikteydi.
Sonuç: Yapay zekâ destekli sohbet robotlarının hipertansiyon gibi kronik hastalıklarda hasta eğitimini destekleyebilecek önemli bir potansiyele sahip olduğu, ancak içeriklerin doğruluğu, güvenilirliği ve okunabilirliği açısından hemşirelik uygulamalarında tek başına yeterli olmadığı görülmektedir. Bu nedenle, bu teknolojilerin hemşire rehberliği ve denetimi altında kullanılması, ayrıca etkinliğini ve hasta sonuçlarını değerlendiren çok merkezli deneysel çalışmalarla desteklenmesi önerilir.
Anahtar Kelimeler: Yapay zeka, ChatGPT, hipertansiyon, hemşirelik, hasta eğitimi.
Copyright © 2026 Turkish Journal of Cardiovascular Nursing
