Acilci.net

Tanısal doğruluk (diagnostic accuracy) çalışmalarının temelleri

Yazılma zamanı 17/08/2020
Haldun Akoğlu

1

Uzun süredir yazdığım ama sürekli güncellenerek bitmeyen tanısal doğruluk çalışmalarına dair birkaç yazıdan oluşan bir seri kaleme alacağım. Bu ilk yazıda tanısal doğruluk çalışmalarının temellerinden bahsedeceğiz. Bu seride matematiksel hesaplamalar kısmına girmeyeceğim. Hesaplamalar kısmını son bir yazıya bırakacağım. Umarım faydalanırsınız.

Tanı testi nedir?

Tanısal testlerin temel ortak özelliği, bildirdiği sonucun yapısıdır: Belirli bir hastalık durumu lehine veya aleyhine iki seçenekli bir karar ya da öneri sunar. Ayırt edilecek bu iki hastalık durumu, klasik “hastalıklı” ile “hastalıksız” ayrımı olabileceği gibi, bir hastalığın çok müphem bir özelliği, bir fizik muayene bulgusu ya da bir mutasyonun varlığı veya yokluğu olabilir.

Hastalık varHastalık yok
ağır hastalıkhafif hastalık
Evre 2Evre 1
Lenf notu tutulumu varLN tutulumu yok
Reseptör pozitifReseptör negatif
Tümör >= 5 cmTümör < 5 cm
Mutasyon varMutasyon yok
Rebound varRebound yok
Tablo 1. Klasik iki seçenekli (dikotom) tanısal testin ayırt ettiği hastalık durumları

Tanısal test, tek bir belirti veya tek bir soru gibi çok basit prosedürlerden (Ağrınız karnın sol tarafında mı yoksa sağ tarafında mı?) birçok testin ardarda uygulanması ile tek bir sonuç elde edilen karmaşık algoritmalara kadar değişebilir.

Test tipiÖrnek
Belirtikarın ağrısı
SoruKarın ağrınız sağ tarafta mı?
Eşik değeri olan klinik ölçümAteş > 38,3 C
Eşik değeri olan lab parametresiTroponin T > 0,01 ng/ml
Görsel olarak yorumlanan görüntü Direk grafiğe pnömoni varlığı
Sayısal olarak ölçülen görüntüROI ile ölçülen kanama
Eşik değeri olan semptom skalasıPHQ-9: Hasta Sağlığı Anketinin depresyon alt ölçeği. Şiddetli depresyon için eşik değer: 20
Algoritma ile gen ekspresyonu ölçümüOncotype DX: Meme kanseri hastalarında adjuvan kemoterapiye yanıtın tahmini
Tablo 2. Tanısal test örnekleri

Genellikle, tanısal testler iki bileşenden oluşur: Bilgiyi elde etmek için bir tür teknik ölçüm prosedürü ve bir görüntünün yorumlanması gibi öznel unsurları içerebilen ikili bir sonuç bildirmek için bir tür karar veya karar verme kuralı.

Doğruluk, Duyarlılık, Özgüllük

Tanısal test hakkında sorabileceğimiz ilk temel soru şudur: Bu test, iki hastalık durumunu birbirinden ne kadar iyi ayırabiliyor? Buna testin doğruluğu (accuracy) adını veriyoruz. Elbette bu cevabı verebilmemiz için her hastanın gerçek hastalık durumunu belirlememize izin veren başka bir testimiz daha olması gerekiyor. Bu teste uzun yıllar boyunca altın standart adı verilmiş. Dolayısıyla, herhangi bir doğruluk çalışmasının temel fikri, hem ilgilenilen testi hem de altın standardı bir gruba uygulamak ve ilgilenilen testin altın standarda göre doğruluğunu hesaplamaktan geçiyor. Yani her bir hastalık durumunda (Tablo 1, mesela reseptör pozitif ve negatif) ilgilenilen testin altın standarda göre doğru sonuç verme yüzdelerini hesaplıyoruz. Bu iki sayıyı sizler duyarlılık (sensitivity) ve özgüllük (specificity) olarak biliyorsunuz.

Duyarlılık, hasta olanlar arasında “hastalıklı” olarak sınıflandırılan deneklerin yüzdesi; Özgüllük, hastalığı olmayanlar arasında “hastalıksız” olarak sınıflandırılan deneklerin yüzdesidir. Dolayısıyla, her iki hastalık durumunda testin ne kadar doğru olduğunu gösterirler.

Fayda çalışmaları

Daha geniş bir perspektiften bakıldığında, doğruluk kavramı önemli bir yönden yoksundur: bu testin hastalar için faydası. Bir testin çok yüksek doğruluğa sahip olması, hastalar için bu testin çok faydalı olduğu manasına gelmeyebilir. Burada esas fayda, test sonucunun tedavi kararlarını, hasta yönetimini ve tedavi sonucunu değiştirmesi olacaktır. Buna örnek olarak yaşlı ve komorbiditesi yüksek hastalarda subsegmenter pulmoner emboli tanısı için BT anjiyografi testinin yapılmasını verebiliriz. Komorbiditelerden ya da düşme riskinden ötürü kumadin vb ilaçları alamayacak olan, ve zaten hareketsizlik nedeniyle DMAH profilaksisi endike bir hastada BT anjiyografi ile subsegmenter pulmoner emboli tanısı konulması hasta yönetimini değiştirmez, tedaviye ve hastaya herhangi bir katkı sağlamaz. Yüksek doğruluk ancak hastaların daha iyi yönetimi ile sonuçlanırsa faydalı bir testten bahsedebiliriz.

Günümüzde fayda, hem kılavuz geliştiriciler için hem de testlerin ücretini ödeyen sigorta şirketleri ve SGK gibi kurumlar için anahtar bir kavramdır. Bu nedenle, bir testin kullanıma alınması ve ödenek sağlanması için yüksek doğruluğa sahip olduğunun gösterilmesi yetmez, hastaya fayda da sağladığının ispatlanması gerekir. Bu ihtiyaç hastalar için doğrudan faydayı değerlendirmeye çalışan farklı bir tanısal çalışma türünün geliştirilmesine vesile olmuştur. Özellikle, çeşitli fayda ölçeklerini içeren hasta merkezli sonuçları kullanarak iki farklı tanısal testi doğrudan karşılaştıran, randomize kontrollü çalışmalar (RKÇ’ler) yapılmaya başlanmıştır. Bu RKÇ’ler şu soruyu yanıtlamaya çalışır: A tanısal testi yerine B tanısal testinin kullanılması hastaların genel sağkalımını iyileştirir mi? Dolayısıyla, tanısal doğruluk (diagnostic accuracy) çalışmalarından bahsederken aynı zamanda fayda (benefit) çalışmalarından da aslında bahsediyoruz.

Daha geniş bir fayda perspektifinden baktığımızda, tek bir tanısal test kavramının ötesine geçen teşhis yaklaşımlarını araştırmamız mümkün hale gelmektedir. Artık günümüzde BT veya MR gibi tek bir görüntüden yola çıkarak ameliyattan radyasyon tedavisine kadar çeşitli seçeneklere hasta ile beraber karar veriyor, hastayı hastalığıyla ilgili bilgilendiriyoruz. Doğruluk, tek bir görüntünün tüm bu sonuçlara etkisini ölçebilen bir kavram olamayacak kadar zayıf iken fayda hepsini karşılayan daha geniş bir tanım olarak öne çıkıyor.

Örneğin, bir kanser tedavi sürecinde karar verme ve bilgilendirme amaçlarıyla defaten kullanılan PET BT ve MR tetkiklerinin faydalarını RKÇ ile karşılaştırabiliriz. Tek bir tanısal testin ötesine geçen bu tür genel yaklaşımlar için “tanısal test” yerine “tanısal prosedür” terimi kullanılır. Tıpkı tanısal bir testin doğruluğu ve faydası gibi tanısal bir prosedürün de doğruluğu ve faydası ölçülebilir. Aslında prosedür kelimesi ile çeşitli tanısal test ve tedavi seçeneklerinden oluşan bir paketten bahsetmekteyiz. Tanı ve tedavi arasındaki bu güçlü ve ayrılmaz ilişki, her ikisinin beraber değerlendirildiği bir yeni çalışma grubunu da doğurmuştur. Ancak bu birleşim yalnızca iki olası durumdan (“pozitif” ve “negatif”) daha fazlasını, bir de “belirsiz” ara bir seçeneğin kullanılması gerektirmektedir.

Tanısal doğruluk çalışmaları dizaynında temel kavramlar

Bir çalışmanın sonuçlarının klinik rutine genellenebilir olması veya en azından hangi dereceye kadar genelleştirilebilir olduğuna karar verilebilmesi bazı temel sorulara yanıt verilmesini gerektirir:

  • Test nasıl yapıldı?
  • Testi hangi popülasyonda uyguladık?
  • Altın standardı gerçekte neyi ölçüyor?
  • Doğruluğu tanımlamak için hesapladığımız sayıların klinik uygulamayla ilişkisi ne?

Bu sorular kullanılan çalışma tasarımından bağımsız olarak yanıtlanması gereken sorulardır ve büyük ölçüde fayda çalışmaları için de geçerlidirler.

Hedef durum, Altın standart, Referans Test

Hedef durum

Ayırmak istediğimiz iki hastalık durumundan genellikle biri bizim ana ilgi odağımızdır. Bu duruma “hedef durum” diyoruz, örneğin bir hastalığın varlığı veya metastazların varlığı. Tanısal testin amacı zaten hedef durumu belirlemek olduğundan hedef durumu iyi tanımladığımızı düşünürüz. Ancak hem hedef durumun var olduğuna, hem de hedef durumun var olmadığına karar verilmesi ve tanımlanması gerekmektedir. Aslında, çoğu zaman hedef durumun varlığı ile yokluğu arasında bir yerlerde olan hastalarımız vardır. Örneğin, hedef durum “miyokard enfarktüsü”, göğüs ağrısı olmayan “sessiz” miyokard enfarktüslerini de içermeli mi, trombolitik tedavi ile tersine çevrilen ve önlenmiş koroner trombozlar da sayılmalı mı?

Hafif ile şiddetli arasında değişen bir yelpazeye sahip bir hastalığımız (veya hastalık durumumuz) varsa, o zaman hedef durumun tanımlanması için bir eşik değer seçilmesi gerekir. Böyle bir eşik değer, obezite (Vücut Kitle İndeksi (BMI)> 30) veya hipertansiyon (kan basıncı> 140/90 mmHg) durumunda olduğu gibi tek bir sayısal değer olabilir. Her durumda, sonunda hedef durumun varlığı ve yokluğu için net bir kavramsal tanıma ihtiyacımız vardır.

Altın standart

Ardından bir altın standarda, yani her hastada hedef durumun varlığını veya yokluğunu belirlememizi sağlayan bir teste ihtiyacımız var. İlk bakışta böylesi bir altın standardın varlığı mantığa aykırı gibi görünüyor: Zaten mükemmel bir testimiz varsa neden yeni bir tanısal testi değerlendirelim ki? Birçok altın standart gerçek hastalık durumunu genellikle çok geç belirleyebilmektedir. Örneğin, Parkinson hastalığının alt tipleri, hasta öldükten sonra beynin incelenmesi ile belirlenebilir. 1979 WHO miyokard enfarktüsü kriterleri esas olarak 24 saatlik EKG sonuçlarına dayanmaktadır, ancak bize göğüs ağrısı kendisini gösterir göstermez tedaviye başlamamızı sağlayacak hızlı bir test gereklidir. Bir diğer altın standart da, klinik rutinde uygulanması mantıklı olmayan ama bir araştırma esnasında haklı sayılabilecek daha invazif girişimlerdir. Örneğin, anatomik yapıları belirlemeye çalışan bir görüntüleme testi ancak ameliyatla doğrulanabilir, ancak zaten görüntülemenin amacı tanı amacıyla bu tür ameliyatların yapılmasından kaçınmaktır.

Altın standartlarının varlığına dair bu teorik tartışmalara rağmen mükemmel altın standartlar oldukça nadirdir. Bunun bir sebebi de hedef durumu tanımlamayla ilgili yukarıda bahsettiğimiz zorluklardan kaynaklanır: Yokluk ve mevcudiyet arasındaki sınırda her zaman bazı hastalarımız vardır. Örneğin, 2000 yılı miyokard enfarktüsü WHO kriterleri “troponinde tipik bir yükselme ve kademeli düşüş veya CK-MB’de daha hızlı bir yükselme ve düşüş” gerektirir. Bu harikulade tanım tipik yükselmenin ya da kademeli düşüşün ne olduğunu, hızlı mı yavaş mı olduğunu belirlemeyi gerektirir. Ama bu çok da bariz olmayan tanım yüzünden tartışılabilir durumda arada kalan birçok hastamız olacaktır.

Altın standardın tam ve gerçek olmamasının bir başka nedeni de, tanısal testin sonucunu bildiğimizde hastanın yönetiminin değişmesidir. Hastanın yönetimi değişince de ilgilendiğimiz testin sonuçlarını da gerçek anlamda doğrulayamayabiliriz. Uç bir örnek olarak, bir tümörün ameliyatla çıkarılıp çıkarılamayacağını belirleyen bir tanısal testi düşünelim. Test pozitif ise ameliyat yapılır ve cerrah tümörün aslında çıkarılıp çıkarılamayacağını doğrulayabilir. Test negatifse, ameliyat yapılmaz ve gerçek durumu asla bilemeyiz.

Neyse ki çoğu zaman durum bu kadar hayati değildir. Pozitif ve negatif test sonuçlarını ardışık bazı prosedürler yardımıyla onama şansına genelde sahip oluruz. Tetkik ve tedaviler sonucunda öyle bir nokta gelir ki artık hastalık durumu kesin olarak vardır ya da yoktur denilebilir. Burada durumun varlığı ya da yokluğunu onaylama bazen takip, bazen bir ameliyat sonucu, bazen de tedaviye yanıt ile olabilir. Elbette bu yaklaşımın da eksikleri vardır. Hastanın takip esnasında hastalığı geliştirmemesi hastalığının kendi kendine geçtiği manasına da gelebilir.

Referans Standart ve Referans Test

Altın standartlarların mükemmel olmaması yüzünden son yıllarda referans standart ya da referans test kavramı kullanılmaya başlanmıştır. Referans standardı, bugün mümkün olan en iyi klinik uygulama olarak tanımlayabiliriz. Referans standart, örneğin, test negatif hastalarda takip ve ek laboratuar testleri ya da test pozitif hastalarda klinik doğrulama gibi farklı bilgi kaynaklarının birleştirilmesine dayanır. Bilimin genelleştirilebilirlik ve tekrarlanabilirlik ilkeleri gereği referans test mümkün olduğu kadar ayrıntılı tanımlanmalı ve yayında da açıklanmalıdır.

İndeks Test

Tanısal doğruluk çalışmalarında, değerlendirmek istediğimiz testi referans testinden ayırmak için indeks test olarak adlandırırız. Çalışmanın genelleştirilebilirliğini sağlamak için, indeks test mevcut çalışma dışındaki hastalarda da aynen uygulanabilecek şekilde ayrıntılı ve standart biçimde tanımlanmalıdır.

Çoğu tanısal testin teknik bir uygulama prosedürü vardır. Bu teknik bölümde kullanılan alet veya kitin ve üreticisinin tam adına atıfta bulunabiliriz, böylece tekrarlanabilirlik sağlanmış olur. Bu kısımda net şekilde tanımlamamız gereken bazı ek teknik parametreler de olabilir. Örneğin, kullanılan kan miktarı veya görüntüleme süresi gibi. Buna rağmen hastanın ölçüme nasıl hazırlandığı (araştırmadan önce oruç tutma, hastanın fiziksel olarak nasıl görüntüleme cihazına yerleştirildiği vb.), prosedürün günün hangi saatinde uygulandığı veya başka testler yapılıp yapılmadığı gibi birçok değişken halen etki etmeye devam edecektir. Tüm bu noktalarda standardizasyon sağlanabilmesi için ayrıntılı tanımlama yapılmalıdır.

Tüm bu tanımlamalara rağmen çoğu test subjektif bileşenler içermeye devam eder. Görüntülerin yorumlanması, karar verme kuralında puanlamadan önce semptomların derecelendirilmesi gerekir. Bu tür subjektif öğeler, doğruluk çalışmalarının sonuçlarının genelleştirilebilirliğini kısıtlayan etmenlerdir. Özellikle, bir doğruluk çalışmasında tüm testleri yalnızca bir kişi gerçekleştiriyorsa (ve bu kişi testle ilgili olağanüstü deneyime sahipse), sonuçların rutin klinik koşulları karşılamadığını söyleyebiliriz.

Doğruluk çalışmalarının genelleştirilebilirliği üzerinde subjektif unsurların etkisini azaltmanın birkaç yolu vardır.

  • İlk olarak, testlerin, klinik rutinde bu testi kullanacak tipik kullanıcıların özelliklerine benzer birkaç denek tarafından yapılmasını sağlayabiliriz. Bu tipik özellikler, uzmanlık dalı, eğitim düzeyi (yılı) veya mesleki deneyim süresi olabilir. Böylece test pratikte uygulanacağı şekilde bir ortamda denenmiş olacaktır.
  • İkinci seçenek, son derece kapsamlı ve birçok örnek içeren ayrıntılı kılavuzlar yazıp, bu testi uygulayacak kişiler tarafından kullanılmak üzere kamuya açık şekilde yayınlamak olabilir.
  • Üçüncü seçenek, doğruluk çalışmasına testi uygulayacak kişilerin eğitimlerini de dahil etmektir. Böylece çalışmanın sonucu, bu düzeyde eğitim verilen kişilerin testi uyguladığı durumda testin doğruluğunu ifade edecektir. Verilen eğitim ayrıntılı olarak açıklanmalı, hatta eğitim içeriği kamuya açık şekilde paylaşılmalıdır.
  • Dördüncü, ancak daha sorunlu bir yaklaşım ise her hastanın sonucunun birkaç farklı kişi tarafından yorumlanması ve bu kişilerin ortak fikrinin sonuç yerine kullanılmasıdır. Bu uygulama testin doğruluğunu olduğundan fazlaymış gibi gösterebilir. Klinik rutinde sonuçlar yalnızca bir kişi tarafından değerlendirildiği takdirde ise daha az güvenilir bir test uygulanmış olacaktır.

Hedef durum, Hedef Popülasyon, Çalışma Popülasyonu

Bir testin doğruluğu sabit değildir. Tanısal testin uygulandığı popülasyonun yapısına bağlıdır. Neredeyse tüm hastalık durumlarında teşhis edilmesi kolay ve teşhis edilmesi zor deneklerimiz vardır.

Teşhis edilmesi kolay denekler,

  • hedef durumun mevcut olduğu çok bariz semptomları olan ve
  • hedef durumun mevcut olmadığı kesinlikle hiçbir semptom göstermeyen kişilerdir.

Teşhis edilmesi zor olan denekler,

  • hedef durumun mevcut olduğu, ancak çok az veya belirsiz semptomlar sergileyenler ile (örneğin, çok erken bir aşamada olan ya da uzun yıllardır hastalıktan muzdarip olup adapte olan hastalar)
  • hedef durumun bulunmadığı, ancak belirti gösteren kişilerdir (örneğin, hedef duruma benzer farklı bir hastalığı olanlar).

Popülasyondaki hastaların teşhis zorluğu ile o popülasyonda uygulanacak olan testin doğruluğu arasında basit bir ilişki vardır: Mükemmel bir test olmadığı sürece bir popülasyonda teşhis edilmesi zor olan denekler ne kadar fazlaysa, testin doğruluğu o kadar düşük olur.

Bir örnekle açıklayalım: solunum sıkıntısının kalp yetmezliğinden kaynaklanıp kaynaklanmadığı ayrımında kullanılabilecek olan NT-pro-bnp testinin değerini acil servis kırmızı alanına başvuran hastalarda ölçersek orta kuvvette bir test olduğunu görürüz. Çünkü buraya başvuran hastalar arasında kalp yetmezliği olup da (travma gibi) başka bir şikayet ile gelenler de, kalp yetmezliği olmadan NT-pro-bnp yüksekliği görülebilen hipertiroidi, siroz ya da KT almış hastalar da bulunacak ve tanı testinin değeri düşecektir. Aksine, bu tip hastaların rutin başvuru yapmadığı bir aile hekimliği polikliniğinde bu testin tanısal doğruluğu çok daha yüksektir.

Bir doğruluk çalışmasının hasta popülasyonunun seçiminde 3 ardışık adım vardır: Hedef durumun seçimi, hedef popülasyonun seçimi ve son olarak çalışmaya katabileceğimiz gerçek çalışma popülasyonu. Belirli bir tanısal testin doğruluğunu incelerken, genellikle bu testin tanısal süreçte belirli aşamaları kat etmiş bir hasta grubundaki değerini incelemekten bahsediyoruzdur. Belirli kriterler ve özelliklerle tanımlayabileceğimiz çeşitli aşamalardan geçilerek gelinen bu klinik duruma hedef durum diyoruz. Örneğin, hedef popülasyonu aşağıdaki gibi özelliklerle sahip hedef durumdaki hastalar olarak tanımlayabiliriz:

  • yeni teşhis edilmiş prostat kanseri
  • kemik metastazı yok
  • küratif tedavi planlanına alınmış
  • Gleason skoru> 6 ve / veya PSA konsantrasyonu 10 ng / mL ve / veya T3 kanser

İlk bakışta, hedef duruma ulaşan tüm hastalarda testin doğruluğunun araştırılması mantıklıymış gibi görünebilir. Ancak toplumda, klinik olarak birbiri ile ilgili olsa da testin doğruluğunun önemli ölçüde değişiklik gösterdiği çok farklı alt gruplar olabilir.

Bir doğruluk çalışmasında, klinik seyri hedef duruma uyan tek bir hedef popülasyona odaklanılması mantıklıdır. Amacımızı hatırlayalım: Klinisyenleri ve hastaları, testi uygularlarsa / test onlara uygulanırsa bekleyebilecekleri doğruluk konusunda bilgilendirmek. Bu bilgiyi verebilmemiz için hedef popülasyondaki her hasta için testin doğruluğunun homojen ve denk olması gereklidir. Örneğin, yıllardır semptomlardan muzdarip hastalarla, yakın zamanda semptom geliştiren hastaları karıştırmamak gerekir. Doğruluk bu iki hasta grubunda birbirinden belirgin derecede farklı olacaktır, klinisyenlerin veya hastaların yanlış bilgilendirilmesi riski yüksektir. Bu nedenle semptomların süresi veya ciddiyeti, genellikle bir çalışmanın hedef popülasyonunu tanımlamak için yararlı özelliklerdir. Hastaların alındığı klinik de (acil servis ya da yoğun bakım gibi) homojen bir toplum sağlamak için bazen faydalı olabilir.

Çalışma popülasyonu

İdeal durumda, bir doğruluk çalışmasına dahil edilecek çalışma popülasyonu, hedef popülasyonun rastgele veya en azından ‘temsili’ bir örneği olmalıdır. Çalışma popülasyonu ile hedef popülasyon arasında iyi bir uyum sağlamak bazen çok kolay olur. Örneğin, acilde apandisit teşhisi için sonografinin doğruluğunu belirlemekle ilgileniyorsak, çalışmaya katılmaya istekli birkaç acil tıp hekimi yeterli olabilir. Apandisit semptomları gösteren hastaların, farklı acil tıp hekimleri arasında teşhis koyma zorluğu açısından önemli ölçüde farklılık göstermediğini varsaymak makul görünmektedir. Ancak aynısı mesela REBOA uygulaması açısından geçerli değildir. Burada, hekimlerin bu konuda bilgi ve becerisi büyük ölçüde farklı olacağından doğruluk çalışmasına dahil edilecek hekimlerin seçimine bağlı olarak, doğruluk değişecektir.

Çalışma popülasyonunun seçimindeki bir başka önemli nokta, hedef popülasyondaki her hastanın çalışmaya katılma şansının eşit olmasının sağlanmasıdır. Bunun için en iyi yol ardışık tüm hastaları çalışmaya almaya çalışmaktır. Hekimin indeks test sonucuna göre referans test uygulamaya karar vermesi gibi hedef durum özelliklerini bozan yaklaşımlardan kesinlikle kaçınılmalıdır.

Tanısal Araştırmaların Evreleri

Doğruluk ve fayda çalışmaları, tanısal araştırmalarda en öne çıkan çalışmalardır, ancak başka çalışma tipleri de vardır. Bir tanısal testin geliştirilmesinde doğruluk ve fayda çalışmaları sürecin sadece birer parçasını oluştururlar.

Her yeni tanısal test yeni bir yaklaşım fikri ya da hastalık durumuna dair yeni bir soru ile başlar. Bu fikir sayesinde tanısal test olarak kullanılacak kit, laboratuvar testi, görüntüleme, fizik muayene bulgusu, anket ya da klinik karar verme kuralının hazırlanma ya da eskisinden geliştirme süreci başlamış olur. Bu süreçte birden fazla küçük deneysel çalışma ya da validasyon analizleri yapılarak bu enstrümanın öncelikle geçerliliği sağlanır.

Geliştirilen test ya da enstrüman sübjektif bir bileşen içeriyorsa, bu sübjektifliğin test sonuçları üzerindeki etkisinin sınırlı derecede olup olmadığını kontrol etmek gerekir. Aksi takdirde, farklı deneklerin testi uygulayacağı klinik rutin uygulamalar esnasında yüksek bir doğruluk bekleyemeyiz. Burada tekrarlanabilirlik çalışmaları (reproducibility studies) uygulanır: farklı test uygulayıcısı deneklerin bir dizi hastada aynı test sonuçlarını elde edip etmediklerini (gözlemciler arası değişkenlik – interobserver variability) ve aynı test uygulayıcısı deneğin bir dizi hastada hep aynı test sonuçlarını elde edip etmediğini (gözlemci içi değişkenlik – intraobserver variability) kontrol ederiz. Bu tür çalışmaların analizinde, uyum sınırları (limits of agreement) ve sınıf içi korelasyon katsayısı (intraclass correlation coefficient) veya Cohen’in kappası (Cohen’s Kappa) gibi istatistiksel yöntemlerden yararlanabilir. Tekrarlanabilirlik çalışmaları, yalnızca yeterli bir tekrarlanabilirliği göstermek için değil, aynı zamanda, uygulayıcı/gözlemcilerin arasındaki eğitim farkını veya türünü değiştirerek, yeterli tekrarlanabilirlik koşullarını optimize etmek için de kullanılabilir.

Enstrüman ya da test yeterince optimize ise, doğruluğunu araştırmaya başlayabiliriz. İlgilendiğiniz bilgiyi elde etmek için halihazırda kabul edilen hazır bir test mevcutsa, yeni testimizi bu standart test ile karşılaştıran karşılaştırmalı çalışmalarla başlamak akıllıca olacaktır. Bu test farklı hedef popülasyonlarda uygulanabiliyorsa, ilgilenilen herhangi bir hedef popülasyon için doğruluk çalışmaları yapılabilir. Farklı araştırma ekiplerinin, aynı hedef popülasyonda farklı doğruluk çalışmaları yapması incelenen teste dair kanıtların kuvvetini arttırır. Tekrarlanabilirlik çalışmalarında bahsettiğimiz gibi, aynı hedef popülasyonda birçok doğruluk çalışması yapılması testin doğruluğunu optimize etmek için de kullanılabilir.

Testin yeterli doğrulukta olduğuna dair kanıtlar sağlandıktan sonra, hastalar için fayda sorusuna yaklaşmaya başlayabiliriz. Eğer test sonucunda tedavi kararında kullanacağız yeni bir bilgi parçası sağlanmaktaysa, bir sonraki adım etkileşim çalışmaları (interaction studies) veya ön seçim tasarımları (preselection design) olabilir. Eğer test sonuçları güvenilir ve standart testten farklı sonuçlar veriyorsa, yeni testin gerçekten beklenen yönetim değişikliğiyle sonuçlanıp sonuçlanmadığını incelemek ilgi çekici olabilir. Bu soruya, doğruluk testine benzer ileriye dönük bir çalışma ile yanıt verilir: İlgili hedef popülasyonda, oturmuş standart test ve yeni test beraberce uygulanır, ancak önce, yalnızca standart testin sonucu tedavi eden doktora iletilir ve bir yönetim kararı vermesi beklenir. Ardından yeni testin sonucu da iletilir ve tedavi eden hekimin yeni bir karar vermesine izin verilir. Bu durumda birincil sonlanım, hasta yönetimdeki değişikliklerin sayısıdır. Doğruluk çalışmalarının sonuçları neticesinde bazı hastanelerde yeni test standart testin yerini alıyorsa, yeni testin uygulanmasından önce ve sonraki yönetim kararlarının dağılımını karşılaştırmak da mümkündür. Bunun bir sonraki aşaması ise randomize fayda çalışmalarıdır (randomized benefit studies). Randomize fayda çalışmaları bir test ya da daha karmaşık basamaklı bir prosedürün klinik rutini değiştirip onun yerini almasını sağlasa bile, çalışmaların bildirdiği düzeyde bir fayda sağlanıp sağlanmadığını görmek için kontrol çalışmaları yapılmalıdır. Artık daha fazla sayıda hastaya daha erken evrelerde tedavi verip veremediğimizi, hastaların yaşam kalitesini veya hayatta kalma sürelerini gerçekten iyileştirip iyileştiremediğimizi kontrol edebiliriz. Yeni testin gerçekten eski testin yerini alıp almadığını ya da eskisine ek olarak kullanılıp kullanılmayacağını da kontrol etmeliyiz.

Yukarıda özetlediğimiz tanısal test geliştirme süreci basamakları Fryback ve Thornbury (1991) tarafından 6 basamağa indirgenmiştir:

  • teknik etkinlik (technical efficacy)
  • tanısal doğruluk etkinliği (diagnostic accuracy efficacy)
  • tanısal düşünme etkinliği (diagnostic thinking efficacy)
  • terapötik etkinlik (therapeutic efficacy)
  • hasta sonlanımı etkinliği (patient outcome efficacy)
  • toplumsal etkinlik (societal efficacy)

Biyobelirteçlere dayalı tanısal testler için Pepe ve ark. (2001) biraz daha farklı bir şema önermiştir. Bunun nedeni, biyobelirteçlere dayalı testlerin, depolanmış doku veya kan örnekleri kullanılarak, hastanın fiziksel varlığı olmaksızın hızla uygulanabileceği gerçeğine dayanmaktadır. Bu nedenle, ileriye dönük olarak toplanan biyolojik örneklerin geriye dönük analizleri bu araştırma alanında daha merkezi bir rol oynamaktadır.

Ek okuma: Sackett ve Haynes’in (2002) “Teşhis araştırmasının mimarisi” başlıklı makalesi, tanısal bir test geliştirmenin farklı adımlarında sahip olmamız gereken beklenti hakkında güzel bir özettir.​1​

Son

Bir sonraki yazımızda Tanısal Doğruluk çalışmalarında kullanacağımız prospektif tek-kol, vaka-kontrol, eşleştirilmiş karşılaştırma, randomize karşılaştırma gibi tasarım seçeneklerinden bahsedeceğiz. Bu nedenle daha önceki yazılarımdan Metodoloji, vaka-kontrol çalışmaları, kohort çalışmalar, tedavi sonuçlarını bildiren randomize kontrollü çalışmalar yazılarına bir göz atmanızda fayda var.

İsteyenler sonraki yazılara temel oluşturacak bazı analiz yöntemlerini içeren P değeri ve Güven Aralıkları, Test öncesi ve sonrası olasılıklar, Odds Oranı, Rölatif Risk, NNT ve NNH, Bulguların Değeri: Kırılganlık İndeksi (Fragility index), Kategorik değişkenler, Çok gözlü tablolar ve ki-kare hesabı, Makalelerde sonuç bölümü nasıl yazılır? Sayısal veri ve doğru bildirimi gibi yazılarıma da bakabilirler.

Bu yazımın içeriğinde 2014 yılında kursuna katılarak kendisinden çokça faydalandığım Freiburg Üniversitesinden değerli hocam Werner Vach’ın kurs materyallerinden faydalandım ve bazı yerleri direk onun kitapçığından çevirdim. Kendisine teşekkür ediyorum.


Kaynakça

  1. 1.
    Sackett DL. Evidence base of clinical diagnosis: The architecture of diagnostic research. BMJ. Published online March 2, 2002:539-541. doi:10.1136/bmj.324.7336.539