Varyans hesaplanması için algoritmalar

bullvar_katip · 27 Mayıs 2024

İstatistiksel ölçülerinin bilgisayar ile yapılan hesaplanmalarında varyans hesaplanması için kullanılan algoritmalar pratik sonuçlar elde edilmesinde önemli rol oynamaktadırlar. Varyansın hesaplanması için işe yarar bilgisayar algoritmalarının tasarlanmasında ana sorun varyans formüllerinin veri kare toplamlarının hesaplanmasını gerektirmesindedir. Bu işlem yapılırken sayısal kararsızlık problemleri ve özellikle büyük veri değerleri bulunuyorsa aritmetik taşmalar problemleri ortaya çıkması çok muhtemeldir. Ancak, 2014 yılında yayınlanan "İstatistikte Altın Oran" adlı bir kitapta, kareler ortalamasının karekökü operatörü yerine, üstel bir işlem içermeyen, sadece dört işlem ve sınırlı toplama operatörü ile hesaplanabilen bir sapma metodolojisi tanımlanmıştır. Tanımlanan bu sapma'nın en dikkat çekici özelliği, ortalama'nın sağı ve solu için, birbirinden bağımsız iki ayrı sapma üretmesidir. I. Naif algoritma Tüm bir anakütle veri dizisi için varyansın hesaplanması için formül şudur: Bir sonsuz olmayan n gözlem hacminde bir örneklem veri dizisi kullanarak anakütle varyansının bir yansız kestirim değerini bulmak için formül şöyle ifade edilir: Bu formüller kullanılarak varyans kestirimi hesaplamak için bir naif algoritma için szde kod şöyle verilir: n = 0 toplam = 0 toplam_kare = 0 for veri olan her x: n = n + 1 toplam = toplam + x toplam_kare = toplam_kare + x*x end for ortalama = toplam/n varyans = (toplam_kare - toplam*ortalama)/(n - 1) Bu algoritma bir sonlu anakutle verileri için varyansin hesaplanmasına hemen adapte edilebilir: en son satırda ki n - 1 ile bolum yapılacağına n ile bolum yapılır. ve birbirine hemen yakın sayılar olabilir. Bu nedenle sonucun kesinliği hesaplamada kullanılan kayan noktali aritmetiğin doğal kesinliğinden daha az olabilir. Eğer varyans değeri elde edilen veri toplamına karşıt olarak daha küçük ise, bu sorun daha da şiddetle ortaya çıkar. II. İki-geçişli algoritma Varyans için değişik bir formül kullanan diğer bir yaklaşım şu sözde kod ile verilmiştir: n = 0 toplam1 = 0 for veri olan her x: n = n + 1 toplam1 = toplam1 + x end for ortalama = toplam1/n toplam2 = 0 for veri olan her x: toplam2 = toplam2 + (x - ortalama)^2 end for varyans = toplam2/(n - 1) IIa. Düzeltilmiş toplam şekli Yukarıda verilen algoritmanın düzeltilmiş toplam şekli şöyle verilir: n = 0 toplam1 = 0 for veri olan her x: n = n + 1 toplam1 = toplam1 + x end for ortalama = toplam1/n toplam2 = 0 toplamc = 0 for veri olan her x: toplam2 = toplam2 + (x - ortalama)^2 toplamc = toplamc + (x - ortalama) end for varyans = (toplam2 - toplamc^2/n)/(n - 1) III. On-line algoritması Gereken yenileştirme için bulunabilecek daha uygun bir işlemin (cari) ortalamadan farkların karelerinin toplamını bulmak olduğu anlaşılmıştır; bu değer olup burada olarak gösterilmektedir: Sayısal olarak daha kararlı bir algoritma aşağıda verilmiştir. Bu algoritma ortalama hesaplamak için kullanılmak niyetiyle Knuth (1998) tarafından verilmiş ve orada ilk defa Welford(1962) tarafından ortaya atıldığı bildirilmiştir. n = 0 ortalama = 0 M2 = 0 for veri olan her x: n = n + 1 delta = x - ortalama ortalama = ortalama + delta/n M2 = M2 + delta*(x - ortalama) // Bu terim ortalama için yeni değeri kullanır end for varyans_n = M2/n varyans = M2/(n - 1) IV. Ağırlıklı küçük artışlı algoritma Eğer gözlemler için değişik ağırlıklar verilmişse, West (1979) şu küçük artışlı algoritmanın kullanılabileceğini bildirmiştir: n = 0 for veri olan her x: if n=0 then n = 1 ortalama = x S = 0 toplamagırlık = agırlık else n = n + 1 temp = agırlık + toplamagırlık S = S + sumweight*agırlık*(x-ortalama)^2 / temp ortalama = ortalama + (x-ortalama)*agırlık / temp toplamagırlık = temp end if end for Varyans = S * n / ((n-1)*toplamagırlık) // eğer veri dizisi anakütle içinse n/(n-1) kullanılmaz. V. Paralel algoritma Chan, Golub ve LeVeque (1979) hazırladıkları bir raporda yukarıda verilen III. On-line Algoritmasının bir örneklem olan i herhangi iki tane ve setlerine ayırmak için işleme konabilen bir algoritmanın özel bir hali olduğunu bildirmişlerdir: . Bu bazı hallerde daha kullanışlı olabilmektedir. Örneğin girdinin ayrılabilir parçalarına çoklu kompüter işlem birimlerinin kullanılması imkânını sağlayabilir. V.a. Üst seviyede istatistikler Örneklem verileri için üst seviyede istatistikler olan çarpıklık ve basıklık ölçülerini bulmak için Terriberry Chen'in üçüncü ve dördüncü merkezsel moment bulmak için ortaya attığı formülü daha uygun bir şekle şöyle değiştirmiştir.: Burada yine, verilerin ortalamadan farklarının üstel değerlerinin toplamlarıdır; yani olur. Bu değerler kullanılarak çarpıklık ve basıklık ölçüleri şöyle bulunur: : çarpıklık, : basıklık. Küçük artışlı hallerde (yani ), bu şöyle basitleştirilebilir: Burada dikkati çeken nokta, değerini korumak suretiyle, sadece tek bir bölme işleminin gerekli olması ve böylece çok az bir ekstra maliyetle daha yüksek istatistiksel ölçüler hesaplanabilmesidir. Örnek Kullanılan kompüterde bütün "floating" nokta operasyonlarının IEEE 754 çifte-hassiyetli aritmetik ile yapıldığı varsayılsın. Sonsuz büyüklükte bir anakütleden n=5 büyüklüğünde bir örneklem olarak 4, 7, 13, 16 veri seti elde edildiğini düşünelim. Bu örneklem için örneklem ortalaması 10 olur ve yanlı olmayan anakütle varyans kestirimi 30dur. Hem "I. naif Algoritma" hem de "II. iki geçişli Algoritma" bu değerleri doğru olarak hesaplamaktadırlar. Şimdi örnekleme olarak şu veri setini alalım: , , , Bu örneklemin de, birinci örneklem gibi ayni varyans kestirimine sahip olması gerekir. "II. Algoritma" bu varyansı doğru olarak hesaplamaktadır. Fakat "I. Algoritma" sonuç olarak tam 30 yerine 29.333333333333332 sonucu verir. Bu dakiklik kaybının belki kabul edilebilir tolerans olduğu ve "I. Algoritma" kullanılmasının nispeten önemsiz bir hata doğurduğu söylenebilir. Fakat bu "I. Algoritma" hesaplamasında çok önemli bir eksiklik ve hataya işaret etmektedir. Bu sefer örneklem olarak şunu alalım: , , , Yine "II. Algoritma" doğru anakütle varyans kestirimi olarak 30 gösterir. Ama "I. Algoritma" kullanılınca elde edilen kestirim hesabı -170.66666666666666 olarak verilir. Bu çok önemli ve yapılmaması gereken bir hatadır; çünkü kavram olarak tanımlamayla varyans değerinin hiçbir zaman negatif olmaması gerekir. Ayrıca bakınız Varyans Varyans hesaplaması için formül Kaynakça Dış bağlantılar Kategori:İstatistik için algoritmalar Kategori:İstatistiksel yayılma ve sapma

Ara

Ara

Foruma hoş geldin 👋, Ziyaretçi

Varyans hesaplanması için algoritmalar

bullvar_katip

Administrator

Benzer konular

Tema özelleştirme sistemi

Tam ekran yada dar ekran

Izgara yada normal mod

Forum arkaplan resimleri

Sidebar blogunu kapat/aç

Yapışkan sidebar kapat/aç

Radius aç/kapat

Foruma hoş geldin 👋, Ziyaretçi