Foruma hoş geldin 👋, Ziyaretçi

Forum içeriğine ve tüm hizmetlerimize erişim sağlamak için foruma kayıt olmalı ya da giriş yapmalısınız. Foruma üye olmak tamamen ücretsizdir.

Varyans hesaplanması için algoritmalar

bullvar_katip

Administrator
Katılım
21 Mayıs 2024
Mesajlar
532,105
İstatistiksel ölçülerinin bilgisayar ile yapılan hesaplanmalarında varyans hesaplanması için kullanılan algoritmalar pratik sonuçlar elde edilmesinde önemli rol oynamaktadırlar. Varyansın hesaplanması için işe yarar bilgisayar algoritmalarının tasarlanmasında ana sorun varyans formüllerinin veri kare toplamlarının hesaplanmasını gerektirmesindedir. Bu işlem yapılırken sayısal kararsızlık problemleri ve özellikle büyük veri değerleri bulunuyorsa aritmetik taşmalar problemleri ortaya çıkması çok muhtemeldir. Ancak, 2014 yılında yayınlanan "İstatistikte Altın Oran" adlı bir kitapta, kareler ortalamasının karekökü operatörü yerine, üstel bir işlem içermeyen, sadece dört işlem ve sınırlı toplama operatörü ile hesaplanabilen bir sapma metodolojisi tanımlanmıştır. Tanımlanan bu sapma'nın en dikkat çekici özelliği, ortalama'nın sağı ve solu için, birbirinden bağımsız iki ayrı sapma üretmesidir. I. Naif algoritma Tüm bir anakütle veri dizisi için varyansın hesaplanması için formül şudur: Bir sonsuz olmayan n gözlem hacminde bir örneklem veri dizisi kullanarak anakütle varyansının bir yansız kestirim değerini bulmak için formül şöyle ifade edilir: Bu formüller kullanılarak varyans kestirimi hesaplamak için bir naif algoritma için szde kod şöyle verilir: n = 0 toplam = 0 toplam_kare = 0 for veri olan her x: n = n + 1 toplam = toplam + x toplam_kare = toplam_kare + x*x end for ortalama = toplam/n varyans = (toplam_kare - toplam*ortalama)/(n - 1) Bu algoritma bir sonlu anakutle verileri için varyansin hesaplanmasına hemen adapte edilebilir: en son satırda ki n - 1 ile bolum yapılacağına n ile bolum yapılır. ve birbirine hemen yakın sayılar olabilir. Bu nedenle sonucun kesinliği hesaplamada kullanılan kayan noktali aritmetiğin doğal kesinliğinden daha az olabilir. Eğer varyans değeri elde edilen veri toplamına karşıt olarak daha küçük ise, bu sorun daha da şiddetle ortaya çıkar. II. İki-geçişli algoritma Varyans için değişik bir formül kullanan diğer bir yaklaşım şu sözde kod ile verilmiştir: n = 0 toplam1 = 0 for veri olan her x: n = n + 1 toplam1 = toplam1 + x end for ortalama = toplam1/n toplam2 = 0 for veri olan her x: toplam2 = toplam2 + (x - ortalama)^2 end for varyans = toplam2/(n - 1) IIa. Düzeltilmiş toplam şekli Yukarıda verilen algoritmanın düzeltilmiş toplam şekli şöyle verilir: n = 0 toplam1 = 0 for veri olan her x: n = n + 1 toplam1 = toplam1 + x end for ortalama = toplam1/n toplam2 = 0 toplamc = 0 for veri olan her x: toplam2 = toplam2 + (x - ortalama)^2 toplamc = toplamc + (x - ortalama) end for varyans = (toplam2 - toplamc^2/n)/(n - 1) III. On-line algoritması Gereken yenileştirme için bulunabilecek daha uygun bir işlemin (cari) ortalamadan farkların karelerinin toplamını bulmak olduğu anlaşılmıştır; bu değer olup burada olarak gösterilmektedir: Sayısal olarak daha kararlı bir algoritma aşağıda verilmiştir. Bu algoritma ortalama hesaplamak için kullanılmak niyetiyle Knuth (1998) tarafından verilmiş ve orada ilk defa Welford(1962) tarafından ortaya atıldığı bildirilmiştir. n = 0 ortalama = 0 M2 = 0 for veri olan her x: n = n + 1 delta = x - ortalama ortalama = ortalama + delta/n M2 = M2 + delta*(x - ortalama) // Bu terim ortalama için yeni değeri kullanır end for varyans_n = M2/n varyans = M2/(n - 1) IV. Ağırlıklı küçük artışlı algoritma Eğer gözlemler için değişik ağırlıklar verilmişse, West (1979) şu küçük artışlı algoritmanın kullanılabileceğini bildirmiştir: n = 0 for veri olan her x: if n=0 then n = 1 ortalama = x S = 0 toplamagırlık = agırlık else n = n + 1 temp = agırlık + toplamagırlık S = S + sumweight*agırlık*(x-ortalama)^2 / temp ortalama = ortalama + (x-ortalama)*agırlık / temp toplamagırlık = temp end if end for Varyans = S * n / ((n-1)*toplamagırlık) // eğer veri dizisi anakütle içinse n/(n-1) kullanılmaz. V. Paralel algoritma Chan, Golub ve LeVeque (1979) hazırladıkları bir raporda yukarıda verilen III. On-line Algoritmasının bir örneklem olan i herhangi iki tane ve setlerine ayırmak için işleme konabilen bir algoritmanın özel bir hali olduğunu bildirmişlerdir: . Bu bazı hallerde daha kullanışlı olabilmektedir. Örneğin girdinin ayrılabilir parçalarına çoklu kompüter işlem birimlerinin kullanılması imkânını sağlayabilir. V.a. Üst seviyede istatistikler Örneklem verileri için üst seviyede istatistikler olan çarpıklık ve basıklık ölçülerini bulmak için Terriberry Chen'in üçüncü ve dördüncü merkezsel moment bulmak için ortaya attığı formülü daha uygun bir şekle şöyle değiştirmiştir.: Burada yine, verilerin ortalamadan farklarının üstel değerlerinin toplamlarıdır; yani olur. Bu değerler kullanılarak çarpıklık ve basıklık ölçüleri şöyle bulunur: : çarpıklık, : basıklık. Küçük artışlı hallerde (yani ), bu şöyle basitleştirilebilir: Burada dikkati çeken nokta, değerini korumak suretiyle, sadece tek bir bölme işleminin gerekli olması ve böylece çok az bir ekstra maliyetle daha yüksek istatistiksel ölçüler hesaplanabilmesidir. Örnek Kullanılan kompüterde bütün "floating" nokta operasyonlarının IEEE 754 çifte-hassiyetli aritmetik ile yapıldığı varsayılsın. Sonsuz büyüklükte bir anakütleden n=5 büyüklüğünde bir örneklem olarak 4, 7, 13, 16 veri seti elde edildiğini düşünelim. Bu örneklem için örneklem ortalaması 10 olur ve yanlı olmayan anakütle varyans kestirimi 30dur. Hem "I. naif Algoritma" hem de "II. iki geçişli Algoritma" bu değerleri doğru olarak hesaplamaktadırlar. Şimdi örnekleme olarak şu veri setini alalım: , , , Bu örneklemin de, birinci örneklem gibi ayni varyans kestirimine sahip olması gerekir. "II. Algoritma" bu varyansı doğru olarak hesaplamaktadır. Fakat "I. Algoritma" sonuç olarak tam 30 yerine 29.333333333333332 sonucu verir. Bu dakiklik kaybının belki kabul edilebilir tolerans olduğu ve "I. Algoritma" kullanılmasının nispeten önemsiz bir hata doğurduğu söylenebilir. Fakat bu "I. Algoritma" hesaplamasında çok önemli bir eksiklik ve hataya işaret etmektedir. Bu sefer örneklem olarak şunu alalım: , , , Yine "II. Algoritma" doğru anakütle varyans kestirimi olarak 30 gösterir. Ama "I. Algoritma" kullanılınca elde edilen kestirim hesabı -170.66666666666666 olarak verilir. Bu çok önemli ve yapılmaması gereken bir hatadır; çünkü kavram olarak tanımlamayla varyans değerinin hiçbir zaman negatif olmaması gerekir. Ayrıca bakınız Varyans Varyans hesaplaması için formül Kaynakça Dış bağlantılar Kategori:İstatistik için algoritmalar Kategori:İstatistiksel yayılma ve sapma
 

Tema özelleştirme sistemi

Bu menüden forum temasının bazı alanlarını kendinize özel olarak düzenleye bilirsiniz.

Zevkine göre renk kombinasyonunu belirle

Tam ekran yada dar ekran

Temanızın gövde büyüklüğünü sevkiniz, ihtiyacınıza göre dar yada geniş olarak kulana bilirsiniz.

Izgara yada normal mod

Temanızda forum listeleme yapısını ızgara yapısında yada normal yapıda listemek için kullanabilirsiniz.

Forum arkaplan resimleri

Forum arkaplanlarına eklenmiş olan resimlerinin kontrolü senin elinde, resimleri aç/kapat

Sidebar blogunu kapat/aç

Forumun kalabalığında kurtulmak için sidebar (kenar çubuğunu) açıp/kapatarak gereksiz kalabalıklardan kurtula bilirsiniz.

Yapışkan sidebar kapat/aç

Yapışkan sidebar ile sidebar alanını daha hızlı ve verimli kullanabilirsiniz.

Radius aç/kapat

Blok köşelerinde bulunan kıvrımları kapat/aç bu şekilde tarzını yansıt.

Foruma hoş geldin 👋, Ziyaretçi

Forum içeriğine ve tüm hizmetlerimize erişim sağlamak için foruma kayıt olmalı ya da giriş yapmalısınız. Foruma üye olmak tamamen ücretsizdir.

Geri