Foruma hoş geldin 👋, Ziyaretçi

Forum içeriğine ve tüm hizmetlerimize erişim sağlamak için foruma kayıt olmalı ya da giriş yapmalısınız. Foruma üye olmak tamamen ücretsizdir.

Zipf yasası

bullvar_katip

Administrator
Katılım
21 Mayıs 2024
Mesajlar
532,105
| YDF = | ortalama = | medyan = | mod = | varyans = | çarpıklık = | basıklık = | entropi = | mf = | kf = }} Zipf yasası veya dilde tutumluluk yasası, matematiksel istatistik bilimi kullanılarak ortaya çıkartılan bir empirik yasa olarak formüle edilmiştir. Yasaya ad olarak, 1930'da Amerika'da Harvard Üniversitesi'nde dilbilim profesörü olan George Kingsley Zipf tarafından yayımlanması üzerine, onun adı verilmiştir. Bu empirik yasa herhangi bir insan dili ile yazılmış bir metinde bulunan sözcüklerin sıklılıkları hakkındadır. Bu yasa daha önce de Alman Felix Auerbach tarafından 1913'te yayımlanmıştır. Ama bu yayımda yapılan sıralama dünya șehirlerinin nüfus itibarıyla sıralanması idi. Fransız stenografi uzmanı Jean-Baptiste Estoup (1868-1950) de metinlerde bulunan sözcüklerinin sistemik sıklıkları hakkında Zipf'den önce yayım yapmıştır. Bu sıralamalar şirket büyüklükleri sıralamaları, gelir sıralamaları vb. için de uygulanmıştır. Benoît Mandelbrot bu yasayı genelleştirmiştir. Zipf yasasının niçin insan dillerinin çoğunda uygulanabileceği bilinmemektedir. Basit tanımlama ve örnekler Dilbilimde bu yasaya göre herhangi bir yazılı metinde geçen sözcükler azalan sıklığa göre (yani en çok kullanılandan en az kullanılana doğru) sıralanırsa, elde edilen sıralama listesindeki tek bir sözcüğün sıra numarası ile o sözcüğün sıklık sayısı her zaman sabit bir sayı olur. Bu daha kolayca, sıra numarası N olan bir sözcük için sıklığın 1/N olması şeklinde ifade edilebilir. Böylece en fazla sıklıkla kullanılan sözcük ikinci sırada sıklıkla kullanılan sözcükten 2 misli daha fazla, üçüncü sıradaki sözcükten 3 misli daha fazla kullanılır. Bir diğer örnek olarak 10 sözcükten oluşan bir metin dili ele alındığı kabul edilsin ve bu metin dilinde hazırlanan tüm metinlerde en fazla sayda kullanılan sözcüğün 100 defa kullanıldığı kabul edilsin; bu halde yapılan en sık kullanılandan az sık kullanılan sözcüğe göre yapılan sözcük sıralaması (Zipf yasası'na göre) şöyle olacaktır: 1. sözcük => 100/1 = 100 2. sözcük => 100/2 = 50 3. sözcük => 100/3 = 33,3 4. sözcük => 100/4 = 25 5. sözcük => 100/5 = 20 6. sözcük => 100/6 = 16,6 7. sözcük => 100/7 = 14,3 8. sözcük => 100/8 = 12,5 9. sözcük => 100/9 = 11,1 10. sözcük => 100/10= 10 Bu örnekte görüldüğü gibi sıralamadaki ilk sözcüklerin sıklığı diğerlerine göre çok daha fazla olarak gözlenmekte, diğer tüm sözcükler gittikçe azalan sayılarda gözlenmektedir. [[Dosya:Graphique Zipf pour Ulysses.png|küçükresim|300px|İrlandalı yazar James Joyce'un "Ulyses" adlı İngilizce romanının ana metinindeki sözcüklerin sıklılıklarının sıralanması.]] George Kingsley Zipf, İrlandalı yazar James Joyce'un 2 Şubat 1922'de yayınlanan Ulysses adlı romanını ayrıntılı incelemiş ve bu romanda bulunan sözcüklerin sıklığını ve bu sıklığın sıralanmasını bulmuştur. Bu araştırmaya göre en fazla sıklıkla kullanılan sözcük 8.000 defa kullanılmış; sıklık sıralamasında 10. olan sözcük 800 defa kullanılmış; sıklık sıralamasında 100. olan sözcük 80 defa kullanılmış; sıklık sıralamasında 1000. olan sözcük 8 defa kullanılmıştır. Günümüzde bilgisayarlar kullanılarak eldeki en büyük yazılı metinlerde bile sözcük sıralama araştırması birkaç saniyeyi aşmamaktadır ve bunlardan genelleme yapılırsa herhangi bir yazılı metinde gözlenmektedir ki sırası N olan bir sözcük için sıralama fonksiyonu f(N) şu Zipf yasasına uymaktadır: burada K bir sabittir. Zipf yasasının uygulanması en kolay bir şekilde sıralama sıklıklar verisinin bir log-log eksenli grafikte gösterilmesi ve bu verilere doğrusal regresyon tatbiki olmaktadır. Herhangi değişken bir sıralama verisi için; R=sıralama sayıları; N: sıralama sıklığı ve a ve b doğrusal regresyon katsayıları olup log R = a - b log N Regresyon doğrusu uygulanırsa ve eğer b=1 bulunursa, verilerin Zipf yasasına uygunluğu kabul edilmesi gerekir. 2004'te yapılan ve dünya şehirlerinin nüfusları sıralamasına uygulanan bir araştırmada genel olarak b = 1.07 bulunmuştur. Tüm dağılımın log-normal dağılımın uygunluğu ve üst kuyruk verilerinin ise Zipf yasasına uyduğu görülmüştür. Bu çalışmaya göre "the" sözcüğü için x = log(1) ve y = log(69971). Teorik gelişme Bu yasaya göre fiziksel bilimler ve sosyal bilimlerde incelenen verilerin çoğunluğu ayrık üstel yasa olasılık dağılımına ilişkili olan bir Zipf dağılımı yaklaşık olarak ifade edilir. Formel olarak; şu ifadeleri kullanalım: N elemanlar sayısı; k elemanların sıralaması; s dağılımı karakterize eden üssel değer Zipf yasası N sayıda elemanı bulunan bir ana kitle için, k sıralama numarası gösteren elemanların dağılımını f(k;s,N) fonksiyonu şöyle ifade eder: Eğer her elemanın ortaya çıkma sıklığı da sayıları birbirinden bağımsız ve bir üstel yasa dağılımı, yani , gösteren birbiryle tüm olarak aynı olan dağılım gösteren rassal değişkenler ise Zipf yasası geçerlidir. İngilizce dilinde bulunan sözcükler örneğine göre N İngilizce dilinde bulunan sözcük sayısı olursa ve klasik Zipf yasası kullanılırsa s in üssel değeri 1 olur. O zaman f(k;s,N) en çok kullanılan sözcüğün kullanılma oranını ifade eder. Zipf yasası şu şekilde de ifade edilebilir: burada H Ninci genelleştirilmiş harmonik sayı olur. İstatistiksel açıklama Wentian Li bu yasanın rassal olarak yaratılmış olan metinlerin istatistiksel analizi ile de kısmen açıklanabileceğini iddia etmektedir. Bir ayrık tekdüze dağılım gösteren alfabede bulunan her harfi (ve boşluk ifade eden karakteri) kapsayan bir kütleden rassal olarak seçilen her bir karakteri ihtiva eden bir metinde bulunan sözcüklerin (yaklaşık olarak log-log eksenli bir grafikte yaklaşık olarak doğrusal görünerek) Zipf yasasına uygunluklarını göstermiştir. Vitold Belevitch ise çok sayıda iyice belirtilebilen istatistiksel dağılımı (sadece normal dağılımı değil) ele alıp bunların bir sıralamasını yapmıştır. Sonra her bir ifadeyi bir Taylor serisi olarak genişletmiştir. Çok dikkat çekici bir sonuç olarak incelendiği her halde elde edilen Taylor serisinin birinci-sıra kesiminin Zipf Yasası'na ve ikinci-sıra kesiminin ise Zipf-Mandelbrot Yasası'na uygun oldukları görülmektedir. Zipf'in şahsi açıklaması belirlenmiş bir insan dilini konuşanların ve bu dille yazarların ifade ettiklerinin anlaşılabilmesi için yaklaşık olarak eşit dağılımlı efor sarf etmekten fazla uğraşmaktan sakınmaktadırlar. Bu gereken eforun fazlasından kaçınmak Zipf Yasası'nın gözlenmesine neden olmaktadır. Ayrıca bakınız Lorenz eğrisi Pareto dağılımı Kaynakça Dış bağlantılar Zipf, George K. (1949) Human Behavior and the Principle of Least Effort. Cambridge, Mass.:Addison-Wesley. Zipf, George K. (1935) The Psychobiology of Language. Houghton-Mifflin. Gutenberg projesi için İngilizce, Fransızca, İspanyolca, İtalyanca, İsveççe, İzlandaca, Latince, Portekizce ve Fince dilleri için Zipf semantik derinlik listesi. Herhangi bir yazılı metin için "online" hesaplama programı Zipf yasası için kapsamlı bibliyografya Zipf yasası için PlanetMath maddesi Fransizca sözcükler için Zipf Listesi Wolfram Projesi için A.B.D. şehirleri için Zipf Yasası. Hazırlayan: Fiona Maclachlan Kategori:İstatistik Kategori:Dilbilim
 

Tema özelleştirme sistemi

Bu menüden forum temasının bazı alanlarını kendinize özel olarak düzenleye bilirsiniz.

Zevkine göre renk kombinasyonunu belirle

Tam ekran yada dar ekran

Temanızın gövde büyüklüğünü sevkiniz, ihtiyacınıza göre dar yada geniş olarak kulana bilirsiniz.

Izgara yada normal mod

Temanızda forum listeleme yapısını ızgara yapısında yada normal yapıda listemek için kullanabilirsiniz.

Forum arkaplan resimleri

Forum arkaplanlarına eklenmiş olan resimlerinin kontrolü senin elinde, resimleri aç/kapat

Sidebar blogunu kapat/aç

Forumun kalabalığında kurtulmak için sidebar (kenar çubuğunu) açıp/kapatarak gereksiz kalabalıklardan kurtula bilirsiniz.

Yapışkan sidebar kapat/aç

Yapışkan sidebar ile sidebar alanını daha hızlı ve verimli kullanabilirsiniz.

Radius aç/kapat

Blok köşelerinde bulunan kıvrımları kapat/aç bu şekilde tarzını yansıt.

Foruma hoş geldin 👋, Ziyaretçi

Forum içeriğine ve tüm hizmetlerimize erişim sağlamak için foruma kayıt olmalı ya da giriş yapmalısınız. Foruma üye olmak tamamen ücretsizdir.

Geri