Standart sapma - Standard deviation

Bir arsa normal dağılım her bir bant 1 standart sapma bir genişliğe sahiptir (veya çan eğrisi) - Ayrıca bkz: 68-95-99.7 kuralı .
Beklenen değer 0 ve standart sapma 1 olan bir normal dağılımın kümülatif olasılığı

Olarak istatistik , standart sapma varyasyon ya da miktarının bir ölçüsüdür dağılım değerleri kümesi. Düşük bir standart sapma, değerlerin kümenin ortalamasına ( beklenen değer olarak da adlandırılır ) yakın olma eğiliminde olduğunu , yüksek bir standart sapma ise değerlerin daha geniş bir aralığa yayıldığını gösterir.

Standart sapma SD olarak kısaltılabilir ve en yaygın olarak matematiksel metinlerde ve denklemlerde popülasyon standart sapması için küçük Yunanca harf sigma σ veya örnek standart sapma için Latin harfi s ile temsil edilir .

Bir standart sapması rastgele değişkenin , numune , istatistiksel nüfus , veri kümesi ya da bir olasılık dağılımı olan kare kökü olarak bir varyans . Öyle cebirsel olsa pratikte, az daha basit sağlam daha ortalama mutlak sapma . Standart sapmanın yararlı bir özelliği, varyanstan farklı olarak, verilerle aynı birimde ifade edilmesidir.

Bir popülasyonun veya örneğin standart sapması ve bir istatistiğin (örn. örnek ortalamasının) standart hatası oldukça farklıdır, ancak ilişkilidir. Örnek ortalamasının standart hatası, popülasyondan sonsuz sayıda tekrarlanan örnek çizerek ve her örnek için bir ortalama hesaplayarak bulunacak olan ortalamalar kümesinin standart sapmasıdır. Ortalamanın standart hatası, popülasyon standart sapmasının numune boyutunun kareköküne bölünmesine eşit olur ve numune boyutunun kareköküne bölünen numune standart sapması kullanılarak tahmin edilir. Örneğin, bir anketin standart hatası (anketin hata payı olarak rapor edilen ), aynı anketin birden çok kez yapılması durumunda tahmin edilen ortalamanın beklenen standart sapmasıdır. Bu nedenle, standart hata, bir tahminin standart sapmasını tahmin eder ve bu tahminin kendisi, tahminin popülasyondan alınan belirli bir örneğe ne kadar bağlı olduğunu ölçer.

Bilimde, hem verilerin standart sapmasını (bir özet istatistik olarak) hem de tahminin standart hatasını (bulgulardaki potansiyel hatanın bir ölçüsü olarak) bildirmek yaygındır. Konvansiyonel olarak, boş bir beklentiden yalnızca ikiden fazla standart hatanın etkileri "istatistiksel olarak anlamlı" olarak kabul edilir ; bu, gerçekten rastgele örnekleme hatasından kaynaklanan sahte sonuçlara karşı bir korumadır.

Sadece zaman örnek bir popülasyondan veri mevcuttur terimi örneğin standart sapması ya da numune standart sapma , yukarıda-belirtilenler verilere uygulanan miktar veya tarafsız bir tahmini değer olan bir tadil edilmiş miktarda ya belirtebilir popülasyon standart sapması (tüm popülasyonun standart sapması).

Temel örnekler

Sekiz öğrencinin notlarının nüfus standart sapması

Tüm ilgili popülasyonun belirli bir sınıftaki sekiz öğrenci olduğunu varsayalım. Sayıların sonlu bir kümesi için nüfus standart sapma alarak bulunursa karekökünü ait ortalama ortalama değerden çıkarılır değerlerin kare sapmaların. Sekiz öğrenciden oluşan bir sınıfın (yani istatistiksel bir popülasyonun ) notları aşağıdaki sekiz değerdir:

Bu sekiz veri noktasının ortalaması (ortalaması) 5'tir :

İlk olarak, her bir veri noktasının ortalamadan sapmalarını hesaplayın ve her birinin sonucunun karesini alın:

Varyans bu değerlerin ortalamasıdır:

ve popülasyon standart sapması, varyansın kareköküne eşittir:

Bu formül ancak başladığımız sekiz değer tam popülasyonu oluşturuyorsa geçerlidir. Bunun yerine değerler, büyük bir ebeveyn popülasyonundan alınan rastgele bir örnekse (örneğin, 2 milyonluk bir sınıftan rastgele ve bağımsız olarak seçilen 8 öğrenciydi), o zaman 8 yerine 7'ye ( n − 1'dir) bölünür ( olan , n ) son formülü payda ve sonuç bu durumda, orijinal formülün sonucu aranmak numune standart sapma ve ile gösterilen s yerine göre Bölme n  - yerine göre daha 1 n bir verir daha büyük ebeveyn popülasyonunun varyansının tarafsız tahmini. Bu, Bessel düzeltmesi olarak bilinir . Bunun kabaca nedeni, örnek varyansı formülünün, örnek ortalamasından gözlem farklılıklarının hesaplanmasına dayanmasıdır ve örnek ortalamanın kendisinin, gözlemlere mümkün olduğunca yakın olacak şekilde yapılandırılmasıdır, bu nedenle sadece n'ye bölmek , değeri hafife alacaktır. değişkenlik.

Yetişkin erkekler için ortalama yüksekliğin standart sapması

İlgili popülasyon yaklaşık olarak normal dağılmışsa, standart sapma, belirli değerlerin üzerindeki veya altındaki gözlemlerin oranı hakkında bilgi sağlar. Örneğin , Amerika Birleşik Devletleri'ndeki yetişkin erkekler için ortalama boy , yaklaşık 3 inç (7,62 cm) standart sapma ile yaklaşık 70 inç (177,8 cm)'dir. Bu, çoğu erkeğin ( normal dağılım varsayıldığında yaklaşık %68 ), ortalamanın (67-73 inç (170.18-185.42 cm)) 3 inç (7,62 cm) içinde bir yüksekliğe sahip olduğu anlamına gelir – bir standart sapma – ve hemen hemen tüm erkekler ( yaklaşık %95) ortalamanın (64-76 inç (162,56–193,04 cm)) 6 inç (15,24 cm) içinde bir yüksekliğe sahiptir – iki standart sapma. Standart sapma sıfır olsaydı, tüm erkekler tam olarak 70 inç (177.8 cm) boyunda olurdu. Standart sapma 20 inç (50.8 cm) olsaydı, erkeklerin tipik olarak yaklaşık 50-90 inç (127-228.6 cm) aralığıyla çok daha değişken boyları olurdu. Üç standart sapma, dağılımın normal veya çan şeklinde olduğu varsayıldığında, incelenen örnek popülasyonun % 99,7'sini oluşturur (daha fazla bilgi için 68-95-99.7 kuralına veya ampirik kurala bakın).

Popülasyon değerlerinin tanımı

Let μ olması beklenen değeri (ortalama) rastgele değişken X yoğunluğu ile f ( x ):

Standart sapma σ arasında X gibi tanımlanmıştır

eşit olarak gösterilebilir

Kelimeleri kullanarak, standart sapma kare köküdür Varyans ait X .

Bir olasılık dağılımının standart sapması, bu dağılıma sahip rastgele bir değişkeninkiyle aynıdır.

Tüm rastgele değişkenlerin standart sapması yoktur. Dağılım sonsuza giden kalın kuyruklara sahipse , integral yakınsamayabileceğinden standart sapma mevcut olmayabilir. Normal dağılım sonsuzluğa çıkıyor kuyrukları vardır, ama kuyrukları yeterince hızlı azalır nedeniyle ortalama ve standart sapma, mevcut olamayacağı. Pareto dağılımı parametresi ile bir ortalamaya sahip, ancak bir standart sapma (gevşek konuşma, standart sapma sonsuzdur). Cauchy dağılımı ortalama ne de bir standart sapma ikiside yok.

Ayrık rassal değişken

X'in her bir değerin aynı olasılığa sahip olduğu sonlu bir x 1 , x 2 , …, x N veri kümesinden rastgele değerler alması durumunda , standart sapma şudur:

veya, toplama gösterimini kullanarak ,

Eşit olasılıklara sahip olmak yerine, değerler farklı olasılıklara sahipse, x 1 olasılığı p 1 , x 2 olasılığı p 2 , …, x N olasılığı p N olsun . Bu durumda standart sapma,

Sürekli rastgele değişken

Olasılık yoğunluk fonksiyonu p ( x ) ile sürekli gerçek değerli rastgele değişken X'in standart sapması

ve integrallerin x için alınan belirli integraller olduğu yerde, rastgele değişken X'in olası değerleri kümesi üzerinde değişir  .

Parametrik bir dağılım ailesi durumunda , standart sapma parametreler cinsinden ifade edilebilir. Örneğin, μ ve σ 2 parametreleriyle log-normal dağılım durumunda , standart sapma şu şekildedir:

Tahmin

Bir popülasyonun her bir üyesinin örneklendiği durumlarda ( standartlaştırılmış testler gibi) tüm popülasyonun standart sapması bulunabilir . Bunun yapılamadığı durumlarda, standart sapma σ , popülasyondan alınan rastgele bir örneğin incelenmesi ve popülasyon standart sapmasının bir tahmini olarak kullanılan örneğin bir istatistiğinin hesaplanmasıyla tahmin edilir. Böyle bir istatistiğe tahmin edici denir ve tahmin ediciye (veya tahmin edicinin değeri, yani tahmin) örnek standart sapma denir ve s ile gösterilir (muhtemelen değiştiricilerle).

Bunun için popülasyon ortalama, tahmin durumunda farklı örnek ortalaması birçok tercih edilen özelliğe (basit bir tahmin olup tarafsız , verimli , en yüksek olabilirlik), bir bütün bu özelliklere sahip standart sapması için bir tahmin edici ve orada bir kestirim standart sapma çok teknik olarak ilgili bir sorundur. Çoğu zaman, standart sapma,  aşağıda tanımlanan düzeltilmiş numune standart sapması ( N -1 kullanılarak) kullanılarak tahmin edilir ve bu, niteleyiciler olmadan genellikle "örnek standart sapma" olarak adlandırılır. Bununla birlikte, diğer tahmin ediciler diğer açılardan daha iyidir: düzeltilmemiş tahmin edici ( N kullanılarak ) daha düşük ortalama karesel hata verir, N  - 1.5 (normal dağılım için) kullanılması ise yanlılığı neredeyse tamamen ortadan kaldırır.

Düzeltilmemiş örnek standart sapması

(sonlu bir popülasyonun) popülasyon standart sapması için formül , örneğin büyüklüğü popülasyonun büyüklüğü olarak kullanılarak örneğe uygulanabilir (ancak örneğin alındığı gerçek popülasyon büyüklüğü çok daha büyük olabilir). s N ile gösterilen bu tahmin edici, düzeltilmemiş örnek standart sapması veya bazen örneğin standart sapması (tüm popülasyon olarak kabul edilir) olarak bilinir ve aşağıdaki gibi tanımlanır:

nerede örnek öğelerin gözlemlenen değerlerdir ve payda ise, bu gözlemlerin ortalama değeridir  N numunenin boyutu açılımı: Bu ortalamasıdır örnek varyansın karekökü vardır kare sapma hakkında örnek demek.

Bu tutarlı bir tahmin edicidir (örnek sayısı sonsuza giderken olasılık olarak popülasyon değerine yakınsar) ve popülasyon normal olarak dağıldığında maksimum olabilirlik tahminidir . Ancak, tahminler genellikle çok düşük olduğundan, bu önyargılı bir tahmin edicidir . Önyargı, örnek boyutu büyüdükçe azalır, 1/ N olarak düşer ve bu nedenle en çok küçük veya orta örnek boyutları için önemlidir; çünkü önyargı %1'in altında. Bu nedenle, çok büyük numune boyutları için, düzeltilmemiş numune standart sapması genellikle kabul edilebilir. Bu tahmin edici aynı zamanda düzeltilmiş numune standart sapmasından daha düzgün bir şekilde daha küçük bir ortalama kare hatasına sahiptir.

Düzeltilmiş numune standart sapması

Eğer eğimli örnek varyans (ikinci merkezi moment popülasyon varyans aşağı doğru eğimli bir tahmindir numunesi) popülasyonun standart sapmasının bir tahminini hesaplamak üzere kullanılmaktadır, sonuç

Burada karekökü almak, karekökün içbükey bir fonksiyon olması nedeniyle Jensen eşitsizliğine göre daha fazla aşağı yönlü sapmayı ortaya çıkarır . Varyanstaki sapma kolayca düzeltilir, ancak karekökten sapmanın düzeltilmesi daha zordur ve söz konusu dağılıma bağlıdır.

Varyans için yansız bir tahmin edici , s 2 ile gösterilen yansız örnek varyansını vermek için N  yerine N − 1 kullanılarak Bessel düzeltmesi uygulanarak verilir :

Bu tahmin edici, varyans varsa ve örnek değerler, değiştirme ile bağımsız olarak çizilirse tarafsızdır. N  − 1 , ortalamadan sapma vektöründeki serbestlik derecesi sayısına karşılık gelir,

Karekök almak sapmayı yeniden ortaya çıkarır (çünkü karekök, doğrusal olmayan bir fonksiyondur ve beklentiyle değişmeyen ), s ile gösterilen düzeltilmiş örnek standart sapmasını verir :

Yukarıda açıklandığı gibi, s 2 anakütle varyansı için yansız bir tahmin edici iken , s , düzeltilmemiş örnek standart sapmasından belirgin şekilde daha az yanlı olmasına rağmen, anakütle standart sapması için hala yanlı bir tahmin edicidir. Bu tahmin edici yaygın olarak kullanılır ve genellikle basitçe "örnek standart sapma" olarak bilinir. Önyargı küçük numuneler için hala büyük olabilir ( N 10'dan az). Örneklem büyüklüğü arttıkça yanlılık miktarı azalır. Biz daha fazla bilgi ve arasındaki farkı elde ve küçülür.

Tarafsız örnek standart sapması

İçin standart sapma tarafsız tahmini ortalama ve varyans için farklı olarak tüm dağıtımları arasında çalışan formülü yoktur. Bunun yerine, s temel olarak kullanılır ve yansız bir tahmin üretmek için bir düzeltme faktörü ile ölçeklendirilir. Normal dağılım için, s / c 4 ile yansız bir tahmin edici verilir , burada düzeltme faktörü ( N 'ye bağlıdır ) Gama fonksiyonu cinsinden verilir ve şuna eşittir:

Bunun nedeni, örnek standart sapmasının örnekleme dağılımının (ölçeklendirilmiş) bir ki dağılımını izlemesi ve düzeltme faktörünün ki dağılımının ortalaması olmasıdır.

N  − 1'in N  − 1.5 ile değiştirilmesiyle bir yaklaşıklık verilebilir, şu sonucu verir:

Bu yaklaşımdaki hata kuadratik olarak azalır (1/ N 2 olarak ) ve en küçük örnekler veya en yüksek kesinlik dışında hepsi için uygundur: N = 3 için sapma %1.3'e eşittir ve N = 9 için sapma zaten %0.1'den az.

Daha doğru bir yaklaşım, yukarıdaki ile değiştirmektir .

Diğer dağılımlar için, doğru formül dağılıma bağlıdır, ancak yaklaşık bir kural, yaklaşımın daha da iyileştirilmesini kullanmaktır:

burada γ 2 nüfus fazlalığı basıklığı ifade eder . Fazla basıklık, belirli dağılımlar için önceden bilinebilir veya verilerden tahmin edilebilir.

Örneklenmiş bir standart sapmanın güven aralığı

Bir dağılımı örnekleyerek elde ettiğimiz standart sapma, hem matematiksel nedenlerle (burada güven aralığı ile açıklanmıştır) hem de pratik ölçüm nedenleriyle (ölçüm hatası) kesinlikle doğru değildir. Matematiksel etki, güven aralığı veya CI ile tanımlanabilir.

Daha büyük bir örneğin güven aralığını nasıl daraltacağını göstermek için aşağıdaki örnekleri göz önünde bulundurun: Küçük bir N = 2 popülasyonu , standart sapmayı tahmin etmek için yalnızca 1 serbestlik derecesine sahiptir. Sonuç, SD'nin %95 GA'sının 0.45 × SD'den 31.9 × SD'ye kadar uzanmasıdır; buradaki faktörler aşağıdaki gibidir :

nerede olduğunu p'nin ile ki-kare dağılımının ıncı quantile k serbestlik derecesine ve güven düzeyidir. Bu, aşağıdakilere eşdeğerdir:

İle k = 1, ve . Bu iki sayının kareköklerinin karşılıkları bize yukarıda verilen 0.45 ve 31.9 çarpanlarını verir.

Daha büyük bir N = 10 popülasyonu , standart sapmayı tahmin etmek için 9 serbestlik derecesine sahiptir. Yukarıdakiyle aynı hesaplamalar bize bu durumda 0.69 × SD'den 1.83 × SD'ye uzanan %95 GA verir. Bu nedenle, 10'luk bir örnek popülasyonla bile, gerçek SD, örneklenen SD'den neredeyse 2 kat daha yüksek olabilir. N=100 örnek popülasyonu için bu, 0,88 × SD'den 1,16 × SD'ye düşer. Örneklenen SD'nin gerçek SD'ye yakın olduğundan daha emin olmak için çok sayıda nokta örneklememiz gerekir.

Bu aynı formüller, standart normal teoriye uyan en küçük karelerden artıkların varyansına ilişkin güven aralıklarını elde etmek için kullanılabilir ; burada k artık hata için serbestlik derecesi sayısıdır .

Standart sapmanın sınırları

Bir R değerleri aralığını kapsayan N > 4 veri kümesi için, standart sapma s üzerindeki bir üst sınır s = 0.6R ile verilir . Yaklaşık olarak normal olarak alınan N > 100 verisi için standart sapma tahmini , normal eğrinin altındaki alanın %95'inin ortalamanın her iki tarafında kabaca iki standart sapma olduğu buluşsal yöntemden çıkar, böylece %95 olasılıkla toplam değer aralığı R dört standart sapmayı temsil eder, böylece s ≈ R/4 . Bu sözde aralık kuralı, olası değerlerin aralığını tahmin etmek standart sapmadan daha kolay olduğundan, örneklem büyüklüğü tahmininde yararlıdır . Diğer bölenler K (K) aralığın bu şekilde s- ≈ R / K (N) diğer değerleri için kullanılabilir , N ve normal olmayan dağılımlar için.

Kimlikler ve matematiksel özellikler

Standart sapma, konumdaki değişiklikler altında değişmezdir ve doğrudan rasgele değişkenin ölçeğiyle ölçeklenir . Böylece, sabit bir c ve rasgele değişkenler X ve Y için :

İki rastgele değişkenin toplamının standart sapması, bireysel standart sapmaları ve aralarındaki kovaryans ile ilişkilendirilebilir:

nerede ve sırasıyla varyans ve kovaryans anlamına gelir .

Kare sapmaların toplamının hesaplanması, doğrudan verilerden hesaplanan momentlerle ilişkilendirilebilir . Aşağıdaki formülde, E harfi, beklenen değer, yani ortalama olarak yorumlanır.

Örnek standart sapması şu şekilde hesaplanabilir:

Tüm noktalarda eşit olasılıklara sahip sonlu bir popülasyon için,

yani standart sapma, değerlerin karelerinin ortalaması ile ortalama değerin karesi arasındaki farkın kareköküne eşittir.

Kanıt için varyans için hesaplama formülüne ve numune standart sapması için benzer bir sonuç için bakın.

Yorum ve uygulama

Aynı ortalamaya ancak farklı standart sapmalara sahip iki popülasyondan numune örneği. Kırmızı popülasyon ortalama 100 ve SD 10'a sahiptir; mavi popülasyon ortalama 100 ve SD 50'ye sahiptir.

Büyük bir standart sapma, veri noktalarının ortalamadan uzağa yayılabileceğini ve küçük bir standart sapma, bunların ortalama etrafında yakından kümelendiklerini gösterir.

Örneğin, {0, 0, 14, 14}, {0, 6, 8, 14} ve {6, 6, 8, 8} üç popülasyonunun her birinin ortalaması 7'dir. Standart sapmaları 7, 5'tir. , ve 1, sırasıyla. Üçüncü popülasyon, diğer ikisinden çok daha küçük bir standart sapmaya sahiptir, çünkü değerlerinin tümü 7'ye yakındır. Bu standart sapmalar, veri noktalarının kendileriyle aynı birimlere sahiptir. Örneğin, {0, 6, 8, 14} veri kümesi, dört kardeşten oluşan bir popülasyonun yaşlarını yıl cinsinden temsil ediyorsa, standart sapma 5 yıldır. Başka bir örnek olarak, {1000, 1006, 1008, 1014} popülasyonu, dört sporcunun kat ettiği mesafeleri metre cinsinden temsil edebilir. Ortalama 1007 metre ve standart sapması 5 metredir.

Standart sapma, belirsizliğin bir ölçüsü olarak hizmet edebilir. Örneğin fizik biliminde, bir grup tekrarlanan ölçümün rapor edilen standart sapması , bu ölçümlerin kesinliğini verir . Ölçümlerin teorik bir tahminle uyuşup uyuşmadığına karar verirken, bu ölçümlerin standart sapması çok önemlidir: ölçümlerin ortalaması tahminden çok uzaktaysa (standart sapmalarda ölçülen mesafe ile), o zaman teori muhtemelen test ediliyor. revize edilmesi gerekiyor. Bu, tahminin doğru olması ve standart sapmanın uygun şekilde nicelenmesi durumunda makul olarak gerçekleşmesi beklenebilecek değer aralığının dışında kaldıkları için mantıklıdır. Tahmin aralığına bakın .

Standart sapma, tipik değerlerin ortalamadan ne kadar uzak olduğunu ölçerken, başka ölçüler de mevcuttur. Bir örnek, standart sapmanın doğasında bulunan ortalama uzaklığın kareköküne kıyasla, ortalama mesafenin daha doğrudan bir ölçüsü olarak kabul edilebilecek ortalama mutlak sapmadır.

Uygulama örnekleri

Bir dizi değerin standart sapmasını anlamanın pratik değeri, ortalamadan (ortalama) ne kadar farklılık olduğunu takdir etmektir.

Deney, endüstriyel ve hipotez testi

Modeli test etmek için gerçek dünya verilerini bir modelle karşılaştırmak için genellikle standart sapma kullanılır. Örneğin endüstriyel uygulamalarda bir üretim hattından çıkan ürünlerin ağırlığının yasal olarak gerekli bir değere uyması gerekebilir. Ürünlerin bir kısmını tartarak, her zaman uzun vadeli ortalamadan biraz farklı olacak bir ortalama ağırlık bulunabilir. Standart sapmalar kullanılarak, ortalama ağırlığın zamanın çok yüksek bir yüzdesi (%99.9 veya daha fazla) içinde olacağına dair bir minimum ve maksimum değer hesaplanabilir. Aralığın dışına düşerse, üretim sürecinin düzeltilmesi gerekebilir. Bunlar gibi istatistiksel testler, test nispeten pahalı olduğunda özellikle önemlidir. Örneğin, ürünün açılması, boşaltılması ve tartılması gerekiyorsa veya ürün test tarafından başka şekilde kullanılmışsa.

Deneysel bilimde, teorik bir gerçeklik modeli kullanılır. Parçacık fiziği , bir keşfin bildirilmesi için geleneksel olarak " 5 sigma " standardını kullanır . Beş sigma seviyesi, rastgele bir dalgalanmanın sonucu vermesi için 3.5 milyonda bir şans anlamına gelir. Bu kesinlik düzeyi , CERN'deki iki bağımsız deneyde Higgs bozonu ile uyumlu bir parçacığın keşfedildiğini ve ayrıca yerçekimi dalgalarının ilk gözleminin ilan edilmesine ve küresel ısınmanın doğrulanmasına yol açtığını iddia etmek için gerekliydi .

Hava Durumu

Basit bir örnek olarak, biri karada diğeri kıyıda olmak üzere iki şehir için ortalama günlük maksimum sıcaklıkları düşünün. Kıyıya yakın şehirler için günlük maksimum sıcaklık aralığının iç kesimlerdeki şehirlere göre daha küçük olduğunu anlamakta fayda var. Bu nedenle, bu iki şehrin her biri aynı ortalama maksimum sıcaklığa sahip olabilirken, kıyı kenti için günlük maksimum sıcaklığın standart sapması, herhangi bir belirli günde gerçek maksimum sıcaklığın daha olası olduğu için iç kentinkinden daha az olacaktır. iç şehir için ortalama maksimum sıcaklıktan kıyıdakinden daha uzak olmak.

finans

Finans olarak, standart sapma genellikle bir ölçüsü olarak kullanılan risk belirli bir varlığın fiyat dalgalanmaları (hisse senetleri, bonolar, mülkiyet, vb) ya da varlıkların (aktif olarak yönetilen yatırım fonları portföyünün riski, karşılıklı indeksi ile ilişkili fonlar veya ETF'ler). Risk, bir yatırım portföyünün nasıl verimli bir şekilde yönetileceğini belirlemede önemli bir faktördür çünkü varlık ve/veya portföy üzerindeki getirilerdeki değişimi belirler ve yatırımcılara yatırım kararları için matematiksel bir temel verir ( ortalama varyans optimizasyonu olarak bilinir ). Temel risk kavramı, arttıkça, bir yatırımın beklenen getirisinin de artması gerektiğidir; bu, risk primi olarak bilinen bir artıştır. Başka bir deyişle, yatırımcılar, yatırım daha yüksek düzeyde risk veya belirsizlik taşıdığında, yatırımdan daha yüksek bir getiri beklemelidir. Yatırımcılar, yatırımları değerlendirirken hem beklenen getiriyi hem de gelecekteki getirilerin belirsizliğini tahmin etmelidir. Standart sapma, gelecekteki getirilerin belirsizliğine ilişkin nicel bir tahmin sağlar.

Örneğin, bir yatırımcının iki hisse senedi arasında seçim yapması gerektiğini varsayalım. Son 20 yılda Stok A'nın ortalama getirisi yüzde 10'luk bir standart sapma ile yüzde 20 puan (pp) ve Stok B'nin aynı dönemde ortalama getirisi yüzde 12'dir, ancak standart sapması 30 pp'dir. Risk ve getiri temelinde, bir yatırımcı, Hisse Senedi A'nın daha güvenli bir seçim olduğuna karar verebilir, çünkü Hisse Senedi B'nin ek iki yüzde getirisi, ek 10 pp standart sapmaya değmez (beklenen getiriye ilişkin daha büyük risk veya belirsizlik). Stok B'nin aynı koşullar altında Stok A'dan daha sık ilk yatırımın gerisinde kalması (aynı zamanda ilk yatırımı aşması) muhtemeldir ve ortalamada sadece yüzde iki daha fazla getiri sağlayacağı tahmin edilmektedir. Bu örnekte, Stok A'nın gelecek yıl getirilerinin yaklaşık yüzde 10'u, artı veya eksi 20 pp (yüzde 30 ila yüzde -10 aralığında) kazanması bekleniyor. Gelecekte daha aşırı olası getiriler veya sonuçlar göz önüne alındığında, bir yatırımcı, ortalama getiriden üç standart sapma için sonuçları içeren yüzde 10 artı veya eksi 60 pp kadar veya yüzde 70 ila yüzde -50 arasında bir sonuç beklemelidir. (muhtemel getirilerin yaklaşık yüzde 99,7'si).

Belirli bir süre boyunca bir menkul kıymetin getirisinin ortalamasını (veya aritmetik ortalamasını) hesaplamak, varlığın beklenen getirisini üretecektir. Her dönem için, gerçekleşen getiriden beklenen getiriyi çıkarmak, ortalamadan farkı verir. Her dönemdeki farkın karesini almak ve ortalamayı almak, varlığın getirisinin genel varyansını verir. Varyans ne kadar büyük olursa, güvenlik o kadar büyük risk taşır. Bu varyansın karekökünü bulmak, söz konusu yatırım aracının standart sapmasını verecektir.

Nüfus standart sapması, yaygın olarak benimsenen bir teknik analiz aracı olan Bollinger Bantlarının genişliğini ayarlamak için kullanılır . Örneğin, üst Bollinger Bandı n için en sık kullanılan değer 2'dir; normal bir getiri dağılımı varsayarsak, dışarı çıkma şansı yaklaşık yüzde beştir.

Finansal zaman serileri durağan olmayan seriler olarak bilinirken, standart sapma gibi yukarıdaki istatistiksel hesaplamalar sadece durağan seriler için geçerlidir. Yukarıdaki istatistiksel araçları durağan olmayan serilere uygulamak için, seriler öncelikle durağan bir seriye dönüştürülmelidir, bu da artık geçerli bir temeli olan istatistiksel araçların kullanımını mümkün kılar.

geometrik yorumlama

Bazı geometrik içgörüler ve açıklamalar elde etmek için, x 1 , x 2 , x 3 olmak üzere üç değerden oluşan bir popülasyonla başlayacağız . Bu tanımlar, bir nokta P = ( x 1 , x 2 , x 3 ) 'de R 3 . L = {( r , r , r ) : rR } satırını göz önünde bulundurun . Bu, orijinden geçen "ana köşegen"dir. Verilen üç değerimizin tümü eşit olsaydı, standart sapma sıfır olur ve P , L üzerindedir . Bu yüzden standart sapma ile ilişkili olduğunu varsaymak mantıksız değildir mesafeye ait P için L . Gerçekten de durum bu. L noktasından P noktasına dik olarak hareket etmek için şu noktadan başlanır:

koordinatları, başladığımız değerlerin ortalamasıdır.

türetilmesi

açık nedenle bazıları için .

Hat vektörde ortogonal olmak üzere . Öyleyse:

Küçük bir cebir, P ve M arasındaki uzaklığın (bu, P ile L doğrusu arasındaki dik uzaklıkla aynıdır ) , vektörün standart sapmasına ( x 1 , x 2 , x 3 ) eşit olduğunu, bunun vektörün boyut sayısının karekökü (bu durumda 3).

Chebyshev eşitsizliği

Bir gözlem nadiren ortalamadan birkaç standart sapmadan daha uzaktır. Chebyshev'in eşitsizliği, standart sapmanın tanımlandığı tüm dağılımlar için, ortalamanın bir dizi standart sapması içindeki veri miktarının en az aşağıdaki tabloda verilen kadar olmasını sağlar.

ortalamadan uzaklık Asgari nüfus
%50
2 σ %75
3 σ %89
4 σ %94
5 σ %96
6 σ %97

Normal dağıtılmış veriler için kurallar

Koyu mavi, ortalamanın her iki tarafında bir standart sapmadır. Normal dağılım için bu, kümenin yüzde 68,27'sini oluşturur; ortalamadan (orta ve koyu mavi) iki standart sapma yüzde 95,45'i oluştururken; üç standart sapma (açık, orta ve koyu mavi) yüzde 99,73'ü; ve dört standart sapma yüzde 99.994'ü oluşturuyor. Ortalamadan bir standart sapma olan eğrinin iki noktası da bükülme noktalarıdır .

Teoremi merkezi limit birçok bağımsız bir ortalama dağılımı, aynı şekilde rastgele değişkenler dağılmış olduğunu bildiren bir ünlü çan şeklinde normal dağılım meylettiği olasılık yoğunluk fonksiyonu arasında

burada μ , rastgele değişkenlerin beklenen değeridir , σ , dağılımlarının standart sapmasının n 1/ 2'ye bölünmesine eşittir ve n , rastgele değişkenlerin sayısıdır. Bu nedenle standart sapma, normalleştirme sabitinde de görünmesine rağmen, eğrinin ne kadar geniş olacağını ayarlayan basit bir ölçekleme değişkenidir .

Bir veri dağılımı yaklaşık olarak normalse, ortalamanın z standart sapmaları içindeki veri değerlerinin oranı şu şekilde tanımlanır:

burada bir hata fonksiyonu . Bir sayıdan küçük veya ona eşit olan oran, x , kümülatif dağılım fonksiyonu tarafından verilir :

.

Bir veri dağılımı yaklaşık olarak normalse, veri değerlerinin yaklaşık yüzde 68'i ortalamanın bir standart sapması dahilindedir (matematiksel olarak, μ  ±  σ , burada μ aritmetik ortalamadır), yaklaşık yüzde 95'i iki standart sapma ( μ  ± 2) içindedir. σ ) ve yaklaşık yüzde 99,7'si üç standart sapma ( μ  ± 3 σ ) içindedir . Bu, 68-95-99.7 kuralı veya ampirik kural olarak bilinir .

Çeşitli z değerleri için, simetrik aralığın içinde ve dışında olması beklenen değerlerin yüzdesi, CI = (− ), aşağıdaki gibidir:

( z ) içindeki yüzde
z (İçindeki yüzde)

Güven
aralığı
içindeki oran orantısız
Yüzde Yüzde kesir
0,318 639 σ %25 %75 3 / 4
0,674 490 σ % 50 % 50 1 / 2
0,977 925 σ %66.6667 %33.3333 1 / 3
0,994 458 σ %68 %32 1 / 3.125
1 σ 68.268 9492 % 31.731 0508 % 1 / 3.151 4872
1.281 552 σ %80 %20 1 / 5
1.644 854 σ %90 %10 1 / 10
1.959 964 σ %95 %5 1 / 20
2 σ 95.449 9736 % 4.550 0264 % 1 / 21.977 895
2.575 829 σ %99 %1 1 / 100
3 σ 99.730 0204 % 0.269 9796 % 1 / 370.398
3.290 527 σ %99.9 %0.1 1 / 1000
3.890 592 σ %99,99 %0.01 1 / 10 000
4 σ 99.993 666 % 0.006 334 % 1 / 15 787
4.417 173 σ %99,999 %0,001 1 / 100 000
4.5 σ 99.999 320 465 3751 0.000 679 534 %6249 1 / 147 159 .5358
6.8 / 1 000 000
4.891 638 σ 99.9999 % 0.0001 % 1 / 1 000 000
5 σ 99.999 942 6697 % 0.000 057 3303 % 1 / 1 744 278
5.326 724 σ 99.999 99 % 0.000 01 % 1 / 10 000 000
5.730 729 σ 99.999 999 % 0.000 001 % 1 / 100 000 000
6 σ 99.999 999 8027 % 0,00 000 1973 % 1 / 506 797 346
6.109 410 σ 99.999 9999 % % 0.000 0001 1 / 1 000 000 000
6.466 951 σ 99.999 999 99 % 0.000 000 01 % 1 / 10 000 000 000
6.806 502 σ 99.999 999 999 % 0.000 000 001 % 1 / 100 000 000 000
7 σ 99.999 999 999 7440% 0.000 000 000 256 % 1 / 390 682 215 445

Standart sapma ve ortalama arasındaki ilişki

Bir veri setinin ortalaması ve standart sapması, genellikle birlikte rapor edilen tanımlayıcı istatistiklerdir . Belirli bir anlamda, standart sapma, verilerin merkezi ortalama hakkında ölçülürse , istatistiksel dağılımın "doğal" bir ölçüsüdür . Bunun nedeni, ortalamadan standart sapmanın diğer herhangi bir noktadan daha küçük olmasıdır. Kesin ifade şudur: x 1 , ..., x n'nin gerçek sayılar olduğunu ve işlevi tanımladığını varsayalım :

Hesabı kullanarak veya kareyi tamamlayarak, σ ( r )'nin ortalamada benzersiz bir minimuma sahip olduğunu göstermek mümkündür :

Değişkenlik , standart sapmanın ortalamaya oranı olan varyasyon katsayısı ile de ölçülebilir . Bu bir olan boyutsuz bir sayıdır .

Ortalamanın standart sapması

Genellikle, elde ettiğimiz ortalamanın kesinliği hakkında biraz bilgi isteriz. Bunu, örneklenen ortalamanın standart sapmasını belirleyerek elde edebiliriz. Örnekteki değerlerin istatistiksel bağımsızlığını varsayarsak, ortalamanın standart sapması, dağılımın standart sapması ile şu şekilde ilişkilidir:

burada N , ortalamayı tahmin etmek için kullanılan örnekteki gözlem sayısıdır. Bu kolayca kanıtlanabilir ( varyansın temel özelliklerine bakın ):

(İstatistiksel bağımsızlık varsayılmıştır.)

buradan

Sonuçlanan:

Ortalamanın standart sapmasını tahmin etmek için önceden tüm popülasyonun standart sapmasını bilmek gerekir . Ancak çoğu uygulamada bu parametre bilinmemektedir. Örneğin, bir laboratuvarda önceden bilinmeyen bir niceliğin 10 ölçümünden oluşan bir seri yapılırsa, elde edilen numune ortalamasını ve numune standart sapmasını hesaplamak mümkündür, ancak ortalamanın standart sapmasını hesaplamak imkansızdır.

Hızlı hesaplama yöntemleri

Aşağıdaki iki formül, devam eden (tekrar tekrar güncellenen) bir standart sapmayı temsil edebilir. İki güç toplamları bir dizi s 1 ve s 2 kümesi üzerinde hesaplanır , N değerleri x rakamı ile belirtilen, x 1 , ..., x N :

Bu sürekli toplamların sonuçları göz önüne alındığında, N , s 1 , s 2 değerleri, devam eden standart sapmanın mevcut değerini hesaplamak için herhangi bir zamanda kullanılabilir :

N, yukarıda belirtildiği gibi, değerler kümesinin boyutudur (veya s 0 olarak da kabul edilebilir ).

Örnek standart sapması için benzer şekilde,

Bir bilgisayar uygulamasında, iki s j toplamı büyüdükçe, yuvarlama hatası , aritmetik taşma ve aritmetik taşma dikkate almamız gerekir . Aşağıdaki yöntem, azalan yuvarlama hatalarıyla değişen toplamlar yöntemini hesaplar. Bu, hesaplama sırasında önceki verileri depolamaya gerek kalmadan n örneğin varyansını hesaplamak için "tek geçişli" bir algoritmadır . Bu yöntemi bir zaman serisine uygulamak , sabit genişlikte kayan pencere hesaplaması yerine n her yeni örnekle büyüdükçe n veri noktasına karşılık gelen ardışık standart sapma değerleriyle sonuçlanacaktır .

İçin k = 1, ..., n :

burada A ortalama değerdir.

Not: beri veya

Örnek varyans:

Nüfus değişimi:

Ağırlıklı hesaplama

x i değerleri w i eşit olmayan ağırlıklarla ağırlıklandırıldığında , s 0 , s 1 , s 2 güç toplamlarının her biri şu şekilde hesaplanır:

Ve standart sapma denklemleri değişmeden kalır. s 0 şimdi N numunelerinin sayısı değil, ağırlıkların toplamıdır .

Azaltılmış yuvarlama hatalarına sahip artımlı yöntem, bazı ek karmaşıklıklarla da uygulanabilir.

1'den n'ye kadar her k için geçerli bir ağırlık toplamı hesaplanmalıdır :

ve 1 / yerler n , yukarıda kullanılan ile değiştirilmelidir ağırlık I / W , n :

Son bölümde,

ve

veya

burada n , toplam eleman sayısıdır ve n' , sıfır olmayan ağırlıklı elemanların sayısıdır.

Ağırlıklar bire eşit alınırsa yukarıdaki formüller yukarıda verilen daha basit formüllere eşit olur.

Tarih

Standart sapma terimi ilk olarak Karl Pearson tarafından derslerde kullanılmasının ardından 1894 yılında yazılı olarak kullanılmıştır . Bu, aynı fikir için önceki alternatif isimlerin yerine geçmiştir: örneğin, Gauss ortalama hata kullandı .

Daha yüksek boyutlar

İki boyutta, standart sapma, standart sapma elipsi ile gösterilebilir, bkz. Çok değişkenli normal dağılım § Geometrik yorumlama .

İki boyutlu normal dağılımın standart sapma elipsi (yeşil).

Ayrıca bakınız

Referanslar

Dış bağlantılar