Despre baie - Tavan. Băi. Ţiglă. Echipamente. Reparație. Instalatii sanitare

Notați seria de variații. Serii de variații și tipurile acestora. Pentru ce este folosit exact testul lui Fisher?

Serii de distribuție statistică– aceasta este o distribuție ordonată a unităților de populație în grupuri în funcție de o anumită caracteristică variabilă.
În funcție de caracteristica care stă la baza formării seriei de distribuție, există serii de distribuţie atributivă şi variaţională.

Prezența unei caracteristici comune stă la baza formării unei populații statistice, care reprezintă rezultatele descrierii sau măsurării caracteristicilor generale ale obiectelor de studiu.

Subiectul de studiu în statistică este schimbarea (variantă) caracteristici sau caracteristici statistice.

Tipuri de caracteristici statistice.

Seriile de distribuție sunt numite atributive construit după criterii de calitate. Atributiv– acesta este un semn care are un nume (de exemplu, profesie: croitoreasă, profesor etc.).
Seria de distribuție este de obicei prezentată sub formă de tabele. În tabel 2.8 prezintă seria de distribuție a atributelor.
Tabelul 2.8 - Distribuția tipurilor de asistență juridică oferite de avocați cetățenilor uneia dintre regiunile Federației Ruse.

Seria de variații– acestea sunt valorile caracteristicii (sau intervalele de valori) și frecvențele acestora.
Serii de variații sunt serii de distribuție, construit pe o bază cantitativă. Orice serie de variații constă din două elemente: opțiuni și frecvențe.
Variantele sunt considerate a fi valorile individuale ale unei caracteristici pe care aceasta le ia într-o serie de variații.
Frecvențele sunt numărul de opțiuni individuale sau fiecare grup dintr-o serie de variații, de ex. Acestea sunt numere care arată cât de des apar anumite opțiuni într-o serie de distribuție. Suma tuturor frecvențelor determină dimensiunea întregii populații, volumul acesteia.
Frecvențele sunt frecvențe exprimate ca fracții dintr-o unitate sau ca procent din total. În consecință, suma frecvențelor este egală cu 1 sau 100%. Seria de variații permite estimarea formei legii de distribuție pe baza datelor reale.

În funcție de natura variației trăsăturii, există serie de variații discrete și interval.
Un exemplu de serie de variații discrete este dat în tabel. 2.9.
Tabelul 2.9 - Distribuția familiilor după numărul de camere ocupate în apartamente individuale în 1989 în Federația Rusă.

Prima coloană a tabelului prezintă opțiuni pentru o serie de variații discrete, a doua coloană conține frecvențele seriei de variații, iar a treia conține indicatori de frecvență.

Seria de variații

O anumită caracteristică cantitativă este studiată în populația generală. Din el se extrage aleatoriu o mostră de volum n, adică numărul elementelor eșantionului este egal cu n. În prima etapă a procesării statistice, variind mostre, adică ordonarea numerelor x 1 , x 2 , …, x n Ascendent. Fiecare valoare observată x i numit opțiune. Frecvență m i este numărul de observații ale valorii x iîn probă. Frecvența relativă (frecvența) w i este raportul de frecvență m i la dimensiunea eșantionului n: .
Când se studiază serii de variații, se folosesc și conceptele de frecvență acumulată și frecvență acumulată. Lăsa X oarecare număr. Apoi numărul de opțiuni , ale căror valori sunt mai mici X, se numește frecvență acumulată: pentru x i n se numeste frecventa acumulata w i max.
O caracteristică se numește variabilă discretă dacă valorile sale individuale (variantele) diferă unele de altele printr-o anumită valoare finită (de obicei un număr întreg). Seria de variații a unei astfel de caracteristici se numește serie de variații discrete.

Tabelul 1. Vedere generală a unei serii de variații discrete de frecvențe

Valori caracteristicex i x 1 x 2 x n
Frecvențelem i m 1 m 2 m n

O caracteristică se numește variație continuă dacă valorile sale diferă unele de altele printr-o cantitate arbitrar mică, de exemplu. atributul poate lua orice valoare într-un anumit interval. O serie de variații continue pentru o astfel de caracteristică se numește interval.

Tabelul 2. Vedere generală a seriei de variație a intervalului de frecvențe

Tabelul 3. Imagini grafice ale seriei de variații

RândPoligon sau histogramăFuncția de distribuție empirică
Discret
Interval
Prin revizuirea rezultatelor observațiilor, se determină câte valori ale opțiunilor se încadrează în fiecare interval specific. Se presupune că fiecare interval aparține unuia dintre capetele sale: fie în toate cazurile stânga (mai des), fie în toate cazurile dreapta, iar frecvențele sau frecvențele arată numărul de opțiuni conținute în limitele specificate. Diferențele a i – a i +1 se numesc intervale parțiale. Pentru a simplifica calculele ulterioare, seria de variații de interval poate fi înlocuită cu una condițional discretă. În acest caz, valoarea medie i-intervalul este luat ca optiune x i, și frecvența intervalului corespunzătoare m i– pentru frecvența acestui interval.
Pentru reprezentarea grafică a seriilor de variații, cele mai frecvent utilizate sunt poligonul, histograma, curba cumulativă și funcția de distribuție empirică.

În tabel 2.3 (Gruparea populației ruse după venitul mediu pe cap de locuitor în aprilie 1994) este prezentată serie de variații de interval.
Este convenabil să analizați seria de distribuție folosind o imagine grafică, ceea ce vă permite să judecați forma distribuției. O reprezentare vizuală a naturii modificărilor în frecvențele seriei de variații este dată de poligon și histogramă.
Poligonul este utilizat atunci când descrie serii de variații discrete.
Să reprezentăm, de exemplu, grafic distribuția fondului de locuințe pe tip de apartament (Tabelul 2.10).
Tabel 2.10 - Distribuția fondului de locuințe din mediul urban pe tip de apartament (cifre condiționate).


Orez. Zona de distribuție a locuințelor


Pe axele ordonatelor pot fi reprezentate nu numai valorile frecvenței, ci și frecvențele seriei de variații.
Histograma este utilizată pentru a descrie o serie de variații de interval. La construirea unei histograme, valorile intervalelor sunt reprezentate pe axa absciselor, iar frecvențele sunt reprezentate prin dreptunghiuri construite pe intervalele corespunzătoare. Înălțimea coloanelor în cazul intervalelor egale trebuie să fie proporțională cu frecvențele. O histogramă este un grafic în care o serie este reprezentată ca bare adiacente una cu cealaltă.
Să descriem grafic seria de distribuție a intervalelor prezentată în tabel. 2.11.
Tabelul 2.11 - Distribuția familiilor în funcție de dimensiunea spațiului de locuit per persoană (cifre condiționate).
N p/p Grupuri de familii în funcție de dimensiunea spațiului de locuit per persoană Numărul de familii cu o anumită dimensiune a spațiului de locuit Numărul cumulat de familii
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
TOTAL 115 ----


Orez. 2.2. Histograma distribuției familiilor după mărimea spațiului de locuit per persoană


Folosind datele seriei acumulate (Tabelul 2.11), construim distribuție cumulată.


Orez. 2.3. Distribuția cumulativă a familiilor în funcție de dimensiunea spațiului de locuit per persoană


Reprezentarea unei serii de variații sub formă de cumulat este eficientă în special pentru serii de variații ale căror frecvențe sunt exprimate ca fracții sau procente din suma frecvențelor seriei.
Dacă schimbăm axele atunci când reprezentăm grafic o serie de variații sub formă de cumul, atunci obținem ogiva. În fig. 2.4 prezintă o ogivă construită pe baza datelor din tabel. 2.11.
O histogramă poate fi convertită într-un poligon de distribuție prin găsirea punctelor medii ale laturilor dreptunghiurilor și apoi conectând aceste puncte cu linii drepte. Poligonul de distribuție rezultat este prezentat în Fig. 2.2 cu o linie punctată.
Când se construiește o histogramă a distribuției unei serii de variații cu intervale inegale, nu frecvențele sunt reprezentate de-a lungul axei ordonatelor, ci densitatea distribuției caracteristicii în intervalele corespunzătoare.
Densitatea de distribuție este frecvența calculată pe unitatea de lățime a intervalului, adică câte unități sunt în fiecare grupă pe unitatea de valoare a intervalului. Un exemplu de calcul al densității de distribuție este prezentat în tabel. 2.12.
Tabel 2.12 - Distribuția întreprinderilor după numărul de angajați (cifre condiționate)
N p/p Grupuri de întreprinderi după numărul de angajați, oameni. Numărul de întreprinderi Dimensiunea intervalului, oameni. Densitatea de distribuție
A 1 2 3=1/2
1 Până la 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
TOTAL 147 ---- ----

Poate fi folosit și pentru a reprezenta grafic serii de variații curba cumulativă. Folosind un cumulat (curbă sumă), este descrisă o serie de frecvențe acumulate. Frecvențele cumulate sunt determinate prin însumarea secvențială a frecvențelor între grupuri și arată câte unități din populație au valori ale atributelor nu mai mari decât valoarea luată în considerare.


Orez. 2.4. Ogiva repartizării familiilor după mărimea spațiului de locuit per persoană

Când se construiește cumulul unei serii de variații de interval, variantele seriei sunt reprezentate de-a lungul axei absciselor, iar frecvențele acumulate sunt reprezentate de-a lungul axei ordonatelor.

Serii cu variații continue

Seria de variație continuă - o serie construită pe baza unei caracteristici statistice cantitative. Exemplu. Durata medie a îmbolnăvirii condamnaților (zile per persoană) în perioada toamnă-iarnă a acestui an a fost:
7,0 6,0 5,9 9,4 6,5 7,3 7,6 9,3 5,8 7,2
7,1 8,3 7,5 6,8 7,1 9,2 6,1 8,5 7,4 7,8
10,2 9,4 8,8 8,3 7,9 9,2 8,9 9,0 8,7 8,5

Ca urmare a stăpânirii acestui capitol, studentul trebuie să: stiu

  • indicatori de variație și relația lor;
  • legile de bază ale distribuției caracteristicilor;
  • esența criteriilor de consimțământ; a fi capabil să
  • calcularea indicilor de variație și a criteriilor de bunăstare a potrivirii;
  • determinarea caracteristicilor de distribuție;
  • evaluarea principalelor caracteristici numerice ale serii de distribuție statistică;

proprii

  • metode de analiză statistică a seriilor de distribuție;
  • elementele de bază ale analizei varianței;
  • tehnici de verificare a seriilor de distribuţie statistică pentru respectarea legilor de bază ale distribuţiei.

Indicatori de variație

În studiul statistic al caracteristicilor diferitelor populații statistice, este de mare interes să se studieze variația caracteristicii unităților statistice individuale ale populației, precum și natura distribuției unităților în funcție de această caracteristică. Variație - acestea sunt diferențe de valori individuale ale unei caracteristici între unitățile populației studiate. Studiul variației este de mare importanță practică. După gradul de variație, se pot judeca limitele de variație ale unei caracteristici, omogenitatea populației pentru o caracteristică dată, tipicitatea mediei și relația factorilor care determină variația. Indicatorii de variație sunt utilizați pentru a caracteriza și organiza populațiile statistice.

Rezultatele sintetizării și grupării materialelor de observație statistică, prezentate sub formă de serii de distribuție statistică, reprezintă o distribuție ordonată a unităților populației studiate pe grupe după criterii de grupare (variabile). Dacă o caracteristică calitativă este luată ca bază pentru grupare, atunci se numește o astfel de serie de distribuție atributiv(distribuirea pe profesie, gen, culoare etc.). Dacă o serie de distribuție este construită pe o bază cantitativă, atunci se numește o astfel de serie variațională(distribuția după înălțime, greutate, mărime salariile etc.). A construi o serie de variații înseamnă a organiza distribuția cantitativă a unităților de populație după valori caracteristice, a număra numărul de unități de populație cu aceste valori (frecvență) și a aranja rezultatele într-un tabel.

În locul frecvenței unei variante, este posibil să se folosească raportul acesteia la volumul total de observații, care se numește frecvență (frecvență relativă).

Există două tipuri de serie de variații: discrete și interval. Serii discrete- Aceasta este o serie de variații, a cărei construcție se bazează pe caracteristici cu schimbare discontinuă (caracteristici discrete). Acestea din urmă includ numărul de angajați la întreprindere, categoria tarifară, numărul de copii din familie etc. O serie de variații discrete reprezintă un tabel care constă din două coloane. Prima coloană indică valoarea specifică a atributului, iar a doua coloană indică numărul de unități din populație cu o anumită valoare a atributului. Dacă o caracteristică are o schimbare continuă (valoarea venitului, vechimea în muncă, costul activelor fixe ale întreprinderii etc., care în anumite limite poate lua orice valoare), atunci pentru această caracteristică este posibil să se construiască serie de variații de interval. Când se construiește o serie de variații de interval, tabelul are și două coloane. Primul indică valoarea atributului în intervalul „de la - la” (opțiuni), al doilea indică numărul de unități incluse în interval (frecvență). Frecvență (frecvența de repetare) - numărul de repetări ale unei anumite variante de valori ale atributelor. Intervalele pot fi închise sau deschise. Intervalele închise sunt limitate pe ambele părți, adică au atât o limită inferioară („de la”), cât și una superioară („spre”). Intervalele deschise au o singură limită: fie superioară, fie inferioară. Dacă opțiunile sunt aranjate în ordine crescătoare sau descrescătoare, atunci rândurile sunt apelate clasat.

Pentru serii de variații, există două tipuri de opțiuni de răspuns în frecvență: frecvența acumulată și frecvența acumulată. Frecvența acumulată arată câte observații valoarea caracteristicii a luat valori mai mici decât o valoare dată. Frecvența acumulată este determinată prin însumarea valorilor frecvenței unei caracteristici pentru un grup dat cu toate frecvențele grupurilor anterioare. Frecvența acumulată caracterizează proporția unităților de observare ale căror valori atribute nu depășesc limita superioară a grupului dat. Astfel, frecvența acumulată arată proporția opțiunilor în totalitate care au o valoare nu mai mare decât cea dată. Frecvența, frecvența, densitățile absolute și relative, frecvența acumulată și frecvența sunt caracteristici ale mărimii variantei.

Variațiile caracteristicilor unităților statistice ale populației, precum și natura distribuției, sunt studiate folosind indicatori și caracteristici ale seriei de variații, care includ nivelul mediu al seriei, abaterea liniară medie, abaterea standard, dispersia. , coeficienții de oscilație, variație, asimetrie, curtoză etc.

Valorile medii sunt folosite pentru a caracteriza centrul de distribuție. Media este o caracteristică statistică generalizantă în care se cuantifică nivelul tipic al unei caracteristici deținute de membrii populației studiate. Cu toate acestea, pot exista cazuri de coincidență a mediilor aritmetice cu modele de distribuție diferite, prin urmare, ca caracteristici statistice ale seriei de variații, se calculează așa-numitele medii structurale - mod, mediană, precum și cuantile, care împart seria de distribuție în egale. părți (quartile, decile, percentile etc.).

Modă - Aceasta este valoarea unei caracteristici care apare în seria de distribuție mai des decât celelalte valori ale acesteia. Pentru seriale discrete, aceasta este opțiunea cu cea mai mare frecvență. În seriile de variație de interval, pentru a determina modul, este necesar să se determine mai întâi intervalul în care se află, așa-numitul interval modal. Într-o serie de variații cu intervale egale, intervalul modal este determinat de cea mai mare frecvență, în serii cu intervale inegale - dar de cea mai mare densitate de distribuție. Formula este apoi folosită pentru a determina modul în rânduri la intervale egale

unde Mo este valoarea modei; xMo - limita inferioară a intervalului modal; h- lățimea intervalului modal; / Mo - frecvența intervalului modal; / Mo j este frecvența intervalului premodal; / Mo+1 este frecvența intervalului post-modal, iar pentru o serie cu intervale inegale în această formulă de calcul, în locul frecvențelor / Mo, / Mo, / Mo trebuie folosite densitățile de distribuție. Minte 0 _| , Minte 0> UMO+"

Dacă există un singur mod, atunci distribuția probabilității variabilă aleatorie numit unimodal; dacă există mai multe moduri, se numește multimodal (polimodal, multimodal), în cazul a două moduri - bimodal. De regulă, multimodalitatea indică faptul că distribuția studiată nu respectă legea distribuției normale. Populațiile omogene, de regulă, sunt caracterizate prin distribuții cu un singur vârf. Multivertixul indică, de asemenea, eterogenitatea populației studiate. Apariția a două sau mai multe vârfuri face necesară regruparea datelor pentru a identifica grupuri mai omogene.

Într-o serie de variații de interval, modul poate fi determinat grafic folosind o histogramă. Pentru a face acest lucru, trageți două linii care se intersectează de la punctele superioare ale celei mai înalte coloane a histogramei până la punctele superioare ale două coloane adiacente. Apoi, din punctul de intersecție a acestora, o perpendiculară este coborâtă pe axa absciselor. Valoarea caracteristicii de pe axa x corespunzătoare perpendicularei este modul. În multe cazuri, atunci când se caracterizează o populație, se acordă preferință modului mai degrabă decât mediei aritmetice ca indicator generalizat.

Mediana - aceasta este valoarea centrală a atributului este deținută de membrul central al seriei ordonate a distribuției. În seria discretă, pentru a găsi valoarea medianei, se determină mai întâi numărul de serie al acesteia. Pentru a face acest lucru, dacă numărul de unități este impar, se adaugă una la suma tuturor frecvențelor, iar numărul este împărțit la doi. Dacă există un număr par de unități pe rând, vor exista două unități mediane, deci în acest caz mediana este definită ca media valorilor celor două unități mediane. Astfel, mediana într-o serie de variații discrete este valoarea care împarte seria în două părți care conțin același număr de opțiuni.

În seria de intervale, după determinarea numărului de serie al medianei, intervalul medial se găsește folosind frecvențele (frecvențele) acumulate, iar apoi folosind formula de calcul a medianei, se determină valoarea medianei în sine:

unde Me este valoarea mediană; x eu - limita inferioară a intervalului median; h- lățimea intervalului median; - suma frecventelor seriei de distributie; /D - frecvența acumulată a intervalului pre-median; / Me - frecvența intervalului median.

Mediana poate fi găsită grafic folosind un cumul. Pentru a face acest lucru, pe scara frecvențelor (frecvențelor) acumulate ale cumulatului, din punctul corespunzător numărului ordinal al medianei, se trasează o dreaptă paralelă cu axa absciselor până se intersectează cu cumulul. În continuare, din punctul de intersecție a dreptei indicate cu cumulul, se coboară o perpendiculară pe axa absciselor. Valoarea atributului de pe axa x corespunzătoare ordonatei desenate (perpendiculară) este mediana.

Mediana este caracterizată de următoarele proprietăți.

  • 1. Nu depinde de acele valori ale atributelor care sunt situate pe ambele părți ale acestuia.
  • 2. Are proprietatea de minimalitate, ceea ce înseamnă că suma abaterilor absolute ale valorilor atributelor de la mediană reprezintă o valoare minimă în comparație cu abaterea valorilor atributelor de la orice altă valoare.
  • 3. Când se combină două distribuții cu mediane cunoscute, este imposibil să se prezică în avans valoarea medianei noii distribuții.

Aceste proprietăți ale medianei sunt utilizate pe scară largă la proiectarea locației punctelor de serviciu public - școli, clinici, benzinării, pompe de apă etc. De exemplu, dacă se plănuiește construirea unei clinici într-un anumit bloc al orașului, atunci ar fi mai oportun să o amplasăm într-un punct din bloc care să înjumătățească nu lungimea blocului, ci numărul de rezidenți.

Raportul dintre mod, mediană și medie aritmetică indică natura distribuției caracteristicii în agregat și ne permite să evaluăm simetria distribuției. Dacă x Me atunci există o asimetrie pe partea dreaptă a seriei. Cu distribuție normală X - Notificare.

K. Alinierea bazată pe Pearson tipuri variate curbele au determinat că pentru distribuțiile moderat asimetrice sunt valabile următoarele relații aproximative între media aritmetică, mediană și mod:

unde Me este valoarea mediană; Mo - sensul modei; x aritmetică - valoarea mediei aritmetice.

Dacă este nevoie de a studia structura seriei de variații mai detaliat, atunci calculați valori caracteristice similare cu mediana. Astfel de valori caracteristice împart toate unitățile de distribuție în numere egale, se numesc cuantile sau gradienți. Quantilele sunt împărțite în quartile, decile, percentile etc.

Quartilele împart populația în patru părți egale. Prima cuartilă este calculată în mod similar cu mediana utilizând formula de calcul a primului cuartil, după ce s-a determinat anterior primul interval trimestrial:

unde Qi este valoarea primei quartile; xQ^- limita inferioară a primului interval de quartile; h- latimea intervalului primul trimestru; /, - frecvențele seriei de intervale;

Frecvența cumulativă în intervalul care precede primul interval de quartile; Jq ( - frecvența primului interval de quartile.

Prima quartila arată că 25% din unitățile populației sunt mai mici decât valoarea sa, iar 75% sunt mai multe. A doua cuartilă este egală cu mediana, adică. Q 2 = Pe mine.

Prin analogie, se calculează a treia cuartilă, după ce a fost găsit mai întâi al treilea interval trimestrial:

unde este limita inferioară a intervalului al treilea quartil; h- lăţimea intervalului al treilea quartil; /, - frecvențele seriei de intervale; /X" - frecventa acumulata in intervalul precedent

G

intervalul al treilea quartila; Jq este frecvența celui de-al treilea interval de quartile.

A treia quartila arată că 75% din unitățile populației sunt mai mici decât valoarea sa, iar 25% sunt mai multe.

Diferența dintre al treilea și primul quartile este intervalul intercuartil:

unde Aq este valoarea intervalului intercuartil; Q 3 - valoarea a treia quartila; Q, este valoarea primei quartile.

Decilele împart populația în 10 părți egale. Un decil este o valoare a unei caracteristici dintr-o serie de distribuție care corespunde cu zecimi din dimensiunea populației. Prin analogie cu quartilele, prima decilă arată că 10% din unitățile populației sunt mai mici decât valoarea sa, iar 90% sunt mai mari, iar a noua decilă arată că 90% din unitățile populației sunt mai mici decât valoarea sa, iar 10% sunt mai mare. Raportul dintre al nouălea și primul decil, i.e. Coeficientul decil este utilizat pe scară largă în studiul diferențierii veniturilor pentru a măsura raportul dintre nivelurile de venit ale celor 10% dintre cei mai înstăriți și 10% din populația cea mai puțin bogată. Percentilele împart populația clasată în 100 de părți egale. Calculul, semnificația și aplicarea percentilelor sunt similare cu decilele.

Quartilele, decilele și alte caracteristici structurale pot fi determinate grafic prin analogie cu mediana folosind cumulate.

Pentru măsurarea mărimii variației se folosesc următorii indicatori: interval de variație, abatere liniară medie, abatere standard, dispersie. Mărimea intervalului de variație depinde în întregime de aleatorietatea distribuției membrilor extremi ai seriei. Acest indicator este de interes în cazurile în care este important să știți care este amplitudinea fluctuațiilor valorilor unei caracteristici:

Unde R- valoarea intervalului de variație; x max - valoarea maximă a atributului; x tt - valoarea minimă a atributului.

La calcularea intervalului de variație nu se ia în considerare valoarea marii majorități a membrilor seriei, în timp ce variația este asociată cu fiecare valoare a membrului seriei. Indicatorii care sunt medii obținute din abaterile valorilor individuale ale unei caracteristici de la valoarea lor medie nu au acest dezavantaj: abaterea liniară medie și abaterea standard. Există o relație directă între abaterile individuale de la medie și variabilitatea unei anumite trăsături. Cu cât fluctuația este mai puternică, cu atât dimensiunea absolută a abaterilor de la medie este mai mare.

Abaterea liniară medie este media aritmetică a valorilor absolute ale abaterilor opțiunilor individuale de la valoarea lor medie.

Abaterea liniară medie pentru date negrupate

unde /pr este valoarea abaterii liniare medii; x, - este valoarea atributului; X - P - numarul de unitati din populatie.

Abaterea liniară medie a seriei grupate

unde / vz - valoarea abaterii liniare medii; x, este valoarea atributului; X - valoarea medie a caracteristicii pentru populația studiată; / - numărul de unități de populație dintr-o grupă separată.

În acest caz, semnele abaterilor sunt ignorate, în caz contrar, suma tuturor abaterilor va fi egală cu zero. Abaterea liniară medie, în funcție de gruparea datelor analizate, se calculează folosind diverse formule: pentru date grupate și negrupate. Abaterea liniară medie, datorită convenției sale, separat de alți indicatori de variație, este utilizată în practică relativ rar (în special, pentru a caracteriza îndeplinirea obligațiilor contractuale privind uniformitatea livrărilor; în analiza cifrei de afaceri din comerțul exterior, componența salariaților). , ritmul de producție, calitatea produsului, luând în considerare caracteristici tehnologice producție etc.).

Abaterea standard caracterizează cât de mult se abate, în medie, valorile individuale ale caracteristicii studiate de la valoarea medie a populației și este exprimată în unități de măsură ale caracteristicii studiate. Abaterea standard, fiind una dintre principalele măsuri de variație, este utilizată pe scară largă în aprecierea limitelor de variație a unei caracteristici într-o populație omogenă, în determinarea valorilor ordonate ale unei curbe de distribuție normală, precum și în calculele legate de organizarea observării eșantionului și stabilirea acurateței caracteristicilor eșantionului. Abaterea standard a datelor negrupate este calculată utilizând următorul algoritm: fiecare abatere de la medie este la pătrat, toate pătratele sunt însumate, după care suma pătratelor este împărțită la numărul de termeni ai seriei și rădăcina pătrată este extrasă din coeficient:

unde un Iip este valoarea abaterii standard; Xj- valoarea atributului; X- valoarea medie a caracteristicii pentru populaţia studiată; P - numarul de unitati din populatie.

Pentru datele analizate grupate, abaterea standard a datelor este calculată folosind formula ponderată

Unde - valoarea abaterii standard; Xj- valoarea atributului; X - valoarea medie a caracteristicii pentru populația studiată; f x - numărul de unități de populație dintr-un anumit grup.

Expresia de sub rădăcină în ambele cazuri se numește varianță. Astfel, dispersia este calculată ca pătratul mediu al abaterilor valorilor atributelor de la valoarea lor medie. Pentru valorile atributelor neponderate (simple), varianța este determinată după cum urmează:

Pentru valorile caracteristice ponderate

Există, de asemenea, o metodă specială simplificată pentru calcularea varianței: în general

pentru valorile caracteristice neponderate (simple). pentru valorile caracteristice ponderate
folosind metoda bazată pe zero

unde a 2 este valoarea dispersiei; x, - este valoarea atributului; X - valoarea medie a caracteristicii, h- valoarea intervalului de grup, t 1 - greutate (A =

Dispersia are o expresie independentă în statistică și se referă la număr cei mai importanți indicatori variatii. Se măsoară în unităţi corespunzătoare pătratului unităţilor de măsură ale caracteristicii studiate.

Dispersia are următoarele proprietăți.

  • 1. Varianta unei valori constante este zero.
  • 2. Reducerea tuturor valorilor unei caracteristici cu aceeași valoare A nu modifică valoarea dispersiei. Aceasta înseamnă că pătratul mediu al abaterilor poate fi calculat nu din valorile date ale unei caracteristici, ci din abaterile acestora de la un număr constant.
  • 3. Reducerea oricăror valori caracteristice în k ori reduce dispersia cu k de 2 ori, iar abaterea standard este în k ori, adica toate valorile atributului pot fi împărțite la un număr constant (să zicem, la valoarea intervalului serie), abaterea standard poate fi calculată și apoi înmulțită cu un număr constant.
  • 4. Dacă calculăm pătratul mediu al abaterilor de la orice valoare Și diferă într-un grad sau altul de media aritmetică, atunci aceasta va fi întotdeauna mai mare decât pătratul mediu al abaterilor calculate de la media aritmetică. Pătratul mediu al abaterilor va fi mai mare cu o anumită sumă - cu pătratul diferenței dintre medie și această valoare luată în mod convențional.

Variația unei caracteristici alternative constă în prezența sau absența proprietății studiate în unități ale populației. Cantitativ, variația unui atribut alternativ se exprimă prin două valori: prezența unei unități a proprietății studiate se notează cu unu (1), iar absența acestuia se notează cu zero (0). Proporția unităților care au proprietatea în studiu se notează cu P, iar proporția unităților care nu au această proprietate se notează cu G. Astfel, varianța unui atribut alternativ este egală cu produsul dintre proporția de unități care posedă această proprietate (P) cu proporția de unități care nu posedă această proprietate (G). Cea mai mare variație a populației se realizează în cazurile în care o parte a populației, constituind 50% din volumul total al populației, are o caracteristică, iar o altă parte a populației, de asemenea egală cu 50%, nu prezintă această caracteristică, iar dispersia atinge o valoare maximă de 0,25, t .e. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 și o 2 = 0,5 0,5 = 0,25. Limita inferioară a acestui indicator este zero, ceea ce corespunde unei situații în care nu există variații în agregat. Aplicația practică a varianței unei caracteristici alternative este de a construi intervale de încredere atunci când se efectuează observații ale eșantionului.

Cu cât varianța și abaterea standard sunt mai mici, cu atât populația este mai omogenă și media va fi mai tipică. În practica statisticii, este adesea nevoie de a compara variațiile diferitelor caracteristici. De exemplu, este interesant de comparat variațiile vârstei lucrătorilor și calificărilor acestora, vechimea în muncă și salariile, costul și profitul, vechimea în muncă și productivitatea muncii etc. Pentru astfel de comparații, indicatorii variabilității absolute a caracteristicilor sunt nepotriviți: este imposibil să se compare variabilitatea experienței de muncă, exprimată în ani, cu variația salariilor, exprimată în ruble. Pentru a efectua astfel de comparații, precum și comparații ale variabilității aceleiași caracteristici în mai multe populații cu medii aritmetice diferite, se folosesc indicatori de variație - coeficientul de oscilație, coeficientul liniar de variație și coeficientul de variație, care arată măsura. de fluctuații ale valorilor extreme în jurul mediei.

Coeficient de oscilație:

Unde V R - valoarea coeficientului de oscilație; R- valoarea intervalului de variație; X -

Coeficientul liniar de variație”.

Unde Vj- valoarea coeficientului liniar de variație; eu - valoarea abaterii liniare medii; X - valoarea medie a caracteristicii pentru populaţia studiată.

Coeficientul de variație:

Unde V a - valoarea coeficientului de variație; a este valoarea abaterii standard; X - valoarea medie a caracteristicii pentru populaţia studiată.

Coeficientul de oscilație este raportul procentual dintre intervalul de variație și valoarea medie a caracteristicii studiate, iar coeficientul liniar de variație este raportul dintre abaterea medie liniară și valoarea medie a caracteristicii studiate, exprimat ca procent. Coeficientul de variație este procentul abaterii standard față de valoarea medie a caracteristicii studiate. Ca valoare relativă, exprimată în procente, coeficientul de variație este utilizat pentru a compara gradul de variație a diferitelor caracteristici. Folosind coeficientul de variație se evaluează omogenitatea unei populații statistice. Dacă coeficientul de variație este mai mic de 33%, atunci populația studiată este omogenă, iar variația este slabă. Dacă coeficientul de variație este mai mare de 33%, atunci populația studiată este eterogenă, variația este puternică, iar valoarea medie este atipică și nu poate fi folosită ca indicator general al acestei populații. În plus, coeficienții de variație sunt utilizați pentru a compara variabilitatea unei trăsături în diferite populații. De exemplu, pentru a evalua variația vechimii în muncă a lucrătorilor la două întreprinderi. Cu cât valoarea coeficientului este mai mare, cu atât variația caracteristicii este mai semnificativă.

Pe baza quartilelor calculate, este de asemenea posibil să se calculeze indicatorul relativ al variației trimestriale folosind formula

unde Q 2 Și

Intervalul intercuartil este determinat de formula

Abaterea quartilei este utilizată în locul intervalului de variație pentru a evita dezavantajele asociate utilizării valorilor extreme:

Pentru seriile de variație inegal de intervale, se calculează și densitatea distribuției. Este definit ca câtul dintre frecvența sau frecvența corespunzătoare împărțit la valoarea intervalului. În serii de intervale inegale se utilizează densitățile de distribuție absolute și relative. Densitatea de distribuție absolută este frecvența pe unitatea de lungime a intervalului. Densitatea de distribuție relativă este frecvența pe unitatea de lungime a intervalului.

Toate cele de mai sus sunt valabile pentru seriile de distribuție a căror lege de distribuție este bine descrisă de legea distribuției normale sau este apropiată de aceasta.

Serii de variații: definiție, tipuri, caracteristici principale. Metoda de calcul
mod, mediană, medie aritmetică în cercetarea medicală și statistică
(arata cu un exemplu conditionat).

O serie de variații este o serie de valori numerice ale caracteristicii studiate, care diferă unele de altele ca mărime și dispuse într-o anumită succesiune (în ordine crescătoare sau descrescătoare). Fiecare valoare numerică a unei serii se numește variantă (V), iar numerele care arată cât de des apare o anumită variantă într-o serie dată se numesc frecvență (p).

Numărul total de cazuri de observație care compun seria de variații este notat cu litera n. Diferența de semnificație a caracteristicilor studiate se numește variație. Dacă o caracteristică variabilă nu are o măsură cantitativă, variația se numește calitativă, iar seria de distribuție este numită atributivă (de exemplu, distribuția după rezultatul bolii, starea de sănătate etc.).

Dacă o caracteristică variabilă are o expresie cantitativă, o astfel de variație se numește cantitativă, iar seria de distribuție se numește variațională.

Serii de variații se împart în discontinue și continue - în funcție de natura caracteristicii cantitative simple și ponderate - în funcție de frecvența de apariție a variantei;

Într-o serie de variații simple, fiecare opțiune apare o singură dată (p=1), într-o serie ponderată, aceeași opțiune apare de mai multe ori (p>1). Exemple de astfel de serii vor fi discutate în continuare în text. Dacă caracteristica cantitativă este continuă, i.e. Între mărimile întregi există mărimi fracționale intermediare seria de variații se numește continuă.

De exemplu: 10.0 – 11.9

14,0 – 15,9 etc.

Dacă caracteristica cantitativă este discontinuă, i.e. valorile sale individuale (variantele) diferă între ele printr-un număr întreg și nu au valori fracționale intermediare seria de variații se numește discontinuă sau discretă.

Folosind datele privind ritmul cardiac din exemplul anterior

pentru 21 de elevi, vom construi o serie de variații (Tabelul 1).

tabelul 1

Distribuția studenților la medicină în funcție de frecvența cardiacă (bpm)

Astfel, a construi o serie de variații înseamnă a sistematiza și organiza valorile numerice disponibile (variante), adică. aranjați într-o anumită succesiune (în ordine crescătoare sau descrescătoare) cu frecvențele corespunzătoare. În exemplul luat în considerare, opțiunile sunt aranjate în ordine crescătoare și exprimate ca numere întregi discontinue (discrete), fiecare opțiune apare de mai multe ori, i.e. avem de-a face cu o serie de variații ponderate, discontinue sau discrete.

De regulă, dacă numărul de observații din populația statistică pe care o studiem nu depășește 30, atunci este suficient să aranjam toate valorile caracteristicii studiate într-o serie de variații crescătoare, ca în tabel. 1 sau ordine descrescătoare.

Cu un număr mare de observații (n>30), numărul de variante care apar poate fi foarte mare în acest caz, se alcătuiește un interval sau o serie de variații grupate, în care, pentru a simplifica prelucrarea ulterioară și a clarifica natura distribuției; variantele sunt combinate în grupuri.

De obicei, numărul de opțiuni de grup variază de la 8 la 15.

Ar trebui să fie cel puțin 5, pentru că... în caz contrar, va fi o mărire prea aspră, excesivă, care distorsionează imaginea generală a variației și afectează foarte mult acuratețea valorilor medii. Când numărul de variante de grup este mai mare de 20-25, acuratețea calculării valorilor medii crește, dar caracteristicile variației caracteristicii sunt semnificativ distorsionate și procesarea matematică devine mai complicată.

La compilarea unei serii grupate, este necesar să se țină cont

− grupurile de opțiuni trebuie aranjate într-o anumită ordine (crescător sau descrescător);

− intervalele în grupurile de opțiuni trebuie să fie aceleași;

− valorile limitelor intervalului nu trebuie să coincidă, deoarece nu va fi clar în ce grupuri să clasificați variantele individuale;

− trebuie luate în considerare caracteristici de calitate materialul colectat la stabilirea limitelor de interval (de exemplu, la studierea greutății adulților, un interval de 3-4 kg este acceptabil, iar pentru copiii din primele luni de viață nu trebuie să depășească 100 g)

Să construim o serie grupată (interval) care caracterizează datele privind frecvența pulsului (bătăi pe minut) pentru 55 de studenți la medicină înainte de examen: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Pentru a construi o serie grupată aveți nevoie de:

1. Determinați dimensiunea intervalului;

2. Determinați mijlocul, începutul și sfârșitul grupelor din seria de variații.

● Mărimea intervalului (i) este determinată de numărul de presupuse grupuri (r), al căror număr este stabilit în funcție de numărul de observații (n) conform unui tabel special

Numărul de grupuri în funcție de numărul de observații:

În cazul nostru, pentru 55 de studenți, puteți crea de la 8 la 10 grupuri.

Valoarea intervalului (i) este determinată de următoarea formulă -

i = V max-V min/r

În exemplul nostru, valoarea intervalului este 82-58/8= 3.

Dacă valoarea intervalului este o fracție, rezultatul trebuie rotunjit la cel mai apropiat număr întreg.

Există mai multe tipuri de medii:

● medie aritmetică,

● medie geometrică,

● medie armonică,

● rădăcină medie pătrată,

● medie progresivă,

● mediană

În statistica medicală, mediile aritmetice sunt cel mai des folosite.

Media aritmetică (M) este o valoare generalizantă care determină ceea ce este tipic pentru întreaga populație. Principalele metode de calcul a lui M sunt: ​​metoda mediei aritmetice și metoda momentelor (abaterile condiționate).

Metoda mediei aritmetice este utilizată pentru a calcula media aritmetică simplă și media aritmetică ponderată. Alegerea metodei de calcul a mediei aritmetice depinde de tipul seriei de variații. În cazul unei serii de variații simple, în care fiecare opțiune apare o singură dată, media aritmetică simplă este determinată de formula:

unde: M – valoarea medie aritmetică;

V – valoarea caracteristicii variabile (variante);

Σ – indică acțiunea – însumare;

n – numărul total de observații.

Un exemplu de calcul al mediei aritmetice simple. Frecvența respiratorie (numărul de mișcări respiratorii pe minut) la 9 bărbați cu vârsta de 35 de ani: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Pentru a determina nivelul mediu al frecvenței respiratorii la bărbații în vârstă de 35 de ani, este necesar:

1. Construiți o serie de variații, dispunând toate opțiunile în ordine crescătoare sau descrescătoare Am obținut o serie de variații simplă, deoarece valorile opțiunilor apar o singură dată.

M = ∑V/n = 171/9 = 19 respirații pe minut

Concluzie. Frecvența respiratorie la bărbații în vârstă de 35 de ani este în medie de 19 mișcări respiratorii pe minut.

Dacă valorile individuale ale unei variante sunt repetate, nu este nevoie să scrieți fiecare variantă într-o linie, este suficient să enumerați dimensiunile care apar ale variantei (V) și să indicați în dreptul acesteia numărul de repetări (p); ). O astfel de serie de variații, în care opțiunile sunt, parcă, cântărite de numărul de frecvențe care le corespund, se numește serie de variații ponderate, iar valoarea medie calculată este media aritmetică ponderată.

Media aritmetică ponderată este determinată de formula: M= ∑Vp/n

unde n este numărul de observații egal cu suma frecvențelor – Σр.

Un exemplu de calcul a mediei ponderate aritmetice.

Durata invalidității (în zile) la 35 de pacienți cu afecțiuni respiratorii acute (IRA) tratați de un medic local în primul trimestru al anului curent a fost: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 zile .

Metoda de determinare a duratei medii a dizabilității la pacienții cu infecții respiratorii acute este următoarea:

1. Să construim o serie de variații ponderate, deoarece Valorile individuale ale opțiunii sunt repetate de mai multe ori. Pentru a face acest lucru, puteți aranja toate opțiunile în ordine crescătoare sau descrescătoare cu frecvențele corespunzătoare.

În cazul nostru, opțiunile sunt aranjate în ordine crescătoare

2. Calculați media ponderată aritmetică folosind formula: M = ∑Vp/n = 233/35 = 6,7 zile

Distribuția pacienților cu infecții respiratorii acute în funcție de durata dizabilității:

Durata handicapului (V) Număr de pacienți (p) Vp
∑p = n = 35 ∑Vp = 233

Concluzie. Durata dizabilității la pacienții cu boli respiratorii acute a fost în medie de 6,7 zile.

Modul (Mo) este cea mai comună opțiune din seria de variații. Pentru distribuția prezentată în tabel, modul corespunde unei opțiuni egale cu 10, apare mai des decât altele - de 6 ori;

Distribuția pacienților după durata șederii într-un pat de spital (în zile)

V
p

Uneori este dificil de determinat magnitudinea exactă a unui mod, deoarece pot exista câteva observații „cele mai comune” în datele studiate.

Mediana (Me) este un indicator neparametric care împarte seria de variații în două jumătăți egale: același număr de variante este situat de ambele părți ale medianei.

De exemplu, pentru distribuția prezentată în tabel, mediana este 10, deoarece pe ambele părți ale acestei valori există 14 opțiuni, adică numărul 10 ocupă o poziție centrală în această serie și este mediana acestuia.

Având în vedere că numărul de observații din acest exemplu este par (n=34), mediana poate fi determinată după cum urmează:

Eu = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Aceasta înseamnă că mijlocul seriei cade pe a șaptesprezecea opțiune, care corespunde unei mediane egale cu 10. Pentru distribuția prezentată în tabel, media aritmetică este egală cu:

M = ∑Vp/n = 334/34 = 10,1

Deci, pentru 34 de observații din tabel. 8, avem: Mo=10, Me=10, media aritmetică (M) este 10,1. În exemplul nostru, toți cei trei indicatori s-au dovedit a fi egali sau apropiați unul de celălalt, deși sunt complet diferiți.

Media aritmetică este suma rezultată a tuturor influențelor, fără excepție, inclusiv cele extreme, adesea atipice pentru un anumit fenomen sau populație, participă la formarea acestuia.

Modul și mediana, spre deosebire de media aritmetică, nu depind de valoarea tuturor valorilor individuale ale caracteristicii variabile (valorile variantelor extreme și gradul de dispersie a seriei). Media aritmetică caracterizează întreaga masă de observații, modul și mediana caracterizează volumul

ACADEMIA RUSĂ DE ECONOMIE NAȚIONALĂ ȘI SERVICIUL PUBLIC sub președintele FEDERATIEI RUSĂ

SUCURSALA ORYOL

Departamentul de Matematică și Metode Matematice în Management

Muncă independentă

Matematică

pe tema „Seria de variații și caracteristicile sale”

pentru studenții cu normă întreagă ai Facultății de Economie și Management

domenii de formare „Managementul resurselor umane”


Scopul lucrării: Stăpânirea conceptelor de statistică matematică și a metodelor de prelucrare a datelor primare.

Un exemplu de rezolvare a unor probleme tipice.

Sarcina 1.

Următoarele date au fost obținute prin sondaj ():

1 2 3 2 2 4 3 3 5 1 0 2 4 3 2 2 3 3 1 3 2 4 2 4 3 3 3 2 0 6

3 3 1 1 2 3 1 4 3 1 7 4 3 4 2 3 2 3 3 1 4 3 1 4 5 3 4 2 4 5

3 6 4 1 3 2 4 1 3 1 0 0 4 6 4 7 4 1 3 5

Necesar:

1) Alcătuiți o serie de variații (distribuția statistică a eșantionului), notând în prealabil o serie discretă de opțiuni clasificate.

2) Construiți un poligon de frecvență și cumulați.

3) Compilați o serie de distribuții de frecvențe relative (frecvențe).

4) Găsiți principalele caracteristici numerice ale seriei de variații (utilizați formule simplificate pentru a le găsi): a) media aritmetică, b) mediana Meh si moda lu, c) dispersie s 2, d) abaterea standard s, e) coeficientul de variație V.

5) Explicați semnificația rezultatelor obținute.

Soluţie.

1) A compila serii discrete de opțiuni clasate sortați datele sondajului după dimensiune și aranjați-le în ordine crescătoare

0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2

3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4

5 5 5 5 6 6 6 7 7.

Să compunem o serie de variații scriind valorile observate (variantele) în primul rând al tabelului și frecvențele corespunzătoare în al doilea (Tabelul 1)

Tabelul 1.

2) Un poligon de frecvență este o linie întreruptă care leagă punctele ( x i; n i), i=1, 2,…, m, Unde m X.

Să descriem poligonul de frecvențe din seria de variații (Fig. 1).

Fig.1. Poligon de frecvență

Curba cumulativă (cumulată) pentru o serie de variații discrete reprezintă o linie întreruptă care leagă punctele ( x i; n i nak), i=1, 2,…, m.

Să găsim frecvențele acumulate n i nak(frecvența acumulată arată câte variante au fost observate cu o valoare a caracteristicii mai mică X). Introducem valorile găsite în al treilea rând al tabelului 1.



Să construim un cumulat (Fig. 2).

Fig.2. Se cumulează

3) Să găsim frecvențele relative (frecvențele), unde , unde m– numărul de valori caracteristice diferite X, pe care o vom calcula cu aceeași precizie.

Să notăm o serie de distribuții de frecvențe relative (frecvențe) sub forma tabelului 2

masa 2

4) Să găsim principalele caracteristici numerice ale seriei de variații:

a) Aflați media aritmetică folosind o formulă simplificată:

,

unde sunt opțiunile condiționate

Sa punem Cu= 3 (una dintre valorile medii observate), k= 1 (diferența dintre două opțiuni învecinate) și întocmește un tabel de calcul (Tabelul 3).

Tabelul 3.

x i n i tu i u i n i u i 2 n i
-3 -12
-2 -26
-1 -14
Sumă -11

Apoi media aritmetică

b) Mediana Meh seria de variații este valoarea caracteristicii care se încadrează la mijlocul seriei clasate de observații. Această serie de variații discrete conține un număr par de termeni ( n=80), ceea ce înseamnă că mediana este egală cu jumătate din suma celor două opțiuni de mijloc.

Modă lu seria de variații se numește opțiunea care corespunde frecvenței celei mai înalte. Pentru o serie de variații dată, frecvența cea mai mare n max = 24 corespunde opțiunii X= 3, înseamnă modă lu=3.

c) Varianta s 2, care este o măsură a dispersiei valorilor posibile ale indicatorului Xîn jurul valorii sale medii, o găsim folosind o formulă simplificată:

, Unde tu i– opțiuni condiționate

Vom include, de asemenea, calcule intermediare în Tabelul 3.

Apoi varianța

d) Abaterea standard sîl găsim folosind formula:

.

e) Coeficientul de variaţie V: (),

Coeficientul de variație este o mărime incomensurabilă, deci este potrivit pentru compararea seriei de dispersie de variație, ale căror variante au dimensiuni diferite.

Coeficientul de variație

.

5) Semnificația rezultatelor obținute este că valoarea caracterizează valoarea medie a caracteristicii Xîn cadrul eșantionului luat în considerare, adică valoarea medie a fost de 2,86. Deviație standard s descrie răspândirea absolută a valorilor indicatorului X iar în acest caz se ridică la s≈ 1,55. Coeficientul de variație V caracterizează variabilitatea relativă a indicatorului X, adică diferența relativă în jurul valorii sale medii, iar în acest caz este .

Răspuns: ; ; ; .

Sarcina 2.

Următoarele date sunt disponibile cu privire la capitalul social al celor mai mari 40 de bănci din Rusia Centrală:

12,0 49,4 22,4 39,3 90,5 15,2 75,0 73,0 62,3 25,2
70,4 50,3 72,0 71,6 43,7 68,3 28,3 44,9 86,6 61,0
41,0 70,9 27,3 22,9 88,6 42,5 41,9 55,0 56,9 68,1
120,8 52,4 42,0 119,3 49,6 110,6 54,5 99,3 111,5 26,1

Necesar:

1) Construiți o serie de variații de interval.

2) Calculați media eșantionului și varianța eșantionului

3) Aflați abaterea standard și coeficientul de variație.

4) Construiți o histogramă a distribuțiilor de frecvență.

Soluţie.

1) Să alegem un număr arbitrar de intervale, de exemplu, 8. Atunci lățimea intervalului este:

.

Să creăm un tabel de calcul:

Opțiunea de interval, x k –x k +1 Frecvență, n i Mijlocul intervalului x i Opțiune condiționată, și eu și i n i și eu 2 n i (și i+ 1) 2 n i
10 – 25 17,5 – 3 – 12
25 – 40 32,5 – 2 – 10
40 – 55 47,5 – 1 – 11
55 – 70 62,5
70 – 85 77,5
85 – 100 92,5
100 – 115 107,5
115 – 130 122,5
Sumă – 5

Valoarea selectată drept zero fals este c= 62.5 (această opțiune este situată aproximativ la mijlocul seriei de variații) .

Opțiunile condiționate sunt determinate de formulă

Atunci când procesează cantități mari de informații, ceea ce este deosebit de important în realizarea dezvoltărilor științifice moderne, cercetătorul se confruntă cu sarcina serioasă de a grupa corect datele sursă. Dacă datele sunt de natură discretă, atunci, după cum am văzut, nu apar probleme - trebuie doar să calculați frecvența fiecărei caracteristici. Dacă caracteristica studiată are continuu caracter (ceea ce este mai comun în practică), atunci alegerea numărului optim de intervale de grupare a caracteristicilor nu este deloc o sarcină banală.

Pentru a grupa variabile aleatoare continue, întregul interval variațional al caracteristicii este împărțit într-un anumit număr de intervale La.

Interval grupat (continuu) serie de variații se numesc intervale ordonate după valoarea atributului (), unde numărul de observații care se încadrează în intervalul r" sau frecvențele relative (), sunt indicate împreună cu frecvențele corespunzătoare ():

Intervalele valorice caracteristice

frecvența mea

diagramă cu bareȘi cumulate (ogiva), deja discutate în detaliu de noi, sunt un mijloc excelent de vizualizare a datelor, permițându-vă să vă faceți o idee primară a structurii datelor. Astfel de grafice (Fig. 1.15) sunt construite pentru date continue în același mod ca și pentru datele discrete, ținând cont doar de faptul că datele continue umple complet regiunea valorilor posibile, luând orice valoare.

Orez. 1.15.

De aceea coloanele de pe histogramă și cumulat trebuie să se atingă și să nu aibă zone în care valorile atributelor să nu se încadreze în toate posibilele(adică, histograma și cumulatele nu ar trebui să aibă „găuri” de-a lungul axei absciselor, care nu conțin valorile variabilei studiate, ca în Fig. 1.16). Înălțimea barei corespunde frecvenței – numărul de observații care se încadrează într-un interval dat, sau frecvența relativă – proporția de observații. Intervale nu trebuie să se intersectezeși au de obicei aceeași lățime.

Orez. 1.16.

Histograma și poligonul sunt aproximări ale curbei densității probabilității (funcția diferențială) f(x) distribuția teoretică, luată în considerare în cursul teoriei probabilităților. Prin urmare, construcția lor este atât de importantă în prelucrarea statistică primară a datelor cantitative continue - după apariția lor se poate judeca legea distribuției ipotetice.

Cumulate – o curbă de frecvențe (frecvențe) acumulate dintr-o serie de variații de interval. Graficul funcției de distribuție cumulativă este comparat cu cumulul F(x), discutat și în cursul de teoria probabilității.

Practic, conceptele de histogramă și cumulat sunt asociate în mod specific cu datele continue și cu seriile lor de variație de interval, deoarece graficele lor sunt estimări empirice ale funcției de densitate a probabilității și, respectiv, funcției de distribuție.

Construcția unei serii de variații de interval începe cu determinarea numărului de intervale k.Și această sarcină este poate cea mai dificilă, importantă și controversată în problema studiată.

Numărul de intervale nu trebuie să fie prea mic, deoarece acest lucru va face histograma prea netedă ( exagerat), pierde toate caracteristicile de variabilitate ale datelor originale - în Fig. 1.17 puteți vedea cum aceleași date pe care graficele din Fig. 1.15, folosit pentru a construi o histogramă cu un număr mai mic de intervale (graficul din stânga).

În același timp, numărul de intervale nu trebuie să fie prea mare - altfel nu vom putea estima densitatea de distribuție a datelor studiate de-a lungul axei numerice: histograma va fi sub-netezită (subnetezit), cu intervale goale, neuniforme (vezi Fig. 1.17, graficul din dreapta).

Orez. 1.17.

Cum se determină cel mai preferat număr de intervale?

În 1926, Herbert Sturges a propus o formulă pentru calcularea numărului de intervale în care este necesar să se împartă setul original de valori ale caracteristicii studiate. Această formulă a devenit cu adevărat extrem de populară - majoritatea manualelor de statistică o oferă și multe pachete de statistică o folosesc implicit. Cât de justificat este acest lucru și, în toate cazurile, este o întrebare foarte serioasă.

Deci, pe ce se bazează formula Sturges?

Sa luam in considerare distribuție binomială }

Ți-a plăcut articolul? Imparte cu prietenii tai!
A fost de ajutor articolul?
da
Nu
Vă mulțumim pentru feedback-ul dumneavoastră!
Ceva a mers prost și votul tău nu a fost numărat.
Mulțumesc. Mesajul tau a fost trimis
Ați găsit o eroare în text?
Selectați-l, faceți clic Ctrl + Enter si vom repara totul!