Mācību materiāls
3. Statistiskie dati kā analīzes objekts
3.2. Sadalījuma rindas
Par statistiskajām rindām sauc statistiskās kopas elementu sadalījumu pēc kādas skaitliskas vai atributīvas variējošas pazīmes jeb datu objekta raksturojošās īpašības, ko sauc par atribūtu vai mainīgo lielumu. Rinda var variēt kā izmaiņas telpā, laikā, vai arī atkarībā no citu pazīmju izmaiņām.
Statistiskās empīriskās rindas piemērs.
Dots. Uzņēmuma labiekārtošanas darbos nodarbināto skaits pa dienām.
Definēsim, ka tas ir atribūts "nodarbinātība". Dati doti datu kopas veidā, sk. 3.2.1. tabulu.
3.2.1.tabula. Nesakārtota statistiskā kopa.
1 | 5 | 7 | 2 | 1 |
6 | 4 | 4 | 3 | 9 |
6 | 6 | 8 | 1 | 6 |
8 | 3 | 4 | 9 | 1 |
3 | 8 | 5 | 7 | 1 |
Piemērā redzamā datu kopa nav sakārtota. Nesakārtoto novērojumu rindu apstrādā, iegūstot sakārtotu sadalījuma rindu jeb variāciju rinda.
Sadalījuma rindas, kuras sakārtotas pēc kvantitatīvām pazīmēm sauc par variācijas rindām.
Variāciju rinda ir statistiskās kopas vienību sadalījums pēc kādas skaitliski vai atributīvi variējošas pazīmes.
Statistiskās kopas sakārtošanu statistikā sauc par ranžēšanu.
Ranžēšana ir datu vai informācijas sistematizēšana, tās sakārtošana kvantitatīvā vai kvalitatīvā nozīmīguma ziņā.
Informācijas sakārtošana tiek veikta vai nu:
- augošā kartībā jeb tiešais ranžējums;
- dilstošā kārtībā jeb ačgārnais ranžējums.
Atsaucoties uz doto piemēru, izveidojam sakārtotu empīrisko (pētniecisko) rindu. To veido, ranžējot sākotnējo informāciju augošā secībā, sk. 3.2.2. tabulu.
3.2.2.tabula. Augošā secībā ranžēta variācijas rinda.
1 | 1 | 1 | 1 | 1 |
2 | 3 | 3 | 3 | 4 |
4 | 4 | 5 | 5 | 6 |
6 | 6 | 6 | 7 | 7 |
8 | 8 | 8 | 9 | 9 |
Jebkuru sadalījuma rindu veido divi elementi:
sadalījuma rindas variantes;
varianšu biežums jeb frekvence.
Diskrētās sadalījuma rindas veido pārtraukti mainīgās pazīmes. Nepārtrauktu sadalījuma rindu veido lineāras taisnes vai līknes. Izveidojam tabulu, kurā norādām atribūta "nodarbinātība" augošā secībā ranēžetu sadalījuma rindu un tā frekvenci. Dotos datus mēs varam parādīt šādi, sk.3.2.3. tabula.
3.2.3.tabula. Ranžētas variāciju rinda frekvenču sadalījums.
nodarbināto skaits | dienu skaits |
1 | 5 |
2 | 1 |
3 | 3 |
4 | 3 |
5 | 2 |
6 | 4 |
7 | 2 |
8 | 3 |
9 | 2 |
Dienu skaits kopā: 25. No kurām visvairāk - 5 dienas, bija nodarbināts pa 1 cilvēkam.
Ja datu maz, tad variācijas rindu parasti nesastāda, bet aprēķina statistikas rādītājus tieši no nesakārtotas empīriskās rindas.
Atributīvās variāciju rindas ir pēc kvalitatīvās (vārdiskās) pazīmes veidots sadalījums.
Atributīvās rindas piemērs:
3.2.4.tabula. Iedzīvotāju sadalījums pēc dzimuma (skaits).
Atribūts "dzimums" | uz 2016.g. sākumu |
Vīrieši | 904 299 |
Sievietes | 1 064 658 |
Variācijas rindas pēc pētāmās pazīmes rakstura iedalās:
- Diskrētās (pārtrauktās). Diskrētas variāciju rindas.
Piemērs. Studentu sekmju vērtējums ballēs: 3; 4; 5; 6; 7; 8; 9; 10;
- Nepārtrauktās (intervālu). Nepārtrauktās variāciju rindas veido pazīmes, kurām secīgi var būt jebkura skaitliska nozīme.
Diskrētās variāciju rindas, kurām ir daudz varianšu, apvieno grupās, veidojot intervālus.
Intervāls ir variējošas pazīmes nozīmes, kas atrodas noteiktās robežās.
Pastāv slēgti un atvērti intervāli.
Intervālu variāciju rindā variantes apvienotas plašākos intervālos (piem. no ... līdz....). Tās tiek iedalītas šādi:
- vienāda garuma intervālus, raksturojot kvantitatīvās pazīmes atšķirības vienādas kvalitātes grupu ietvaros;
- dažāda garuma intervālus lieto gadījumos, kad pazīmes nozīmes svārstības ir ļoti nevienmērīgas un ar plašu variāciju (analītiskie grupējumi).
Statistikā biežāk izmanto vienāda garuma intervālus.
Lai sastādītu sadalījuma rindu ar vienādiem intervāliem, vispirms jāatrod variācijas amplitūda. Kas ir starpība starp pazīmes maksimālo un minimālo nozīmi , tad intervāla garuma aprēķināšanai lieto formulu: , kur intervāla solis; maksimālā pazīmes vērtība; minimālā pazīmes vērtība; grupu skaits. Vai arī izmanto Sterdžesa formulu: , kur visu novērojumu skaits.
Intervālus, kuriem dota tikai viena robeža (apakšējā vai augšējā ) sauc par atvērtiem vai nenoslēgtiem intervāliem.