Estatísticas de aprendizagem, da apresentação às medidas de distribuição de dados

A estatística é uma ciência matemática que estuda a coleta, processamento, análise e apresentação de dados. As estatísticas são amplamente utilizadas nas seguradoras, uma das quais é para determinar o valor do prêmio em uma apólice de seguro. Todo segurado é obrigado a pagar uma contribuição chamada prêmio. O prêmio pago está de acordo com a cobertura de seguro que ele contrata.

Aqui, a seguradora utiliza estatísticas para que o valor do prêmio esteja de acordo com o valor da cobertura que pode ser fornecida ao segurado. Dessa forma, ambas as partes se beneficiam com isso.

Como mencionado anteriormente, as estatísticas não estão apenas coletando e processando, mas também apresentando dados. As estatísticas também usam várias medidas de distribuição de dados no processamento de dados. Hoje, discutiremos os tipos de apresentação, bem como o tamanho da difusão dos dados nas estatísticas.

Tipos de apresentação de dados

Os tipos de apresentação de dados nas estatísticas incluem tabelas de distribuição de frequência, histogramas, polígonos e ogivas.

A primeira forma de apresentação de dados é usar uma tabela de distribuição de frequência. Como o nome indica, usamos tabelas para exibir o tipo e a quantidade de dados obtidos. A tabela de distribuição de frequência também tem vários tipos, nomeadamente a tabela de distribuição de frequência para dados individuais e dados de grupo.

(Leia também: Dois dados de medição em estatísticas)

Uma única tabela de distribuição de frequência de dados é usada para apresentar pequenas quantidades de dados, pelo menos menos de 30 dados. Um exemplo de apresentação de dados usando uma única tabela de distribuição de frequência de dados é o seguinte.

Os dados abaixo são as pontuações dos testes de 30 alunos. Sirva em uma única tabela de distribuição de frequência de dados!

4 8 7 9 10 3 4 6 7 6 5 7 7 8 9 6 6 8 7 9 4 5 6 7 8 10 4 5 6 7

Se prestarmos atenção, a pontuação mais baixa obtida no teste é 3, enquanto a pontuação mais alta é 10. Então, a partir dessas pontuações, conte quantos alunos a obtiveram. Para uma nota de 3, por exemplo, apenas 1 aluno. Para a 4ª série, há 4 alunos e assim por diante. Esta figura é então apresentada em uma tabela como a seguinte.

turbinas no terreno do parque eólico offshore

O próximo tipo de tabela de distribuição de frequência é a tabela de distribuição de frequência de dados de grupo. Esta tabela é utilizada para apresentar uma grande quantidade de dados, ou seja, mais de 30 dados. Vejamos o exemplo abaixo.

A seguir está a altura das plantas de chili (em milímetros) em uma plantação de chili. Apresente os dados em uma tabela de distribuição de dados de grupo!

123 131 120 128 126 124 125 122

121 126 124 123 122 120 125 126

123 123 134 125 125 126 128 135

120 126 124 133 126 127 123 126

122 125 123 132 124 132 128 124

Ao contrário dos dados individuais, aqui temos que calcular o número de classes e os comprimentos das classes que serão exibidos na tabela. Usando os dados acima, aqui estão os cálculos.

Muitos dados (n) = 40

Altura máxima (x max ) = 135

Altura mínima (x min ) = 120

Intervalo (J) = x máx  - x mín = 135 - 120 = 15

Número de classes (k) = 1 + 3,3logn = 1 + 3,3 log40 = 6,2868 ... ≈ k = 6

Comprimento da classe (c) = J / k = 15/6 = 2,5 ≈ c = 3

A partir desses resultados, podemos exibir a tabela de distribuição de dados do grupo como segue.

turbinas no terreno do parque eólico offshore

A seguir, discutiremos outros tipos de apresentação de dados agrupados, nomeadamente na forma de histogramas, polígonos de frequência e ogivas. Dê uma olhada na tabela de frequência abaixo, que contém informações de peso para 80 membros de clubes esportivos.

turbinas no terreno do parque eólico offshore

Para apresentar os dados usando um gráfico de histograma, primeiro construímos um gráfico cartesiano. O eixo x mostra os limites superior e inferior de cada classe, enquanto o eixo y mostra a frequência.

estatísticas 4 (1)

Ao contrário de um histograma, um gráfico de polígono de frequência pega o valor médio do intervalo de classe e o exibe com linhas de acordo com a frequência.

estatísticas 5 (1)

Finalmente, apresentando os dados usando uma curva de frequência positiva cumulativa ou negativa. Primeiro, marque os valores de frequência cumulativos de cada classe de intervalo no eixo y. Em seguida, marque as coordenadas dos pontos de acordo com os pares de limite superior da classe de intervalo e frequência cumulativa. Conecte os pontos em uma curva suave.

Tamanho de difusão de dados

Em estatísticas, existem dois tipos de medição de dados, a saber, o tamanho da concentração de dados e o tamanho da distribuição dos dados. Qual é a explicação e a diferença?

O tamanho do data center é um valor que representa a localização dos dados. Na medida centrada em dados, existem média, modo e mediana.

A média ou média é o quociente entre a soma de todos os dados observados com um grande número de dados. Podemos formular a média da seguinte maneira.

Média = (soma de todos os dados) / (muitos dados)

Para entender melhor, vamos trabalhar no seguinte exemplo de problema. O número de horas semanais necessárias para 5 pessoas em atividades sociais em seu ambiente são 10, 7, 13, 20 e 15 horas. Determine o número médio de horas por semana que gastam em atividades sociais!

Com base nos problemas acima, podemos inserir os números na fórmula da seguinte maneira.

Média = (10 + 7 + 13 + 20 + 15) / 5 = 65/5 = 13

Isso significa que a média de horas que passam em atividades sociais é de 13 horas.

Além da média ou média, também existem modos. O modo é o valor que aparece com mais frequência nos dados. Vejamos um exemplo do seguinte problema.

Abaixo estão os dados de peso (em quilogramas) de alguns alunos da série 7. Determine o modo dos dados!

32, 35, 33, 32, 34, 31, 35, 35, 31, 34, 35, 3

Em primeiro lugar, devemos contar o número de vezes que cada valor aparece nos dados. Com base nesses dados, obtemos 31 (x3), 32 (x2), 33 (x1), 34 (x2) e 35 (x4). Visto que 35 ocorre com mais frequência, o modo dos dados acima é 35.

O último tipo de medida de centralização é a mediana. A mediana divide os dados em duas partes iguais, de forma que a mediana é o valor médio dos dados classificados.

Para determinar a mediana, primeiro temos que classificar todos os dados em ordem decrescente ou crescente. Em segundo lugar, defina muitos dados e simbolize-os como "n". Se n for ímpar, a fórmula que usamos é a seguinte.

Mediana = número de dados - ((n + 1) / 2)

Enquanto isso, se n for par, usamos a fórmula abaixo.

Mediana = (dados iith (n / 2) + dados iith (n / 2 + 1)) / 2

A segunda medida de dados nas estatísticas é uma medida da disseminação dos dados. O tamanho da disseminação de dados é um valor que indica a que distância os dados estão do data center. O tamanho da distribuição de dados consiste no intervalo, quartil e intervalo interquartil.

O intervalo é a diferença entre o maior valor de dados e o menor valor de dados. Podemos obter o alcance subtraindo os maiores dados dos menores. Por exemplo, se em uma classe, o aluno mais alto tem 160 cm de altura e o aluno mais baixo tem 143 cm, teremos um alcance de 23 cm.

Enquanto isso, um quartil é um agrupamento de dados estatísticos em quatro partes iguais. O tamanho do quartil é dividido em 3, ou seja, o quartil inferior (Q 1 ), o quartil médio (Q 2 ou mediano) e o quartil superior (Q 3 ). Para determinar cada quartil, há várias etapas que devemos seguir.

Primeiro, classifique os dados em ordem crescente ou decrescente. Em segundo lugar, determine o valor médio ou mediano dos dados. Terceiro, determine o quartil inferior (Q 1 ), que é o valor médio do grupo de dados abaixo da mediana (Q 2) . Por fim, determine o quartil superior (Q 3 ), que é o valor médio do conjunto de dados acima da mediana (Q 2) .

O último tipo de medida de distribuição de dados é o intervalo interquartil. O intervalo interquartil é a diferença entre os quartis superior e inferior. A fórmula é a seguinte.

Q d = Q 3 - Q 1