Hoe het waarschijnlijkheidsdistributietype voor gegevens te bepalen

Inhoudsopgave:

Anonim

Wanneer u gegevens over uw systeem of proces hebt verzameld, is de volgende stap om te bepalen welk type kansverdeling u heeft. De typen waarschijnlijkheidsverdelingen zijn: discrete uniforme, Bernoulli, binomiale, negatieve binomiale, Poisson, geometrische, continue uniforme, normale (belkromme), exponentiële, gamma- en bètafrijsverdelingen. Als we zelfs een paar van de lijst met mogelijkheden wegnaaien, wordt het bepalen van de dichtstbijzijnde R-squaredewaarde veel sneller.

Items die je nodig hebt

  • Grafische software

  • Wijze van berekening van de R-kwadraatwaarde (best-fit-analyse)

Voer de gegevens uit voor een visuele weergave van het gegevenstype.

Een van de eerste stappen om te bepalen welke gegevensdistributie men heeft - en dus het vergelijkingstype dat moet worden gebruikt om de gegevens te modelleren - is uit te sluiten wat het niet kan zijn. • Als er zich pieken in de gegevensverzameling voordoen, kan dit geen afzonderlijke uniforme verdeling zijn. • Als de gegevens meer dan één piek hebben, is deze niet Poisson of binomiaal. • Als het een enkele curve heeft, geen secundaire pieken en aan beide zijden een langzame helling heeft, kan dit een Poisson- of een gammadistributie zijn. Maar het kan geen discrete uniforme verdeling zijn. • Als de gegevens gelijkmatig zijn verdeeld en deze geen scheeftrekking vertonen, is het veilig om een ​​gamma- of Weibull-verdeling uit te sluiten. • Als de functie een even verdeling of een piek in het midden van de grafiekresultaten heeft, is dit geen geometrische verdeling of een exponentiële verdeling. • Als het voorkomen van een factor varieert met een omgevingsvariabele, is dit waarschijnlijk geen Poisson-verdeling.

Nadat het type kansverdeling is versmald, voert u een R-kwadraatanalyse uit van elk mogelijk type kansverdeling. Degene met de hoogste R-kwadraatwaarde is hoogst waarschijnlijk correct.

Elimineer één uitschieter datapunt. Bereken vervolgens R in het kwadraat. Als hetzelfde type kansverdeling het dichtst bij komt, is er een hoog vertrouwen dat dit de juiste kansverdeling is om te gebruiken voor de gegevensverzameling.

Tips

  • Als de gegevens meerdere pieken met een brede spreiding vertonen, is het mogelijk dat er twee afzonderlijke processen aan de gang zijn of dat het te samplen product wordt gemengd. Herinner de gegevens en analyseer ze vervolgens opnieuw.

Waarschuwing

Valideer de gegenereerde vergelijkingen met latere datasets om te bevestigen dat deze nog steeds correct zijn voor de dataset. Het is mogelijk dat omgevingsfactoren en procesverloop huidige vergelijkingen en modellen onjuist hebben gemaakt.