Cuál medida estadística de dispersión, me conviene?

Con un ejemplo se facilitará la pregunta:

Datos a)      2, 4, 6, 8, 10     media=6,   Varianza= 10
Datos b)     6, 6, 6, 6, 6          media=6    Varianza=  0
Datos c)      0, 0, 0, 15, 15       media=6  Varianza= 67.5

Existe alguna medida en estadística, o inventada de tal manera que indique, que la serie a) tiene una serie de números mucho más variaditos, (en lenguaje informal), ¿qué las otras series?

En el ejemplo se observa que no sirve la varianza
Imaginemos que los números indican la altura de "escalones"! Es claro que no me sirve b) porque lo que quiero es ascender. No me sirve c) porque los dos últimos escalones son inalcanzables
Me interesa a) en donde aparte de que voy subiendo, las alturas son accesibles

Se me ocurrió pensar en la pendiente, no sirvió porque ganaría c)
Se me ocurrió pensar en el mejor ajuste a la recta de regresión, no sirvió porque ganaría b)

Aclaración: El caso real son cien mil series ascendentes de 15 datos cada una, necesito identificar las del tipo a)

1 Respuesta

Respuesta
1

·

·

¡Hola Mrxo!

No conozco ninguna medida estadística para ello, pero prueba por ejemplo con el último menos el primero dividido entre la varianza de las diferencias. Y las de esa forma serían las que más valiese ese número. Para evitar división por 0 se puede añadir algo mínimo en el denominador.

$$\begin{align}&\frac{X_n-X_1}{V\{(X_2-X_1), (X_3-X_2),(X_4-X_3),...,(X_n-X_{n-1})\}+0.01}\end{align}$$

Haz pruebas para ver si es lo que quieres.

Sa lu dos.

:

:

Se escucha muy bien la sugerencia!  Gracias!
En la tarde la pruebo y te comento resultados y te valoro la respuesta.  (jejeje siempre valoro muy bien)  
En el caso real, las series de datos no tienen la misma media. En el ejemplo sí,  para facilidad la observación.  (lo de las medias no influye en nada)

Dado que las 2 restricciones son: 
-Son mejores aquellos que tengan mayor pendiente
-Si dos series tienen la misma pendiente es mejor aquella que no tenga tantos saltos
Estoy encontrando que cualquier medida estadística o combinación, me lleva a que son contradictorias.  En el ejemplo, toda "medida estadística" que he probado me lleva a b), o a c)
Entonces una posible mejora al problema es decidir, cual de las dos restricciones pesa más:
"la que pesa más es la primera!  que tenga mayor pendiente"
Una disculpa por toda "la informalidad del lenguaje matemático" con la que hablo

Ya probé tu propuesta

Magnífica!  Es justo lo que necesitaba. Muchas gracias

Incluso también funciona si en el denominador tomo el promedio de las varianzas individuales!

Es mágica tu fórmula je je

Probé las dos fórmulas (la tuya y la del promedio) con 40 series de números

Y la serie 4.5, 4.5, 8, 9.5, 11, 13, 16, 16, 16, 16, con tu fórmula tiene menos rating (puesto quinto) y con mi fórmula en el tercer lugar
Graficando los números se ven claramente que no merece el rating de tercero sino quinto
Gracias nuevamente

Finalmente, en el 3er lugar con tu fórmula quedó esta serie de números

Que se ve fácilmente que es lo que deseo 1.5, 3, 3, 3, 8, 11,16,19,19,22,23.5

(una escalera mejor proporcionada)

No entiendo las pruebas que has hecho. ¿Pero va bien?

Claro que sí aquí va el resumen:

En 40 series de datos de prueba, usé tu fórmula y también la que yo creí que era buena (denominador con el promedio de varianzas de las diferencias)

Y con tu fórmula tienen mejor rating, las series que tienen la estructura que deseo.

Y con la supuestamente mía que se me ocurrió, ya quedó descartada.

Es decir, la fórmula de hasta arriba funcionó a la perfección! Estoy muy contento

------------------

Recientemente estoy probando otra modificación:

En el denominador

Promedio de [var { (x2-x1)...(xn- xn-1)}, var{(x3- x1)...(xn- xn-2)},.... var{(xN/2- xj)...]

Es decir no solo las varianzas de las diferencias en uno, sino también diferencias en dos... hasta diferencias en N/2, en donde N es el total de datos)

Vale, me alegro.

Añade tu respuesta

Haz clic para o

Más respuestas relacionadas