¿Necesito saber el tamaño de cada clase para calcular las probabilidades de inclusión?

Hola experto!
Tengo un par de dudas acerca del cálculo de las probabilidades de inclusión en un estudio.
Si tengo tres facultades universitarias y establezco que el tamaño muestral es 300 igualmente distribuido en cada facultad, entonces la probabilidad de inclusión en cada facultad para un individuo serían 1/100?
Si posteriormente selecciono 10 clases de cada facultad mediante el método Sampford, ¿entonces necesito saber el tamaño de cada clase para calcular las probabilidades de inclusión?
Gracias!

1 Respuesta

Respuesta
1
Para poderte contestar necesito saber cual es el diseño muestral que estás utilizando.
Gracias por tu rápida respuesta, a ver si soy capaz de darte todos los datos
Estoy intentando crear una encuesta para saber cuántos estudiantes han conseguido acceder a la carrera que habían pensado como primera opción y si cambiarían de opción si pudiesen hacerlo. Para ello realizo el estudio sobre los estudiantes de tres facultades, estableciendo el tamaño muestral en 300 igualmente distribuidos por facultad. En cada facultad quiero seleccionar 10 clases empleando el método sampford (si no estoy equivocado, esto me permitiría seleccionar proporcionalmente a los estudiantes de cada clase, ¿pero necesitaría el tamaño de cada clase?) Siendo el número de estudiantes la variable tamaño.
No sé si me falta algún detalle.
De acuerdo,
Pensaba que las dos preguntas eran cosas diferentes.
Te explico un poco,
Las probabilidades de inclusión (las de todos los órdenes) vienen determinadas por el diseño muestral que estés considerando( muestreo aleatorio simple, muestreo estratificado, muestreo por conglomerados, muestreo bietápico), la expresión de la probabilidad de inclusión tiene formas disferentes según el muestreo.
Ahora en ocasiones, estas probabilidades de inclusión se ven afectadas por la forma en que son seleccionadas, independientemente del muestreo. En tu caso estás utilizando el método Sampford, este método te define las probabilidades de inclusión en función de otra variable auxiliar, por lo tanto las probabilidades de inclusión las tienes definidas en el propio método, claro, pero estas probabilidades en tu caso serán diferentes para cada facultad. Ojo, pero como vas a seleccionar las clases mediante el este método las probabilidades que obtienes son las probabilidades de inclusión de cada clase, no la de los alumnos, estas vendrán dadas por el método de selección que utilices para seleccionar los alumnos.
Muchas gracias. Claro, creo que me estaba liando. La aplicación del método de Sampford me influiría en la probabilidad de inclusión de las clases y no de los estudiantes, ¿cierto?. Si una vez seleccionadas las clases hago un MÁS de 10 alumnos por clase, en cada clase la probabilidad de inclusión de cada alumno sería 1/tamaño-clase.
De cualquier manera, no entiendo muy bien cuando dices que las probabilidades de inclusión utilizando el método Sampford dependen de una variable auxiliar, y que las probabilidades de inclusión están definidas en el propio método. Creo que eso es a lo que intento llegar, ¿cómo puedo calcular las probabilidades de inclusión de cada clase?
Mi objetivo final en este momento es calcular la probabilidad de inclusión de un alumno cualquiera en mi estudio, que me imagino que vendría dada por el producto de la probabilidad de una clase por la probabilidad de un alumno en una clase.
Gracias
Bueno en el método Sampford, tienes una variable auxiliar, POR,(suele ser el tamaño) en la que defines las probabilidades
p(i) = x(i) / Total(X)
Es decir, p(i) es igual a cada valor de la variable auxiliar entre el total de la variable X.
Entonces
1º Seleccionas la primera unidad según las probabilidades p(i), el resto de unidades las seleccionas con las probabilidades
q(i) = p(i) / (1 - n·p(i))
Donde "n" es el tamaño de muestra.
Así esas son tus probabilidades de inclusión. Pero tendrás que indicar que la primera unidad tendrá una probabilidad diferente dada por p(i), para el resto q(i).
Ahora, esas eran las probabilidades de inclusión para las clases. Si los alumnos los seccionas a través de un muestreo aleatorio simple (m.a.s.) Tienes que las probabilidades de inclusión de primer orden vienen dadas por n/N, donde n (nº de alumnos a seleccionar) es el tamaño de muestra y N el tamaño de población (Tamaño de la clase). Por lo tanto las probabilidades de inclusión de los alumnos considerando la selección realizada de las aulas viene dada por (vamos a llamarlas u(i))
u(i) = q(i)·( n(i) / N(i) )
Es el producto de las probabilidades porque la selección es independiente.
Si entiendo bien, POR sería el total de clases en cada facultad. Suponiendo que hay cuatro clases por curso en cinco cursos, ¿entonces
p(i)=10/20 =0,5
pero entonces la probabilidad de segunda etapa sería negativa?
q(i)= 0,5/(1-20·0,5)
Por otro lado, ¿en el cálculo de la probabilidad final u(i) = q(i)·( n(i) / N(i) ) porqué usas la probabilidad de segunda etapa q(i) y no p(i)?
Nunca te dará negativo, pensaba que conocías el método de Sampford.
Te explico los pasos a seguir y te pongo un ejemplo al final
1º Calculamos el total de la variable auxiliar, para calcular las probabilidades p(i)
2º Calculamos los valores q(i) = p(i) / (1 - np(i)), y los normalizamos para obtener una probabilidad, es decir, sumen 1. A las q(i) normalizadas las llamamos v(i).
3º Extraemos la primera unidad con probabilidad p(i), y los restantes con probabilidad v(i), con reemplazamiento.
4º Una vez extraída la muestra si se detecta una repetición, volvemos al paso 3, hasta obtener una muestra sin repeticiones.
Ejemplo:
Disponemos de 4 unidades y queremos seleccionar una muestra de tamaño 2. Utilizaremos el método de Sampford. Los datos para una variable auxiliar son
id x(i) p(i)
1    3      3/10 = 0.3
2 2 0.2
3 4 0.4
4 1 0.1
Calculamos los q(i)
q(1) = 0.3 / (1 - 2·0.3) = 0.75
q(2) = 0.2 / (1 - 2·0.2) = 0.3333
q(3) = 0.4 / (1 - 2·0.4) = 2
q(4) = 0.1 / (1 - 2·0.1) = 0.125
La suma de los q(i) es 3.20833333
normalizamos los q(i) y obtenemos v(i)
v(1) = 0.75 / 3.2083333 = 0.233766
v(2) = 0.1038951
v(3) = 0.623376
v(4) = 0.03896104
Que deben sumar 1, pero por la aproximación de dicimales no lo hacen.
Así ya puedes elegir las unidades.
Imaginate que hacemos el proceso y seleccionamos la unidad 1 y la unidad 4.
Ahora sabemos que la unidadad 1 está compuesta por 5 unidades y queremos escoger 2 de ellas, y que la unidad 4 está compuesta por 8 unidades y queremos seleccionar 6, entonces la probabilidades de inclusión de primer orden para las unidades de la unidad 1 es 2/5 = 0.4
y las de la unidad 4 0.75
Por lo tanto las probabilidades finales serán
para las unidades de la unidad 1
pi(i) = 0.4·0.233766 = 0.0935094
pi(4) = 0.467532
nigihayami, mil gracias. Dos últimas aclaraciones (espero!) Gracias por tu paciencia.
-No me queda claro como asignas los valores a la variable auxiliar x(i), ¿son simplemente una ordenación aleatoria del número de unidades?
- Los cálculos para un pequeño diseño parecen manejables manualmente, ¿pero se suele emplear SPSS u otro programa para calcular estas probabilidades en diseños más grandes? Por ejemplo en el caso de seleccionar 10 clases, ya los cálculos se alargan
La variable auxiliar POR, es una variable que es observable y conocida. Por eso no son valores que tu asignas son valores que tieneen, en tu caso es el número de alumnos en cada clase. Esos valores los conoces no los asignas.
Para la selección de esta muestra te aconsejo R o que lo realices mediante algún lenguaje de programación. En este sentido y en muchos otros SPSS es muy deficiente (realmente frente a R es deficiente en todos los aspectos ¬¬ ) de hecho acabo de mirar en R y hay un paquete que trae implementado ese método de selección así que no tendrás que realizar tu la programación.
Te en cuenta que este método computacionalmente es deficiente, sobre todo cuando el tamaño muestral se aproxime mucho al tamaño poblacional, dado que en el momento que haya una repetición en tu muestra tienes que empezar el proceso de nuevo.
La función es sampford(size, n)
Donde size, es un vector que contiene los valores de la variable auxiliar y "n" es el tamaño de la muestra.
En SAS también está implementado este método, SAS también le da mil vueltas a SPSS.

Añade tu respuesta

Haz clic para o

Más respuestas relacionadas