¿Cómo se puede calcular el tamaño muestral necesario para que aparezca la variable buscada?

Hola de nuevo nigihayami! Tengo una duda
Si no estoy equivocado, si se quiere hacer un estudio en investigación para evaluar la aparición de un suceso como por ejemplo la proporción de sujetos con cierta enfermedad, antes se ha de calcular el tamaño muestral necesario para realizar dicho experimento. En el caso de evaluar un único suceso, es posible fijarse en la incidencia en la población de dicho suceso, e incluso existen programas que te ayudan a calcular el tamaño muestral en función de la especificidad, sensibilidad que quieres alcanzar.
Pero cómo se trabaja en el caso de modelar un suceso en función de varios factores mediante una regresión logística. Por ejemplo, quiero modelar la aparición del cáncer y para ello dispongo de predictores como la edad, el sexo, los hábitos tabáquicos, la existencia de antencedentes familiares, y otros posibles factores. Se puede calcular de alguna manera el tamaño muestral necesario para modelar la aparición del cáncer si tengo la posibilidad de medir varios (10-¿20) predictores categóricos y/o continuos? ¿Existe algún programa que lo haga?
Gracias
Respuesta
1
La respuesta a tu pregunta "¿Cuántas muestras?" es muy fácil. Una muestra.
Pero la pregunta real es ¿cuántas observaciones? O ¿Qué tamaño de muestra?
Siento darte malas noticias, para cálculos de tamaños muéstrales complejos no existe un programa que te diga el tamaño, todo eso lo hacemos a mano utilizando las fórmulas (que en la mayoría de los casos son intratables) y con ayuda de algún programa de cálculo simbólico como mathematica o matlab.
De todas formas comentarte que aunque tu quieras realizar a posteriori de la recogida de observaciones una regresión logística esto va influir en tu tamaño muestral, es decir, el análisis que quieras realizar no influye, en general, en tu tamaño.
Lo que influye son el número de categorías que quieres controlar a la hora de recoger la muestra. Cuantas más categorías y variables mayor complejidad.
En este caso tu muestra será estratificada, por sexo, edad, antecedentes, etc.
Para ponerte un ejemplo imaginate que yo quiero obtener el dato de si una persona posee cáncer, para ello considero la variable "cancer" que toma valores 0 o 1, y mi muestra es estratificada según las variables sexo, edad y antecedentes.
El primero problema que se presenta es que debo conocer los totales poblaciones de esas variables, es decir, cuantas personas de cada sexo, cuantas de cada edad y cuantas poseen antecedentes, así como cuantas hay en cada combinación de cada una de las variables. Luego para simplificar el problema lo que hago es calcular el tamaño para cada estrato por ejemplo para la variable edad, ver cuantas unidades le corresponden a cada grupo de edad, y una vez obtenido hago un reparto proporcional según le número de hombres y mujeres y la posesión de antecedentes o no.
La verdad que los diseños muéstrales se pueden complicar mucho. Otras opciones, son escoger la muestra según una estratificación la que sea(por ejemplo edad y sexo) y recoger toda la información del resto de variables (es lo que se suele hacer) por ejemplo:
- Si tiene cáncer o no.
- Si tiene antecedentes o no.
- Si fuma o no.
- Etc.
Entonces la variable edad y sexo, es una variable que controlas tu, para dar representación a todos los segmentos de la población, del resto de variables obtienes la información con la entrevista o diagnóstico. Tienes que tener muy claro la diferencia entre variables de estrato y variables que quieres conocer, por eso te dije que te quitaras de la cabeza la regresión logística.
Cualquie duda dimelo.
Te dejo mi blog que aunque lo tengo algo descuidado vienen cosas de muestreo

Añade tu respuesta

Haz clic para o

Más respuestas relacionadas