El domingo 08 de mayo de 2022, la encuesta CADEM publicó sus resultados. Para poder evaluar estas y otras cifras de CADEM, es importante comenzar resumiendo el modo cómo esta empresa escoge a sus encuestados.

Metodología de CADEM

Nuestro estudio contempla la realización de una encuesta probabilística de 700 casos semanales (con un consolidado mensual que va desde las 2.800 encuestas a 3.500 dependiendo de si el mes tiene 4 o 5 semanas), aplicada en un 100% a través de teléfonos celulares, utilizando una base de datos propia de Cadem que contiene más de 18 millones de números, tanto de prepago como de post pago, todos ellos obtenidos a través de Random Digit Dialing y consolidados durante los últimos años.

Su grupo objetivo son hombres y mujeres mayores de 18 años, habitantes de las 16 regiones del país, en territorios urbanos o rurales. La muestra del estudio es estratificada previamente por región, a partir de las proyecciones poblacionales realizadas por el INE para el año 2023, según el último Censo disponible (2017). Las comunas, por su parte, son seleccionadas de forma aleatoria.

CADEM realiza llamados telefónicos, seleccionando solo aquellos que son mayores de 18 años. Los seleccionados forman parte de lo que CADEM llama su población de elegibles, que asciende a 13.314.848. Esta semana, solo 5.918 personas fueron seleccionadas, de las que solo 705 accedieron a responder la encuesta. Estas 705 personas representan el 11,9% de los seleccionados y el 0,0444% de los elegibles.

Análisis de los resultados de CADEM

¿Por qué, si la muestra es solo un pequeño porcentaje de la población, CADEM reporta los resultados como si se tratase de las opiniones de todos los ciudadanos? Esta pregunta es relevante pues tanto el 88,1% de los seleccionados, como el 99,96% de los elegibles no respondieron la encuesta. ¿Cómo es posible que la opinión de un porcentaje tan bajo de ciudadanas y ciudadanos refleje la del resto?

No hay procedimiento estadístico que asegure que tal posibilidad sea plausible, salvo que se hagan supuestos, los que están caracterizados por no estar sustentados en los datos que se han recolectado. Este supuesto (quienes rechazan contestar son iguales a quienes contestan) permite ignorar a los que no respondieron y, por tanto, hacer inferencias sobre la población de interés solo con aquellos que respondieron la encuesta. Notemos que CADEM afirma que cuando existe evidencia que ambos grupos no son equivalentes, el rechazo puede introducir serias distorsiones en los resultados.

Sabemos que esta semana, entre los seleccionados que respondieron la encuesta (11,9%), el 38% aprobó la gestión del presidente. El supuesto que hace CADEM consiste en asumir que dentro del 88,1% restante, que no accedió a responder, el 38% aprobará la gestión del presidente. Si bien es cierto ese 38% es una posible respuesta, esta no es la única, pues existe un sinnúmero de posibles porcentajes de aprobación entre los que no respondieron: 0%, 10%, 15%, 35%, 50%, 90%, 100%.

Esta pregunta es relevante porque jamás será posible conocer el comportamiento de toda una población observando solo una parte y, en particular, la parte que accedió a responder la encuesta. Esto es lo que hace necesario expresar la incerteza de inducir el comportamiento del todo a partir de la parte (no olvidemos que el problema científico consiste en hacer afirmaciones del todo a partir de lo que podemos conocer de la parte: esto es lo que se llama inferencia inductiva). Si bien es cierto cada día hacemos estas inducciones, la tarea científica se caracteriza por proporcionar algún indicador de la incerteza que conlleva hacer afirmaciones del todo a partir de la parte.

Hay no respuesta en la encuesta. Por tanto, la parte que respondió la encuesta no es suficiente para inferir la opinión política de todos los seleccionados, y de todos los elegibles. Resulta imprescindible explicitar esa incerteza al momento de reportar los resultados de la encuesta. Al hacer esto, cuantificamos la lejanía que existe entre las opiniones políticas de la ciudadanía y las opiniones políticas de los que fueron encuestados y respondieron la misma. Para una justificación rigurosa de esta propuesta, invitamos a las y los lectores a leer el trabajo de San Martín & Alarcón-Bustamante (2022).

Ejemplos prácticos y cuantificación de la incerteza

Pongamos en práctica el procedimiento propuesto. Como mostramos al inicio de la columna, CADEM realiza llamadas telefónicas hasta conseguir los, aproximadamente, 700 elegibles que necesita. Revisemos nuevamente las preguntas de Cadem. Primero, sobre la gestión del presidente.

Si los seleccionados que no respondieron, no hubiesen escogido la opción “Apruebo la gestión del presidente”, entonces solo un 4,52% de los seleccionados aprobaría la gestión del presidente Boric. En caso contrario, si hubiesen escogido la opción “Apruebo la gestión del presidente”, entonces un 92,62% de los seleccionados aprobaría dicha gestión.

En cuanto a votar rechazo en el plebiscito de salida, si los que no respondieron, no hubiesen escogido la opción “Rechazo el plebiscito de salida”, entonces solo un 5,71% de los seleccionados votaría rechazo. Como se puede apreciar, estos intervalos tienen el mismo ancho de la tasa de no respuesta de esta semana (88,1%). De esta manera, se cuantifica la incerteza de la extrapolación de los resultados a la población de seleccionados. Pero hay más: los intervalos de porcentajes reflejan toda la diversidad de opiniones políticas presentes en la población de seleccionados.

Notemos que tanto el 38% que sostiene CADEM en cuanto a la aprobación del presidente Boric y el 48% del rechazo en el plebiscito de salida que muestra en sus resultados, se encuentran dentro de sus correspondientes intervalos.

Por último, nos hacemos la siguiente pregunta: la opinión de estas 705 personas, ¿refleja la opinión de la población de elegibles de CADEM? Si los elegibles que no respondieron, no hubiesen escogido la opción “Apruebo la gestión del presidente”, entonces solo un 0.002% de los elegibles aprobaría la gestión del presidente. Y si hubiesen escogido la opción “Apruebo la gestión del presidente”, entonces un 99.997% de los elegibles aprobaría dicha gestión.

En cuanto al rechazo al plebiscito de salida, si los que no respondieron, no hubiesen escogido la opción “Rechazo el plebiscito de salida”, entonces solo un 0.0025% de los elegibles votaría rechazo en el plebiscito de salida.

Ventajas de una lectura alternativa de las encuestas

Esta forma alternativa de leer las encuestas de opinión tiene dos ventajas. Por un lado, permite a toda ciudadana y ciudadano poder evaluar hasta qué punto son los supuestos de la encuesta los que imponen la conclusión, y no los datos desnudos. Es importante insistir que no existe un procedimiento estadístico que permita conocer el todo a partir de una parte -en este caso, las respuestas a una encuesta por parte de aquellos que consintieron en hacerlo.

Es más, todo procedimiento estadístico tiene por objetivo proporcionar indicadores que manifiesten la incerteza que existe al hacer afirmaciones acerca del todo a partir de una parte. Si bien es cierto los escenarios que planteamos son extremos (pero, insistamos, cuantifican la incerteza inducida por la no respuesta), manifiestan que puede haber una infinidad de supuestos que se pueden considerar.

A modo de ejemplo: podría ser razonable pensar que las personas del extremo sur de Chile que no respondieron la encuesta, tendrán una mayor tasa de aprobación del presidente que quienes respondieron la encuesta y son del extremo norte de Chile. También podríamos considerar supuestos que provienen de otros estudios, pero esto requiere explicitarlos. De hecho, lo que efectivamente se puede comparar son resultados de los mismos encuestados. Comparar resultados con distintos encuestados significa asumir que lo que opinan unos es intercambiable con lo que opinan otros.

Pero hacer estos supuestos significa combinar lo que los investigadores (o la encuestadora) creen acerca del comportamiento de los ciudadanos, con los datos. Irremediablemente las conclusiones serán un reflejo de esas opiniones, no un producto de las solas observaciones.

Reflexiones sobre el uso de encuestas en las ciencias sociales

Aquí resulta relevante hacer una digresión sobre el uso que las ciencias sociales hacen de las encuestas. En 1959, en un libro editado por Robert Merton, Leonard Broom y Leonard Cottrell, Jr., que tenía por título Sociology Today. Problems and Prospects, Paul Lazarsfeld escribió una contribución llamada Problems in Methodology. “El sociólogo estudia al hombre en la sociedad; el metodólogo estudia al sociólogo en dicho trabajo” (p. Lazarsfeld hace un contraste entre lo que significa “desarrollar metodología” e “implementar una tecnología que permita usar dicha metodología”.

Cuando un cientista social usa, por ejemplo, datos recogidos a través de encuestas, pero no hace una digresión de una serie de elementos como, por ejemplo, explicitar la población de interés (el todo) sobre la cual quiere inducir los resultados a partir de una muestra (la parte), no explicita las tasas de no respuesta, no explicita los supuestos implícitos que se hacen toda vez que se usan dichos datos; cuando el cientista social falla en hacer este tipo de consideraciones, entonces simplemente es un usuario de una técnica (métodos estadísticos facilitados por softwares), minando el pretendido carácter científico de su investigación empírica.

Es por ello que se hace urgente cambiar nuestra relación con las encuestas, sean políticas u otras típicamente usadas en la investigación empírica: en lugar de buscar predicciones certeras de comportamientos políticos, hemos de buscar explicitar de variedades de opiniones políticas, sin olvidar que unas se escogen sobre otras no por estar sustentadas en los datos desnudos, sino por combinar esos datos con creencia de la realidad política, miradas que pueden incluso ser fugaces. Y esto irremediablemente impone una exigencia al cientista social: siempre reportar sus resultados usando lo que hemos llamado “casos extremos”.

Referencia: San Martín, E. & Alarcón-Bustamante, E. (2022). Dissecting Chilean surveys: the case of missing outcomes.

TAG: #Trabaja

Lea también: