Codificacion y tabulacion de datos información de mercados

En este post explicamos los objetivos de la codificación y tabulación de datos, qué es la codificacion y tabulacion de datos obtenidos de la investigación de mercado. ¿Qué es codificación de datos ?¿ Qué es tabulación de datos?

Consiste en asignar un número o cifra a cada una de las diferentes respuestas de un cuestionario o de cualquier otro documento de recogida de información. ¿Para qué sirve la codificación de datos ? Los códigos permiten interpretar, clasificar y registrar los datos lo cual facilitará el posterior proceso de tabulación.

Tabular es decir expresiones de valores o conceptos mediante tablas o cuadros, u”hojas de tabulación”. Por supuesto existen software adecuados para realizar el proceso de codificación y tabulación de datos´.

 Recogida de información ⇒ Codificación y tabulación de datos ⇒ Análisis de datos 

Trabajos previos a la codificación y tabulación de datos.

  1. Edición de datos
  2. Limpieza de datos: verificación de rangos y consistencia.
  3. Actuaciones organizativas en la codificación y análisis de datos. Es importante siempre saber cuáles son los objetivos del análisis y si definir los posibles problemas para solucionarlos previamente.

Edición de datos para Codificar y Tabular

Hay que tener en cuenta una serie de pasos para que la codificación y tabulación de datos en una investigación sea de forma correcta.

El primer paso es la edición de datos que consiste en el proceso de revisar y ajustar los datos. ¿Y cómo se procesan para su posterior codificación y tabulación de datos?. Básicamente detectando omisiones, valores anómalo, verificando que sean legibles, consistentes, y prepararlos para su posterior codificación y tabulación de datos.

Cuando la entrevista sea personal de forma asistida por ordenador (C.A.P.I Computer Assisted Personal Interviewing). La entrevista personal asistida por computadora es una técnica de entrevista en la que el encuestado o entrevistador usa una computadora para responder las preguntas.

Entrevista personal por teléfono (C.A.T.I. Computer Assisted Telephone Interviewing). La entrevista telefónica asistida por computadora es una técnica de encuesta telefónica en la que el entrevistador sigue un guión proporcionado por una aplicación de software la edición de datos se simplifica, lo que no quiere decir que se obvie por completo.

  1. No podemos evitar errores ajenos al muestreo.
  2. Respuestas intencionadamente incorrecta de los entrevistados. O bien respuestas incorrectas por cansancio del entrevistado, poca claridad del cuestionario o mala actuación del entrevistador.
  3. Errores de transcripción por el entrevistador, codificación o equipos informáticos.

Errores Erráticos y Sistemáticos en la codificación y tabulación de datos.

Así que los errores en la codificación y tabulación de datos se pueden clasificar en erráticos y sistemáticos.

¿Cuáles son los errores Erráticos?: Son aquellos que se comenten en la manipulación y codificación de la información. Por ejemplo “ Al codificar una respuesta se introduce mal el código en el ordenador “.

¿Qué son errores Sistemáticos?: Son los que seguirían produciéndose en caso de que la encuesta se repitiera en las mismas condiciones. Por ejemplo “las respuestas deliberadamente falsas por parte del entrevistado sobre preguntas acerca de la renta, opiniones políticas, etc.

Por lo tanto hay que evitarlos en la medida posible,”limpiar” los errores porque ocasionarían errores de interpretación, con lo cual los datos finales no serían fiables.

Limpieza previas a la codificación y tabulación de datos.

¿Qué es la limpieza o depuración de datos?. Es conjunto de técnicas que nos permiten corregir una parte de los errores presentes en la encuesta.

Entonces la limpieza o depuración de datos incluyen la edición de los datos, evitando como hemos dicho los diferentes errores.

Aunque también hay argumentos en contra de la depuración de datos. 

Primero porque a veces cuando existe una inconsistencia en la que está implicada más de una variable, es difícil decidir cuál es la errónea.

segundo porque se descuidaría la recogida de información confiando en que la depuración eliminará los errores, lo cual es falso.

Y finalmente que se pueden producir datos bonitos y en realidad muestran una falsa sensación de corrección. Ejemplo lugar de residencia el que ha contestado que es de Málaga, pero no ha dicho el de Andalucía; entonces lo ponemos nosotros.

Tareas que implica la depuración

Comprobación o chequeo del cumplimiento de la muestra. Conviene que otra persona ratifique nuestro estudio para poder después extrapolar. Finalmente el control de grabación:

  1. Grabación Ciega cuando se teclea información de forma rápida (por limitaciones temporales o económicas). Y se graban los datos dos veces para limitar errores.
  2. En la grabación inteligente el software es capaz de detectar por si mismo los errores.

Errores de grabación.

Duros: errores de grabación que provocan que el software nos impida continuar sin ser corregidos.

Blandos: errores que se almacena.

Actuaciones organizativas previas a la codificación y tabulación de Datos.

Considerar una forma segura de identificar cada cuestionario para volver a consultarlos y relacionarlos con otros adicionales o posteriores. Por ejemplo: “crear fichero que resuma las variables geográficas (región, provincia, municipio…) y asociar un código que aparece en el cuestionario”.

 Datos de identificación del cuestionario. Cualitativos y Cuantitativos

  • Cualitativos. Miden una cualidad no definida por número ( estado civil, nacionalidad…). como codificar datos cualitativos en el codebook
  • Cuantitativos. Miden una característica mediante un número (altura, peso ). A su vez los datos cuantitativos pueden ser:
  1. Discretos. Los valores son enteros (miembros de la unidad familiar).
  2. Continuos los valores posibles son ilimitados ( peso, altura).

Verificación de rangos.

Consiste en comprobar que los códigos de la variable categóricas y numéricas, cualidad y cantidad, estén entre los admisibles.  Por ejemplo si el código de posibles respuestas es de 1 a 10, no puede existir un valor menor a 1 y superior a 10 porque estaría fuera del rango “.

¿Pero qué haríamos en un caso similar..?… dos métodos

  1. Dejar en blanco la respuesta ó
  2. Imputar el dato de dos formas.

Bien dando un valor a la pregunta manual o automáticamente.

O rellenar la respuesta con el valor medio de los entrevistados que han respondido correctamente a la pregunta.

Si mucha gente contesta No sabe/ No contesta es porque la pregunta está mal hecha

*No se debe abusar de implementar la categoría No sabe/No contesta en las preguntas de los cuestionarios ya que la experiencia demuestra que muchas veces los entrevistados recurren a dicha categoría para ahorrar tiempo y evitar pensar sobre el resto de categorías.

 Consistencia

Coherencia existente entre un conjunto que datos, como por ejemplo ” detectamos una persona viuda de diez años”. Inconsistencia.

En las investigaciones asistidas por ordenador el software se encargará de implementar reglas para evitar inconsistencias. Con la codificación de software se evitarán mayores errores.

Si el número de inconsistencias es elevado hay que preguntar a los suministradores de información (entrevistadores).

Crear una categoría de “inválidos”.

Se corrige el dato añadiendo un valor consistente con los demás explicando tal corrección.

Macrodepuración en la Codificación y tabulación de datos

Supone una investigación a nivel agregado (a nivel de tablas) estudiando las distribuciones de las variables tratando de identificar áreas de problemas. Por ejemplo cuando bastantes sujetos contestan mal a una pregunta. La macrodepuración en definitiva cuida de no desvirtuar la calidad de los datos.

Características de la macrodepuración

  • Se ignoran los errores cuya magnitud no es significativa o se cancelan en el proceso de agregación.
  • No es un conjunto de procedimientos cerrado y una buena planificación es decisiva.
  • Tiene en cuenta observaciones o valores sospechosos (outliers), índice de no respuesta, etc.
  • El proceso se repite hasta que se eliminan los errores más importantes.

Micro-depuración en la codificación y tabulación de datos

Supone la investigación de los datos a nivel desagregado (microdato) para detectar errores y corregirlos mediante imputación manual o automática.

Muchos métodos de micro-depuración han sido sustituidos por los de macro-depuración cuando el volumen de datos es excesivo.

Estrategia de depuración

Un buen diseño de estrategia de depuración debe considerar

  1. El volumen de la encuesta o número de cuestionarios. Esto determina los mėtodos de grabación, tareas de depuración y métodos de imputación.
  2. Periocidad de la encuesta. La periocidad permite corregir errores sistemáticos.
  3. El grado de calidad. Cuidar la calidad por los responsables del diseño.
  4. Hipótesis sobre tipos de error. Describir a priori posibles errores, para así detectarlos y depurarlos.
  5. Grado de redundancia de la información. Por ejemplo pedir edad y fecha de nacimiento.
  6. El tipo de datos del cuestionario. Mayor complejidad de depuración para datos cualitativos (macro-depuración ésta más orientada a datos cuantitativos).
  7. Definir situaciones imposibles (un hijo no puede ser mayor que sus padres) e improbables (alguien indica que su sueldo es de 30.000€)

Elaboración del Codebook 

¿Qué es un codebook? Es un libro de códigos, la codificación de datos en una investigación, con un sistema para codificar los datos.

Es el Código maestro.

¿Y cómo codificar datos?. Antes de comenzar a tomar e introducir datos hay que preparar un libro de códigos (codebook). ¿Para qué se utiliza la codificación de datos?, para ver la capacidad de las variables, es una guía que identifica los valores que pueden atribuirse a cada variable. ¿Cual es la importancia de la codificación de datos?

Aconsejable para la codificación y tabulación de datos

Debemos diferenciar la codificación de la respuesta No sabe/No contesta de los posibles valores inexistentes o faltantes (missing data).

La primera es una opción elegida por el individuo al realizar la encuesta, mientras que los missing data hacen referencia a la falta de respuesta por diferentes motivos.

Interesante apuntar…como codificar datos de una encuesta.

Por convención se suele utilizar el número 9 para categorizar las respuestas “No sabe/No contesta “.

Hay que decir si es oportuno incluir dicha categoría en una pregunta y si además deben ir unidas o separadas en dos categorías.

Cuando son necesarios dos dígitos para codificar se utiliza 99 ó 00. Si se decide separarlas se utilizan los códigos 98 y 99 respectivamente. 99 no sabe. 00 no contesta.

Codificación de respuestas sobre preguntas cerradas de respuesta única

¿Qué son preguntas cerradas de respuesta única?. las podemos definir como aquellas preguntas que ofrecen una serie de opciones prefijadas en la fase de diseño entre las que sólo se puede elegir una solamente. Y las respuestas son excluyentes.

  • Definitivas o Dicotómicas

Respuestas de “SÍ” o “No”

¿Tiene usted hijos?

  1. Si
  2. No

Aunque también son posibles otras dos opciones diferente dentro de las preguntas dicotómicas, por ejemplo:

– ¿Dónde reside?

  1. En España
  2. Fuera de España
  • Preguntas de Selección

Múltiples opciones pero deben elegir una.

– ¿Cuál es su nivel de estudios?

  1. Sin estudios
  2. Primarios
  3. Secundarios
  4. Ciclo Formativo
  5. Universitarios
  6. Postgrado
  7. Doctorado

Ventajas y Desventajas  de preguntas Cerradas de Respuesta Única

  1. Primero que el entrevistado responde rápidamente ya que necesita menos tiempo para pensar.
  2. Y porque son fáciles de codificar, y por supuesto es conveniente pre-codificarlas en fases previas.

Y desventajas.

  1. La principal desventaja es que son poco fiables porque se pueden desvirtuar.  Además que se puede dejar fuera información interesante por la inflexibilidad.
  2. Además de las limitación de opciones que puede no reflejar y limitar todas las posibles opciones de respuesta

Codificación de respuestas sobre preguntas cerradas de respuesta múltiple.

¿Qué son las preguntas cerradas de respuesta múltiple? Son aquellas preguntas que dan una serie de opciones prefijadas , entre las cuales el entrevistado puede elegir más de una opción. Las respuestas No son excluyentes entre sí.

Por ejemplo:

– ¿Qué aficiones practica el fin de semana?

  1. Lectura,
  2. Ver TV
  3. Ir al cine o teatro,..

La Pregunta queda dividida ahora en 6 preguntas convertidas en DICOTÓMICAs

Ejemplo de posible fallo:

Puede ocurrir que no se haya tenido en cuenta la opción Visitar pueblos cercanos de la Provincia.

Según el objetivo de la investigación puede ser un fallo grave “el no haber hecho un estudio previo de costumbres con todas las fuentes primarias y secundarias.

Las ventajas y desventajas son las mismas que para las preguntas cerradas de respuesta única.

Codificación de respuestas sobre preguntas abiertas

¿Qué son preguntas abiertas?. Son aquellas que permiten libertad para contestar sin proponer opciones prefijadas de antemano. Por lo cual no pueden ser pre-codificadas y el entrevistado necesita mayor tiempo para responder. Pero por otro lado proporcionan mucha más información que las cerradas.

Cómo tabular preguntas abiertas en 3 pasos.

  1. Para empezar se revisa la tipología de respuestas recogidas mediante análisis de contenidos.
  2. Se establece un número limitado de categorías considerado la opción “Otras respuestas “
  3. Y por último se asignan los códigos a cada una de las respuestas

Es importante o puede ser interesante crear directorios o encabezamiento para las respuestas con un sentido similar, por ejemplo

Directorio 1: CERCANÍA

  1. Se encuentra cerca de mi casa
  2. Patrocina actividades de mi barrio
  3. Conozco amigos que trabajan allí

Directorio  2: TRATO AMABLE

  1. Las cajeras son amables
  2. También me conocen por mi nombre
  3. Además me saludan cuando entro al supermercado

Hojas de cálculo para la Codificación y Tabulación de datos

SPSS . SPSS es un programa estadístico informático muy usado en  las empresas de investigación de mercado. Explica cómo codificar datos en SPSS, uno de los más conocidos paquetes estadísticos, sirve para todo, se puede utilizar en psicología,  mercado, en la codificación de datos de redes, etc. también está considerado como el mejor software que existe. Consiste en un módulo base y módulos anexos que se actualiza constantemente

  • Hojas de cálculo de diferentes
  1. Microsoft Office. como codificar datos en excell , ya sabemos que es una aplicación utilizada en tareas financieras y contables, con fórmulas, gráficos
  2. Libre Office
  3. OpenOffice
  4. Koffice

Estas hojas permiten lo que es la revisión y codificación de datos además que también ofrecen la posibilidad de exportar los datos a SSPS.