Que es la codificación y tabulación de datos

Codificacion y tabulacion de datos del análisis de mercados

Trataremos ahora los objetivos de la codificación y tabulación de datos, de cómo se codifican y tabulan los datos obtenidos de los sistemas de investigación de mercados, de marketing y comunicación.

Investigación obtenida tanto de analizar el mercado como el macroentorno. ¿Qué es codificación y tabulación de datos?, el significado de codificar es asignar un número o cifra a cada una de las diferentes respuestas obtenidas de la investigación del mercado. Técnicas de recogida de datos, como puede ser el cuestionario,  entrevista en profundidad, la encuesta no siempre es recomendable utilizarla. 

¿Para qué sirve la codificación de datos? Por ejemplo, después del análisis de datos estadísticos de una encuesta los códigos permiten interpretar, clasificar y registrar los datos, además de disminuir el volumen, lo cual facilitará el posterior proceso de tabulación.

Qué es tabular, Qué es tabulación de datos?. Son expresiones de valores o conceptos representados mediante tablas o cuadros, «las hojas de tabulación». Existen software adecuados para realizar este proceso de codificación y tabulación como el programa estadístico spss.

Recogida de información ⇒ Codificación y tabulación de datos ⇒ Cómo hacer un análisis de datos 

Trabajos previos a la codificación y tabulación de datos.

  1. Primero se editan los datos obtenidos.
  2. Limpieza de datos: verificación de rangos y consistencia.
  3. Actuaciones organizativas en la codificación y análisis de datos. Es importante siempre saber cuáles son los objetivos del análisis y si definir los posibles problemas para solucionarlos previamente.

Editar los datos obtenidos antes de codificarlos

 Por supuesto hay que tener en cuenta una serie de pasos para que la codificación y tabulación de datos en una investigación sea de forma correcta.

El primer paso es la edición, un análisis e interpretación de datos, un proceso de revisar y ajustar los datos obtenidos de la investigación.

¿Y cómo se procesan para su posterior codificación y tabulación de datos?. Fundamentalmente detectando omisiones, valores anómalos , verificando que sean legibles, consistentes, y prepararlos para su posterior codificación y tabulación de datos.

  • Cuando la entrevista sea personal de forma asistida por ordenador (C.A.P.I Computer Assisted Personal Interviewing). La entrevista personal asistida por computadora es una técnica de entrevista en la que el encuestado o entrevistador usa una computadora para responder las preguntas.
  • Entrevista personal por teléfono (C.A.T.I. Computer Assisted Telephone Interviewing). La entrevista telefónica asistida por computadora es una técnica de encuesta telefónica en la que el entrevistador sigue un guión proporcionado por una aplicación de software la edición de datos se simplifica, lo que no quiere decir que se obvie por completo.
  1. No podemos evitar errores ajenos al muestreo.
  2. Respuestas intencionadamente incorrecta de los entrevistados. O bien respuestas incorrectas por cansancio del entrevistado, poca claridad del cuestionario o mala actuación del entrevistador.
  3. Errores de transcripción por el entrevistador, codificación o equipos informáticos.

Errores Erráticos y Sistemáticos en la codificación y tabulación de datos.

Así que los errores en la codificación y tabulación de datos se pueden clasificar en erráticos y sistemáticos.

¿Cuáles son los errores Erráticos?, son aquellos que se comenten en la manipulación y codificación de la información. Por ejemplo “ Al codificar una respuesta se introduce mal el código en el ordenador “.

¿Qué son errores Sistemáticos?, son los que seguirían produciéndose en caso de que la encuesta se repitiera en las mismas condiciones. Por ejemplo “las respuestas deliberadamente falsas por parte del entrevistado sobre preguntas acerca de la renta, opiniones políticas, etc.

A sí que hay que evitar en la medida de lo posible la limpieza de los errores porque ocasionarían errores de interpretación, con lo cual los datos finales no serán fiables.

Tres argumentos en contra de la depuración de datos. 

  1.  A veces cuando existe una inconsistencia en la que está implicada más de una variable es difícil decidir cuál es la errónea.
  2. Porque se descuidaría la recogida de información confiando en que la depuración eliminará los errores, lo cual es falso.
  3. Y finalmente que se pueden producir datos bonitos y en realidad muestran una falsa sensación de corrección. Por ejemplo a la pregunta lugar de residencia han contestado que de Málaga pero no ha dicho que es  Andalucía, entonces lo ponemos nosotros.

Tareas de depuración en la codificación y tabulación de datos 

En primer lugar la comprobación o chequeo del cumplimiento de la muestra, conviene que otra persona ratifique nuestro estudio para poder después extrapolar. Y en segundo lugar el control de grabación que puede ser una grabación ciega y grabación inteligente.

  1. Grabación ciega es cuando se teclea información de forma rápida, bien  por limitaciones temporales o económicas. Lo que se hace es grabar los datos dos veces para limitar errores.
  2. En la grabación inteligente el software es capaz de detectar por si mismo los errores.

Los errores pueden ser:

Duros son cuando los errores de grabación provocan que el software nos impida continuar si antes no se corrigen.

Y los errores blandos son los que se almacenan.

Limpieza de datos 2º trabajo previo a la codificación y tabulación 

¿Qué es la limpieza o depuración de datos?. Es conjunto de técnicas que nos permiten corregir una parte de los errores presentes en la encuesta.

Entonces la limpieza o depuración de datos incluyen la edición de los datos, evitando como hemos dicho los diferentes errores.

Verificación de rangos.

Consiste en comprobar que los códigos de la variable categóricas y numéricas, cualidad y cantidad, estén entre los admisibles.  Por ejemplo si el código de posibles respuestas es de 1 a 10, no puede existir un valor menor a 1 y superior a 10 porque estaría fuera del rango «.

¿Pero qué haríamos en un caso similar..?… dos métodos

Uno, dejar en blanco la respuesta y dos imputar el dato de dos formas.

  1. Dando un valor a la pregunta bien de forma manual o automáticamente.
  2. O rellenar la respuesta con el valor medio de los entrevistados que han respondido correctamente a la pregunta.

Ten en cuenta que si mucha gente contesta No sabe/ No contesta es porque la pregunta está mal hecha

Y por supuesto no se debe abusar de implementar la categoría No sabe/No contesta en las preguntas de los cuestionarios. Puesto que la experiencia demuestra que muchas veces los entrevistados recurren a dicha categoría para ahorrar tiempo y evitar pensar sobre el resto de categorías.

 Consistencia de los datos obtenidos

Coherencia existente entre un conjunto que datos, como por ejemplo » detectamos una persona viuda de diez años«. Indudablemente es una inconsistencia.

En las investigaciones asistidas por ordenador el software se encargará de implementar reglas para evitar inconsistencias. Con la codificación mediante software se evitarán mayores errores.

Si el número de inconsistencias es elevado hay que preguntar a los suministradores de información, es decir, a los entrevistadores.

Siempre hay que crear una categoría de «inválidos».

Se corrige el dato añadiendo un valor consistente con los demás explicando tal corrección.

Actuaciones organizativas 3ª tarea previa a la codificación y tabulación de datos.

Se trata de considerar una forma segura de identificar cada cuestionario para volver a consultarlos y relacionarlos con otros adicionales o posteriores. Por ejemplo crear un fichero que resuma las variables geográficas, región, provincia, municipio, y asociar un código que aparece en el cuestionario».

Identificar los datos datos cualitativos y cuantitativos del cuestionario.

Análisis de datos cualitativos. Los datos cualitativos son los que miden una cualidad no definida por número como por ejemplo de dato cualitativo sería el estado civil o la nacionalidad.

Y los datos cuantitativos miden una característica mediante un número, como puede ser el peso, altura. A su vez los datos cuantitativos pueden ser discretos y continuos.

  1. En los datos cuantitativos discretos los valores son enteros, por ejemplo los miembros de la unidad familiar.
  2. Y los datos cuantitativos continuos los valores posibles son ilimitados, por ejemplo el peso y altura.

La Macrodepuración de la codificación y tabulación de datos

Supone una investigación a nivel agregado, a nivel de tablas, estudiando las distribuciones de las variables tratando de identificar áreas de problemas, por ejemplo cuando bastantes sujetos contestan mal a una pregunta. La macrodepuración en definitiva cuida de no desvirtuar la calidad de los datos.

Características de la macrodepuración

  1. Se ignoran los errores cuya magnitud no es significativa o se cancelan en el proceso de agregación.
  2. No es un conjunto de procedimientos cerrado y una buena planificación es decisiva.
  3. Tiene en cuenta observaciones o valores sospechosos (outliers), índice de no respuesta, etc.
  4. El proceso se repite hasta que se eliminan los errores más importantes.

Micro-depuración en la codificación y tabulación de datos

Supone la investigación de los datos a nivel desagregado o microdato para detectar errores y corregirlos mediante imputación manual o automática.

Muchos métodos de micro-depuración han sido sustituidos por los de macro-depuración cuando el volumen de datos es excesivo.

Estrategia de depuración

Un buen diseño de estrategia de depuración debe considerar

  1. El volumen de la encuesta o número de cuestionarios. Esto determina los métodos de grabación, tareas de depuración y métodos de imputación.
  2. Periocidad de la encuesta. La periocidad permite corregir errores sistemáticos.
  3. El grado de calidad. Cuidar la calidad por los responsables del diseño.
  4. Hipótesis sobre tipos de error. Describir a priori posibles errores, para así detectarlos y depurarlos.
  5. Grado de redundancia de la información. Por ejemplo pedir edad y fecha de nacimiento.
  6. El tipo de datos del cuestionario. Mayor complejidad de depuración para datos cualitativos (macro-depuración ésta más orientada a datos cuantitativos).
  7. Definir situaciones imposibles (un hijo no puede ser mayor que sus padres) e improbables (alguien indica que su sueldo es de 30.000€)

Elaboración del Codebook 

¿Qué es un codebook?, es un libro de códigos, la codificación de datos en una investigación con un sistema para codificar los datos. El Codebook, el código maestro son listas organizadas de códigos que se deben describen perfectamente cada código, estos códigos pueden ser números o letras.

¿Para qué se utiliza la codificación de datos?, muestra la capacidad de las variables, es una guía que identifica los valores que pueden atribuirse a cada variable, la finalidad de la codificación es reducir los cuantiosos datos obtenidos. ¿Y cómo codificar datos cualitativos?, cuando se trabaja en equipo analizando los mismos datos cualitativos, es necesario ponerse de acuerdo en lo que incluirán el libro de códigos.

La codificación no es un proceso rígido, los libros de códigos se desarrollan a medida que se va investigando. Incluso se comienza con 
temas principales y después a lo largo de la investigación se pueden hacer subdividir .

¿Cual es la importancia de la codificación de datos?

Aconsejable para codificar y tabular encuestas.

No sabe/no contesta

Debemos diferenciar la codificación de la respuesta No sabe/No contesta de los posibles valores inexistentes o faltantes  vease missing data.

La primera es una opción elegida por el individuo al realizar la encuesta, mientras que los missing data hacen referencia a la falta de respuesta por diferentes motivos. 

Por convención se suele utilizar el número 9 para categorizar las respuestas No sabe/No contesta. Hay que decir si es oportuno incluir dicha categoría en una pregunta y si además deben ir unidas o separadas en dos categorías.

Cuando son necesarios dos dígitos para codificar se utiliza 99 ó 00. Pero si se decide separarlas se utilizan los códigos 98 y 99 respectivamente.

99 no sabe.

00 no contesta.

Codificación de respuestas sobre preguntas cerradas de respuesta única

Recordamos que es el cuestionario de información, para pasar a la codificación de cuestionarios con preguntas para hacer una encuesta de tipo cerrada pueden ser dicotómicas,  preguntas cerradas de respuesta única, y de múltiples opciones de respuesta.

Es decir que las podemos definir como aquellas preguntas que ofrecen una serie de opciones prefijadas en la fase de diseño, pero que sólo se puede elegir una solamente y además las respuestas son excluyentes.

  • Definitivas o Dicotómicas, respuestas de «SÍ» o «No»

 ¿Tiene usted hijos?

  1. Si
  2. No

Aunque también son posibles otras dos opciones diferente dentro de las preguntas dicotómicas, por ejemplo:

¿Dónde reside?

  1. En España
  2. Fuera de España
  • Preguntas de Selección, múltiples pero deben elegir una.

 ¿Cuál es su nivel de estudios?

  1. Sin estudios
  2. Primarios
  3. Secundarios
  4. Ciclo Formativo
  5. Universitarios
  6. Postgrado
  7. Doctorado

La ventaja que tienen las preguntas cerradas de respuesta única es porque son fáciles de codificar.

Codificación de respuestas sobre preguntas cerradas de respuesta múltiple

¿Qué son las preguntas cerradas de respuesta múltiple? Son aquellas preguntas que dan una serie de opciones prefijadas, entre las cuales el entrevistado puede elegir más de una opción. Las respuestas No son excluyentes entre sí.

Por ejemplo:

 ¿Qué aficiones practica el fin de semana?

  1. Lectura,
  2. Ver TV
  3. Ir al cine o teatro,..

La Pregunta queda dividida ahora en 6 preguntas convertidas en dicotómicas.

  ¿Lees el fin de semana?

  1. No

 ¿Ves la televisión el fin de semana?

  1. No

 ¿Vas al cine el fin de semana?

  1. no

Ejemplo de posible fallo:

«Puede ocurrir que no se haya tenido en cuenta la opción visitar pueblos cercanos de la Provincia.

Según el objetivo de la investigación puede ser un fallo grave «el no haber hecho un estudio previo de costumbres con todas las fuentes primarias y secundarias.

También tienen como ventaja la facilidad de codificarlas.

Codificación de respuestas sobre preguntas abiertas

¿Qué son preguntas abiertas?. Son aquellas que permiten libertad para contestar sin proponer opciones prefijadas de antemano. Por lo cual no pueden ser pre-codificadas y el entrevistado necesita mayor tiempo para responder. Pero por otro lado proporcionan mucha más información que las cerradas.

Cómo codificar preguntas abiertas en 3 pasos.

  1. Para empezar se revisa la tipología de respuestas recogidas mediante análisis de contenidos.
  2. Se establece un número limitado de categorías considerado la opción «Otras respuestas «
  3. Y por último se asignan los códigos a cada una de las respuestas

Es importante o puede ser interesante crear directorios o encabezamiento para las respuestas con un sentido similar, por ejemplo

Directorio 1: Cercanía

  1. Se encuentra cerca de mi casa
  2. Patrocina actividades de mi barrio
  3. Conozco amigos que trabajan allí

Directorio  2: Trato amable

  1. Las cajeras son amables
  2. También me conocen por mi nombre
  3. Además me saludan cuando entro al supermercado

Hojas de cálculo para la codificación y tabulación de datos

El sistema SPSS qué es, es un programa estadístico informático muy usado en  las empresas de investigación de mercado. SPSS es uno de los más conocidos paquetes estadísticos, sirve para todo, se puede utilizar en psicología,  mercado, en la codificación de datos de redes, etc. también está considerado como el mejor software que existe de programas para tabular y graficar encuestas. Consiste en un módulo base y módulos anexos que se actualiza constantemente

3 diferentes hojas de cálculo.

  1. Tabular en excell, cómo tabular una encuesta en excell, con microsoft office es una aplicación utilizada en tareas financieras y contables, de cómo hacer gráficas de una encuesta. 
  2. Libre Office, programa para tabular datos, para procesamientos de datos en una investigación, etc.
  3. OpenOffice

Estas hojas también ofrecen la posibilidad de exportar los datos al programa spss, software estadístico más utilizado en el procesamiento y análisis de datos estadísticos.

Programa para hacer encuestas online

error: Content is protected !!