Capítulo 1
Codificación y tabulación de datos e información de mercados
2. Objetos de la codificación y la tabulación de datos
3. Trabajos previos a la codificación y tabulación de datos
4. Elaboración de un código maestro
Un proyecto de investigación de mercados solo es efectivo si proporciona información útil para la toma de decisiones dentro de la empresa. El sistema de información de marketing (SIM) proporciona a los gerentes y directivos de la empresa mucha información, pero esta carece de valor si no se trata y analiza bien.
El proceso de codificación y tabulación de los datos es fundamental para el éxito de la investigación de mercado, permite simplificar la información procedente del estudio de campo (observación, entrevista, cuestionario, etc.), creando categorías afines y descartando los que puedan distorsionar la realidad, para poder operar con ellos. En el buen desarrollo de este proceso está la clave para obtener conclusiones válidas del estudio, fin último con el que se emprende dicha actividad.
El empleo de distintas técnicas y medios diversos, y la buena labor del analista para adjudicar códigos y distribuir los distintos datos, van a dar lugar a una gran variedad de modelos. El investigador seleccionará el más adecuado en cada caso para asegurar unos resultados óptimos, que se ajusten a los objetivos de la investigación.
El primer paso de una investigación de mercados es la obtención de datos; una vez se han recopilado los datos, el siguiente paso es analizarlos. Este proceso de análisis implica una labor interpretativa por parte del investigador, que debe afrontar las tareas de codificación y tabulación de la información obtenida estableciendo criterios de agrupación y parentesco para poder trabajar con ella.
Durante el proceso de investigación pueden hallarse cientos de respuestas a una misma pregunta o una variedad amplísima de posibles situaciones observadas bajo un mismo ítem, la codificación persigue la simplificación de las mismas en un número concreto de respuestas u observaciones. La codificación consiste en asignar un “nombre” o “clave numérica” a estas respuestas u observaciones obtenidas durante el proceso de investigación, partiendo de la semejanza existente entre muchas de ellas, lo cual es necesario para poder integrarlas bajo el mismo código y determinar una categoría que llegue a representar una determinada opinión o comportamiento de los objetos de estudio.
Lo más correcto sería plantear esta asignación de códigos durante el proceso de elaboración del cuestionario, para evitar futuros problemas en la consideración de las respuestas, ya que se podría encontrar con información difícil de tabular.

Importante
La reducción de datos implícita en la codificación requiere una tarea de interpretación previa por parte del investigador, ya que el proceso va más allá de la simple asignación de categorías, llegando a establecer relaciones entre las mismas.
El resultado de la codificación es un sistema de clasificación de los datos, que debe ser, ante todo, exhaustivo y preciso: debe tener categorías suficientes para que puedan clasificarse todas y cada una de las informaciones obtenidas, asimismo, debe reconocer el mayor número posible de distinciones entre ellas. Las categorías deben estar bien diseñadas, de manera que sean mutuamente excluyentes y que cada caso solo tenga cabida en una categoría propia y única del sistema clasificatorio.
Una vez codificadas las informaciones y establecido un buen sistema de clasificación que dé cabida a todas ellas, se pasa a la tabulación de los datos. La tabulación consiste en la ordenación de los datos, una vez codificados, facilitando su representación a través de tablas o gráficos y el cálculo de índices estadísticos para obtener resultados numéricos relativos a los temas de estudio que se tratan en el proceso de investigación.
Hoy en día, se suele tabular informáticamente por motivos de operatividad. La tabulación manual ha quedado relegada a investigaciones con escaso número de observaciones o cuestionarios y se realiza mediante el recuento o simple control de los datos que se presentan en tablas o gráficos, para facilitar el análisis de los mismos. Dicha representación ofrece una mayor visualización de las distintas categorías, permite comparaciones sencillas a simple vista y establecer conclusiones poco profundas sobre el tema.
La tabulación informática, a su vez, permite aglutinar mayor volumen de datos y facilita el trabajo reduciendo los cálculos necesarios para la obtención de conclusiones. Además permite un estudio más profundo, ya que admite la combinación entre variables acercándose más al escenario real, donde una variable no funciona de forma independiente, sino que se establecen sinergias y vinculaciones entre todas las que intervienen en un mismo fenómeno.
De todo ello se entiende que las tareas de codificación y tabulación van unidas. El objetivo de ambos procedimientos es, por tanto, agrupar y representar los datos para poder someterlos al posterior estudio estadístico.

Ejemplo
Imagine un estudio de mercado elaborado por una empresa automovilística cuyo objetivo es conocer la preferencia de color en la carrocería de los vehículos de alta gama entre sus consumidores potenciales.
Como resultado de pasar un cuestionario a un subconjunto de los mismos, se obtienen las siguientes respuestas: negro, azul marino, blanco, gris, gris perla, rojo, celeste, beige, dorado, verde, etc.
Parece difícil llegar a conclusiones válidas ante tal variedad de respuestas. No obstante, el investigador opta por simplificarla distinguiendo entre tonalidades claras, oscuras y otras.
Cuando no se sabe bien dónde categorizar una respuesta, en este caso, rojo y verde... ‘¿se corresponden más con una tonalidad oscura o con una clara?’ Lo más correcto es determinar una categoría de otras respuestas a modo de «cajón de sastre», para no desvirtuar los resultados de la investigación.
El siguiente paso en la codificación sería la asignación de un código: claras (1), oscuras (2) y otras (3).
La tabulación de estos datos consistiría en la contabilización de cuántos individuos se han decantado por cada opción y en la representación de dicho recuento a través de una tabla o gráfico.
El éxito de un estudio de mercado depende en muchos casos de estas tareas de codificación y tabulación, ya que la elección de un criterio erróneo para la agrupación de los datos o un mal recuento de los mismos puede hacer inservible todo el proceso de investigación.
Se trata, pues, de un proceso meticuloso y de gran interés para los empresarios, ya que permite ahorrar mucho tiempo y dinero si se gestiona adecuadamente; pero unos datos erróneos o un mal análisis de los mismos, fruto de una mala praxis en el tratamiento de estos lleva a perder mucho más tiempo y dinero del que se podría haber llegado a ahorrar gracias al estudio.
En todo estudio de mercado durante el proceso de recolección de datos se incluyen procedimientos e instrumentos para minimizar errores y maximizar su precisión. El trabajo bien hecho comienza por una obtención de datos lo más reales posibles, se trata de captar una pequeña parcela de la realidad dejando al margen aquellos datos debatibles. Los procedimientos de control se establecen desde el principio de la investigación y se mantienen a lo largo de la misma, se trata de una tarea preventiva ya que cuanto antes se detecten las anomalías, mayor será la probabilidad de que estas se solventen de forma favorable.
El proceso de edición de datos implica un trabajo de revisión de la información obtenida en la fase de recogida de datos. Aunque el investigador haya hecho uso de instrumentos de control y haya permanecido alerta, es habitual que dicho filtro no frene por completo todas las anomalías y hayan pasado desapercibidas ciertas irregularidades o problemas que podrían alterar los resultados de la investigación.

Nota
Muchas veces la edición de datos se lleva a cabo por varias personas, que suelen ser ajenas al estudio. Es preciso establecer filtros de control y comprobar que todos los transcriptores responden a los mismos criterios en el tratamiento de la información. Hay que estipular filtros de control para detectar posibles anomalías, tanto en el punteo o digitalización de la información como en la categorización de los datos. Cuando en lugar de un editor existen varios transcriptores, la información se debe dividir en subconjuntos más pequeños y determinar controles parciales.
La edición de los datos puede desarrollarse de forma manual y de manera digital, haciendo uso de un software específico. Al igual que en la tabulación, el tratamiento informático de los datos facilita el proceso de edición de los mismos, a la par que ofrece mayores garantías de exactitud y fidelidad en la traslación de estos.
La edición manual se efectúa a simple vista y ofrece una primera impresión sobre cómo de bien se efectúo el proceso de obtención de datos: se analiza cómo se completaron los cuestionarios, si hay datos faltantes, qué preguntas dieron problemas, etc. Se trata, pues, de una labor de control para siguientes fases del estudio y de una herramienta de evaluación de los instrumentos de medición de datos.
Por su parte, la edición digital de los datos consiste en la introducción de estos en una base de datos o un software específico. Un programa específico de entrada de datos ofrece muchas ventajas en la edición y análisis de datos. Estos suelen comprobar cada apunte que se introduce, impidiendo que se anoten valores indebidos o erróneos en la base de datos. De esta forma, la informática previene posibles errores humanos en la digitalización de los datos y detecta datos discordantes que pasaron desapercibidos ante la criba de la edición visual.

Recuerde
La edición digital funciona como un segundo filtro en la verificación de los datos. No anula ni debe sustituir a la edición manual, sino que debe servir como complemento y ampliación de esta: una revisión de una revisión.
En ambos casos, la edición de datos se complementa con la definición de las variables, que en el caso de la vía digital constituye el primer paso, ya que es imprescindible para poder registrar los datos en el programa. Saber con qué tipo de variable se está trabajando es fundamental para el investigador, ya que esto determina cuáles serán las técnicas analíticas a emplear con posterioridad.
La variable es la característica que se estudia de los individuos u objetos que se someten al estudio. En una investigación de mercados es lógico trabajar con más de una variable (precio, grado de satisfacción del cliente, calidad, demanda...) y estudiar las interferencias o dependencias entre ellas.
Tipos de medición y de variables utilizadas en la investigación mercados
La edición de los datos de una investigación requiere trabajar con alguna de las siguientes escalas de medición:
En un sentido estricto, el concepto de medición habría que aplicarlo solo a las dos últimas escalas, que son las que verdaderamente “miden” mientras que las escalas nominales y ordinales se limitan a la asignación arbitraria de “nombres” o etiquetas.

Aplicación práctica
Se inicia un estudio para conocer la frecuencia de compra del producto quitamanchas
X. El investigador diseña dos posibles preguntas sobre la misma cuestión: una pregunta con escala ordinal y otra con escala de razón.
¿Cuál de ellas sería más adecuada incluir en el cuestionario que se pasará a los clientes de un supermercado si se desea saber el número medio de veces que estos compran el producto?
SOLUCIÓN
En la elaboración del cuestionario confluyen distintos intereses, el investigador debe tener en cuenta el objeto de estudio y los resultados que se pretenden obtener en el diseño del mismo.
Para conocer la frecuencia de compra del producto X, la pregunta es clara ¿con qué frecuencia compra usted el producto X? Para esta pregunta, el investigador puede decantarse por una u otra escala de medida en las opciones que se ofrecen por respuesta.
Para conocer el número medio de veces que los clientes encuestados compran este producto, lo adecuado es el uso de la escala de razón. La escala de razón nos permite operar con los resultados, aplicando las operaciones aritméticas necesarias para la obtención de índices estadísticos como la media. La escala ordinal nos ofrece información sobre la frecuencia en qué los compradores adquieren el producto, pero dicha información es limitada. Por lo que en este caso, lo más aconsejable es optar por la escala de razón.
A su vez, los datos pueden clasificarse como cualitativos y cuantitativos, en función de si expresan una cualidad o una cantidad. La definición más sencilla implanta que los datos cuantitativos son aquellos que expresan la idea de “cuánto o cuántos”, y los cualitativos son todos los que no son cuantitativos.
Los datos cualitativos se expresan en forma lingüística, a través de palabras o textos, a los que se les puede asignar un código numérico en forma de etiqueta. Estos emplean la escala nominal o la ordinal, por lo que el análisis estadístico es bastante restringido. Con ellos se puede estudiar el número de observaciones que se recogen en cada categoría o la proporción de estas con respecto al total, pero las operaciones matemáticas entre ellos no tienen sentido.
Los datos cuantitativos se expresan en forma numérica y permiten todas las operaciones aritméticas. Estos se obtienen aplicando escalas de intervalo o de razón, lo que permite la interpretación de las diferencias entre las categorías y el uso de índices estadísticos para su análisis.
Las variables cuantitativas, según vengan definidas en una escala de medición interrumpida o no interrumpida, pueden ser continuas o discretas:

Tanto las variables cualitativas como las cuantitativas pueden clasificarse en función del uso que se hace de ellas en la investigación. Se habla, entonces, de variables dependientes, independientes o intervinientes.
La variable dependiente es la que constituye el cuerpo de la investigación y la que se pretende explicar. Depende, como su nombre indica, de otras variables: independientes o intervinientes.
La variable independiente participa en el estudio, pero no constituye el objeto de la misma. Permite al investigador conocer por qué varía la variable dependiente en la forma en que lo hace.
La variable interviniente, al igual que la anterior, forma parte del estudio en un segundo nivel. Tiene un efecto sobre la variable objeto de estudio, dependiente, que puede ser modificado o controlado por la variable independiente.
Estructurar y analizar la naturaleza de las distintas variables que confluyen en el estudio es una labor previa y necesaria para la edición de datos. En función de esta tarea y de las clasificaciones obtenidas, se determinan los siguientes pasos en el estudio de mercados.

Actividades
Tras la revisión y la edición de los datos, estos son sometidos a una serie de verificaciones para depurarlos. Con el proceso de limpieza de datos se persigue detectar posibles complicaciones con los datos, como respuestas inconsistentes o fuera de rango.

Importante
Cuando el investigador busca el proceso de medición más adecuado ha de fijarse fundamentalmente en dos aspectos del instrumento de medición. Este debe ser válido y fiable. La validez del instrumento hace referencia a que mida lo que realmente se pretende medir y la fiabilidad a la propiedad del instrumento que permite, al ser utilizado repetidas veces bajo idénticas circunstancias, producir los mismos resultados.
Verificación de rangos
El rango (R), también denominado “recorrido” estadístico, es la diferencia entre el valor máximo que adopta la variable y el valor mínimo de la misma. Constituye una medida de dispersión, ya que permite conocer cómo de concentrados o no están los datos: a menor rango, mayor concentración y menor dispersión, por consiguiente, a mayor rango, menor concentración y mayor dispersión.
La verificación de rango comprueba la lógica de la distribución, identificando aquellos valores no válidos o extraños. Se consideran especialmente sospechosos los valores extremos. El investigador o analista encargado de esta tarea contrasta cada uno de los datos con los posibles valores reconocidos, señalando aquellos dudosos o que se separan mucho de la media. Esta fase de control permite detectar valores anómalos, cuya inclusión en el estudio afectaría de forma negativa sin duda a la aplicación de técnicas estadísticas, ya que podría llevar a resultados irreales o poco operativos.
No obstante, pese al peligro de incluir valores atípicos en el estudio estadístico, en la práctica hay que tener cautela a la hora de descartar un valor sospechoso, sobre todo si contamos con pocas observaciones. Al rechazar una observación también podemos desvirtuar el análisis, afectando a la obtención de índices estadísticos como la media: si tenemos cinco observaciones y descartamos una porque dista mucho del resto, estamos eliminando el 20 % de la información obtenida.

Nota
Un dato dudoso es aquel que a simple vista parece no casar con el resto de observaciones, por lo que se debe analizar con prudencia para mantener la consistencia del estudio.
Para aclarar si un dato debe ser excluido del estudio o no, el investigador cuenta con diversas pruebas estadísticas diseñadas para tal fin.
El test de Dixon es un procedimiento muy sencillo que se emplea con este propósito. Se basa en la comparación del estadístico Q con el valor tipificado para un nivel de significación dado (o margen de error asumido por el analista). Si el valor de Q es mayor que el valor estándar se puede rechazar ese dato con el riesgo asumido a priori.
El valor Q se halla dividiendo la diferencia entre el valor sospechoso y el más cercano a él, en valores absolutos, entre el rango o recorrido de la distribución. Esta diferencia entre el dato estudiado y su inmediato se conoce por el nombre de divergencia.

El valor tipificado para un nivel de significación estipulado aparece calculado y expresado en las tablas diseñadas y establecidas para ello (Anexo).

Nota
Existen otros métodos más sólidos para aclarar si un dato dudoso debe ser incluido en el análisis, o por el contrario, eliminado del estudio. Cabe destacar en este sentido el test de Grubbs, cuya aplicación es algo más laboriosa que la del test de Dixon. El test de Grubbs ofrece conclusiones más rígidas, ya que tiene en cuenta las desviaciones de todos los datos con respecto a la media.
En el proceso de obtención de datos es frecuente obtener datos distantes, que no parecen representar al conjunto de elementos que se estudian. Dichos datos pueden ser fruto de un error en la medición, un error en el instrumento de medición, un error en la tarea de punteo o transcripción de datos... un error al fin y al cabo. Incluso siendo ciertos, hay que tener mucho cuidado con ellos, pues pueden llegar a corromper por completo el estudio.
La verificación de rango constituye de este modo una tarea necesaria para la obtención de resultados eficaces. Detecta los datos discordantes, los pone en cuarentena e investiga si tal sospecha tiene fundamento o no antes de rechazarlos definitivamente.

Aplicación práctica
Los siguientes valores corresponden al estudio del precio del menú del día en 10 establecimientos colindantes, ordenados de menor a mayor
7,50 €, 7,70 €, 7,85 €, 7,99 €, 8 €, 8,24 €, 8,45 €, 8,50 €, 8,76 €, 12 €
Se observa un dato discordante, 12 €, susceptible de ser erróneo al ser bastante superior a los demás. ¿Debe ser rechazado?
SOLUCIÓN
Para contestar esa pregunta y despejar dudas, se opta por la aplicación del test de Dixon:
Q = divergencia / rango
La divergencia es la distancia entre el valor sospechoso y su inmediato, en este caso, entre 12 € y 8,76 €.
12 - 8,76 = 3,24
Y el rango correspondiente es el recorrido entre el menor y el mayor valor de las observaciones, para este ejemplo, 7,50 € y 12 €.
12 - 7,50 = 4,50
Con los resultados obtenidos, Q = 3,24 / 4,50 = 0,72.
El analista debe presuponer un error a priori, en este caso asumirá la probabilidad de equivocarse del 5 %. Por lo que este índice se comparará con el valor 0,412 que es el que pertenece al nivel de confianza del 95 % según la tabla de Valores Críticos del Test Dixon.
Q0’95 (10) = 0,412
Como el valor de Q es mayor que el valor estándar, 0,72 > 0,412, se rechazaría el valor extremo 12 €.
Verificación de consistencia
La consistencia, definida por la Real Academia de la Lengua Española (RAE) como “la coherencia entre los elementos de un conjunto”, debe ser una cualidad inherente al cúmulo de datos de una investigación. El grupo de datos es consistente cuando no contiene contradicciones y expresa situaciones que pueden llevarse a términos de verdad.
La verificación de consistencia analiza la relación que se establece entre las variables que confluyen en el estudio, investiga cada pareja de observaciones dependientes en relación con el total de los datos y con los valores aprobados para las mismas: es improbable que una mujer use after shave o un hombre sostén.
En la investigación de mercados es habitual el estudio de cómo una o varias variables influyen sobre otra, por lo que frecuentemente se trabaja con combinaciones de datos. Este procedimiento se usa para denunciar las composiciones no reconocidas y confirmar que el cuestionario se ha completado de forma correcta.
Hay cuestionarios en los que se incluyen “patrones de saltado de llenado”, en los que se diseñan preguntas que se responden o no en función de otra anterior. Si el encuestado afirma que le gusta leer, contestará que libro está leyendo ahora o qué tipo de literatura le gusta más; mientras que si niega que le guste la lectura, no contestará a dichas cuestiones. La verificación de consistencia ayuda a detectar si estas pautas se han cumplido o no.
Al igual que para verificar el rango, el analista cuenta con distintas técnicas para comprobar la consistencia o no de las distintas combinaciones entre los datos. Esta se puede medir con el Alfa de Cronbach (D).
El valor de D que oscila entre 0 y 1 se halla a partir de las correlaciones entre los pares de variables aplicando la siguiente fórmula:

Donde k es igual al número de ítems y p el promedio de las correlaciones lineales de cada uno de ellos.
Cuanto mayor sea el valor de D mayor consistencia presenta la escala. No obstante, un valor excesivamente alto no es necesariamente bueno; ya que pueden ser un reflejo de una escala mal diseñada, con categorías que inciden en la misma información sin ir más allá. Por este motivo, la mayoría de estudiosos aceptan como fiables valores superiores a 0,7 para declarar la validez de la escala; e inaceptables, aquellos inferiores a 0,5.
La forma en la que el investigador trata la inconsistencia del cuestionario determina sin duda el resto del estudio, alterando la interpretación de los datos y de las relaciones entre ellos.

Actividades
4. Como se ha comentado, la verificación del rango comprueba si un dato sospechoso debe ser excluido o no del estudio. Identifique el dato dudoso del siguiente conjunto y aplique el test de Dixon con ayuda de la tabla que encontrará al final del libro (Anexo).
560, 900, 990, 1.050, 1.180, 1.200
5. Como investigador, reflexione sobre la naturaleza de las desviaciones en el estudio del mercado y la importancia de un diagnóstico precoz en los errores de medida. ¿Qué ocurriría si no se aplicasen las técnicas de barrido de datos? ¿Qué valor ocupa en la praxis del analista?
6. Suponga que usted es investigador y al analizar los datos de un cuestionario, comprueba que el encuestado es un hombre de 25 años, con mujer y dos niños, que ha estudiado un curso superior de electrónica y que lleva trabajando en la misma empresa 18 años. ¿Observa algo raro? ¿Qué es lo que falla?
7. El alfa de Cronbach es un estadístico que se emplea para medir la consistencia de la escala utilizada. ¿Qué se puede deducir de un valor de D igual a 0,2?
La elaboración de un código maestro responde a la necesidad de establecer un modelo de codificación de los datos para poder trabajar posteriormente con ellos. La codificación consiste en asignar a las distintas respuestas obtenidas un código numérico que las represente, sin el cual es extremadamente difícil operar con ellas, y por consiguiente, obtener conclusiones del estudio.

Sabía que...
El código de barras responde a un modelo de categorización similar al de codificación de datos en la investigación de mercados. Implantado en todo el globo terráqueo, persigue identificar un producto a través de un código, en este caso simbólico, entre todos los demás y facilitar las tareas habituales, como el control de stock o pedidos.
Codificar las respuestas constituye una fase muy delicada, que exige gran destreza y profesionalidad, puesto que una mala codificación puede conducir al fracaso a toda la investigación. Cómo se lleve a cabo esta tarea de codificación obedece a si las preguntas son cerradas o abiertas.
Las preguntas cerradas son aquellas que recogen un abanico limitado de opciones como respuesta. El entrevistado tendrá que escoger una o varias dependiendo si se trata de un cuestionario de respuesta única o múltiple. De este modo, como el investigador sabe las posibles respuestas que se pueden dar, la codificación de estas puede hacerse a priori.
Frente a las anteriores, las preguntas abiertas son aquellas donde se da total libertad al entrevistado. No aparecen opciones, sino un espacio en blanco donde anotar la respuesta de cada uno. Estas preguntas son más difíciles de codificar, ya que el número de respuestas posibles parece ilimitado y es imposible detectar patrones con anterioridad, dado que el entrevistador desconoce las contestaciones que se darán.
Cada cuestionario responde a unos objetivos concretos de investigación, las distintas características de un estudio establecen que los tipos de preguntas sean también diferentes.
Vuelve a ponerse en evidencia la importancia del diseño del cuestionario. La modalidad de pregunta que se emplee constituye, a su vez, un factor decisivo, que determina el proceso y el momento de la tarea de codificación.
En las preguntas cerradas de respuesta única el entrevistador ofrece al encuestado un número limitado de alternativas, entre las que el sujeto tendrá que elegir o marcar solamente una: “respuesta única”.
Este tipo de preguntas limita y en cierta medida condiciona las respuestas de los entrevistados. No obstante, son muy empleadas debido a sus grandes ventajas como instrumento de análisis: resultan muy sencillas de contestar y requieren mucho menos tiempo que las preguntas abiertas, en las que el sujeto debe registrar su propia respuesta.
Otra de las ventajas que ofrece al investigador es que son más fáciles de codificar. Al estar predeterminadas las respuestas, la codificación es bastante sencilla: no hay que agrupar ni interpretar, solo hay que asignarle una clave numérica a cada una de las opciones establecidas.
Esta tarea de codificación puede y debe hacerse con anterioridad, se prepara el trabajo de obtención de datos y el posterior recuento de los mismos. Una recomendación muy extendida es la de imprimir el cuestionario con los códigos ya asignados, de esta forma el encuestado ya marca directamente sobre el código numérico, facilitando la tarea de grabación de datos. El encargado de registrarlos no tiene que hacer ningún esfuerzo en recordar que clave corresponde a cada alternativa, sino que la introduce y clasifica de forma directa, reduciendo el número de errores en la transcripción de datos y agilizando todo el procedimiento.
Las preguntas cerradas de respuesta múltiple, como las anteriores, también incluyen las opciones posibles de respuesta; la diferencia con las de respuesta única, como su nombre indica, estriba en que el entrevistado puede contestar marcando varias alternativas. Esta multiplicidad hace que se aumenten las posibles respuestas, dándose muchas más combinaciones que en la modalidad anterior.
Del mismo modo, la codificación de este tipo de preguntas puede establecerse en el momento del diseño del cuestionario, anticipándose a la tarea del grabador de datos y acelerando el resto de fases del proceso.
El investigador puede adoptar dos métodos distintos para su codificación, en función de si analiza cada opción por separado o estudia las posibles combinaciones que se dan entre ellas.
En ambos casos, se asigna una clave numérica a cada variable, de manera que luego se puedan agrupar y contar el total de casos que se da en cada una de ellas.

Ejemplo
Se da a probar a los clientes de un hipermercado un nuevo zumo y luego se le pregunta si lo compraría; a aquellos que responden que no se les pregunta por la causa a través de una pregunta cerrada que le recoge las siguientes opciones y se les permite marcar más de una respuesta:
El método de dicotomías múltiples considera cada opción como una variable (en este caso 4 variables) y asigna un código a cada una de estas posibles respuestas, contando luego el número de clientes que la ha señalado.
El método de respuestas múltiples calcula las distintas combinaciones que se pueden dar entre estas alternativas y a cada una de ellas le estipula un código. Habrá clientes que marquen solo una opción, otros dos, tres o las cuatro (incluso ninguna). El número de variables aumenta considerablemente con esta técnica.
1, 2, 3, 4, 12, 13, 14, 23, 24, 34, 123, 124, 134, 234, 1234.
Este procedimiento es más completo, ya que la combinación da un valor añadido a la respuesta. Si un cliente marca la opción 2, se puede interpretar que no le gusta el zumo de melocotón en general; pero si marca la opción 24, es que no le gusta el que se está testando en concreto.
Las preguntas cerradas de respuesta múltiple constituyen un paso intermedio entre las preguntas cerradas de respuesta única y las preguntas abiertas. Con ellas se persigue dar más libertad al entrevistado e intentar captar lo que efectivamente piensa. Poder elegir más de una opción ayuda a obtener verdaderamente la realidad, ya que en ocasiones el encuestado no se identifica con una única opción y la selección de ella puede darse al azar.
La aplicación del procedimiento dicotómico en el tratamiento de las mismas es más breve y sencillo, pero pierde bastante información. El estudio de las opciones por separado no incluye las posibles sinergias que existen entre ellas. Por ende, el empleo de la técnica de respuestas múltiples es más completo e interesante para la investigación, pero mucho más laborioso.
El analista deberá decantarse por uno u otro método en función de las características del estudio. Es importante tener en cuenta los objetivos del mismo, pero también el tiempo y el presupuesto disponible.
Las preguntas abiertas se utilizan cuando no se pueden prever las posibles respuestas de los entrevistados. Como no se puede delimitar un conjunto de opciones, solo se enuncia la pregunta en sí, dando total independencia al encuestado para que conteste. El número de respuestas distintas se dispara con este tipo de preguntas.
Como no se conoce de antemano las posibles respuestas, no se pueden codificar con anterioridad y hay que esperar a tener los resultados de los sondeos.
Para poder establecer patrones, lo conveniente es seleccionar un subgrupo de los cuestionarios y establecer distintas variables en función del contenido de las distintas respuestas.
Estas categorías deben ser representativas del contenido literal escrito en el espacio en blanco de la pregunta, exhaustivas y mutuamente excluyentes. Como resultado, se obtiene una clasificación de respuestas tipo que sustituyen a las distintas contestaciones personales del cuestionario.
El siguiente paso del proceso de codificación, al igual que en las preguntas cerradas, sería la asignación de un código numérico a cada variable o categoría.
Este tipo de preguntas resulta mucho más difícil de codificar, debido a la imprevisión de variedad de respuestas que se pueden dar; pero permiten captar lo que verdaderamente pasa por la cabeza de los encuestados, tarea difícil de llevar a cabo con las preguntas cerradas.
Además de complicada, esta ardua labor de codificación en las preguntas abiertas está sujeta a errores e imparcialidades por parte de la persona encargada de dicha tarea. Se trata, en cierta medida, de un trabajo interpretativo influenciado sin duda por la subjetividad del que lo desempeña. Por ello, a pesar del valor añadido que aportan, es recomendable no abusar de ellas en el diseño de los cuestionarios.
Pese a todas las diferencias entre un tipo de pregunta y otro, el fin último de estas preguntas es bastante similar al de las preguntas cerradas: se obtiene un abanico de opciones de respuesta. La diferencia fundamental es que en las cerradas dichas alternativas se establecen a priori por el investigador, y en las abiertas a posteriori en función de las palabras de los entrevistados. Tanto en una como en otra, juega un papel fundamental la subjetividad del analista.

Aplicación práctica
Como consecuencia de introducir una pregunta abierta sobre qué le gusta hacer en su tiempo de ocio en un cuestionario, los encuestados responden a su libre albedrío y se obtienen las siguientes respuestas a la pregunta:
¿Es útil esta información tal como está? ¿Qué pasos se deben seguir para poder trabajar con ella? ¿Cómo se procede para codificar tal diversidad de respuestas?
SOLUCIÓN
El cúmulo de informaciones fruto de una pregunta abierta se caracteriza por su falta de orden y operatividad. Un conjunto de datos dispares y sin ordenar son de poca utilidad para cualquier investigador.
Analizar las contestaciones, establecer comparaciones entre las distintas respuestas obtenidas y valorarlas no es posible si no se reduce antes el número de variables existentes. Por ello, antes de codificar y como paso inherente a dicha tarea, es preciso reducir la información de la que disponemos.
Este reajuste de los datos se llevará a cabo en función de un patrón a seguir, que debe establecerse en relación al contenido de las distintas respuestas.
De este modo y para este caso, se establecen las distintas variables o categorías:
Cada uno de estos enunciados representa y resume varias opiniones expresadas por los sujetos estudiados. En “practicar deporte”, por ejemplo, se incluirían las respuestas de jugar al fútbol, tenis o pádel, ir al gimnasio y mantenerse en forma.
Esta manera de codificar es muy delicada, ya que en ella interviene la forma de pensar del investigador de forma activa. Será en este sentido una tarea interpretativa: cervecita y tomar sol en una terracita, por la naturaleza de su contenido semántico, puede considerarse dentro de “relajarse y descansar” (habrá personas a las que les resulte desestresante) o de “salir con los amigos” (habrá individuos que lo consideren un acto social en compañía); al desconocer el sentido que cobra para el que dio tal opinión, será la subjetividad del que codifica la que determine en que categoría se incluye finalmente.
Una hoja de cálculo es una aplicación informática que permite recopilar datos, ordenarlos en una tabla y realizar operaciones matemáticas con ellos. Es mucho más potente y eficaz que una calculadora, permitiendo fórmulas complejas y efectuando varias operaciones a la vez.
La más popular y conocida es Microsoft Excel, aunque existen muchas otras: Calc de OpenOffice, Corel Quattro Pro, integrada en WordPerfect, Numbers de Apple, KSpreed integrada en KOffice de Linux, etc.
Constituyen una herramienta habitual, de gran utilidad, en el mundo de las finanzas y los negocios. Va más allá de la base de datos, utilizada para almacenar y presentar la información, permitiendo análisis estadísticos avanzados y el esclarecimiento de los resultados a través de distintas representaciones gráficas.

Sabía que...
Las claves que se ponen durante la fase de codificación son numéricas por motivos absolutamente operativos. Los números están emplazados a la derecha del teclado, lo que permite introducir los datos con la mano diestra mientras se sostiene y maneja el cuestionario con la izquierda. Se vuelve a manifestar la relevancia de las herramientas informáticas como la hoja de cálculo en el análisis y tratamiento de los datos obtenidos en una investigación.
La hoja de cálculo tiene la forma de una tabla, formada por filas en horizontal y columnas en vertical, entre las que se forma un rectángulo que recibe el nombre de celda. La celda se considera la unidad básica de información. En cada una de ellas se introduce un dato o una fórmula, y el programa hace el resto.

Las hojas de cálculo están formadas por filas (nombradas por números de menor a mayor) y columnas (identificadas por las letras del abecedario de la A a la Z). El área definida por la concurrencia de ambas es lo que se conoce por celda (A1).
Este instrumento, además de facilitar la tarea de edición y almacenamiento de datos, permite la creación de tablas de doble entrada o “tablas de contingencia” que recogen los datos relativos a dos variables.
Este modelo de presentación de datos expone la información referente a dos variables relacionadas entre sí. En la parte superior de cada fila se escribe el código asignado a cada valor de una variable y en la de las columnas, los de la otra. El valor que se registra en cada celda corresponderá, por tanto, al número de elementos que reúnen ambas categorías de las dos variables que se cruzan en cada casilla.
Este tipo de tabla simplifica el tratamiento conjunto de dos variables, resultando extremadamente útil para alcanzar conclusiones cuando confluyen varios fenómenos durante la recogida de datos, así como en aquellos casos en los que existe una relación de dependencia o interdependencia entre los distintos items que se estudian.

Las hojas de doble entrada recogen en cada celda información relativa a la variable distribuida en columnas y a la que se coloca en filas. La celda C10 recoge las ventas de refresco durante el mes de agosto, lo que permite realizar comparaciones con las ventas del mismo producto en otro mes del año (C4: ventas de refresco en febrero) o las ventas de otro producto durante el mismo periodo (D10: ventas de zumo en agosto), y sacar conclusiones al respecto.

Actividades
8. ¿Qué ocurriría si se diseñase un cuestionario con todas las preguntas del mismo abiertas? Valore las posibles ventajas e inconvenientes para la investigación.
9. ¿Qué similitud encuentra entre el método de dicotomías múltiples y la codificación de preguntas cerradas de respuesta única?
10. ¿Qué limitaciones presenta el uso de preguntas cerradas para la obtención de información? ¿Cuándo se debe emplear este tipo de preguntas y cuándo no?
11. Si se pretende estudiar los gastos de las distintas partidas (luz, agua, gas, etc.) que una empresa tiene mensualmente, ¿qué instrumento utilizaría? Explique la distribución y representación de los datos a través del mismo.
Una vez medida la variable, se obtiene una lista de datos que sin más elaboración pueden ser poco provechosos para el investigador. Una enumeración de datos que no esté organizada no ayuda ni permite realizar ningún tipo de análisis. Por ello, es necesario ordenarlos y resumirlos según un criterio determinado, con el fin de que faciliten la observación y proporcionen la máxima información de la forma más sencilla posible.
La tabulación de los datos es el procedimiento que permite alcanzar tales objetivos. A través de las denominadas distribuciones de frecuencias y representaciones gráficas, se ofrece un extracto asequible y eficaz de los datos, facilitando la comprensión de los mismos.
La distribución de frecuencias es el resultado de una correcta tabulación. Se denomina distribución de frecuencias al conjunto ordenado de las observaciones junto a sus respectivas frecuencias. Cuando se está manejando un número amplio de datos, resulta conveniente distribuirlos en clases o categorías. La forma más habitual y sencilla es la construcción de una tabla, que recoja en una columna los distintos valores de la variable objeto de estudio y en otra la frecuencia que corresponde a cada uno de estos valores.
Existen distintas consideraciones a la hora de diseñar dicha tabla en función de la naturaleza de la variable objeto de análisis y de lo que se pretenda obtener con el estudio.
Distribuciones de frecuencias para variables cualitativas y cuantitativas no agrupadas
Se entiende por variables no agrupadas aquellas en las que los valores que adopta la variable constituyen elementos concretos del estudio y no se engloban en intervalos tipo.
En esta línea, las variables cuantitativas que no se agrupan y las variables cualitativas se ordenan de manera similar. De forma estandarizada, se designa X a la variable objeto de estudio y xi a cada uno de los valores que esta puede adoptar. X está formada por N elementos, que constituye el número total de observaciones o total poblacional. A su vez, se nombra con ni al número de casos que pertenece a cada categoría, que es lo que se conoce como frecuencia de clase o frecuencia absoluta.

Ejemplo
Se recoge en una distribución de frecuencias el número de días de ausencia por enfermedad de todos los empleados de una empresa durante el último mes.
| Valores de la variable xi |
Frecuencias absolutas ni |
| 0 | 1 |
| 1 | 3 |
| 2 | 0 |
| 3 | 1 |
| Total (N) | 5 |
En la columna de la izquierda se introducen las distintas opciones para la variable que se estudia, en este caso, el número de días que se ha faltado al trabajo durante el último mes.
En la de la derecha se registra la cantidad de empleados que cumple con cada uno de los valores: solo un empleado no ha faltado nunca, tres lo han hecho una sola vez y uno tres veces, ninguno de ellos se ha ausentado dos días.
Como en la columna de las frecuencias absolutas se tiene en cuenta todas las observaciones, la suma de todos sus valores constituye el total poblacional o universo: esta empresa tiene 5 trabajadores.
La distribución de frecuencias absolutas es la habitual y el punto de partida para otro tipo de distribuciones de frecuencias. La construcción de esta es muy sencilla, únicamente hay que recontar el conjunto de casos que se ajusta a cada categoría y anotarlo en la tabla diseñada para ello.
A partir de las distintas frecuencias absolutas, el investigador puede calcular otro tipo de frecuencias que se ajuste mejor al objeto de estudio.
En ocasiones resulta más interesante trabajar una distribución porcentual, que en lugar de recoger el número de casos correspondiente a cada valor de la variable, almacena el porcentaje de casos que se identifican con cada opción.
Para hallar este porcentaje es preciso calcular antes una proporción. La proporción de casos en una categoría dada es igual al número de observaciones en dicha clase dividido por el total poblacional. A esta proporción se le denomina frecuencia relativa (fi).

Las frecuencias relativas ordenadas en una tabla junto a las categorías a las que pertenecen se conocen como distribución de frecuencias relativas.
Los porcentajes se obtienen a partir de estas frecuencias relativas simplemente multiplicando por 100. Al utilizar porcentajes se obtiene el número de casos que habría en una categoría si el total de los mismos fuese 100.

Nota
Las frecuencias relativas son números decimales entre 0 y 1, cuya suma debe ser igual a la unidad (1). Se trata de una propiedad fundamental de las proporciones y se puede generalizar a cualquier número de categorías.
Esta cualidad se refleja también en los porcentajes. Si estos son igual a la frecuencia relativa por 100, la suma de los porcentajes debe ser igual a esta cantidad (1x100).
La distribución porcentual presenta algunas ventajas sobre la distribución de frecuencias, sobre todo permite comparar los resultados de un estudio con otro: se puede establecer un análisis comparativo de la misma característica en dos o más colectivos o estudiar la misma cualidad en distintos momentos temporales, aunque el número de elementos u observaciones haya variado de uno a otro.
En otras ocasiones y por exigencias de la investigación, puede que sea necesario el cálculo de otro tipo de distribución de frecuencias para atender a cuestiones específicas del estudio que buscan el número de elementos que toma un valor menor o igual a uno fijo. Este tipo de frecuencia se llama frecuencia acumulada, distinguiendo entre frecuencia absoluta acumulada y frecuencia relativa acumulada. Ambas se hallan sumando a la frecuencia absoluta o relativa (en cada caso) de un valor de la variable todos los casos anteriores al mismo y se representan en una tabla que toma el nombre de distribución de frecuencia acumulada.

Recuerde
La frecuencia acumulada inicial, al no tener valores anteriores, coincide con la frecuencia absoluta o relativa no acumulada para dicho valor. Por la misma lógica, la última frecuencia acumulada incorpora la suma de todas las frecuencias, por lo que será igual al total de las observaciones en la distribución de frecuencias absolutas acumuladas y a la unidad en la distribución de frecuencias relativas acumuladas.
Los porcentajes, al igual que las frecuencias, también se pueden acumular a lo largo de la distribución simplificando la interpretación o lectura de los datos en los casos en los que se desea conocer cuál es el tanto por ciento de elementos que se sitúan por debajo (o encima) de una categoría.
Las distribuciones acumuladas son eficientes cuando se quiere contrastar el modo en que los casos se distribuyen a lo largo de una escala. No obstante, no tiene sentido su aplicación cuando se trabaja con variables nominales no ordinales, ya que el orden en que se presentan los datos es completamente arbitrario.

Aplicación práctica
Con los datos de la siguiente distribución de frecuencias acumuladas, determine las frecuencias relativas y acumuladas de las distintas categorías que forman la variable investigada.
| Valores de la variable xi |
Frecuencias absolutas ni |
| 1 2 3 4 5 6 |
6 2 10 8 10 4 |
¿Qué tamaño tiene la población objeto de estudio? ¿Qué porcentaje del total de los casos representa la categoría 3?
SOLUCIÓN
La frecuencia relativa de cada una de las categorías (Fi) se halla dividiendo su frecuencia absoluta (ni) entre el número total de casos (N). Podemos conocer el valor de la población (N) sumando los distintos valores de la columna de frecuencias absolutas (ni):
6 + 2 + 10 + 8 + 10 + 4 = 40
Siguiendo las indicaciones, la frecuencia relativa de la categoría 1 (F1) sería igual a n1/N; y así progresivamente se calculan las que corresponden a cada uno de los valores de la variable.
6 / 40 = 0,15... 2 / 40 = 0,05... 10 / 40 = 0,25
8 / 40 = 0,20... 10 / 40 = 0,25... 4 / 40 = 0,10
El porcentaje que corresponde a un valor en concreto (Pi) se halla multiplicando su frecuencia relativa (Fi) por 100 (de ahí que también se llamen “tantos por ciento”). De este modo, el porcentaje que representa la categoría 3 (P3) se define como F3 x 100.
0,25 · 100 = 25
En la categoría 3 se incluyen el 25 % de los datos.
Las frecuencias acumuladas se calculan sumando a la frecuencia absoluta o relativa todas las anteriores. Con tales datos se construye una tabla como la siguiente.
| xi | ni | fi | Ni | Fi |
| 1 | 6 | 0,15 | 6 | 0,15 |
| 2 | 2 | 0,05 | 8 | 0,20 |
| 3 | 10 | 0,25 | 18 | 0,45 |
| 4 | 8 | 0,20 | 26 | 0,65 |
| 5 | 10 | 0,25 | 36 | 0,90 |
| 6 | 4 | 0,10 | 40 | 1 |
En ella quedan reflejadas los distintos conceptos de frecuencia: frecuencia absoluta (ni), frecuencia relativa (fi), frecuencia absoluta acumulada (Ni) y frecuencia relativa acumulada (Fi).
Los porcentajes individuales (pi) también se pueden acumular (Pi).
| xi | fi | pi | Pi |
| 1 | 0,15 | 15 % | 15 % |
| 2 | 0,05 | 5 % | 20 % |
| 3 | 0,25 | 25 % | 45 % |
| 4 | 0,20 | 20 % | 65 % |
| 5 | 0,25 | 25 % | 90 % |
| 6 | 0,10 | 10 % | 100 % |
La suma de las frecuencias relativas debe ser igual a 1 y la suma de los distintos porcentajes igual a 100.
Distribuciones de frecuencias para variables cuantitativas agrupadas en intervalos
Por último, se distinguen las distribuciones de frecuencias agrupadas en intervalos para designar aquellas en las que los datos están aglutinados en conjunto de valores posibles. Por regla general, se aplica este tipo de estructura cuando la variable toma muchos valores distintos o existen muchas observaciones, con el propósito de facilitar el tratamiento de toda esa información.
El intervalo de clase es la expresión simbólica que define una categoría (a-b), los números extremos se denominan límites de clase (límite superior a – límite inferior b). El tamaño de esta es la diferencia entre los límites que la forman en valor absoluto. El punto intermedio del intervalo se denomina marca de clase (xi) y se obtiene dividiendo la suma de ambos límites entre 2.

El número de categorías y la amplitud de los intervalos que la definen vendrán determinadas por las necesidades de la investigación y siempre de acuerdo a unas recomendaciones.
La regla de Spiegel recomienda diseñar intervalos de idéntica amplitud siempre que sea posible. Para ello se debe partir del rango de la variable y dividirlo en un número conveniente de categorías, que debe oscilar entre 5 y 20. Además, indica que es conveniente que la marca de clase (xi) sea el dato de una observación.

Nota
Spiegel es un matemático que recomienda seguir esas indicaciones para reducir el error en los estudios probabilísticos que trabajan con muestras.

Aplicación práctica
Los siguientes datos pertenecen a una investigación sobre el nivel de renta mensual de 30 familias que viven en una zona residencial.
830 €, 1.270 €, 1.100 €, 990 €, 1.800 €, 1.560 €, 2.100 €, 1.475 €, 860 €, 1.420 €, 1.930 €, 1.640 €, 1.150 €, 2.210 €, 1.760 €, 1.550 €, 2.000 €, 1.775 €, 850 €, 1.160 €, 710 €, 1.260 €, 1.125 €, 950 €, 810 €, 1.650 €, 2.060 €, 1.325 €, 1.810 €, 1.460 €.
Para su tratamiento estadístico, se precisa ordenarlos y distribuirlos en intervalos. ¿Qué amplitud han de tener estos? ¿Cuántas categorías se deben diseñar?
SOLUCIÓN
Para contestar tales cuestiones, lo primero es ordenar los datos:
710 €, 810 €, 830 €, 850 €, 860 €, 950 €, 990 €, 1.100 €, 1.125 €, 1.150 €, 1.160 €, 1.260 €, 1.270 €, 1.325 €, 1.420 €, 1.460 €, 1.475 €, 1.550 €, 1.560 €, 1.640 €, 1.650 €, 1.775 €, 1.760 €, 1.800 €, 1.810 €, 1.930 €, 2.000 €, 2.060 €, 2.100 €, 2.210 €.
Dado el número de observaciones y la falta de concentración de los valores que presentan, lo más conveniente es la agrupación de los datos en intervalos.
Para diseñar los intervalos de nuestra distribución partimos del valor del rango (R) de la variable, que es la diferencia entre el valor máximo y el mínimo que esta adopta:
2.210 € - 710 € = 1.500 €
Lo dividimos entre 5, número mínimo de clases recomendado por la regla de Spiegel, para determinar la amplitud de los mismos. Con menos categorías asistiríamos a una excesiva concentración de los datos.
El resultado son 5 intervalos de la misma amplitud, 300 €.
1.500 € / 5 = 300 €
| Renta familiar xi |
Frecuencias absolutas ni |
| (710-1.010) | 7 |
| (1.010-1.310) | 6 |
| (1.310-1.610) | 6 |
| (1.610-1.910) | 6 |
| (1.910-2.210) | 5 |
| Total (N) | 30 |
Asimismo, se respeta que la marca de clase coincida con un caso real en cada una de las características.
X1 = (710 + 1.010) / 2 = 860
X2 = (1.010 + 1.310) / 2 = 1160
X3 = (1.310 + 1.610) / 2 = 1460
X4 = (1.610 + 1.910) / 2 = 1760
X5 = (1.910 + 2.210) / 2 = 2060
Este último requisito no suele darse siempre, pero afianza que los intervalos están bien construidos.
El agrupamiento de datos no solo reporta ventajas, tales como las de resumir y facilitar el manejo de los mismos; sino que también presenta algún inconveniente, siendo el principal lo que se denomina error de agrupamiento. Al agrupar los datos se pierde mucha información, lo que se conoce es en qué intervalo está incluido cada uno de los valores que adopta la variable, pero se olvida cuáles son los valores exactos de las observaciones.
En este tipo de distribuciones también se puede aplicar las frecuencias relativas y las acumuladas, siguiendo el mismo procedimiento explicado para las variables no agrupadas.

Actividades
12. Cuando se desea comparar los sueldos de los empleados de unos grandes almacenes con lo que cobran los trabajadores de la competencia, ¿qué tipo de distribución es la adecuada?
13. ¿Por qué la suma de los porcentajes de los valores de una variable tiene que ser igual a 100? ¿Qué valor tendrá obligatoriamente P7 en una distribución con 7 categorías? Justifique sus respuestas.
14. Si el número de valores de los datos son muchos y están muy dispersos se emplea la agrupación por intervalo, pero si están muy concentrados, ¿sigue siendo la mejor forma de ordenarlos? ¿Cuál emplearía usted como analista?
Principales representaciones gráficas
Las distribuciones de frecuencias ofrecen una presentación ordenada de los datos, que aporta bastante información sobre la realidad que se está estudiando y resulta de gran utilidad para el investigador.
No obstante, es habitual en la investigación de mercados emplear representaciones gráficas como complemento de las tablas de distribución de frecuencias. Mediante el uso de gráficos se consigue exponer los resultados del análisis de una forma más rápida y sencilla.
El valor de esta herramienta recae en su naturaleza intuitiva, los gráficos son mucho más comprensibles y ofrecen una visión detallada de la situación que se capta sin demasiado esfuerzo. En ocasiones, basta un simple vistazo a uno de ellos para sacar conclusiones sobre el objeto de estudio.
Las representaciones visuales refuerzan el valor informativo de las tablas de distribución de frecuencias; pero no las sustituyen. De hecho, el uso solo de gráficos para explicar los resultados de una investigación es contraproducente: estos no son más que una síntesis de la información contenida en la tabla de distribución, por lo que si se sustituyera la una por lo otro se perdería bastante de ella, teniendo grandes implicaciones en el resto del estudio.

Recuerde
El fin de las representaciones gráficas es, por tanto, aclarar la información de las tablas que recogen los datos de la investigación, procurando no perder demasiada información durante el diseño de las mismas.
Existen varios tipos de representaciones gráficas y cada una de ellas tiene sus ventajas y puntos flacos. Cuando se presentan los datos mediante gráficos, hay que tener en cuenta las características de cada uno de los formatos, para elegir el modelo más apropiado en cada caso.
El analista barajará los distintos tipos de gráficos y escogerá el que mejor se adapte a las necesidades del estudio que depende, por lo general, de la tipología de la variable que se esté examinando.
Gráficos para variables cuantitativas no agrupadas
Cuando la variable investigada es una variable cuantitativa no agrupada, los formatos visuales recomendados son el diagrama de puntos y el diagrama de barras.
Ambos modelos muestran los valores de las frecuencias absolutas sobre un sistema de ejes cartesianos. Se determina el eje horizontal o de abscisas para los distintos valores que toma la variable (xi) y el eje vertical o de ordenadas, para las frecuencias (ni).
El diagrama de puntos coloca un punto sobre los distintos valores de la variable a la altura de su frecuencia y el diagrama de barras levanta un rectángulo o “torre” sobre cada valor de la variable con una altura que equivale a su frecuencia. Es evidente que un rectángulo o “torre” se ve más que un punto, por lo que los investigadores se suelen decantar por el de barras, ya que causa más impacto visual que el otro.

Aunque se suelen confeccionar con las frecuencias absolutas, también se puede tomar para su elaboración las frecuencias relativas y las frecuencias acumuladas. En estos casos, el eje de ordenadas vendrá definido por la escala permitida para cada una de ellas.
Con estos dos tipos de gráficos, muy similares sin duda, el investigador cuenta con el valor añadido de que permiten representar los resultados de varias investigaciones en un mismo gráfico. Para ello se juega con el elemento del color, empleando distintas tonalidades para los datos de cada proceso exploratorio.
Esta ventaja es esencial cuando se pretende comparar los datos de distintos estudios o conocer la frecuencia del valor de una variable para el análisis conjunto de distintas investigaciones.
Aunque la representación comparativa se puede llevar a cabo con ambos formatos, es mucho más habitual hacerlo mediante el diagrama de barras. En función del objetivo de la comparación, se distingue entre barras compuestas, que buscan el valor conjunto de una variable en dos o más distribuciones, y barras múltiples, que buscan dejar patente la diferencia que existe entre los distintos estudios. En el primer caso los datos se superponen y en el segundo se coloca una barra junto a otra en el mismo gráfico.


Gráficos para variables cuantitativas agrupadas en intervalos
Cuando la variable objeto de estudio es una variable cuantitativa agrupada en intervalos, el tipo de gráfico más adecuado para representarla es el histograma.
El histograma resulta muy parecido al diagrama de barras; de hecho, los ejes de la representación se definen del mismo modo que en los diagramas para variables no agrupadas. En el eje horizontal o de abscisas se colocan los valores de los límites de los distintos intervalos en los que se agrupa la variable y en el eje vertical o de ordenadas, las frecuencias de cada uno de estos (ni). Se construye un rectángulo o “torre” sobre los valores del intervalo, cuya área debe ser proporcional a la frecuencia de cada uno de los intervalos.

Cuando la variable está estructurada en intervalos de igual amplitud las bases de los rectángulos son iguales, por lo que no es necesario hacer cálculos con las áreas. La proporcionalidad entre las distintas “torres” vendría dada en este caso por las alturas de cada una de ellas que, al igual que en el diagrama de barras, corresponderán a las frecuencias absolutas de cada categoría.

Nota
Como el histograma se crea mediante rectángulos resulta fácil de confundir con los diagramas de barras. Si los intervalos son de distinta amplitud, como las bases son distintas, es más evidente la diferencia entre ambos formatos. Sin embargo, si el tamaño de los intervalos es idéntico resulta más complicado. Una forma de identificarlos es comprobar si las “torres” están pegadas unas a otras o hay un espacio blanco entre ellas. Si están juntas se trata de un histograma, un intervalo acaba donde empieza el siguiente, y si están separadas es un diagrama de barras.
Para trabajar con variables agrupadas, el analista también puede optar por el polígono de frecuencias. Este es un tipo de gráfico que se crea a partir del histograma: se marcan los puntos medios de la base superior de cada uno de los rectángulos y se unen estos puntos mediante una línea.
Es menos popular que la representación visual anterior, ya que como con el diagrama de puntos y el de barras, este es menos vistoso que el histograma y no aporta ninguna información nueva.

Aunque es muy frecuente la representación del polígono de frecuencias superpuesto sobre el histograma de origen, lo más adecuado es suprimir las “torres” y que aparezca exclusivamente la línea que une los puntos predeterminados.
Si en lugar de frecuencias absolutas se utilizan las acumuladas recibirá el nombre de ojiva, que se caracteriza por su forma ascendente, ya que cada punto debe ser superior al anterior.

Gráficos para variables cualitativas
Todas las representaciones expuestas trabajan con variables cuantitativas, para las variables cualitativas son aconsejable otro tipo de representaciones gráficas, siendo el más popular el diagrama de sectores.
Este tipo de gráfico tiene forma de círculo. Esta rueda se divide en tantos sectores como número de categorías tenga la variable que se estudia. La superficie de cada sector tiene que ser proporcional a la frecuencia de dicha variedad, por lo que no se trabaja con frecuencias absolutas, sino con porcentajes.

Con este tipo de variables, también se emplea el pictograma, que es el equivalente al diagrama de barras para variables cualitativas. No se construyen rectángulos, sino que se trata de una representación alternativa mucho más pictórica que todas las demás, en la que se sustituyen las barras por dibujos concernientes a la variable.

Actividades
15. En un estudio sobre el sabor preferido de helados de un grupo de alumnos de Primaria, ¿qué tipo de representación gráfica es la adecuada y por qué?
16. Reflexione sobre las características de los distintos formatos de representación. ¿Existe alguna semejanza entre el diagrama de puntos y el polígono de frecuencias? Dé razones que apoyen su respuesta.
La tabulación unidireccional es aquella que se establece en un único sentido. Consiste en la ordenación de los datos que corresponden a los valores de una sola variable sin tener en cuenta otras que pueden incidir en ella o confluyen en el momento de la observación.
Con estos datos se elabora una tabla de distribución de frecuencias, que constituye la forma más elemental de ordenar los datos obtenidos en una investigación: se determinan los posibles valores de variables y se cuentan cuántas veces aparece cada uno. Se trata de la primera síntesis de los resultados de un sondeo; un paso fundamental en el tratamiento de los datos, ya que un conjunto de datos desordenados rara vez sirven de algo para el investigador.
Se suele representar a través de una tabla de dos columnas: en la de la izquierda se anotan los distintos valores que puede tomar la variable que se estudia (xi) y en la de la derecha el número de veces que se da dicho valor (ni).
En la mayoría de los casos, una tabla de frecuencia absoluta unidireccional es lo primero que ve el analista de una investigación. Estas, por regla general, además de registrar el recuento de respuestas iguales, recogen las frecuencias relativas y los porcentajes de cada una de las categorías que conforman la variable.
Es una de las fases del tratamiento de la información de mercado, para su posterior análisis estadístico, dentro del desarrollo de la investigación que tiene en cuenta una única variable.

Ejemplo
Se construye una tabla que recoge los datos de una investigación sobre las ventas de distintos modelos de pantalones vaqueros durante la pasada temporada.
| Valores de la variable xi |
Frecuencias absolutas ni |
| Ajustados | 97 |
| Rectos | 54 |
| Anchos | 29 |
| Shorts | 20 |
| Total (N) | 200 |
El estudio solo recoge el número de unidades que se vendió de cada modelo, sin tener en cuenta otras variables que podrían haber influido en estas cifras: si el sujeto que efectúa la compra es hombre o mujer, qué modelo es más económico, la fecha de compra, etc.
Este modelo de distribución que recoge una única variable sin tener en cuenta otros factores es lo que se conoce por tabulación unidireccional.
La tabulación cruzada es el estudio de una variable en relación con otras variables que intervienen en el estudio y que pueden influir en los valores de esta.
En la tabulación cruzada se crea una tabla de doble entrada o tabla de contingencia. Este tipo de tablas acoge dos variables al mismo tiempo, una se distribuye por filas y la otra por columnas colocando en la intersección de ambas el número de veces que confluyen ambos valores en una observación.

Ejemplo
Siguiendo con el ejemplo anterior sobre la venta de pantalones vaqueros, se construye una tabla que recoja las ventas en función del sexo del comprador.
| Modelo | Sexo | Total (N) | |
| Hombres | Mujeres | ||
| Ajustados | 37 | 60 | 97 |
| Rectos | 28 | 26 | 54 |
| Anchos | 17 | 12 | 29 |
| Shorts | 0 | 20 | 20 |
| Total (N) | 82 | 118 | 200 |
De este modo, el estudio resulta más completo y las conclusiones que se desprenden son más sólidas: entre otros datos, se sabe que hay mayor número de clientes femeninos que masculinos, que pese a poder pensar lo contrario hay un porcentaje elevado de hombres que se decantan por el modelo ajustado mientras que ninguno compra un short, con lo que no tendría sentido incluir dicho modelo en la colección de hombre para el presente año.
Este modelo de distribución que acoge la sinergia entre dos variables se denomina tabulación cruzada.
En un cuestionario se suelen incluir muchas preguntas, por lo que la tabulación cruzada puede establecerse en un sinfín de posibilidades. Es fundamental determinar aquello que se quiere analizar, para ajustar la tabulación a los fines del estudio y que esta forma de ordenar los datos responda a un propósito real.
Esta manera de presentar la información es muy sencilla y ofrece muchas ventajas para el investigador, por lo que son muchos los que se decantan por ella en la elaboración de un estudio de mercado. La calidad del análisis y su interpretación es muy consistente, ofreciendo una información más completa, ya que incorpora las sinergias propias del estudio comparado.
El investigador de mercados se encuentra de manera continua con una situación difícil de manipular, en la que el problema no tiene que ver con la calidad de la información, sino con el elevado número de datos con los que inicia su análisis. La codificación y la tabulación toman parte activa en la solución de este escenario conflictivo, estableciendo patrones y técnicas que le ayuden al analista a resumir la información hasta hacerla manejable.
Para el éxito del estudio de mercados, ambos procesos deben llevarse a cabo por profesionales que utilicen las medidas apropiadas en cada caso. Al agrupar y reducir los datos de las observaciones se pierde parte de la información originaria, por lo que estas tareas se vuelven muy delicadas: una mala codificación o una deficiente tabulación puede llevar a resultados erróneos y de poca utilidad.
La codificación de los datos se define como la asignación de un código numérico a cada uno de los valores que puede adoptar la variable. Esta estará determinada por la escala y naturaleza de la variable, así como por el tipo de pregunta que se haya utilizado en el cuestionario para obtener los distintos valores de la misma.
La tabulación, por su lado, consiste en la presentación ordenada de los datos a través de una tabla en la que se registran las distintas frecuencias de las categorías de la variable.
Hablamos de tabulación unidireccional cuando el estudio es en sentido único, se estudia una variable; y de tabulación cruzada cuando el análisis es de dos variables, interpretando las vinculaciones entre ambas. Las hojas de cálculo son una herramienta muy ventajosa para el estudio de esta última, ya que facilita y simplifica la creación de tablas de doble entrada.
Todos estos procedimientos no se aplican al azar, sino que tienen un itinerario preestablecido. Cada pequeña decisión tiene un gran valor en el conjunto de la información, y todas y cada una de las medidas que se toman deben estar en consonancia con los objetivos globales de la investigación.
Las empresas encargan o elaboran estudios de mercados porque ello les hace ahorrar mucho tiempo y dinero; pero un mal tratamiento de la información lleva, sin duda, a conclusiones equívocas que implican una gran pérdida en los mismos términos económicos-temporales.

Ejercicios de repaso y autoevaluación
1. Complete la siguiente oración.
El ___________, también denominado ____________, es la diferencia entre el valor máximo que adopta la variable y el valor mínimo de la misma.
2. La frecuencia absoluta de un valor de la variable objeto de estudio, indica...
3. Indique la razón fundamental para agrupar una variable en intervalos.
4. En un histograma la base del rectángulo es proporcional a...
5. Sobre una variable medida en escala nominal, es posible calcular...
6. Marque la opción incorrecta para el alfa de Cronbach (α).
7. Cita una ventaja y un inconveniente de emplear preguntas abiertas en los cuestionarios.
8. Defina el concepto de hoja de cálculo.
9. Si se trabaja con una variable cuantitativa no agrupada, se recomienda optar representar los resultados mediante...
10. ¿Por qué son numéricas las etiquetas que se asignan en la codificación de datos?
11. Explique para qué se utiliza la tabulación cruzada.
12. Rellene los huecos en blanco de la siguiente distribución.
| Valores de la variable xi |
Frecuencias absolutas ni |
Frecuencias absolutas acumuladas Ni |
| 0 | 3 | 3 |
| 1 | 7 | |
| 2 | 1 | |
| 3 | 2 | 10 |
| Total | N |
13. Para una distribución con N = 20, la frecuencia absoluta de x3 es igual a 4. Halle el valor de la frecuencia relativa para dicho valor y su correspondiente porcentaje.
14. Complete la siguiente oración.
En Excel, se denomina ________ al rectángulo que se forma en la intersección entre filas y _____________. Se le considera unidad mínima de ____________.
15. ¿Cuál es la diferencia entre una variable continua y otra discreta?