Capítulo I

Introducción

Hasta hace no demasiado tiempo, la fuente principal de información política y social era de carácter textual, dada la escasez de datos cuantitativos que permitieran otro tipo de aproximaciones. Este estado de las cosas ha sufrido un cambio drástico gracias a los avances tecnológicos de las últimas décadas, que han permitido multiplicar la cantidad, calidad y variedad de datos sobre múltiples aspectos de la vida social, política y económica. De la mano de esta mayor disponibilidad, estamos evolucionando hacia un mundo en el que la explotación de información cuantitativa forma parte del quehacer diario de profesionales de la opinión, expertos en la persuasión política y comercial y, desde luego, la comunidad científica. Los periodistas incluyen con frecuencia tablas y gráficos en sus artículos, los políticos respaldan sus propuestas con información sobre la evolución de variables macroeconómicas, los publicistas diseñan sus campañas atendiendo a encuestas de satisfacción, y los investigadores incluyen secciones de análisis empíricos en sus trabajos académicos.
Este libro te familiarizará con las técnicas de análisis cuantitativo más importantes. Aunque está centrado en el análisis de datos sociales y políticos, su ámbito de aplicación rebasa ampliamente el de los datos concretos con los que se ilustra cada técnica. Sin ir más lejos, yo mismo he utilizado las técnicas expuestas en este libro para encargos de consultoría sobre los patrones de consumo de los españoles. El objetivo principal de estas páginas es que sepas escoger la técnica de análisis más adecuada para cada situación y puedas explicar cómo se debe interpretar la información que presentes. A diferencia de otros manuales centrados en cómo acometer análisis estadísticos con un paquete econométrico específico (yo mismo he escrito uno: Santana, 2017), los conocimientos que adquieras con la lectura de este libro son válidos independientemente de los programas informáticos con los que decidas realizar tus análisis.

1. El análisis de datos en la investigación social

Por muy bien que esté hecho un análisis de datos, si está puesto al servicio de una investigación mal concebida, su aportación será limitada. Por eso, dedicaremos esta sección al diseño de la investigación. No dudes en consultar trabajos específicos sobre esta cuestión si deseas saber más (King, Keohane, Verba, 2000; Santana, 2013).

1.1. El proyecto de investigación

Antes de acometer la investigación en tanto que tal, conviene preparar un proyecto, que no es una investigación en pequeño, sino un plan de sus elementos principales. En él, debes especificar cuatro cosas.
Primero: qué estudias, cuál es tu pregunta (que debes formular con claridad y concisión). Partirás de un tema general de interés (por ejemplo, la variabilidad en la participación política), y luego te focalizarás en el aspecto concreto que te interesa (el voto, las manifestaciones, la militancia) y el nivel de análisis que quieres estudiar (diferencias entre países o entre ciudadanos). Algunas preguntas se prestan especialmente bien a las investigaciones científicas. Por ejemplo, las que buscan información a favor o en contra de un bando en una polémica académica, o las que se cuestionan si una hipótesis ampliamente aceptada en la disciplina es falsa. Una opción muy productiva es partir de aparentes paradojas: ¿por qué algunos de los países más felices lideran también las tasas de suicido?
Segundo, deberás justificar por qué es relevante responder a la pregunta planteada. Una investigación puede tener distintos tipos de relevancia:
 
1. Relevancia teórica y substantiva, si contribuye al conocimiento general de temas importantes para la disciplina. Este tipo de relevancia es indispensable en ciertas investigaciones, como las tesis doctorales.
2. Relevancia aplicada o práctica, si ayuda a conocer un caso específico o a solucionar un problema concreto.
3. En algunas ocasiones, puede tener relevancia metodológica, si sirve para mostrar cómo se debe estudiar un tema o un conjunto de temas.
4. Excepcionalmente, tendrá relevancia epistemológica, si conlleva implicaciones sobre las virtudes o deméritos de todo un paradigma científico.
 
Tercero, cuál es tu hipótesis, tu respuesta tentativa a la pregunta. En algunas investigaciones, como las tesis doctorales, tu hipótesis teórica ha de ser original; en casi todas ellas, debe plantearse como una afirmación positiva:
 
1. Las afirmaciones positivas son proposiciones sobre el ser, sobre cómo es el mundo. Estas pueden ser descriptivas o explicativas: hoy ha llovido más de dos horas; hoy ha llovido porque tu hermano no ha ido a la escuela. Estas afirmaciones estarán objetivamente bien o mal, es posible decir si son correctas o no. Decimos que son falsables, porque se pueden evaluar en términos de su veracidad o falsedad.
2. Las afirmaciones normativas son proposiciones sobre el deber ser, sobre cómo tendría que ser el mundo: el estado debería bajar los impuestos, los socialistas deberían ganar las elecciones, el precio de los tenedores debería subir, España debería tener doscientos millones de habitantes. Estas afirmaciones no están ni bien ni mal, sino que dependen de las opiniones y los valores de cada uno y, por consiguiente, no suelen ser apropiadas para las investigaciones científicas.
 
Y cuarto, cómo comprobarás si tu hipótesis es correcta o no: qué metodología emplearás, cuál será el ámbito de tu estudio; qué archivos, fuentes y bases de datos recabarás (datos macroeconómicos, estadísticas oficiales, encuestas realizadas por terceros o por ti mismo, entrevistas, grupos focales, etc.).
Las decisiones sobre el ámbito de la investigación responden a las preguntas del cuándo y del dónde. Lógicamente, el ámbito (temporal, espacial, e incluso sectorial) al que se circunscribe el estudio condiciona su alcance: en principio, si un estudio está circunscrito a los estudiantes varones del último curso del grado en Sociología de nuestra universidad, no será válido extrapolar las conclusiones al conjunto de ciudadanos y ciudadanas del país.
Es esencial justificar con cuidado las razones que han conducido a la selección de un ámbito determinado. Esta justificación se debe fundamentar o bien en consideraciones teóricas, o bien en consideraciones de disponibilidad de datos. En caso contrario, los lectores podrían sospechar que los resultados presentados son fruto de una selección sesgada o caprichosa del ámbito del estudio, que, eventualmente, podría favorecer el hallazgo de evidencia favorable a las hipótesis presentadas.
En las consultorías y los trabajos conducentes a un grado académico, como TFG (trabajos de fin de grado), TFM (trabajos de fin de máster) y tesis doctorales, es costumbre incluir también una sección con el «cronograma» de trabajo y otra con los «objetivos» del estudio. Hay que distinguir entre tres tipos de objetivos:
 
1. El objetivo general de la investigación es responder a la pregunta central de la investigación.
2. Los objetivos secundarios son objetivos que no son necesarios para lograr el objetivo general, pero que aportan valor añadido a la investigación. Por ejemplo, una investigación podría tener el objetivo principal de determinar las causas que llevan a los ciudadanos a votar o a abstenerse, y plantearse el objetivo secundario de comprobar si las variables que se han utilizado tradicionalmente como medidas indirectas del coste de votar, como por ejemplo la renta o la educación, constituyen buenas aproximaciones de estos costes.
Hay que tener cuidado: una investigación con demasiados objetivos secundarios corre el riesgo de la dispersión y de no lograr su objetivo general.
3. Los objetivos específicos son un conjunto de objetivos que conjuntamente (si se cumplen todos y cada uno de ellos) permiten cumplir el objetivo general. Hay que rehuir la tendencia a enumerar un listado para «cumplir con el expediente». En cambio, si se formulan con cuidado, pueden facilitar muchas tareas de la investigación. Por ejemplo, en un estadio primigenio de esta, puede resultar útil la construcción de una tabla de doble entrada que relacione las referencias bibliográficas que se pretenden consultar y los objetivos específicos de la investigación. Esto puede dar pistas muy valiosas: ¿se dispone de la bibliografía necesaria para lograr con éxito cada uno de los objetivos específicos? ¿Incluye nuestra selección bibliográfica inicial muchas fuentes que no tienen relación con ninguno de los objetivos específicos? También resultan útiles para dividir la tarea global en una serie de tareas más pequeñas y delimitadas.
Un conjunto sensato de objetivos específicos cumple tres condiciones:
 
1) Ninguno puede ser tan amplio como el general.
2) Conjuntamente son suficientes. Si todos se cumplen, se cumple el general.
3) Individualmente son necesarios. Si alguno no se cumple, no se cumple el general. Es decir, ninguno puede ser superfluo.
 
Finalmente, muchos proyectos incluyen una sección con una «revisión de la literatura», de los estudios existentes sobre el tema. La ciencia es una empresa colectiva, con lo que, antes de emprender tu investigación, deberás revisar bien lo que ya se ha escrito. Así, evitarás dos cosas: reinventar la rueda y caer en plagio. La mayoría de las universidades cuenta con software antiplagio, como Turnitin, con lo que es importante que documentes qué ideas son tuyas y cuáles han sido defendidas en otros estudios. Para citar bien las fuentes consultadas, lo mejor es incorporar cada referencia a medida que la usas (nunca dejes todas para el final) y emplear programas especializados de gestión bibliográfica, tales como Zotero, Refworks o Endnote.
Una buena revisión del estado del arte sirve para mucho más que evitar duplicidades (King; Kehoane; Verba, 2000, pág. 27) o plagios: supone una ayuda inestimable para definir el trabajo (circunscribirlo al «hueco» dejado por los estudios existentes), defender su relevancia (quienes investigaron temas afines habrán tenido que explicar por qué lo hicieron), justificar los efectos esperados y los mecanismos causales (gracias a ideas e hipótesis desarrolladas por otros estudiosos), percatarse de posibles variables relevantes o relaciones entre variables, elegir los indicadores más adecuados de los conceptos, y maximizar la comparabilidad y el alcance del propio trabajo.
Una nota final. Si tu proyecto compite por financiación, escribirlo bien se convierte en un arte en sí mismo (Przeworski; Salomon, 1995). Suele valorarse positivamente que sugieras cuál será el producto esperado (un libro, un artículo, una tesis), que demuestres un conocimiento profundo y actualizado de la literatura, y que relaciones tu investigación con discusiones teóricas controvertidas en la disciplina.

2. Conceptos

En esta sección, clarifico conceptos que serán empleados con profusión a lo largo del libro. Empiezo con los de descripción y explicación, ya que los dos capítulos siguientes se refieren a la primera, y el cuarto, a la segunda.
Los análisis de datos pueden ser univariantes (segundo capítulo) o multivariantes (capítulos tres y cuatro).
Los análisis de datos se pueden hacer para poblaciones o para muestras:
En ciencias sociales, es muy habitual trabajar con muestras, ya que contar con datos poblacionales puede ser muy costoso o simplemente inviable. Cuando se trabaja con muestras, se parte de unos datos (los de la muestra) de los cuales se dispone, y se va más allá, ya que lo que se pretende es establecer conclusiones sobre la población en su conjunto. A este proceso se le llama inferencia. La inferencia implica un razonamiento inductivo:
Ejemplo
Negri es perro y tiene 4 patas --------------- (x es X; x cumple Y)
Tobi es perro y tiene 4 patas ---------------- (x es X; x cumple Y)
Pillín es perro y tiene 4 patas -------------- (x es X; x cumple Y)
→ Los perros tienen 4 patas --------- (todo X cumple Y)
Ejemplo
Negri es perro ------------------------ (x es X)
Los perros tienen 4 patas ------- (todo X cumple Y)
→ Negri tiene 4 patas --------------- (x cumple Y)
 
Uno de los conceptos más importantes para el análisis de datos es el de variable, pero no todas las variables funcionan de la misma manera. La distinción más importante se establece entre las cuantitativas y las cualitativas:
A menudo, se establecen divisiones aún más detalladas entre tipos de variables. Por ejemplo, es muy común distinguir entre subtipos de variables categóricas:

Ejemplos

Tener estudios primarios, secundarios o terciarios.
Las medallas obtenidas en unas olimpíadas (de oro, plata y bronce). Tiene más valor una de oro que una de plata, y esta más que una de bronce, pero no se puede decir fácilmente cuánto valor adicional tiene obtener una medalla de oro en lugar de una de plata y cuánto una de plata en relación a una de bronce. La eventual asignación de valores numéricos a las distintas categorías es parcialmente arbitraria. Podría asignarse el valor 1 a las de oro, 2 a las de plata, y 3 a las de bronce; o los valores 3, 44 y 52, respectivamente; pero no los valores 2, 5 y 4. Fíjate que la «media» de un país con una medalla de cada tipo sería (1 + 2 + 3) / 3 = 2 bajo la primera asignación, pero (3 + 44 + 52) / 3 = 33 bajo la segunda. Precisamente por esto, la media no tiene sentido.

Ejemplos

El estado civil: soltero, casado, divorciado, o viudo.
Los estudios universitarios: economista, abogado, politólogo, médico, etc. Se les podrían asignar valores numéricos (0 a los economistas, 1 a los abobados, 3 a los politólogos y 2 a los médicos), pero serían completamente arbitrarios, y cualquier otra asignación sería igual de posible.

Ejemplos

Vivir en democracia o en dictadura. Votar o abstenerse. Ser mujer u hombre. La eventual asignación de valores numéricos a las distintas categorías es totalmente arbitraria: mujer = 1 y hombre = 0, o bien mujer = 1 y hombre = 2, o cualquier otra.
En ocasiones, también se diferencia entre subtipos de variables cuantitativas:

Ejemplos

La temperatura, medida en grados Celsius o Fahrenheit. Entre tres días, lunes, martes y miércoles, con 10ºC, 12ºC y 20ºC, respectivamente, tiene sentido decir que el miércoles hizo más calor que el martes y que el martes hizo más calor que el lunes; tiene, además, sentido decir que la diferencia de temperaturas entre el miércoles y el martes fue más marcada que entre el martes y el miércoles; pero no tiene sentido decir que «el miércoles hizo el doble de calor que el lunes». Esto se debe al hecho de que el 0 de la escala Celsius es arbitrario.

Ejemplos

La edad, la renta, el peso, o la temperatura en grados Kelvin. Si María tiene 20 años, Juan, 30, y Pedro, 40, tiene sentido decir que Pedro es más viejo que Juan y que este es mayor que María, que la diferencia de edad entre Juan y María es la misma que entre Pedro y Juan, y que Pedro tiene el doble de edad que María.
El cuadro siguiente resume la discusión sobre los tipos de variables:
Tabla 1. Tipos de variables
Tipo
Subtipo
Propiedades
Observaciones
Cualitativas
Dicotómicas
Dos categorías
Nominales
No importa ni el orden ni la distancia
Más de dos categorías
Ordinales
Importa el orden, pero no la distancia
Más de dos categorías, las medias no tienen sentido
Cuantitativas
De intervalo
Importa la distancia
Las medias tienen sentido
De razón
Hay un cero absoluto
Los cocientes tienen sentido
Fuente: Elaboración propia.
Merece la pena comentar que la distinción entre las variables cualitativas ordinales y las cuantitativas es, a menudo, una cuestión de grado. A fin de cuentas, ¿cuántas categorías son necesarias para considerar que su número es «elevado» y que es adecuado asumir que la distancia importa? No existe, lógicamente, un «número mágico» para dirimirlo, pero, en la práctica, la mayoría de los investigadores no suele encontrar problemático asumir que, con diez categorías, es aceptable considerar que la variable es cuantitativa.
Además, en última instancia, el carácter ordinal o nominal de una variable no constituye una característica intrínseca de una variable, sino que depende de los fines del investigador. Por ejemplo, frente al orden aparentemente lógico extrema izquierda < izquierda moderada < centro < derecha moderada < extrema derecha (o el orden inverso), es posible que, para estudiar la estabilidad democrática, lo relevante sea la situación más o menos extrema de los partidos, de manera que la estabilidad sería creciente con un orden del tipo centro > izquierda moderada, derecha moderada > extrema izquierda, extrema derecha.
En los párrafos precedentes, se han clasificado las variables en función de cómo recaban la información, diferenciando según las relaciones de orden, distancia, etc., que se pueden (o no) establecer entre sus valores. Esta es la distinción más importante para el análisis de datos, ya que condiciona qué tipo de información (distribución de frecuencias, medias o incluso cocientes) puede tener sentido (o no) y, con ello, los tipos de análisis posibles. En consecuencia, los análisis descriptivos de variables cualitativas muestran distribuciones de frecuencias de variables aisladas (en el caso univariante) o de combinaciones de valores de más de una variable (en el multivariante); y los de variables cuantitativas muestran medias y otras medidas sumarias (en el caso univariante) o tendencias a crecer conjuntamente o a moverse en direcciones opuestas (en el caso multivariante):
Tabla 2. Tipos de análisis descriptivos según tipos de variables
Univariante
Multivariantes
Cualitativas
Distribución de frecuencias
(tablas y gráficos de frecuencias)
Frecuencias conjuntas
(tablas de contingencia)
(gráficos anidados de frecuencias)
Cuantitativas
Medias y otros estadísticos sumarios
(estadísticos descriptivos)
Movimiento conjunto o disjunto
(correlaciones)
(nubes de puntos)
Mezcla
Comparaciones de medias
(contrastes y gráficos de comparación de medias)
Fuente: Elaboración propia.
En los análisis explicativos, se establece una distinción adicional muy importante entre las variables según el papel que desempeñan en tus modelos:

Ejemplo

¿Qué factores influyen sobre el régimen político de los países de la Unión Europea? ¡La variable dependiente no varía! Todos los países de la UE son democracias: técnicamente, la variable dependiente es una columna de ceros. Una variable degenerada es una «variable que no varía», que adopta un valor constante, el valor de un parámetro. ¿Qué factores influyen sobre la probabilidad de que un país experimente una revolución? Hay tan pocas revoluciones que es difícil de estudiar. Es difícil determinar cuáles de las innumerables diferencias entre países y en el tiempo son las responsables del pequeño número de revoluciones. La variable dependiente es casi una columna de ceros.

Ejemplo

Si todos los trabajadores de un local tienen el mismo sueldo, entonces el sueldo no podrá dar cuenta de las variaciones en sus tasas de absentismo laboral.
La popularidad de los análisis econométricos para estimar relaciones causales entre variables ha comportado una sofisticación en la identificación de posibles relaciones entre variables. No todas las relaciones posibles se limitan a efectos directos de una o varias variables independientes sobre la dependiente. Quienes se dedican a proponer modelos causales consideran a menudo otros tipos de variables:

Ejemplo

En muchos países, el efecto del número de hijos sobre el número de horas trabajadas por semana depende del género (está moderado o condicionado por este), hasta tal punto de que suele ser positivo para los hombres y negativo para las mujeres. Obviamente, este hallazgo debería dar que pensar a los responsables de las políticas de igualdad de género.

Ejemplo

Puede que la religiosidad tenga efectos sobre el voto porque aquella afectara a la ideología, que, a su vez, podría afectar al voto. De ser así, la ideología sería una variable interviniente.

Ejemplo

El hecho de que en las localidades en las que hay más cigüeñas haya más nacimientos no se debe a que las cigüeñas traigan a los bebés, sino a la presencia de una variable antecedente (que la localidad pertenezca al ámbito rural en lugar de al urbano) que propicia un aumento tanto de la población de cigüeñas como de la tasa de natalidad.

Bibliografía

King, G.; Keohane, R.; Verba, S. (2000). El diseño de la investigación social: La inferencia científica en los estudios cualitativos. J. Cuéllar (trad.). Madrid: Alianza Editorial.

Przeworski, A.; Salomon, F. (1995). On the Art of Writing Proposals: Some Candid Suggestions for Applicants to Social Science Research Council Competitions. Nueva York: Social Science Research Council.

Santana, A. (2013). Fundamentos para la investigación social. Madrid: Alianza Editorial.

Santana, A.; Rama, J. (2017). Manual de análisis de datos con Stata. Madrid: Tecnos.

Spiegel, M. R. (1991). Estadística (2.ª edición). R. Hernández Heredero (trad.). Madrid: McGraw-Hill.