Capítulo I
Introducción
Hasta hace no demasiado tiempo, la fuente principal de información política y social
era de carácter textual, dada la escasez de datos cuantitativos que permitieran otro
tipo de aproximaciones. Este estado de las cosas ha sufrido un cambio drástico gracias
a los avances tecnológicos de las últimas décadas, que han permitido multiplicar la
cantidad, calidad y variedad de datos sobre múltiples aspectos de la vida social,
política y económica. De la mano de esta mayor disponibilidad, estamos evolucionando
hacia un mundo en el que la explotación de información cuantitativa forma parte del
quehacer diario de profesionales de la opinión, expertos en la persuasión política
y comercial y, desde luego, la comunidad científica. Los periodistas incluyen con
frecuencia tablas y gráficos en sus artículos, los políticos respaldan sus propuestas
con información sobre la evolución de variables macroeconómicas, los publicistas diseñan
sus campañas atendiendo a encuestas de satisfacción, y los investigadores incluyen
secciones de análisis empíricos en sus trabajos académicos.
Este libro te familiarizará con las técnicas de análisis cuantitativo más importantes.
Aunque está centrado en el análisis de datos sociales y políticos, su ámbito de aplicación
rebasa ampliamente el de los datos concretos con los que se ilustra cada técnica.
Sin ir más lejos, yo mismo he utilizado las técnicas expuestas en este libro para
encargos de consultoría sobre los patrones de consumo de los españoles. El objetivo
principal de estas páginas es que sepas escoger la técnica de análisis más adecuada
para cada situación y puedas explicar cómo se debe interpretar la información que
presentes. A diferencia de otros manuales centrados en cómo acometer análisis estadísticos
con un paquete econométrico específico (yo mismo he escrito uno: Santana, 2017), los
conocimientos que adquieras con la lectura de este libro son válidos independientemente
de los programas informáticos con los que decidas realizar tus análisis.
1. El análisis de datos en la investigación social
Por muy bien que esté hecho un análisis de datos, si está puesto al servicio de una
investigación mal concebida, su aportación será limitada. Por eso, dedicaremos esta
sección al diseño de la investigación. No dudes en consultar trabajos específicos
sobre esta cuestión si deseas saber más (King, Keohane, Verba, 2000; Santana, 2013).
1.1. El proyecto de investigación
Antes de acometer la investigación en tanto que tal, conviene preparar un proyecto,
que no es una investigación en pequeño, sino un plan de sus elementos principales. En él, debes especificar cuatro cosas.
Primero: qué estudias, cuál es tu pregunta (que debes formular con claridad y concisión).
Partirás de un tema general de interés (por ejemplo, la variabilidad en la participación
política), y luego te focalizarás en el aspecto concreto que te interesa (el voto,
las manifestaciones, la militancia) y el nivel de análisis que quieres estudiar (diferencias
entre países o entre ciudadanos). Algunas preguntas se prestan especialmente bien
a las investigaciones científicas. Por ejemplo, las que buscan información a favor
o en contra de un bando en una polémica académica, o las que se cuestionan si una
hipótesis ampliamente aceptada en la disciplina es falsa. Una opción muy productiva
es partir de aparentes paradojas: ¿por qué algunos de los países más felices lideran
también las tasas de suicido?
Segundo, deberás justificar por qué es relevante responder a la pregunta planteada.
Una investigación puede tener distintos tipos de relevancia:
1. Relevancia teórica y substantiva, si contribuye al conocimiento general de temas
importantes para la disciplina. Este tipo de relevancia es indispensable en ciertas
investigaciones, como las tesis doctorales.
2. Relevancia aplicada o práctica, si ayuda a conocer un caso específico o a solucionar
un problema concreto.
3. En algunas ocasiones, puede tener relevancia metodológica, si sirve para mostrar
cómo se debe estudiar un tema o un conjunto de temas.
4. Excepcionalmente, tendrá relevancia epistemológica, si conlleva implicaciones sobre
las virtudes o deméritos de todo un paradigma científico.
Tercero, cuál es tu hipótesis, tu respuesta tentativa a la pregunta. En algunas investigaciones,
como las tesis doctorales, tu hipótesis teórica ha de ser original; en casi todas
ellas, debe plantearse como una afirmación positiva:
1. Las afirmaciones positivas son proposiciones sobre el ser, sobre cómo es el mundo.
Estas pueden ser descriptivas o explicativas: hoy ha llovido más de dos horas; hoy
ha llovido porque tu hermano no ha ido a la escuela. Estas afirmaciones estarán objetivamente
bien o mal, es posible decir si son correctas o no. Decimos que son falsables, porque se pueden evaluar en términos de su veracidad o falsedad.
2. Las afirmaciones normativas son proposiciones sobre el deber ser, sobre cómo tendría
que ser el mundo: el estado debería bajar los impuestos, los socialistas deberían
ganar las elecciones, el precio de los tenedores debería subir, España debería tener
doscientos millones de habitantes. Estas afirmaciones no están ni bien ni mal, sino
que dependen de las opiniones y los valores de cada uno y, por consiguiente, no suelen
ser apropiadas para las investigaciones científicas.
Y cuarto, cómo comprobarás si tu hipótesis es correcta o no: qué metodología emplearás,
cuál será el ámbito de tu estudio; qué archivos, fuentes y bases de datos recabarás
(datos macroeconómicos, estadísticas oficiales, encuestas realizadas por terceros
o por ti mismo, entrevistas, grupos focales, etc.).
Las decisiones sobre el ámbito de la investigación responden a las preguntas del cuándo
y del dónde. Lógicamente, el ámbito (temporal, espacial, e incluso sectorial) al que
se circunscribe el estudio condiciona su alcance: en principio, si un estudio está
circunscrito a los estudiantes varones del último curso del grado en Sociología de
nuestra universidad, no será válido extrapolar las conclusiones al conjunto de ciudadanos
y ciudadanas del país.
Es esencial justificar con cuidado las razones que han conducido a la selección de
un ámbito determinado. Esta justificación se debe fundamentar o bien en consideraciones
teóricas, o bien en consideraciones de disponibilidad de datos. En caso contrario,
los lectores podrían sospechar que los resultados presentados son fruto de una selección
sesgada o caprichosa del ámbito del estudio, que, eventualmente, podría favorecer
el hallazgo de evidencia favorable a las hipótesis presentadas.
En las consultorías y los trabajos conducentes a un grado académico, como TFG (trabajos
de fin de grado), TFM (trabajos de fin de máster) y tesis doctorales, es costumbre
incluir también una sección con el «cronograma» de trabajo y otra con los «objetivos»
del estudio. Hay que distinguir entre tres tipos de objetivos:
1. El objetivo general de la investigación es responder a la pregunta central de la
investigación.
2. Los objetivos secundarios son objetivos que no son necesarios para lograr el objetivo
general, pero que aportan valor añadido a la investigación. Por ejemplo, una investigación
podría tener el objetivo principal de determinar las causas que llevan a los ciudadanos
a votar o a abstenerse, y plantearse el objetivo secundario de comprobar si las variables
que se han utilizado tradicionalmente como medidas indirectas del coste de votar,
como por ejemplo la renta o la educación, constituyen buenas aproximaciones de estos
costes.
Hay que tener cuidado: una investigación con demasiados objetivos secundarios corre
el riesgo de la dispersión y de no lograr su objetivo general.
3. Los objetivos específicos son un conjunto de objetivos que conjuntamente (si se cumplen
todos y cada uno de ellos) permiten cumplir el objetivo general. Hay que rehuir la
tendencia a enumerar un listado para «cumplir con el expediente». En cambio, si se
formulan con cuidado, pueden facilitar muchas tareas de la investigación. Por ejemplo,
en un estadio primigenio de esta, puede resultar útil la construcción de una tabla
de doble entrada que relacione las referencias bibliográficas que se pretenden consultar
y los objetivos específicos de la investigación. Esto puede dar pistas muy valiosas:
¿se dispone de la bibliografía necesaria para lograr con éxito cada uno de los objetivos
específicos? ¿Incluye nuestra selección bibliográfica inicial muchas fuentes que no
tienen relación con ninguno de los objetivos específicos? También resultan útiles
para dividir la tarea global en una serie de tareas más pequeñas y delimitadas.
Un conjunto sensato de objetivos específicos cumple tres condiciones:
1) Ninguno puede ser tan amplio como el general.
2) Conjuntamente son suficientes. Si todos se cumplen, se cumple el general.
3) Individualmente son necesarios. Si alguno no se cumple, no se cumple el general.
Es decir, ninguno puede ser superfluo.
Finalmente, muchos proyectos incluyen una sección con una «revisión de la literatura»,
de los estudios existentes sobre el tema. La ciencia es una empresa colectiva, con
lo que, antes de emprender tu investigación, deberás revisar bien lo que ya se ha
escrito. Así, evitarás dos cosas: reinventar la rueda y caer en plagio. La mayoría
de las universidades cuenta con software antiplagio, como Turnitin, con lo que es importante que documentes qué ideas son
tuyas y cuáles han sido defendidas en otros estudios. Para citar bien las fuentes
consultadas, lo mejor es incorporar cada referencia a medida que la usas (nunca dejes
todas para el final) y emplear programas especializados de gestión bibliográfica,
tales como Zotero, Refworks o Endnote.
Una buena revisión del estado del arte sirve para mucho más que evitar duplicidades
(King; Kehoane; Verba, 2000, pág. 27) o plagios: supone una ayuda inestimable para
definir el trabajo (circunscribirlo al «hueco» dejado por los estudios existentes),
defender su relevancia (quienes investigaron temas afines habrán tenido que explicar
por qué lo hicieron), justificar los efectos esperados y los mecanismos causales (gracias
a ideas e hipótesis desarrolladas por otros estudiosos), percatarse de posibles variables
relevantes o relaciones entre variables, elegir los indicadores más adecuados de los
conceptos, y maximizar la comparabilidad y el alcance del propio trabajo.
Una nota final. Si tu proyecto compite por financiación, escribirlo bien se convierte
en un arte en sí mismo (Przeworski; Salomon, 1995). Suele valorarse positivamente
que sugieras cuál será el producto esperado (un libro, un artículo, una tesis), que
demuestres un conocimiento profundo y actualizado de la literatura, y que relaciones
tu investigación con discusiones teóricas controvertidas en la disciplina.
2. Conceptos
En esta sección, clarifico conceptos que serán empleados con profusión a lo largo
del libro. Empiezo con los de descripción y explicación, ya que los dos capítulos
siguientes se refieren a la primera, y el cuarto, a la segunda.
-
Describir unos datos implica organizarlos, clasificarlos, resumirlos y mostrar sus
regularidades (Spiegel, 1991, pág. 1).
-
Explicar un fenómeno implica desvelar cuáles son los factores que lo causan.
Los análisis de datos pueden ser univariantes (segundo capítulo) o multivariantes
(capítulos tres y cuatro).
-
Los análisis univariantes estudian las variables considerándolas de manera aislada,
y son siempre y necesariamente descriptivos: ¿cuál es la edad media de los estudiantes
de este curso?
-
Los análisis multivariantes estudian las relaciones entre variables, las consideran
de manera conjunta. Algunos de ellos son descriptivos, y resumen la distribución conjunta
de dos o más variables: ¿con qué frecuencia encontramos estudiantes que tengan al
mismo tiempo los cabellos negros y los ojos azules? Otros, son explicativos: ¿cuál
es el efecto del régimen político sobre la tasa de crecimiento económico de los países?
Mientras que la descripción puede ser univariante o multivariante, la explicación
siempre presupone poner en relación al menos dos variables, una causa y un efecto.
Los análisis de datos se pueden hacer para poblaciones o para muestras:
-
La población es el conjunto de todas las observaciones que le interesa estudiar al
investigador.
-
Una muestra es un subconjunto de una población que el investigador analiza empíricamente
con el objetivo de extraer conclusiones (de inferir) sobre la población que le interesa.
En ciencias sociales, es muy habitual trabajar con muestras, ya que contar con datos
poblacionales puede ser muy costoso o simplemente inviable. Cuando se trabaja con
muestras, se parte de unos datos (los de la muestra) de los cuales se dispone, y se
va más allá, ya que lo que se pretende es establecer conclusiones sobre la población
en su conjunto. A este proceso se le llama inferencia. La inferencia implica un razonamiento
inductivo:
-
La inducción es el proceso por el cual observamos ciertos fenómenos concretos y, a
partir de ellos, establecemos conclusiones (inferimos proposiciones generales).
Ejemplo
Negri es perro y tiene 4 patas --------------- (x es X; x cumple Y)
Tobi es perro y tiene 4 patas ---------------- (x es X; x cumple Y)
Pillín es perro y tiene 4 patas -------------- (x es X; x cumple Y)
→ Los perros tienen 4 patas --------- (todo X cumple Y)
-
La deducción es el proceso por el cual llegamos a una conclusión razonada a partir
de una generalización lógica de hechos conocidos.
Ejemplo
Negri es perro ------------------------ (x es X)
Los perros tienen 4 patas ------- (todo X cumple Y)
→ Negri tiene 4 patas --------------- (x cumple Y)
Uno de los conceptos más importantes para el análisis de datos es el de variable,
pero no todas las variables funcionan de la misma manera. La distinción más importante
se establece entre las cuantitativas y las cualitativas:
-
Las variables cuantitativas o categóricas recogen información numérica y tiene sentido
hablar de la distancia entre sus valores: la diferencia entre 15 y 20 años es de 5
años, y la diferencia entre 20 y 50 es ciertamente mayor, de 30 años. Generalmente,
pueden asumir un número elevado o, incluso, infinito, de valores.
-
Las variables cualitativas recogen información que, en sentido estricto, no es numérico
(como el sexo: hombre o mujer), aunque pueda codificarse con números para su análisis
estadístico. Si bien muchas veces se dice que tienen pocos valores, ello no es necesariamente
cierto (la variable «país de nacimiento» puede asumir unos doscientos valores, por
ejemplo); lo importante es que la distancia entre las diferentes categorías no importa,
no tiene sentido.
A menudo, se establecen divisiones aún más detalladas entre tipos de variables. Por
ejemplo, es muy común distinguir entre subtipos de variables categóricas:
-
Las variables ordinales tienen tres o más valores, entre los que importa el orden
(pero no se pueden hacer afirmaciones en relación con la distancia que separa a cada
uno de ellos).
Ejemplos
Tener estudios primarios, secundarios o terciarios.
Las medallas obtenidas en unas olimpíadas (de oro, plata y bronce). Tiene más valor
una de oro que una de plata, y esta más que una de bronce, pero no se puede decir
fácilmente cuánto valor adicional tiene obtener una medalla de oro en lugar de una
de plata y cuánto una de plata en relación a una de bronce. La eventual asignación
de valores numéricos a las distintas categorías es parcialmente arbitraria. Podría asignarse el valor 1 a las de oro, 2 a las de plata, y 3 a las
de bronce; o los valores 3, 44 y 52, respectivamente; pero no los valores 2, 5 y 4.
Fíjate que la «media» de un país con una medalla de cada tipo sería (1 + 2 + 3) /
3 = 2 bajo la primera asignación, pero (3 + 44 + 52) / 3 = 33 bajo la segunda. Precisamente
por esto, la media no tiene sentido.
-
Las variables nominales son variables entre cuyos valores no importa el orden; no
se puede establecer una ordenación lógica.
Ejemplos
El estado civil: soltero, casado, divorciado, o viudo.
Los estudios universitarios: economista, abogado, politólogo, médico, etc. Se les
podrían asignar valores numéricos (0 a los economistas, 1 a los abobados, 3 a los
politólogos y 2 a los médicos), pero serían completamente arbitrarios, y cualquier
otra asignación sería igual de posible.
-
Las variables dicotómicas son un subtipo de las nominales con solo dos valores (el
término nominal se suele reservar para las de tres o más). Obviamente, al haber solo dos categorías,
la cuestión de si importa o no el orden ni se plantea.
Ejemplos
Vivir en democracia o en dictadura. Votar o abstenerse. Ser mujer u hombre. La eventual
asignación de valores numéricos a las distintas categorías es totalmente arbitraria:
mujer = 1 y hombre = 0, o bien mujer = 1 y hombre = 2, o cualquier otra.
En ocasiones, también se diferencia entre subtipos de variables cuantitativas:
-
Las variables de intervalo tienen un origen (valor 0) arbitrario, sin sentido en sí
mismo. Por ello, no tiene sentido sacar cocientes entre sus valores.
Ejemplos
La temperatura, medida en grados Celsius o Fahrenheit. Entre tres días, lunes, martes
y miércoles, con 10ºC, 12ºC y 20ºC, respectivamente, tiene sentido decir que el miércoles
hizo más calor que el martes y que el martes hizo más calor que el lunes; tiene, además,
sentido decir que la diferencia de temperaturas entre el miércoles y el martes fue
más marcada que entre el martes y el miércoles; pero no tiene sentido decir que «el
miércoles hizo el doble de calor que el lunes». Esto se debe al hecho de que el 0
de la escala Celsius es arbitrario.
-
Las variables de razón son variables cuantitativas cuyo origen, cuyo valor 0, tiene
sentido en sí mismo, no es arbitrario. Ahora, los cocientes tienen sentido.
Ejemplos
La edad, la renta, el peso, o la temperatura en grados Kelvin. Si María tiene 20 años,
Juan, 30, y Pedro, 40, tiene sentido decir que Pedro es más viejo que Juan y que este
es mayor que María, que la diferencia de edad entre Juan y María es la misma que entre
Pedro y Juan, y que Pedro tiene el doble de edad que María.
El cuadro siguiente resume la discusión sobre los tipos de variables:
Tabla 1. Tipos de variables
|
Tipo
|
Subtipo
|
Propiedades
|
Observaciones
|
|
Cualitativas
|
Dicotómicas
|
|
Dos categorías
|
|
|
Nominales
|
No importa ni el orden ni la distancia
|
Más de dos categorías
|
|
|
Ordinales
|
Importa el orden, pero no la distancia
|
Más de dos categorías, las medias no tienen sentido
|
|
Cuantitativas
|
De intervalo
|
Importa la distancia
|
Las medias tienen sentido
|
|
|
De razón
|
Hay un cero absoluto
|
Los cocientes tienen sentido
|
|
Fuente: Elaboración propia.
|
Merece la pena comentar que la distinción entre las variables cualitativas ordinales
y las cuantitativas es, a menudo, una cuestión de grado. A fin de cuentas, ¿cuántas
categorías son necesarias para considerar que su número es «elevado» y que es adecuado
asumir que la distancia importa? No existe, lógicamente, un «número mágico» para dirimirlo,
pero, en la práctica, la mayoría de los investigadores no suele encontrar problemático
asumir que, con diez categorías, es aceptable considerar que la variable es cuantitativa.
Además, en última instancia, el carácter ordinal o nominal de una variable no constituye
una característica intrínseca de una variable, sino que depende de los fines del investigador.
Por ejemplo, frente al orden aparentemente lógico extrema izquierda < izquierda moderada
< centro < derecha moderada < extrema derecha (o el orden inverso), es posible que,
para estudiar la estabilidad democrática, lo relevante sea la situación más o menos
extrema de los partidos, de manera que la estabilidad sería creciente con un orden
del tipo centro > izquierda moderada, derecha moderada > extrema izquierda, extrema
derecha.
En los párrafos precedentes, se han clasificado las variables en función de cómo recaban
la información, diferenciando según las relaciones de orden, distancia, etc., que
se pueden (o no) establecer entre sus valores. Esta es la distinción más importante
para el análisis de datos, ya que condiciona qué tipo de información (distribución
de frecuencias, medias o incluso cocientes) puede tener sentido (o no) y, con ello,
los tipos de análisis posibles. En consecuencia, los análisis descriptivos de variables
cualitativas muestran distribuciones de frecuencias de variables aisladas (en el caso
univariante) o de combinaciones de valores de más de una variable (en el multivariante);
y los de variables cuantitativas muestran medias y otras medidas sumarias (en el caso
univariante) o tendencias a crecer conjuntamente o a moverse en direcciones opuestas
(en el caso multivariante):
Tabla 2. Tipos de análisis descriptivos según tipos de variables
|
|
Univariante
|
Multivariantes
|
|
Cualitativas
|
Distribución de frecuencias
(tablas y gráficos de frecuencias)
|
Frecuencias conjuntas
(tablas de contingencia)
(gráficos anidados de frecuencias)
|
|
Cuantitativas
|
Medias y otros estadísticos sumarios
(estadísticos descriptivos)
|
Movimiento conjunto o disjunto
(correlaciones)
(nubes de puntos)
|
|
Mezcla
|
|
Comparaciones de medias
(contrastes y gráficos de comparación de medias)
|
|
Fuente: Elaboración propia.
|
En los análisis explicativos, se establece una distinción adicional muy importante
entre las variables según el papel que desempeñan en tus modelos:
-
Por una parte, las variables dependientes o endógenas o regresandos: son las que quieres
explicar, los efectos. Es decir, son aquellas cuyos cambios (cuyos diferentes valores)
quiere entender y explicar el investigador, el consultor o el gerente. Es habitual
etiquetarlas con la letra Y. Para que se pueda estudiar qué genera cambios en Y, es necesario que esta experimente
variaciones. Cuando la dependiente no varía o varía poco, surgen problemas.
Ejemplo
¿Qué factores influyen sobre el régimen político de los países de la Unión Europea?
¡La variable dependiente no varía! Todos los países de la UE son democracias: técnicamente,
la variable dependiente es una columna de ceros. Una variable degenerada es una «variable
que no varía», que adopta un valor constante, el valor de un parámetro. ¿Qué factores
influyen sobre la probabilidad de que un país experimente una revolución? Hay tan
pocas revoluciones que es difícil de estudiar. Es difícil determinar cuáles de las
innumerables diferencias entre países y en el tiempo son las responsables del pequeño
número de revoluciones. La variable dependiente es casi una columna de ceros.
-
Por otra parte, las variables independientes o explicativas o regresores o predictores:
es decir, las causas (potenciales), las variables que (crees que) influyen en la dependiente.
Se las etiqueta con la letra X. Cuando hay varias, es común numerarlas o añadir subíndices: X1, X2, X3, y así, sucesivamente.
Si X no varía o varía poco surgen problemas, porque, para estudiar si sus cambios
provocan cambios en la dependiente, ha de variar.
Ejemplo
Si todos los trabajadores de un local tienen el mismo sueldo, entonces el sueldo no
podrá dar cuenta de las variaciones en sus tasas de absentismo laboral.
La popularidad de los análisis econométricos para estimar relaciones causales entre
variables ha comportado una sofisticación en la identificación de posibles relaciones
entre variables. No todas las relaciones posibles se limitan a efectos directos de
una o varias variables independientes sobre la dependiente. Quienes se dedican a proponer
modelos causales consideran a menudo otros tipos de variables:
-
Las variables moderadoras son las que (crees que) afectan a la relación entre la variable
independiente y la dependiente; esto es, condicionan o modifican el efecto de aquella
sobre esta. Cuando una variable moderadora está en juego, la variable independiente
tiene un efecto contingente sobre la dependiente en función de los valores asumidos
por la moderadora.
Ejemplo
En muchos países, el efecto del número de hijos sobre el número de horas trabajadas
por semana depende del género (está moderado o condicionado por este), hasta tal punto
de que suele ser positivo para los hombres y negativo para las mujeres. Obviamente,
este hallazgo debería dar que pensar a los responsables de las políticas de igualdad
de género.
-
Las variables intervinientes median en la relación entre la independiente y la dependiente.
Ejemplo
Puede que la religiosidad tenga efectos sobre el voto porque aquella afectara a la
ideología, que, a su vez, podría afectar al voto. De ser así, la ideología sería una
variable interviniente.
-
Las variables antecedentes son responsables de los cambios en otras variables entre
las que se detecta la existencia de algún tipo de relación.
Ejemplo
El hecho de que en las localidades en las que hay más cigüeñas haya más nacimientos
no se debe a que las cigüeñas traigan a los bebés, sino a la presencia de una variable
antecedente (que la localidad pertenezca al ámbito rural en lugar de al urbano) que
propicia un aumento tanto de la población de cigüeñas como de la tasa de natalidad.
Bibliografía
King, G.; Keohane, R.; Verba, S. (2000). El diseño de la investigación social: La inferencia científica en los estudios cualitativos. J. Cuéllar (trad.). Madrid: Alianza Editorial.
Przeworski, A.; Salomon, F. (1995). On the Art of Writing Proposals: Some Candid Suggestions for Applicants to Social
Science Research Council Competitions. Nueva York: Social Science Research Council.
Santana, A. (2013). Fundamentos para la investigación social. Madrid: Alianza Editorial.
Santana, A.; Rama, J. (2017). Manual de análisis de datos con Stata. Madrid: Tecnos.
Spiegel, M. R. (1991). Estadística (2.ª edición). R. Hernández Heredero (trad.). Madrid: McGraw-Hill.