Introducción

El genoma de cualquier organismo oculta astutamente distintos mensajes que involucran a la mayoría de las actividades celulares. La eficaz codificación de estas funciones mediante la oportuna combinación de diferentes señales es el resultado de millones de años de evolución. La obtención de la secuencia de los genomas de miles de especies constituye, por tanto, un hito sin precedentes en la historia del progreso científico. El paisaje genómico es enormemente rico en diferentes actores que gobiernan la activación de los genes en respuesta a numerosos condicionantes internos y externos. No obstante, dado que los mecanismos celulares de interpretación del código genético toleran un amplio grado de flexibilidad, resulta extremadamente difícil identificar con precisión el inventario completo de genes y otros elementos regulatorios y estructurales mezclados en distintas proporciones a lo largo de la secuencia genómica. Por esta razón, para anotar con garantías cualquier genoma es necesario aprovechar la potencia de cálculo de los ordenadores, validando posteriormente estas predicciones computacionales en el laboratorio tradicional. Como contrapartida por acelerar drásticamente el proceso de búsqueda, es necesario pagar un precio sobre la precisión de los resultados obtenidos computacionalmente. El grado de exactitud dependerá generalmente de la calidad de los modelos de predicción integrados en estas aplicaciones bioinformáticas. El correcto descifrado de toda esta información, en definitiva, constituye la tarea fundamental de la Genómica computacional.

Naturalmente, el análisis comparativo de estos resultados permite extraer un nuevo conocimiento que resulta muy valioso para complementar la información obtenida en los laboratorios experimentales. Para analizar con éxito estas colecciones de secuencias es fundamental realizar robustos contrastes de parecido.

Independientemente de las secuencias introducidas, el alineamiento de varias secuencias debe realizarse dentro de un estricto marco formal de trabajo. Este reglamento establece los criterios de puntuación para averiguar, en la mayoría de situaciones, cuál es el alineamiento óptimo en un tiempo razonable. Cuando efectuamos estas comparaciones es importante construir alineamientos sensatos desde el punto de vista biológico. En este sentido, la eleccion de la estrategia de contraste más apropiada será crítica para extraer las conclusiones más acertadas en cada contexto biológico. En cualquier caso, debemos ser conscientes de la enorme importancia de interpretar correctamente los alineamientos resultantes.

Pese a todos los esfuerzos, estamos todavía lejos de finalizar la anotación de nuestro propio genoma. Sin embargo, con el paso del tiempo progresivamente vamos conociendo con mayor detalle el contenido funcional de nuestros cromosomas. Precisamente el acceso universal a toda esta información está transformando radicalmente la investigación en Biología molecular y Biomedicina. Con los resultados de los estudios a nivel genómico, en el camino para explicar numerosos enigmas hasta ahora sin resolver, el enfoque científico clásico está derivando hacia nuevas aproximaciones más pragmáticas que en lugar de orientar el foco de la investigación hacia un gen en particular son capaces de analizar simultáneamente todos los genes involucrados en un proceso biológico concreto. Con posterioridad, en un segunda fase de la investigación, los candidatos más prometedores del ensayo a gran escala pueden ser estudiados experimentalmente con mayor garantía de éxito. Gracias al trabajo conjunto de miles de investigadores en todo el mundo, podemos explorar desde nuestro propio ordenador toda la información genómica existente hasta el momento presente. El progreso exponencial experimentado por la ciencia en la última década se sustenta, en gran parte, en la implementación de herramientas eficientes de transmisión de información sobre la plataforma de la Red. Hoy en día, para un investigador, resulta extremadamente sencillo explorar desde su propio ordenador personal la totalidad de las anotaciones biológicas realizadas sobre una región concreta del genoma por otros miembros de la comunidad científica.

Los navegadores genómicos son una poderosa herramienta para inferir computacionalmente nuevo conocimiento a partir de los datos aportados por otros medios más tradicionales, como los resultados obtenidos en un entorno experimental. Los enormes avances conseguidos en los estudios de regulación genómica más recientes, de hecho, no pueden comprenderse sin la contribución capital de esta clase de aplicaciones bioinformáticas.

Mediante una serie de convenios razonablemente establecidos, cualquier científico puede obtener en pocos minutos el cartografiado completo del genoma para realizar nuevas contribuciones. Con estas regulaciones generalmente aceptadas por la comunidad de investigadores, el conocimiento existente sobre el genoma de una especie (la secuencia de nucleótidos y el mapa de anotaciones sobre esta) resulta continuamente actualizado, gracias a la incesante actividad científica que intenta caracterizar con mayor precisión cada escenario biológico que ocurre dentro del entorno celular.

El conocimiento de este compendio de métodos computacionales de anotación, comparación de secuencias y visualización de datos a traves de la Red promete otorgar ventaja a los usuarios expertos en estos tratamientos en el transcurso de su investigación experimental. Por esta razón, a lo largo de este libro explicaremos al lector los mecanismos esenciales para explorar con garantías los genomas utilizando estos portales web, incidiendo especialmente en la correcta interpretación del increíble volumen de información que contienen, presentaremos las estrategias básicas de comparación de secuencias, enfatizando en el modo apropiado para interpretar los resultados en distintos contextos biológicos, y estudiaremos las técnicas de anotación computacional de los genomas eucariotas, tomando la identificación de genes y las regiones reguladoras de su transcripción como principales casos de estudio.