Distancia Física En Pares De Bases (bp)

   EMBED

Share

Preview only show first 6 pages with water mark for full document please download

Transcript

TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 1 TEMA1. LA GEOGRAFÍA DEL GENOMA HUMANO Historia y desarrollo del Proyecto Genoma Humano. Estructura del Genoma Humano. El ADN repetitivo. El Proyecto ENCODE. El genoma mitocondrial. 1.1 Historia y desarrollo del Proyecto Genoma Humano En 1986, el Departamento de Energía de los Estados Unidos lideró la Iniciativa del Genoma Humano, tras varios años de contactos y reuniones, y puso en marcha el mayor proyecto biomédico de la historia con el objetivo final de conseguir la secuencia completa del genoma humano en el año 2005. El Proyecto Genoma Humano comenzó oficialmente en Estados Unidos en octubre de 1990, siguiendo un plan a cinco años para desarrollar las herramientas que permitiesen conseguir esa meta. Estas herramientas eran principalmente la construcción de mapas genéticos (de ligamiento) y de mapas físicos (de clones) de todo el genoma humano, al tiempo que se desarrollaba la tecnología necesaria para realizar secuenciación a gran escala. La estrategia general consistió en construir mapas genéticos y físicos e integrarlos, para aumentar cada vez más en resolución desde el cromosoma hasta la secuencia de ADN. El concepto de ligamiento genético y la forma en que se cuantifica son objeto del Tema 4. Si el lector no está familiarizado con la construcción de mapas de ligamiento, se aconseja leer el primer apartado de ese Tema antes de seguir leyendo. Los mapas genéticos describen la organización cromosómica de caracteres (un rasgo fenotípico, una enfermedad) o de marcadores genéticos, mediante estudios de ligamiento genético. Distancia en centimorgans (cM) DS16C4 DS16B3 STS 8 STS 6 STS 7 STS 5 DS16A2 DS16A1 STS 4 STS 3 STS 1 STS 2 MAPA GENÉTICO DE LIGAMIENTO 4 marcadores posicionados por estudios de ligamiento MAPA FÍSICO 8 marcadores tipo STS cuya posición es conocida Distancia física en pares de bases (bp) Figura 1.1 Un video explica cómo son los mapas físicos y los mapas de ligamiento genético, y su utilización en el Proyecto Genoma Humano. TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 2 Los primeros éxitos de mapeo genético en humanos fueron los que consiguieron asociar un carácter a un cromosoma, como por ejemplo el ligamiento del daltonismo al cromosoma X, o ligamiento del grupo sanguíneo Duffy al cromosoma 1. Este último fue el primer rasgo hereditario mapeado a un autosoma (en 1968) gracias a que, en una familia concreta, se observó que este rasgo se heredaba junto con un heteromorfismo del cromosoma 1. Esto puso de manifiesto la utilidad de contar con marcadores de ADN que estuviesen distribuidos por todo el genoma, fuesen fáciles de estudiar en un número alto de individuos y tuviesen una posición cromosómica conocida, ya que así se podrían realizar estudios de ligamiento genético en familias que padecen una determinada enfermedad genética para determinar si esa enfermedad está en ligamiento con alguno de estos marcadores, lo que facilitaría la identificación del gen responsable. Los tipos de marcadores más utilizados en estudios de ligamiento en Genética Humana son: Polimorfismos de Longitud de Fragmentos de Restricción (en inglés, las siglas son RFLP). Un RFLP es un polimorfismo originado por un cambio de un nucleótido que crea o destruye una diana de restricción, de manera que encontraremos alelos con esa diana y alelos sin ella. Por tanto, un RFLP es por definición un marcador bialélico (sólo hay dos alelos posibles). La presencia o ausencia de esa diana hace que los fragmentos originados por la digestión del ADN con esa enzima de restricción sean de distinto tamaño. En general, un polimorfismo tipo RFLP puede detectarse de dos modos: a) digerir directamente el ADN genómico, separar los fragmentos en un gel, hacer un Southern blot e hibridarlo con una sonda específica para detectar cada uno de los fragmentos polimórficos; b) amplificar la región del polimorfismo mediante PCR y digerir directamente el producto de PCR para separar los fragmentos en un gel. Los marcadores tipo VNTR (acrónimo inglés de ―Número Variable de Repeticiones en Tándem") son polimorfismos originados por pequeñas secuencias de ADN que están repetidos en tándem. El número de repeticiones es diferente en los distintos individuos de la población, por lo que en principio pueden existir más de dos alelos distintos para cada marcador (aunque cada individuo sólo lleve dos alelos, en la población general pueden existir más). Los marcadores en los que la secuencia repetida es corta (2 a 4 nucleótidos) se denominan también microsatélites ó STR (“Short Tandem Repeats", Repeticiones Cortas en Tandem), y están homogéneamente distribuidos por todo el genoma. Los marcadores en los que la secuencia repetida es más larga (decenas a cientos de nucleótidos) se denominan minisatélites, y han sido muy importantes en los estudios de genética forense ya que permiten establecer una huella genética única para cada individuo. Los minisatélites son más abundantes hacia las regiones teloméricas de los cromosomas, y debido a su tamaño en principio deben detectarse mediante Southern blot e hibridación. En cambio, los marcadores de tipo microsatélite pueden detectarse mediante PCR y están distribuidos uniformemente por el genoma, por lo que su análisis es más rápido y sencillo y proporcionan mayor información. Los SNP (pronunciado ―snip‖) son polimorfismos de un solo nucleótido (“Single Nucleotide Polymorphisms”) en los que el simple cambio de un nucleótido en una secuencia genómica da lugar a distintos alelos. Lógicamente, para cada posición sólo puede haber cuatro alelos como máximo (A, C, G ó T), aunque lo habitual es que un SNP tenga dos alelos en la población general. Se estima que, como promedio, hay al menos un SNP cada 500-1.000 pares de bases, de los cuales un porcentaje importante son polimorfismos codificantes (es decir, cambian un aminoácido en la proteína codificada por el gen) y constituyen la principal fuente de variabilidad genética inter- TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO individual, puesto que dos individuos cualesquiera tienen alrededor de un 0,1% de sus nucleótidos distintos. La gran ventaja de los SNP sobre los demás tipos de marcadores, además de ser tan abundantes y estar muy uniformemente distribuidos por todo el genoma humano, es la posibilidad de analizarlos mediante métodos automatizables a gran escala, como los microarrays, de manera que se pueden determinar cientos ó miles de SNPs a la vez en un mismo experimento. Figura 1.2 Dos videos ilustras los marcadores más utilizados en la construcción de mapas de ligamiento genético en humanos. El objetivo inicial del PROYECTO GENOMA era crear un mapa genético (de ligamiento) con marcadores distribuidos por todo el genoma con una distancia media de 1 cM entre marcadores. Los mapas genéticos se basaron en un primer mapa publicado en 1987, hecho con 393 marcadores tipo RFLP agrupados en 23 grupos de ligamiento, con una distancia media entre marcadores superior a 10 cM. El primer mapa genético de todo el genoma fue el realizado por un centro de investigación francés llamado Généthon en 1992, e incluía 803 marcadores tipo microsatélite. Los mapas físicos, en cambio, reconstruyen la estructura de un segmento de ADN, determinando los tipos y orden relativo de las distintas secuencias que lo componen, sus tamaños, y las distancias entre ellas. Para la construcción de mapas físicos se utiliza un tipo de marcador distinto, que veremos más adelante. Lógicamente, el mapa físico de mayor resolución posible es la secuencia completa de ese segmento (resolución de 1 nucleótido), pero también es posible realizar mapas de menor resolución (un ejemplo, mapas de restricción). El tipo de marcador utilizado en la creación de mapas físicos se denominó STS (Sequence-Tagged Site = Sitio Etiquetado por su Secuencia). Un STS es un pequeño fragmento de ADN (unos pocos cientos de pares de bases) de secuencia y localización genómica conocidas, fácilmente amplificable mediante PCR. Durante años se habían identificado un buen número de marcadores STS, mediante la secuenciación parcial de clones previamente mapeados por otros métodos. Además, los microsatélites utilizados en la creación de mapas de ligamiento también pueden convertirse fácilmente en STS, leyendo la secuencia que flanquea las repeticiones del microsatélite. Gracias a esto, hoy contamos con una lista ordenada de STS que están distribuidos por todo el genoma humano, cuya secuencia y condiciones de amplificación mediante PCR son fácilmente accesibles a todo investigador. El PROYECTO GENOMA se propuso inicialmente conseguir mapas de marcadores tipo STS distribuidos por todo el genoma y con una distancia media entre marcadores en torno a 0.1 Mb (es decir, 100kb). Utilizando estos marcadores STS, se pudieron construir mapas físicos, es decir mapas compuestos por clones de bibliotecas genómicas, capaces de albergar insertos de gran tamaño. Existen distintos vectores de este tipo, entre los que destacan los vectores tipo YAC (Yeast Artificial Chromosome), PAC (P1phage Artificial chromosome) y BAC (Bacterial Artificial Chromosome). Cada uno de estos vectores de clonación tiene características específicas, ventajas e inconvenientes. En concreto, los YAC son los vectores que permiten albergar un mayor tamaño de inserto (hasta 2 Megabases), pero son bastante inestables (tienden a perder fragmentos del inserto cuando se replican) y tienen un porcentaje relativamente alto de clones quiméricos (es decir, clones en los que el inserto está en realidad formado por dos fragmentos procedentes de cromosomas distintos). Los PACs y BACs, en cambio, sólo permiten clonar insertos de unas 100 a 150 kilobases de tamaño (por lo que son necesarios muchos más clones para cubrir completamente un segmento genómico determinado), pero en cambio son muy estables y el porcentaje de quimerismo es muy pequeño. Aunque los YACs han sido el vector principalmente utilizado al principio de los años 90, hoy en día han sido desplazados por PACs y BACs. 3 TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 4 La Figura 1.3 explica la utilización de marcadores STS para crear un contig de clones que cubran una región del genoma. DS16B3 DS16C4 STS 8 STS 6 STS 7 DS16A2 STS 4 STS 3 STS 5 DS16A1 STS 1 STS 2 CONTIG: conjunto de clones solapantes que cubren una región del genoma La secuenciación de cada clon permite reconstruir la secuencia original de esa región genómica GGAGACTACGGAGATTACCTACGGGACTACAGAAGGAGACTACGGAGAGTACCTACGGGACTGTCT Los primeros mapas físicos del genoma humano estaban compuestos por contigs de YACs que cubrían parcialmente el genoma humano, siendo el mejor ejemplo el mapa creado también por Généthon en 1993. Este mapa supuso un avance enorme porque —aunque no cubría muchas regiones genómicas— sirvió como punto de partida para elaborar mapas más completos con vectores más fiables y manejables, como BACs y PACs. El PROYECTO GENOMA hizo una revisión de sus objetivos en 1993, teniendo en cuenta los progresos realizados en los 3 años anteriores, y estableció nuevas metas para los siguientes 5 años (1993-1998). En resumen, estos nuevos objetivos fueron: conseguir un mapa genético con resolución de 2 a 5 cM entre marcadores. conseguir un mapa físico con STS espaciados regularmente cada 0.1 Mb (lo que significaba identificar y localizar la posición de —como mínimo— unos 30.000 STS). desarrollar nuevas tecnologías para la identificación de genes a partir de ADN genómico. desarrollar nuevas tecnologías de secuenciación y completar 80 Mb de secuencia confirmada para todos los organismos que estaban siendo secuenciados por los distintos proyectos. Potenciar la genómica comparada: completar las secuencias de E. coli, S. cerevisiae y C. elegans, y comenzar los proyectos de secuenciación de los genomas de Drosophila y de ratón. Cuando en 1998 se revisaron los avances realizados en esos cinco años, con el fin de diseñar un nuevo plan quinquenal, los resultados habían sido realmente prometedores: en Septiembre de 1994 se publicó un mapa genético de todo el genoma humano integrado por 4.000 marcadores tipo microsatélite y 1.800 TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 5 marcadores tipo RFLP, con una distancia media entre marcadores de 0.7 cM. Esto superaba en más de 3 años el objetivo propuesto inicialmente. Por su parte, Généthon publicó en 1995 otro mapa físico de YACs que estaba formado por 255 contigs (con un tamaño medio de 10 Mb cada contig) y cubría el 75% del genoma humano. Durante esos años se continuaron desarrollando nuevos marcadores tipo STS, hasta llegar en 1998 a un mapa que contenía 52.000 STS (casi el doble de los inicialmente propuestos). Por lo que respecta a la secuenciación, en octubre de 1998 se había obtenido un total de 180 Mb de secuencia del genoma humano (6% del total), además de 111 Mb de secuencia de otros organismos, muy por encima de lo previsto en el plan 1993-1998. Además, se había completado la secuencia de E. coli y de S. cerevisiae, éste último el primer organismo eucariota en ser secuenciado totalmente. Esto fue posible gracias a importantes avances en la tecnología de secuenciación, que se hizo progresivamente más rápida, fiable y barata. Posteriormente, en diciembre de 1998, se completó la secuencia de C. elegans, el primer organismo multicelular secuenciado en su totalidad con un genoma de unas 97 Mb. Por tanto, en 1998 el PROYECTO GENOMA se fijó un nuevo plan de objetivos hasta el año 2003, en el que se incluían 6 metas concretas: 1. Completar la secuencia del genoma humano para 2003 (año que coincidía con el 50º aniversario del descubrimiento de la doble hélice por Watson y Crick), creando un primer borrador de trabajo en el 2001. Este objetivo se aceleró enormemente por la competencia de la empresa privada Celera Genomics (también iniciativa de Craig Venter), que se propuso secuenciar todo el genoma humano, utilizando una estrategia distinta al consorcio internacional del PROYECTO GENOMA, con el fin de obtener la propiedad intelectual y poder explotar esa información con fines comerciales. A pesar de los problemas suscitados inicialmente por la fuerte competencia entre ambos proyectos, el 26 de junio de 2000 se produjo el anuncio oficial de que se había alcanzado un primer borrador del 87% de la secuencia del genoma humano. Este primer borrador fue publicado el 15 de Febrero de 2001 en las revistas Nature (el mapa del Consorcio Internacional) y Science (el mapa de Celera Genomics). Figura 1.4 Video que muestra el proceso general de utilizado por el Consorcio Internacional para la secuenciación del Genoma Humano. 2. Continuar el desarrollo y la innovación de las tecnologías de secuenciación. Como ya se ha comentado, éste ha sido un factor determinante en el avance del PROYECTO GENOMA. 3. Estudiar la variación en el genoma humano. Como hemos visto, los SNP se encuentran en el genoma humano a razón de 1 por cada kilobase, como promedio, y representan las diferencias genéticas entre individuos de una misma especie. Como se verá en el Capítulo 11, la creación de mapas densos de SNP permitirá llevar a cabo estudios de asociación para detectar los genes que están implicados en enfermedades complejas, debidas a alteraciones en muchos genes —siendo la contribución de cada gen a la enfermedad pequeña― y, por tanto, difíciles de detectar por otros métodos de ligamiento paramétrico. 4. Desarrollar tecnología para la “genómica funcional”, es decir, identificar todos los genes y determinar cuál es la función de cada gen. La gran revolución en las estrategias de identificación de regiones codificantes (es decir, genes) comenzó con la idea de Craig Venter de secuenciar al azar y a gran escala fragmentos de ADNc de bibliotecas obtenidas a partir de diversos tejidos. Estos TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO fragmentos de secuencia se denominaron "Etiquetas de Secuencia Expresada" (EST, Expressed Sequence Tags), ya que —en el fondo— cada una representa un fragmento de un ARNm (una secuencia expresada en un tejido concreto). En pocos años, la base de datos de EST creció de manera exponencial, con cientos de miles de secuencias expresadas procedentes de distintas bibliotecas de ADNc. Como algunos de estos EST proceden de un mismo ARNm, se creó una colección no redundante llamada UNIGENE que agrupa los EST por familias, siemdo cada familia representativa de un único ARNm. Poco después comenzaron también proyectos internacionales para mapear secuencias de UNIGENE, de manera que en 1994 se publicó un primer mapa con la localización de 16.000 EST correspondientes a genes distintos, y en 1998 se publicó un segundo mapa de 41.664 EST, que representaban 30.181 genes distintos. Cuando se conozca el catálogo completo de genes de nuestro genoma, será necesario estudiar la expresión de cada gen en distintos tejidos y en distintas situaciones fisiológicas y patológicas, en respuesta a distintos factores ambientales, etc. Lógicamente, esto será el objeto de la investigación biomédica de buena parte del siglo XXI. 5. Genómica Comparada. El análisis comparado de los genomas de varias especies es de gran utilidad para identificar mecanismos biológicos conservados durante la evolución (por lo que son especialmente importantes), estructura y función de genes ortólogos, etc. Aunque el plan para 19982003 se propuso conseguir la secuencia completa del genoma de Drosophila para el año 2002, esta meta se cumplió en abril del año 2000 gracias a la colaboración de laboratorios y Universidades con Celera Genomics, descifrando unas 120 Mb de secuencia que comprenden la práctica totalidad de la eucromatina de este insecto. El nuevo gran reto ahora es conseguir la secuencia completa del genoma de otras especies de mamíferos: el primer borrador completo del genoma de ratón se obtuvo en 2002 y el del genoma de chimpancé en 2005. 6. Implicaciones éticas, legales y sociales del PROYECTO GENOMA. Es importante tener consciencia de la influencia que va a tener el Proyecto Genoma y sus aplicaciones sobre los individuos y las sociedades. Cuestiones como el diagnóstico de enfermedades que no tienen tratamiento, la extensión de una mentalidad eugenésica que lleve a la discriminación por razón de deficiencias genéticas, el diagnóstico prenatal de alteraciones genéticas que confieren predisposición a sufrir enfermedades que se manifestarán en la edad adulta, la detección de rasgos psicológicos con base genética, la confidencialidad de la información genética de los individuos (y la posible discriminación laboral) serán una constante en los debates sociales de este siglo, y es importante llevar a cabo una labor de divulgación seria para que la sociedad pueda discutir de modo sosegado y bien fundamentado las bases éticas sobre las que sostener las aplicaciones biomédicas de la biotecnología en los años que se avecinan. 7. Desarrollo de herramientas bioinformáticas (bases de datos y herramientas de análisis de datos) que puedan ser compartidas por la comunidad científica. Será especialmente importante el desarrollo de herramientas informáticas que permitan identificar exones y predecir la estructura de genes en grandes secuencias genómicas, así como plataformas de genómica funcional para el análisis de la expresión de miles de genes a la vez. 8. Formación en genómica: favorecer que científicos y académicos se dediquen a la investigación genómica y a divulgar y aumentar el conocimiento público de los distintos aspectos del PROYECTO GENOMA. 6 TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO Finalmente, la primera versión esencialmente completa del genoma humano fue anunciada oficialmente el 14 de abril de 2003, cubriendo un total de 3.069 Mb (92.3% del total estimado del genoma humano) con un 99.99% de fiabilidad en cada posición secuenciada. El análisis de la secuencia publicada permite hacerse una idea bastante aproximada de la estructura de nuestro genoma, su composición y algunas de sus características funcionales, como se explica a continuación. Estructura del genoma humano y variación inter-individual El genoma humano nuclear tiene un tamaño aproximado de 3.200 Mb (megabases), es decir tres mil doscientos millones de pares de bases. Esta cifra total incluye unas 2.950 Mb de eucromatina y unas 250 Mb de heterocromatina (formada, como veremos, por ADN satélite). Esta cifra se refiere al genoma haploide, de manera que las células somáticas (diploides) contienen el doble. Figura 1.5 El video da una visión general de los distintos tipos de secuencias que constituyen el genoma humano. Una primera clasificación del genoma humano distingue, por un lado, los genes y secuencias relacionadas con genes (exones, intrones, regiones no traducidas que contienen elementos reguladores, etc), y por otro todo el ADN que está entre los genes, llamado ADN extragénico o ―de relleno‖ y que no codifica ninguna proteína ni contiene ningún elemento funcional. Curiosamente, la mayor parte del genoma humano (un 70%) está formada por este último, de forma que sólo un 30% del genoma humano incluye secuencias relacionadas con genes. Lo más sorprendente es que de este 30% sólo un 5% está constituído por ADN codificante (exones), siendo el resto ADN no-codificante asociado a genes. Por tanto, resulta que sólo un 1,5-2% del total del genoma humano es ADN codificante. El ADN extragénico está formado, sobre todo, por los componentes repetitivos del genoma humano que se explicarán más adelante, aunque también hay secuencias únicas o en bajo número de copia. Desde la publicación del primer borrador del Genoma Humano en febrero de 2001, podemos dar unos valores promedio estimados a partir de los datos publicados:  Se estima que el genoma humano contiene en torno a los 20.000 - 25.000 genes.  Alrededor de un 50% del genoma humano está constituido por ADN repetitivo.  Se puede estimar la densidad media de genes es de 1 gen cada 100 kb, aunque existen regiones ricas en genes (algunas zonas del cromosoma 19, por ejemplo) y otras regiones que son muy pobres en genes (como el cromosoma Y). Por tanto, se puede deducir una frecuencia media de 10 genes por cada Mb de secuencia.  El tamaño promedio de un gen humano es de 20-30 kb, aunque hay grandes diferencias de unos genes a otros.  El número de exones que forman un gen es muy variable (desde genes que tienen un solo exón hasta algunos genes con 100 exones ó más), pero podemos establecer un valor promedio de 7-8 exones por gen.  El tamaño medio de un exón es de 150 nucleótidos. Por lo que respecta a los intrones, en cambio, existe una enorme variabilidad de tamaños, y no es infrecuente encontrar en casi todos los genes algún intrón de gran tamaño.  El tamaño medio de un ARNm es de 1,8-2,2 kb incluyendo las regiones no-traducidas flanqueantes. La longitud media de una región codificante es de 1,4 kb. 7 TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 8 Una de las características más evidentes del borrador de nuestro genoma es su heterogeneidad. En efecto, la secuencia no es uniforme, sino que muchas de sus características (riqueza en C+G frente a A+T, riqueza en genes, etc) se distribuyen heterogéneamente, con regiones de gran abundancia flanqueadas por regiones en que esos parámetros son más escasos. Así por ejemplo, el contenido medio de G+C del genoma humano es del 41%, menor de lo teóricamente esperado. Además, si el genoma se divide en "ventanas" de 20 kb se observan regiones con valores muy alejados del promedio, con una dispersión 15 veces mayor de lo que sería esperable si la distribución fuese uniforme. La distribución de %G+C de estas ventanas no se ajusta a una distribución normal, sino que está desviada hacia valores bajos. Además, se ha comprobado que los genes tienden a concentrarse en las ventanas más ricas en G+C. Esto se conocía ya de antiguo, y de hecho se había acuñado el término isocoro para designar las regiones genómicas que son homogéneas en cuanto al contenido en G+C y que pueden separarse mediante gradientes de densidad. Se distinguen isocoros L e isocoros H, según su contenido en G+C sea bajo (Low) ó alto (High), y dentro de cada isocoro hay varios subgrupos. La tabla que se presenta a continuación resume algunas características importantes de los distintos isocoros: Isocoro % % del Contenido Mb ADN Densidad GC genoma Genes % L1 38 30 48 1,860 1 cada 130 kb de genes L2 41 32 H1 44 19 27 870 1 cada 100 kb H2 49 10 H3 53 9 25 270 1 cada 35 kb Como puede apreciarse, existe una relación directa entre el contenido de una región genómica en nucleótidos G+C y su riqueza en genes. Es decir, hay en el genoma humano unas regiones con mayor riqueza de genes, regiones que a su vez son las que tienen un mayor porcentaje de nucleótidos G+C. Otro hallazgo inesperado en nuestro genoma ha sido la presencia de mayor número de duplicaciones del que se había estimado hasta entonces. De hecho, el análisis muestra alrededor de un 5% de duplicaciones segmentarias, definidas como dos ó más segmentos cromosómicos >1 kb con >90% de identidad de secuencia; dicho nivel de homología corresponde a una antigüedad de unos 40 millones de años. Las duplicaciones intracromosómicas (las copias están en el mismo cromosoma) tienen un tamaño medio de unas 100 kb, mientras que las duplicaciones intercromosómicas (entre cromosomas distintos) son más pequeñas (10-50 kb). Las duplicaciones segmentarias son más frecuentes en regiones centroméricas y cerca de los telómeros (donde pueden llegar a constituir un 25% de la secuencia). Los centrómeros, en concreto, están flanqueados por regiones ricas en duplicaciones intercromosómicas procedentes de regiones eucromáticas de otros cromosomas, que se han ido transponiendo a zonas pericentroméricas a una velocidad de 6-7 eventos por millón de años durante la evolución de primates. Las duplicaciones intracromosómicas pueden dar lugar a alteraciones genómicas, como veremos en un Tema posterior. TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO La Figura 1.6 muestra esquemáticamente los tipos de duplicaciones segmentarias. Además de las duplicaciones segmentarias, se ha visto que hay muchas otras regiones relativamente grandes del genoma que están en distinto número de copia en personas diferentes. Por tanto, constituyen un tipo de polimorfismo, de ahí que se denominen LCV (Large-scale Copy number Variations), CNP (Copy Number Polymorphisms) o CNV (Copy Number Variants), que es el nombre más utilizado en la actualidad. Una característica de todas estas regiones es que están flanqueadas por duplicaciones segmentarias, y esto hace pensar que la variación en el número de copias es el resultado de reordenaciones entre esos elementos flanqueantes. En los últimos años, las nuevas tecnologías han permitido elaborar un catálogo bastante exhaustivo de estas variantes, con más de ocho mil regiones tipo CNV que comprenden en total casi un 4% de la secuencia del genoma humano. Dos personas tomadas al azar tendrán diferencias en más de mil CNV, lo que supone una gran fuente de variabilidad genética inter-individual ya que cada una de esas regiones incluye uno o más genes. Estudios recientes han asociado alguna de estas variantes con la susceptibilidad a desarrollar enfermedades, especialmente de tipo neurológico. Por ejemplo, en 2011 se vio que las personas con una duplicación de una región del cromosoma 7 tienen un riesgo 15 veces superior de desarrollar esquizofrenia que las personas sin esa variante. Otro estudio, realizado sobre más de 15.000 niños con discapacidades congénitas, demostró que hasta un 15% de estas patologías es atribuible a un número anormal de copias de una región genómica. Es previsible que en los próximos años se sigan descubriendo CNV que confieren un alto riesgo de padecer una enfermedad común. El análisis de la secuencia también ha mostrado la alta cantidad de pseudogenes que hay en el genoma humano. Como su nombre indica, los pseudogenes son versiones ―incorrectas‖ de genes, que contienen diversos tipos de mutaciones y habitualmente no se transcriben. Se dividen en pseudogenes no procesados y pseudogenes procesados. Los primeros son copias de un gen, habitualmente originadas por duplicación del gen original y posteriores mutaciones que hacen que la copia pierda su capacidad codificante. Contienen exones e intrones, pero que carecen de promotor y habitualmente tienen codones de parada prematuros. En cambio, los pseudogenes procesados son copias del ARN mensajero de un gen, que se ha retrotranscrito e insertado en otra posición del genoma (de ahí que se denominen también retropseudogenes). No tienen intrones, y tampoco tienen capacidad codificante por la ausencia de promotor y por la presencia de codones de parada. Se han identificado unos 11.000 pseudogenes en el genoma humano, de los que la mayor parte (unos 8.000) son pseudogenes procesados. En total, se estima que el número de pseudogenes en nuestro genoma puede llegar a unos 20.000. De todas formas, todos los pseudogenes detectados se originan a partir de tan sólo unos 2.500 genes funcionales, de modo que la mayor parte de los genes no tienen ningún pseudogen en el genoma. La Figura 1.7 muestra la estructura de los distintos tipos de pseudogenes. Recientemente se han encontrado 481 segmentos >200 pares de bases totalmente conservados (100% de identidad sin gaps) en rergiones ortólogas de humano, rata y ratón, y la gran mayoría están también conservados en pollo y perro (95 and 99% de identidad, respectivamente). Muchas también están conservadas en pez. Estos "elementos ultraconservados" se solapan con exones de genes implicados en el procesamiento de ARN, y también son abundantes en intrones de genes relacionados con el desarrollo o con la regulación de la transcripción. Junto con las más de 5000 secuencias >100 nucleótidos que están totalmente conservadas en los 3 mamíferos secuenciados, estos fragmentos 9 TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 10 constituyen una nueva clase de elementos genéticos cuya función está por determinar, pero el hecho de que están más conservados que las proteínas indica que deben jugar algún papel importante. También es importante dedicar unas líneas a describir la presencia de genes que dan lugar a microARN. Como es sabido, el estudio del mecanismo de interferencia de ARN ha llevado a la identificación de ARN interferentes endógenos en los genomas de eucariotas, incluido el genoma humano. Estos ARN se denominan microARN (miARN) y se transcriben a partir de genes con un promotor de ARN-polimerasa II. Estos genes tienen un segmento palindrómico, de modo que el ARNm primario forma un pri-miARN que contiene una horquilla de ARN bicatenario; este pri-miARNm es procesado dentro del núcleo de la célula por una ARNasa tipo III llamada DROSHA y esto da lugar a un pre-miARN, una ARN bicatenario con forma de horquilla de unos 70 nucleótidos de tamaño. El premiARN sale del núcleo y es procesado en el citoplasma por Dicer, originando un miARN de unos 22 nucleótidos. Éste entra a formar parte del complejo RISC (denominado miRISC para los miARN) y regula la expresión de genes diana mediante degradación de sus mensajeros o por represión de la traducción. Actualmente se han identificado más de 300 genes de miARN en el genoma humano, y se calcula que puede haber en torno a 500. La mayoría de estos genes se localizan en intrones de genes codificantes, y además están bastante conservados en primates. Dado que cada uno de estos miARN puede regular la expresión de varios genes diana, se estima que hasta un 20-30% de todos los genes del genoma humano pueden estar regulados por miARN, lo que les confiere una extraordinaria importancia. La secuenciación del genoma humano ha permitido también estudiar la variación genética interindividual, es decir, las diferencias genéticas que están en la base de las diferencias fenotípicas entre individuos. Esto tiene gran relevancia médica, porque muchas de estas variantes pueden ser también causa de la distinta susceptibilidad a desarrollar enfermedades o la diferente respuesta a fármacos que tienen personas distintas. Uno de los tipos más importantes de variabilidad genética es el constituido por los cambios en un nucleótido de la secuencia, conocidos ―como hemos visto― con el nombre de SNP. Uno de los objetivos del PROYECTO GENOMA HUMANO era el estudio de la diversidad genética, y esto ha cristalizado en otro proyecto internacional denominado Proyecto HapMap que se propone precisamente identificar los SNP más frecuentes en el genoma humano en individuos de diferentes grupos étnicos. En octubre de 2005, el Proyecto Hapmap publicó un primer mapa que contiene 1.007.329 SNP con una distancia media entre ellos de 5 kb, con una frecuencia del alelo más frecuente igual ó superior al 5% (es decir, presentes en al menos el 5% de la población). Todos estos SNP fueron genotipados en 269 individuos de cuatro grupos raciales: 90 de raza yoruba, de Nigeria; 90 caucasianos de Utah; 45 de raza han, de China; y 44 japoneses. La segunda fase de este Proyecto, publicada en 2007, genotipo casi tres millones de SNPs en esta misma muestra. En la fase III, concluida en 2009, se genotiparon 1,6 millones de SNPs en 1184 individuos de 11 poblaciones distintas de todo el planeta. La inspección de estos mapas permite hacerse una idea de la variación existente en el genoma, tanto entre individuos como entre distintos grupos geográficos. Además, estos datos han permitido comprobar que esta variación se agrupa en bloques, de modo que todos los SNP de un mismo bloque se heredan juntos. En un capítulo posterior veremos la importancia de estos bloques para estudiar la asociación de SNP concretos con la susceptibilidad a padecer enfermedades. La Figura 1.8 muestra la estructura de los haplotipos formados por los alelos de varios SNP cercanos. TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 11 Finalmente, se ha catalogado también otro tipo de variación consistente en polimorfismos de inserción/deleción pequeños (de tamaños entre 1 nucleótido a 10 kb). Se han detectado varios cientos de miles, y se estima que en total hay alrededor de 1,5 millones de estos polimorfimos en el genoma humano. Aunque se distribuyen por todo el genoma, se ha visto que en algunas regiones son especialmente frecuentes. Muchos de ellos están dentro de genes, y pueden causar alteraciones cuando afectan al promotor o a la región codificante (exones). Los últimos años han presenciado una revolución en las tecnologías de secuenciación, lo que ha permitido comenzar proyectos para leer la secuencia de genomas completos de muchas personas. El proyecto internacional más importante, en este sentido, se llama 1000 Genomes, y ya está dando sus primeros frutos. En 2010 se publicaron los primeros resultados de este proyecto, en el que se secuenciaron 179 genomas de 4 poblaciones distintas. Según estos datos, cada persona es portadora de unos 3 millones de variantes genéticas, de las cuales diez mil son potencialmente patogénicas y afectan en promedio a 250 genes. Además, 60 de esas variantes han sido previamente asociadas con alguna enfermedad. Otro estudio, publicado en 2012, analizó la secuencia de 185 genomas humanos, buscando mutaciones que puedan anular la función de genes conocidos; los resultados fueron menos dramáticos, pero aun así preocupantes: cada individuo (normal) lleva unas 100 mutaciones que afectan a genes, de las cuales unas 20 conducen a la inactivación de los genes respectivos. El ADN Repetitivo Como hemos visto al principio de este Capítulo, hasta un 50% del Genoma Humano está constituido por ADN repetitivo, antiguamente conocido como "ADN basura". Por su importancia, a continuación estudiamos con mayor detalle su composición y los distintos tipos de secuencias que lo forman. Ya se ha mencionado que podemos encontrar ADN repetitivo tanto en el ADN codificante (en los genes y secuencias relacionadas) como en el ADN no-codificante, pero la mayor parte se encuentra en el ADN no-codificante. Quizás el único ejemplo de ADN repetitivo codificante que merece la pena reseñar es el correspondiente al ADN ribosomal, que se concentra en los brazos cortos de los cromosomas acrocéntricos (13, 14, 15, 21 y 22) y está formado por tres genes que dan lugar a los tres ARN ribosomales de 5,8S, de 18S y de 28S. Los tres genes están juntos formando un bloque que mide unas 13 kilobases. Estos bloques se encuentran repetidos unas 50 veces, separados entre sí por un espaciador intergénico que mide unas 30 kilobases. En conjunto, el ADN ribosomal ocupa un tamaño de unas 2 Megabases. En el ADN no-codificante, tanto intragénico (es decir, intrones y otras regiones no-codificantes relacionadas con genes) como extragénico, podemos encontrar diversos tipos de elementos repetidos. En general, se trata de una secuencia de ADN que se repite en el genoma cientos o miles de veces. Estas repeticiones pueden encontrarse en tándem (es decir, seguidas una detrás de otra) o dispersas. El ADN repetido en tandem se divide en varios grupos según el tamaño total que origina la repetición:  El genoma humano contiene en total unas 250 Mb de ADN satélite (llamado así porque al separar el ADN genómico en gradientes de densidad aparece como 3 bandas "satélites" de la banda principal). El ADN satélite está formado por la repetición de una secuencia de ADN miles de veces en tandem, es decir unas copias pegadas a otras. Esto da lugar a regiones repetidas con tamaños que TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 12 van desde 100 kb hasta varias megabases. Por ejemplo, el ADN Satélite 1 es una secuencia de 42 nucleótidos, mientras que en el Satélite 2 la secuencia repetida es (ATTCCATTCG) y en el Satélite 3 se repite el pentámero (ATTCC). Un tipo de ADN satélite muy importante es el ADN alfoide ó Satélite alfa, en el que la secuencia repetida tiene un tamaño de 171 nucleótidos, y que forma parte del ADN de los centrómeros de los cromosomas humanos. Otros tipos de ADN satélite son el Satélite beta (repetición de 68 nucleótidos) y el Satélite gamma (repetición de 220 nucleótidos), que también se encuentran en la cromatina centromérica de varios cromosomas.  El ADN de tipo Minisatélite está formado por secuencias de 6 - 25 nucleótidos que se repiten en tándem hasta dar un tamaño total entre 100 nucleótidos y 20 kb. Un ejemplo de ADN Minisatélite es la repetición que forma los telómeros de los cromosomas humanos, en los que el hexanucleótido (TTAGGG) se repite miles de veces en tándem dando lugar a bloques de 5 - 20 kb de tamaño. Algunas repeticiones de este tipo son polimórficas, y dan lugar a los marcadores de tipo VNTR que hemos mencionado en un apartado anterior.  El ADN de tipo Microsatélite está formado por secuencias de 2, 3 ó 4 nucleótidos que se repiten hasta dar bloques con un tamaño total habitualmente no superior a 150 nucleótidos. Hay repeticiones de este tipo por todo el genoma humano, y muchas de ellas son muy útiles como marcadores genéticos porque el número de repeticiones varía entre individuos. Ejemplos de ADN microsatélite son los dinucleótidos (CA), ó las repeticiones de trinucleótidos (CAG). El ADN repetido disperso está formado por secuencias que se repiten miles de veces en el genoma humano, pero no en tándem sino de manera dispersa. Este tipo de repeticiones constituyen un 45% de todo el genoma humano, y se clasifican en función del tamaño de la unidad repetida: Los SINE (Short Interspersed Nuclear Elements, elementos nucleares dispersos cortos) suponen un 13% del genoma humano. Son secuencias cortas repetidas miles de veces en el genoma humano de forma dispersa. El principal SINE es la familia de elementos Alu, que es específica de primates y constituye un 10% de nuestro genoma. Un elemento Alu está formado por una secuencia de 250 280 nucleótidos, con unas 1.500.000 copias por genoma y una repetición cada 4 kb como promedio. Es un elemento relativamente rico en guaninas+citosinas (56% de contenido en CG, mientras que el contenido promedio del genoma humano es del 41%). Se localiza predominantemente en la bandas R de los cromosomas humanos. Está flanqueado por pequeñas repeticiones directas (en la misma orientación). Su estructura es la de un dímero no idéntico, ya que el segundo monómero es 30 nucleótidos mayor que el primero. Contiene colas poli-A al final de cada monómero, y se transcribe por la ARN polimerasa III a partir de un promotor interno, pero no codifica ninguna proteína. Actúa como un retrotransposón, ya que puede copiarse e insertarse en otras regiones del genoma. Los LINE (Long Interspersed Nuclear Elements, o elementos nucleares dispersos largos) constituyen un 20% del genoma humano. Son secuencias con un tamaño de varias kilobases, agrupados en distintas familias. El principal LINE es el llamado LINE-1 ó L1, formado por una secuencia de unas 6 kb repetida unas 800,000 veces en el genoma (aunque muchos de estos elementos no están completos, sino truncados y les falta la parte 5’), llegando a constituir alrededor de un 15% del genoma. Estos elementos, al contrario que los SINE, no son ricos en guaninas+citosinas (tienen un 42% de citosinas+guaninas, que es cercano al contenido promedio del genoma humano) y se localizan predominantemente en las bandas G de los cromosomas. Un elemento L1 codifica dos proteínas: una ARN-binding protein en el marco de TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 13 lectura ORF1 y una proteína con actividad endonucleasa y retrotranscriptasa en el marco de lectura ORF2. Está flanqueado por unas pequeñas repeticiones directas (en la misma orientación) y termina en una cola poli-A. Los elementos LINE son retrotransposones, puesto que pueden copiarse a sí mismos a través de un intermediario ARN y transponerse a otras localizaciones genómicas. Según el modelo más aceptado, el elemento se transcribe por la ARN polimerasa II a partir de un promotor interno, sus productos proteicos se unen a la cola poli-A de su propio ARN mensajero y el complejo se inserta en el ADN genómico por la acción combinada de la endonucleasa (que corta dentro de regiones ricas en AT que llevan la secuencia TTTT↓A) y de la retrotranscriptasa. Las proteínas codificadas por los LINE son utilizadas también para la retrotransposición de elementos SINE y de pseudogenes procesados, por lo que pueden jugar un importante papel como elemento modificador del genoma. De hecho se ha visto que la secuencia propia de los L1 tiene la propiedad de inhibir la transcripción, de ahí que los niveles de ARNm y proteínas codificadas por los L1 en las células sea muy bajo. Lo más interesante es que también pueden modificar la transcripción de los genes en cuyos intrones hay abundancia de estos elementos: un 80% de los genes humanos tienen L1 en sus intrones, y la densidad en L1 correlaciona negativamente con los niveles de expresión de estos genes. Por tanto, su papel tanto en la evolución de genomas como en la regulación génica le confieren una gran importancia. Se acabó el mito del "ADN basura". LINE Nuevo LINE (copia en otra localización) transcripción ARNm Unión de las proteínas a su propio ARNm Reparación traducción Rotura endonucleolítica Retrotranscripción La Figura 1.9 ilustra el mecanismo de retrotransposición de los LINE. Los HERV (retrovirus endógenos humanos), representan copias de los retrovirus humanos que se han ido integrando en el genoma humano en el curso de la evolución y con frecuencia son el origen de proto-oncogenes celulares. Habitualmente representan copias truncadas del genoma de estos virus, y constituyen alrededor de un 8% del genoma (hay unas 450.000 copias). Como habitualmente conservan alguna de las repeticiones terminales largas de estos genomas, se denominan también repeticiones tipo LTR (Long Terminal Repeat). Nuestro genoma también contiene unas 300.000 copias de elementos repetidos originados por transposones ADN, lo que supone un 3% del total del genoma. Estos elementos contienen el gen (habitualmente truncado) de la transposasa, flanqueado por repeticiones invertidas. De entre las distintas familias que existen cabe destacar el tipo MER1 ó MER2 y los elementos mariner TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 14 (Hsmar2), responsables de algunas reordenaciones cromosómicas importantes en patología humana. La Figura 1.10 muestra la estructura de los distintos tipos de repeticiones dispersas del genoma humano. Es importante hacer algún comentario sobre la movilidad de los retroelementos dispersos. Tanto los LINE como los Alu que estén completos pueden, en teoría, copiarse e insertarse en otra posición del genoma a través de un intermediario ARNm. De hecho, esto sucede habitualmente, aunque por fortuna con muy baja frecuencia. Se calcula que 1 de cada 100-200 nuevos nacimientos lleva una inserción nueva de un Alu o de un L1. Por lo que respecta a los L1, se calcula que existen actualmente unos 5000 elementos completos en el genoma humano, de los cuales unos 90 son activos (capaces de retrotransposición). Un trabajo reciente ha estudiado la presencia de 68 elementos L1 completos en poblaciones humanas, encontrando que más de la mitad son muy activos. Esta actividad hace que distintas personas tengan presencia o ausencia de un elemento L1 concreto en una posición del genoma, lo que se conoce como polimorfismos de inserción. Se ha visto experimentalmente que dos personas tomadas al azar difieren, en promedio, en casi 300 polimorfismos de inserción de elementos L1. El potencial patogénico de estos elementos se debe a la propia capacidad de insertarse aleatoriamente en el genoma (e interrumpir genes), pero también a la desregulación de la expresión de genes cercanos (por los elementos promotores de los LINE y SINE), y sobre todo a las alteraciones cromosómicas (deleciones, duplicaciones) causadas por recombinación ilegítima entre copias de estos elementos que están en localizaciones cromosómicas distintas (esto se verá en profundidad en el Capítulo 5). Curiosamente, los elementos Alu causan este tipo de recombinación con más frecuencia que los L1, especialmente en algunos genes concretos que tienen tendencia a sufrir duplicaciones o deleciones por recombinación entre secuencias Alu. El proyecto ENCODE ENCODE es el acrónimo de ENcyclopedia Of DNA Elements, y se trata de un proyecto de análisis exhaustivo del genoma humano, que comenzó con un proyecto piloto en el que se estudió sólo el 1% del total. Al final se ha obtenido una imagen muy detallada que muestra todos los transcritos primarios y maduros, así como la localización de las principales modificaciones de histonas, los sitios de unión de factores de transcripción, sitios de inicio de la transcripción, sitios hipersensibles a DNAsa, etc; todo ello unido a datos de expresión génica, de replicación y del número de copia de esas mismas regiones. Al principio, lo más llamativo de este análisis fue la gran cantidad de transcripción que se detecta a lo largo del genoma humano: un 15% de los nucleótidos están incluidos en transcritos maduros, y una gran parte del resto de las bases (hasta el 90%) forman parte de transcritos primarios en algún tejido. Además, se observan muchos sitios de inicio de la transcripción distintos a los anotados previamente, a menudo alejados de lo que se consideraba el inicio del gen. Igualmente, se identificaron unos 200 pseudogenes (60% procesados y 40% no-procesados), de los cuales una quinta parte se transcriben. Esto, extrapolado al resto del genoma significa unos 20.000 pseudogenes en total. Aunque posteriormente se ha visto que la intensidad de la transcripción ―basal‖ no es tan alta, los datos aportados por ENCODE indican que los genes son más complejos de lo que se pensaba hasta ahora: TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 15 en vez de la visión tradicional, según la cual un gen da lugar a uno o varios transcritos alternativos que codifican una proteína en sus varias isoformas, parece claro que una región genómica puede codificar distintos productos proteicos y además dar lugar a otros transcritos (no necesariamente codificantes de proteínas) en ambas cadenas. Todo esto ha llevado a replantear el concepto de gen, que en la era post-ENCODE se definiría como “la unión de las secuencias genómicas que codifican un conjunto coherente de productos funcionales, potencialmente solapantes”. Esta definición hace hincapié en el producto funcional que se codifica (de ahí el uso de ―coherente‖ para indicar que se trata de codificar una proteína o un ARN). Lo más novedoso de esta definición es que las regiones no traducidas (UTR) no formarían parte del gen, quedando incluidas –junto con los elementos reguladores- en la categoría de ―regiones asociadas con genes‖. La definición alternativa, más acorde con el pensamiento actual, de que un gen es ―la región genómica que codifica un conjunto de transcritos alternativos solapantes‖, aunque codifiquen distintos productos proteicos, es problemática a la luz de los datos aportados por el proyecto ENCODE. Si existe mucho solapamiento de transcritos, la aplicación de esta definición daría lugar a un número pequeño de genes muy extensos, los cuales además tendrían escaso significado biológico al codificar productos funcionales diversos (un mismo gen podría dar lugar a proteínas distintas y/o ARN no codificantes). La nueva definición probablemente aumentará el número total de genes del genoma, pero al estar centrada en el producto final es más informativa de la función de cada gen concreto. Figura 1.11: El video explica la nueva definición de "gen", a la luz de los resultados de ENCODE. La siguiente figura (tomada del Genome Browser) muestra una región ENCODE: Otra sorpresa del proyecto ENCODE ha sido comprobar que un alto porcentaje de los transcritos detectados no codifican proteínas, por lo que la categoría de "ARN no codificantes" seguirá aumentando en el futuro. En concreto, los últimos años han sido testigos de la explosión de un nuevo TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 16 tipo de ARN no codificantes largos (en inglés lncRNAs), con funciones reguladoras importantes que se están empezando a conocer poco a poco. Se trata de ARNs con un tamaño superior a 200 nucleótidos que maduran mediante ayuste, pero que no codifican proteínas. Su número va en aumento, llegando a estimarse la existencia de casi 10.000 lncRNAs en el genoma humano, cubriendo unas 10 - 20 veces más de secuencia genómica que los ARNs codificantes de proteínas. Entre las funciones que desempeñan, se ha visto que son capaces de inhibir múltiples dianas en trans (es decir, genes que están en cromosomas distintos), como es el caso del lincRNA-p21. Particularmente interesantes son otras funciones novedosas de algunos lncRNAs. Por ejemplo, se ha demostrado que actúan como andamios sobre los que se reclutan distintos factores reguladores de la expresión génica (modificadores de la cromatina, que se verán en el capítulo siguiente). Éste es el caso de un lncRNA llamado HOTAIR, que es capaz de un complejo represor a varios genes del genoma. Otros lncRNAs estimulan la expresión de genes vecinos, bien porque ellos mismos tienen actividad potenciadora o bien porque se asocian con co-activadores de la transcripción. Finalmente, los lncRNAs también parecen estar implicados con la formación de asas de cromatina, sirviendo como puntos de anclaje sobre los que se forman compartimentos nucleares (paraspeckles, por ejemplo). La siguiente tabla resume las principales clases de ncRNAs de mamíferos y sus funciones: El 5 de septiembre de 2012 la revista Nature publicó varios artículos con los resultados definitivos de este proyecto, que se pueden consultar en esta web. Para una visión general del Proyecto, es útil este video. En conjunto, los resultados del proyecto ENCODE son apasionantes y enriquecen enormemente nuestra visión del genoma humano, su regulación y funcionamiento, lo cual abrirá horizontes insospechados en la investigación genómica y tendrá fuertes implicaciones biomédicas en un futuro cercano. TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 17 El genoma mitocondrial La mitocondria es un orgánulo de probable origen endosimbióntico que se ha adaptado a su nicho intracelular: para aumentar su tasa de replicación y asegurar la transmisión a las células hijas después de cada división mitótica, el genoma de las mitocondrias de mamíferos se ha ido reduciendo de tamaño hasta alcanzar las 16.569 kb en el caso del genoma mitocondrial humano. Las mitocondrias son las verdaderas centrales térmicas de nuestro organismo ya que en ellas tiene lugar la fosforilación oxidativa (OXPHOS), es decir, la respiración celular acoplada a la producción de energía en forma de ATP. El funcionamiento del sistema OXPHOS tiene, además, importancia médica por la generación de especies reactivas de O2 (Reactive Oxygen Species, ROS) y por la regulación de la muerte celular programada o apoptosis. Las proteínas incluidas en el OXPHOS se localizan dentro de la membrana mitocondrial interna, e incluyen: (1) Componentes de la cadena transportadora de electrones (Cadena respiratoria mitocondrial, CRM); (2) ATPasa de membrana; (3) Translocador de nucleótidos de Adenina (ANT). El ADNmt humano es una molécula circular de 16.569 pares de bases. El número de moléculas de ADNmt por célula varía entre unos pocos cientos en los espermatozoides a unas 200.000 copias en el oocito, pero en la mayor parte de los tejidos el rango está comprendido entre unas 1.000 y 10.000 copias por célula, con 2 - 10 moléculas de ADN por mitocondria. Este genoma contiene información para 37 genes: Genes que codifican las 2 subunidades 12S y 16S del ARNr (ARN ribosomal) de la matriz mitocondrial. Los genes para los 22 ARNt (ARN transferente), requeridos para la síntesis de proteínas mitocondriales en la misma matriz mitocondrial. Genes que codifican 13 polipéptidos que forman parte de los complejos multienzimáticos del sistema OXPHOS. En concreto, en el genoma mitocondrial se codifican 7 subunidades del Complejo I, 1 subunidad del Complejo III, 3 subunidades del Complejo IV, y 2 subunidades de la ATPasa (Complejo V). Es importante no perder de vista que el resto de las subunidades polipeptídicas de estos complejos, así como el Complejo II completo, están codificados en el genoma nuclear, de manera que no todas las enfermedades mitocondriales están necesariamente causadas por alteraciones en el ADN mitocondrial. La Figura 1.12 muestra los complejos proteicos de la membrana de la mitocondria que están codificados por genes del propio genoma mitocondrial. La característica estructural más sorprendente del ADNmt es que los genes se encuentran situados uno a continuación del otro, sin apenas intrones ni regiones no codificantes entre los genes. Al contrario que el genoma nuclear, en el que las regiones no codificantes son mayoritarias, el ADN mitocondrial sólo posee un 3% de secuencias no codificantes. Veintiocho de los genes mitocondriales (2 ARNr, 14 ARNt y 12 polipéptidos) se encuentran en una de las cadenas (cadena H ó pesada), mientras que los 9 genes restantes (1 polipéptido y 8 ARNt) están en la cadena complementaria (cadena L ó ligera). La única zona del ADNmt que no codifica ningún gen es la región del bucle de desplazamiento (bucleD), localizada alrededor del origen de replicación de la cadena H. Esta región contiene también los promotores de la transcripción y los elementos reguladores de la expresión génica. Otra de las TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 18 peculiaridades de la organización genética del ADNmt es que los genes de los ARNt se distribuyen entre los genes de los ARNr y los codificantes de proteínas; esta disposición tiene consecuencias muy importantes para el procesamiento del ARN. Para la replicación del ADNmt hacen falta dos orígenes diferentes, uno para cada cadena (OH y OL). Ambos orígenes de replicación están muy separados, haciendo que el proceso sea unidireccional y asimétrico. La síntesis del ADN se inicia en OH y es realizada por una polimerasa específica de la mitocondria, la DNApol , que alarga un ARN iniciador fruto del procesamiento de un transcrito primario que se sintetiza a partir del promotor L. La replicación continúa de modo unidireccional hasta alcanzar OL, momento en el cual comienza la síntesis de la segunda cadena del ADN, alargando también un pequeño iniciador de ARN. La Figura 1.13 muestra la estructura del ADN mitocondrial. En la transcripción del ADNmt intervienen una polimerasa de ARN, al menos un factor de transcripción implicado en la iniciación (mtTFA), y uno de terminación (mTERF). Las dos cadenas del ADNmt se transcriben completamente a partir de tres puntos de iniciación diferentes, dos para la cadena pesada (H1 y H2) y uno para la cadena ligera (L), originando tres moléculas policistrónicas que se procesan posteriormente por cortes endonucleolíticos precisos en los extremos 5´ y 3´ de las secuencias de los ARNt, para dar lugar a los ARNr, ARNt y ARNm maduros. De esta forma los ARNt, situados entre los genes de los ARNr y ARNm, actúan como señales de reconocimiento para los enzimas de procesamiento. En particular, la cadena H se transcribe mediante dos unidades de transcripción solapadas en la región de los ARNr: la primera de estas unidades comienza delante del gen para el ARNtPhe (lugar de iniciación H1), termina en el extremo 3´ del gen para el ARNr 16S y es responsable de la síntesis de los ARNr 12S y 16S, del ARNtPhe y del ARNtVal. El factor de terminación (mTERF) se une a una secuencia situada en el gen del ARNtLeu y provoca la terminación de esta unidad. La segunda unidad de transcripción comienza cerca del extremo 5´ del gen del ARNr 12S (lugar de iniciación H2) y transcribe la casi totalidad de la cadena pesada; el procesamiento de este ARN policistrónico origina los ARNm de 12 péptidos y los otros 12 ARNt codificados en esta cadena. La transcripción de la cadena ligera comienza cerca del extremo 5´ del ARN 7S (en el bucle-D) y da lugar al iniciador de la replicación de la cadena pesada, 8 ARNt y 1 péptido (ND6). La síntesis de las proteínas mitocondriales tiene lugar en ribosomas específicos de la mitocondria, cuyos componentes están codificados en el ADNmt (ARNr 12S y 16S) y en el genoma nuclear (84 proteínas ribosomales). En este sistema de traducción se sintetizan las trece proteínas codificadas en el ADNmt utilizando un código genético que difiere ligeramente del código genético universal. Así, UGA codifica el aminoácido triptófano (Trp) en vez de ser un codón de terminación, y los codones AUA y AUU se utilizan también como codones de iniciación. La biogénesis de la mitocondria depende de la expresión coordinada de los genomas mitocondrial y nuclear, pero hasta ahora se conoce muy poco acerca de los mecanismos que regulan la interacción de ambos sistemas genéticos. La expresión del ADNmt parece estar regulada por el factor de iniciación de la transcripción mtTFA, codificado en el genoma nuclear. Este factor podría ser el responsable tanto de los niveles de ARN como del número de copias de ADNmt, ya que la replicación depende de la síntesis de un iniciador de ARN a partir del promotor de la cadena ligera. La regulación de la relación entre los ARNr y los ARNm mitocondriales se realiza fundamentalmente mediante la selección del lugar de iniciación de la transcripción de la cadena pesada, que a su vez está relacionada con el factor mtTERF (que causa terminación de la transcripción después de la síntesis de los ARNr) y con el procesamiento de los ARN primarios. Asimismo, la actividad transcripcional puede estar regulada por estímulos TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO 19 hormonales, especialmente por hormonas tiroideas que actúan tanto de un modo indirecto (por activación de genes nucleares) como directamente sobre el propio ADNmt.