Artículos

14

Dic 2017

¿Por qué secuenciamos genomas en Embrapa Agroenergía?

Publicado por

Eduardo Fernandes Formighieri Investigador de Embrapa Agroenergía y
Brenda Neves Porto, Becaria en Embrapa Agroenergía

Mucho se habla sobre genómica y genoma humano, millares o millones de reales son investidos anualmente en esta área por el mundo, y varias revistas científicas traen nuevos genomas en sus capas. Pero, ¿Lo que es genoma? ¿Por qué es importante entenderlos? ¿Y, por adonde comenzar?

Genoma es el conjunto de material genético y hereditario de los organismos vivos, codificado en su DNA (en algunos casos, en el RNA). La Genómica es la ciencia que estudia los genomas. Nuestro genoma, por ejemplo, es muy complexo, y organizado en cromosomas. Cada uno de los cromosomas es compuesto por una larga cadena de DNA (dupla hélice o dupla fita), y el DNA es la forma como case todos los seres vivos de nuestro planeta almacenan y pasan adelante las informaciones genéticas (en algunos casos es el RNA, como en virus). En el DNA están los genes, utilizados como “moldes” para la producción de proteínas, y también otras estructuras, incluyendo un complexo sistema de regulación génica.

Resumiendo la historia, a partir de la secuencia de un genoma, diversos análisis pueden ser realizados, como la anotación de las estructuras, la comparación entre diferentes genomas, los análisis filogenéticas, de vías metabólicas, de regiones reguladoras y muchas otras. De modo general, el genoma es la base necesaria para una serie de estudios posteriores.

Desde que el secuenciamiento de genomas mayores, como el humano, quedo económicamente viable, la obtención del draft del genoma se tornó uno de los primeros pasos en la investigación de organismos relevantes para determinadas líneas de investigación. Draft (rascuño) es una versión incompleta de la secuencia de un genoma, y es la versión más común, pues obtener un genoma absolutamente completo aún es difícil y caro, y solamente se justifica para genomas más simples y/o para organismos de alto valor (como organismos modelo).

Pero ¿cómo se llega al draft de un genoma? La obtención de un nuevo genoma comienza por su secuenciamiento, proceso de identificación de la secuencia de nucleotídeos del DNA (Adenina, Guanina, Citosina y Timina), que incluye principalmente: selección del material; preparación del DNA; secuenciamiento; control de calidad de las secuencias; montaje; y anotaciones de las estructuras.

El primer paso es la selección del material biológico adecuado, como una planta importante en un programa de mejoramiento genético, o una cepa de levadura con capacidad diferenciada de producción. De modo general, la selección está relacionada con un individuo diferenciado de una especie importante para una línea de investigación, lo que indica normalmente relación con productividad agrícola, industrial o salud. Por ejemplo, en Embrapa Agroenergía estamos trabajando con genomas de plantas relacionadas a bioenergía, como caiaué {Elaeis oleifera (Kunth) Cortés}, macaúba (Acrocomia aculeata) y piñón manso (Jatropha curcas L.), y microorganismos relacionados a procesos de producción de energía, como levaduras y microalgas.

Después la colecta del material biológico, es realizada la extracción del DNA, que es preparado, evaluado y enviado para el secuenciamiento. Existen diferentes tecnologías de secuenciamiento. Todas generan copias de parte del DNA original, siendo necesaria posterior montaje de los fragmentos para obtención de la secuencia original. La capacidad de generar secuencias (tecnologías y equipamientos) aumentó considerablemente con las demandas de los proyectos de Genoma Humano, publicados en 2001 en las dos más importantes revistas científicas del área (Nature y Science). Conforme la cantidad de datos biológicos generados aumentaba, también crecía la importancia de los bioinformatas para el análisis de estas grandes cantidades de información. ¿Grandes cuánto? Estamos hablando de varios archivos con millones de líneas y varios Giga Bytes (GB) cada uno. Por ejemplo, un archivo de 60 GB (que ni abre en el Windows) tiene cerca de 823 millones de líneas, correspondiendo a 205,8 millones de secuencias, y un bueno Servidor Linux demoró nueve (9) minutos apenas para contar  su número de líneas. Grandes así.

Además de la grande cantidad, estos datos no son ‘perfectos’, esto es, parte de las secuencias normalmente presentan problemas, como: baja calidad, residuos de la construcción de las bibliotecas (parte de la preparación del DNA) y del secuenciamiento, o contaminaciones. Por esto, el control de calidad (QC, de Quality Control) de los datos de secuenciamiento es esencial.

El primero paso es analizar y visualizar la calidad de los datos brutos. Son verificadas informaciones como la calidad (en la identificación de los nucleotídeos, o sea, la chance de que esta identificación esté correcta), los residuos de adaptadores y la proporción entre los nucleotídeos. De acuerdo con las características de cada conjunto de datos, otras herramientas son utilizadas para filtrar los datos. En esta fase, son retiradas, por ejemplo, secuencias con baja calidad, contaminaciones, y trechos con residuos de adaptadores o vectores. Cuando necesario, es verificado el pareado de las secuencias y el tamaño de los insertos.

El proceso de Control de Calidad tiene muchos detalles, variando con el tipo de tecnología, de secuenciamiento solicitado, de organismo, de software a ser utilizado en la montaje, entre otros. Se trata de una tarea complexa y que demanda personal especializado e infraestructura robusta de hardware y software, pues además de los procesos ser demorados, es necesario que sean ejecutados varias veces para verificar mejores parámetros.

Todo esto para conseguir aprovechamiento máximo de los datos, y en 2017 el equipe del LBB (Laboratorio de Bioinformática en Bioenergía – https://lbb.cnpae.embrapa.br) está trabajando en secuenciamiento y montaje de nuevo de varios genomas, siendo por el menos tres de plantas, tres de algas, y tres de levaduras, con previsión de nuevos genomas para 2017, incluyendo el resecuenciamiento de cerca de 40 genomas de plantas. ¿Montaje? Hablaremos más detalladamente sobre el montaje de genomas y la anotación de sus estructuras en el próximo artículo, no perca. Se fuera montar su propio genoma, no olvide hacer un bueno control de calidad!

 

Fuente: www.embrapa.br
Texto traducido del portugués


Lea también