Firmas de selección y dinámica poblacional de elementos transponibles en frijol lima.

Noticias

HogarHogar / Noticias / Firmas de selección y dinámica poblacional de elementos transponibles en frijol lima.

May 20, 2023

Firmas de selección y dinámica poblacional de elementos transponibles en frijol lima.

Communications Biology volumen 6, Número de artículo: 803 (2023) Citar este artículo 127 Accesos 3 Detalles de Altmetric Metrics El proceso de domesticación del frijol lima (Phaseolus lunatus L.) involucra dos

Biología de las comunicaciones volumen 6, número de artículo: 803 (2023) Citar este artículo

127 Accesos

3 altmétrico

Detalles de métricas

El proceso de domesticación del frijol lima (Phaseolus lunatus L.) involucra dos eventos independientes, dentro de los acervos genéticos mesoamericanos y andinos. Esto convierte al frijol lima en un modelo excelente para comprender la evolución convergente. Los mecanismos de adaptación seguidos por las variedades locales mesoamericanas y andinas son en gran medida desconocidos. Los genes relacionados con estas adaptaciones pueden seleccionarse mediante la identificación de barridos selectivos dentro de acervos genéticos. Análisis genéticos anteriores en frijol lima se han basado en loci de polimorfismo de nucleótido único (SNP) y han ignorado los elementos transponibles (TE). Aquí mostramos el análisis de datos de secuenciación del genoma completo de 61 accesiones de frijol lima para caracterizar una base de datos de variación genómica que incluye TE y SNP, para asociar barridos selectivos con TE variables y predecir genes candidatos a domesticación. Un pequeño porcentaje de genes bajo selección se comparten entre acervos genéticos, lo que sugiere que la domesticación siguió diferentes vías genéticas en ambos acervos genéticos. Alrededor del 75% de los TE se encuentran cerca de los genes, lo que muestra su potencial para afectar las funciones de los genes. La estructura genética inferida de los TE variables es consistente con la obtenida de los marcadores SNP, lo que sugiere que la dinámica de los TE puede estar relacionada con la historia demográfica del frijol lima silvestre y domesticado y sus procesos adaptativos, en particular los procesos de selección durante la domesticación.

El frijol lima (Phaseolus lunatus L.) es la segunda especie domesticada más importante del género Phaseolus después del frijol común (Phaseolus vulgaris L.). Las poblaciones silvestres de ambas especies se distribuyen desde México hasta Argentina, presentando una amplia gama de adaptaciones ecológicas. Por ello, se considera un cultivo prometedor para mejorar la seguridad alimentaria en escenarios previstos de cambio climático1,2. Se han definido cuatro acervos genéticos silvestres de P. lunatus: dos mesoamericanos (MI y MII) y dos andinos (AI, AII)3,4. Diferentes estudios han demostrado que tanto el frijol común como el frijol lima han pasado por al menos dos procesos de domesticación independientes5. Los tipos domesticados de frijol lima se seleccionaron principalmente de poblaciones silvestres mesoamericanas (MI) y andinas (AI), y se han cultivado en todo el continente americano desde la época precolombina y en algunos países africanos después de Colón. Aunque se han realizado diferentes esfuerzos de investigación para comprender estos procesos de domesticación, los impulsores genéticos de la adaptación durante la domesticación siguen siendo en gran medida desconocidos.

Los avances recientes en el desarrollo de tecnologías de secuenciación de alto rendimiento han permitido ensamblar el genoma de un gran número de especies no modelo, aumentando la información genómica de diferentes cultivos6. Recientemente, Chacón-Sánchez et al. resumieron los recursos genómicos generados en los últimos años dentro del género Phaseolus, mostrando su importancia para evaluar el flujo de genes entre acervos genéticos e incluso entre especies7. Se encuentran disponibles conjuntos de genomas a nivel de cromosomas para el frijol común8, el frijol tépari (Phaseolus acutifolius A. Gray)9 y el frijol lima4. El genoma del frijol lima se generó mediante la secuenciación de lecturas largas de la accesión MI (G27455) cultivada en el norte de Colombia. Un segundo conjunto, construido a partir de lecturas breves, está compuesto por 19.316 andamios y pertenece al cultivar Bridgeton domesticado en MI10. Para el ensamblaje G27455, también se generaron datos de secuencia de ARN de tejidos de vainas, hojas y flores, que complementaron los datos del transcriptoma generados como parte de un ensayo que evalúa la resistencia al hongo Trichoderma viride11. En cuanto a la diversidad genética intraespecífica, se dispone de datos de genotipo por secuenciación (GBS) para unas 500 muestras de frijol lima, que cubren los principales conjuntos de diversidad genética3,4. Un estudio reciente utilizó 15,168 marcadores SNP de 183 accesiones de frijol lima para evaluar las consecuencias genéticas de las introgresiones y el flujo de genes en la estructura genética y la diversidad del frijol lima, centrándose en la región de la Península de Yucatán12. Se puede obtener mucho conocimiento a partir de datos genómicos sobre aspectos poco conocidos del proceso de domesticación. Por ejemplo, en el frijol lima aún no sabemos si las bases genéticas del síndrome de domesticación, es decir, los cambios morfológicos y fisiológicos que diferencian a las poblaciones silvestres y domesticadas, son similares entre los eventos de domesticación mesoamericanos y andinos.

Una comprensión completa de la evolución y diversidad de los cultivos requiere el estudio de los elementos transponibles (ET). Los TE son secuencias de ADN que tienen la capacidad de cambiar su posición dentro del genoma en un proceso replicativo o no replicativo13. Los TE representan una parte importante de los genomas de las plantas y, en algunos casos, comprenden hasta el 80% de su cantidad total de ADN. Estudios recientes han demostrado que los elementos transponibles están relacionados con cambios en la expresión y función de genes en plantas, desempeñando así un papel importante en su evolución adaptativa14,15,16,17,18,19. Además, son importantes impulsores de la evolución de los genomas, influyendo en procesos como la especiación y la selección durante la domesticación20,21,22,23. Un ejemplo en frijol común es el informe de Parker et al. de cambios estructurales en el gen INDEHISCENTE (PvIND) que controlan la pérdida o ganancia de fibra en las vainas24. Estos cambios se deben a una duplicación del locus y a la inserción de un retrotransposón de repetición terminal larga (LTR) (Ty1-copia), que se asocian con la sobreexpresión de PvIND y la pérdida de cadenas de vainas. A pesar de la importancia de los elementos transponibles, han recibido poca atención en el genoma del frijol lima. Aunque se realizó una anotación inicial de elementos transponibles como parte de la anotación del genoma del frijol lima, no se ha realizado una caracterización y análisis detallados de estos elementos de la misma manera que se realizó para el frijol común25. En particular, la información disponible sobre la diversidad genética es insuficiente para identificar y analizar la dinámica poblacional de TE dentro de la especie. Dado el alto costo de realizar la secuenciación y el ensamblaje de novo de poblaciones completas, se ha utilizado la resecuenciación del genoma completo para evaluar la variación entre presencia y ausencia de TE en diferentes cultivos22,26.

En el presente trabajo nuestro objetivo es identificar y comparar las distribuciones genómicas de barridos selectivos entre los acervos genéticos mesoamericanos y andinos y contribuir al estudio del papel de los TE en la evolución y los mecanismos de adaptación del frijol lima durante la domesticación. Presentamos una anotación curada y un catálogo completo de elementos transponibles en el genoma de P. lunatus. Basándonos en la resecuenciación del genoma completo de 61 muestras, también construimos la base de datos más completa de variación genómica para esta especie, que se utilizó para detectar barridos selectivos mediante múltiples enfoques. El análisis de esta base de datos también reveló elementos genómicos relacionados con el tamaño de las semillas y la resistencia al estrés abiótico. Además, identificamos una variación de presencia-ausencia relacionada con la dinámica poblacional de TE entre y dentro de los principales acervos genéticos de P. lunatus. Los TE variables en genes o cerca de ellos se nominan como candidatos impulsores de rasgos relacionados con los procesos de domesticación y mejoramiento en el frijol lima.

Generamos un nuevo catálogo de anotaciones de elementos transponibles (TE) de todo el genoma en los genomas de frijol lima y frijol común, utilizando una combinación de métodos basados ​​en estructura, homología y de novo. El proceso de anotación TE incluía las herramientas de software Inpactor227, Extensive de-novo TE Annotator (EDTA)28 y RepeatMasker29. Este canal produjo un conjunto sin procesar de 621.418 anotaciones TE en el ensamblaje del genoma de referencia de P. lunatus, que cubre 308 Mbp (56,35%) del tamaño del ensamblaje del genoma de haba. Un gran porcentaje (68%) de estos TE corresponden al 99% de los TE informados en el análisis inicial presentado en García et al., para el cual solo se utilizó RepeatMasker (Tabla complementaria 1)4. En ambas anotaciones, el conjunto de datos sin procesar incluye anotaciones clasificadas como "Tándem" y "Desconocido". La inspección manual de algunos de estos eventos reveló que no correspondían a TE. Por lo tanto, eliminamos 115,207 anotaciones clasificadas como "Desconocido" y 790 anotaciones clasificadas. como "Tándem" de la base de datos. Por el contrario, la tubería utilizada en este trabajo identificó diez familias TE adicionales del grupo de transposones de ADN: ADN/DTA, ADN/DTC, ADN/DTH, ADN/DTM, ADN/DTT, MITE/DTA. , MITE/DTC, MITE/DTH, MITE/DTM y MITE/DTT. Aunque el oleoducto identificó un número menor de TE de las superfamilias de retrotransposones LTR Copia y Gypsy, la longitud total de las regiones abarcadas por los nuevos LTR es mayor que eso. obtenido en el informe anterior. La razón de este resultado es que las nuevas anotaciones corresponden a LTR completas, mientras que muchas anotaciones anteriores estaban fragmentadas. Además, la nueva tubería proporcionó subclasificación en linajes para estas LTR.

Aunque para el frijol común Gao et al. informaron una base de datos de 2,12 Mbp que contenía 791 secuencias TE representativas distribuidas en 14 familias25, no estaba disponible una anotación de TE de todo el genoma. Por lo tanto, para comparar los resultados del frijol lima con los del frijol común, también ejecutamos el mismo proceso en el genoma del frijol común. El proyecto identificó un total de 580.817 TE que cubren el 48,50% del tamaño del ensamblaje del genoma. En este caso también eliminamos 113.076 TE clasificados como "Desconocido" y 224 clasificados como "Tándem". De manera similar a la anotación de frijol lima, la tubería utilizada en este trabajo anotó familias de transposones de ADN y ADN MITE, así como linajes de retrotransposones LTR, que no se identificaron en análisis anteriores.

Las secuencias TE iniciales identificadas se filtraron de acuerdo con criterios de calidad basados ​​en la distribución de longitud para cada familia (ver "Métodos" para más detalles). Esto permitió identificar y clasificar un total de 223.780 TE en el frijol lima, que cubren 254 Mbp (46,5% del conjunto, Dato Suplementario 1). Las superfamilias más representativas son LTR/Gypsy (34,81%), seguidas de DNA/CACTA (11,47%) y LTR/Copia (10,55%) (Fig. 1a, Tabla complementaria 1). Asimismo, se anotaron un total de 230.300 TE en el genoma de referencia del frijol común, que abarca 218 Mbp (41,8% del conjunto, Datos complementarios 2). El orden de las tres familias más representativas fue también LTR/Gitano (29,44%), LTR/Copia (12,90%) y ADN/CACTA (11,87%). Los transposones LTR en ambas especies están compuestos principalmente por las familias autónomas Gypsy y Copia, y las familias no autónomas TRIM (Repetición terminal en miniatura). La Figura 1b muestra la distribución de familias y linajes dentro de las superfamilias Gypsy y Copia. La principal diferencia entre los dos genomas de frijol es la abundancia de los linajes GYPSY/TAT y GYPSY/TEKAY-DEL que muestran un incremento del subclado TAT en el genoma de P. vulgaris y un mayor número del subclado TEKAY-DEL en el genoma de P. genoma de lunatus.

a Superfamilias de TE y b Linajes Gypsy y Copia LTR presentes en las bases de datos construidas para cada especie, P. lunatus (frijol lima) y P. vulgaris (frijol común). c Análisis filogenético y comparación de las secuencias de retrotransposones LTR de P. vulgaris y P. lunatus que codifican los dominios de transcriptasa inversa (RT). El árbol filogenético sin raíz de elementos Gypsy (REINA, CRM, TAT, ATHILA y DEL-TEKAY) y Copia (TORK, ALE-RETROFIT, IVANA-ORYCO y SIRE) incluye 5312 P. lunatus (azul) y 4264 P. vulgaris. (negro) secuencias alineadas (más de 200 aminoácidos). Las líneas rojas indican dominios RT de referencia utilizados para determinar los clados.

Para comprender mejor la diversidad de los retrotransposones LTR, se realizó una reconstrucción filogenética utilizando los dominios de transcriptasa inversa (RT). La Figura 1c muestra la distribución de la diversidad de los subclados LTR: Gypsy (REINA, CRM, TAT, ATHILA y TEKAY-DEL) y Copia (TORK, ALE-RETROFIT, IVANA-ORYCO y SIRE), combinando LTR de P. lunatus y P. vulgaris (ver árboles independientes en las figuras complementarias 1 y 2). Como se observa en la distribución de porcentajes (Fig. 1b), hay una expansión reciente de los dominios LTR/Gypsy RT del linaje TEKAY-DEL en P. lunatus después de la divergencia del ancestro común con P. vulgaris. El árbol combinado también muestra un grupo de LTR del linaje TAT que no están presentes en P. lunatus, lo que también sugiere una expansión reciente de estos dominios dentro del genoma de P. vulgaris. La diversidad de LTR de los subclados restantes se distribuye uniformemente entre especies, lo que sugiere que estos elementos se insertaron antes del proceso de especiación.

Para explorar la diversidad genética dentro del frijol lima, realizamos una resecuenciación del genoma completo de Illumina en 60 muestras de P. lunatus, incluidas muestras silvestres y cultivadas de los conjuntos de genes MI y AI (Datos complementarios 3). Se secuenciaron más de 25 millones de lecturas de extremos pareados para cada entrada, con el objetivo de obtener una profundidad de lectura promedio superior a 10x (Fig. 2a). La tasa de mapeo para todas las muestras con respecto al genoma de referencia de P. lunatus fue superior al 83% y los porcentajes más bajos se observaron en muestras silvestres de IA.

a Número de lecturas de WGS Ilumina obtenidas para 61 muestras secuenciadas. La línea de puntos negra indica el porcentaje de lecturas alineadas con el genoma de referencia del frijol lima. Los colores diferencian la población de origen de cada accesión (DOM_AI=andina domesticada, WILD_AI= andina salvaje, DOM_MI= mesoamericana domesticada, WILD_MI= mesoamericana salvaje). b Vecino que une agrupaciones de muestras basadas en llamadas de genotipo SNP. Los colores diferencian la población de origen de cada accesión. Las muestras resaltadas con una flecha roja (G27435, G26680) se mezclan entre acervos genéticos mesoamericanos (MI y MII) y la muestra marcada con una estrella corresponde al genoma de referencia. c, d Comparación de ventanas seleccionadas identificadas por el enfoque XP-CLR, por índices FST y reducción en la diversidad de nucleótidos (\(\pi\)) en ventanas deslizantes de 50 Kb/5 Kb, y por el enfoque gen por gen en c el acervo genético andino y d el acervo genético mesoamericano. Los colores salmón indican la región de importancia para cada estadística.

Reunimos una base de datos de variaciones sin procesar que incluye 7.316.508 SNP. El número de llamadas de genotipo diferentes del alelo de referencia es consistente con la población de origen de cada muestra (Figura complementaria 3). Las muestras de IA tienen entre dos y cuatro veces más variantes en comparación con las muestras de MI silvestres y las de MI domesticadas. Las accesiones de MI domesticado (G27435) y MI salvaje (G26680), que muestran el mayor número de variantes dentro de su población, se clasificaron previamente como mezcladas entre los conjuntos de genes MI y MII4. La distribución de frecuencia de alelos menores (MAF) de la población general, derivada de las llamadas de genotipo sin procesar, muestra un exceso de SNP con alta frecuencia del alelo menor (Figura complementaria 4). Esto puede explicarse por la estructura poblacional de las muestras secuenciadas. Al filtrar por MAF, heterocigosidad observada y número mínimo de individuos genotipados, obtuvimos una base de datos seleccionada de 1.724.831 SNP, que utilizamos para el análisis posterior. Un árbol de unión de vecinos, obtenido a partir de distancias genéticas entre las muestras secuenciadas, muestra una clara diferenciación de las poblaciones de IA, MI salvaje y MI domesticada (Fig. 2b). Este árbol es consistente con el estudio de García et al., en el que se generaron datos de genotipo por secuenciación (GBS) para 482 accesiones4.

Se aplicaron dos enfoques basados ​​en ventanas deslizantes y un enfoque basado en genes a la base de datos de variación genómica seleccionada para identificar y comparar la distribución genómica de barridos selectivos en accesiones de frijol de lima silvestres y domesticadas dentro de cada acervo genético (AI y MI). Los resultados se resumen en la Fig. 2c, d.

En el primer enfoque de ventana deslizante, utilizamos la prueba de índice de probabilidad compuesta entre poblaciones implementada en XP-CLR30 en ventanas de 50 Kb/5 Kb para identificar barridos selectivos como aquellas regiones con diferenciación extrema de frecuencia de alelos entre poblaciones silvestres y domesticadas dentro de cada reserva genética. Como resultado, predijimos barridos selectivos para 1182 genes en el acervo genético andino y 1278 genes en el acervo genético mesoamericano (Datos complementarios 4). Los cromosomas Pl01, Pl03, Pl07, Pl09 y Pl11 incluyeron más de 100 genes con barridos selectivos en el acervo genético andino (Tabla complementaria 2). En el acervo genético mesoamericano también se encontraron más de 100 genes con barridos selectivos en los cromosomas Pl02 y Pl08. Se compartieron un total de 236 genes entre grupos de genes.

En el segundo enfoque de ventana deslizante, los datos genómicos se evaluaron en ventanas deslizantes de 50 Kb/5 Kb con el programa PopGenome31. Dentro de cada acervo genético, se calculó para cada ventana la reducción de la diversidad de nucleótidos en las muestras domesticadas (medida como proporciones (π silvestres - π domesticadas)/π silvestres) y los índices FST entre las muestras silvestres y domesticadas. Los barridos selectivos se identificaron como aquellas ventanas en el 10 por ciento superior de la distribución de valores tanto de baja diversidad como de alta diferenciación. Para el acervo genético andino, predijimos barridos selectivos para un total de 2263 genes, mientras que para el acervo genético mesoamericano identificamos barridos de 2007 (Datos complementarios 4). Aunque estos números fueron mayores que los obtenidos usando XP-CLR, solo se compartieron 202 genes entre los grupos de genes.

Para el enfoque basado en genes, calculamos la diversidad de nucleótidos y la FST en cada gen en el catálogo de genes del genoma del frijol lima para detectar genes candidatos bajo selección. Seleccionamos los genes en el 10% superior de la distribución de baja diversidad genética y alta FST. Con este enfoque, predijimos barridos selectivos para 694 genes en el acervo genético andino y 981 genes en el acervo genético mesoamericano (Datos complementarios 4). Sólo se compartieron 29 genes entre los acervos genéticos. Para la población andina, los cromosomas Pl02, Pl03, Pl07 y Pl09 tuvieron el mayor recuento de genes, mientras que para el acervo genético mesoamericano, los cromosomas Pl02, Pl03, Pl04 y P07 mostraron el mayor número de genes con firmas de selección (Tabla complementaria 2). ).

Los enfoques anteriores generaron información importante sobre posibles barridos selectivos en frijol lima. Por lo tanto, evaluamos diferentes combinaciones de los resultados individuales para seleccionar un subconjunto de genes con una alta probabilidad de estar en regiones bajo selección. La intersección de los tres enfoques dio como resultado solo 58 y 93 genes en los acervos genéticos andinos y mesoamericanos, respectivamente (Figuras complementarias 5 y 6). Dentro del acervo genético andino, el proceso biológico de respuesta al estrés fotooxidativo (GO:0080183) se enriqueció en genes seleccionados mediante el segundo enfoque. La función molecular de la actividad oxidorreductasa (GO:0016899) ​​se enriqueció en genes seleccionados mediante el primer enfoque. Finalmente, el componente celular del complejo de proteína quinasa (GO: 1902911) se enriqueció en genes seleccionados mediante los tres enfoques (Figura complementaria 7). Estas categorías GO sugieren la probable relación del conjunto de genes involucrados en la adaptación a ambientes luminosos cambiantes a través del control del estrés fotooxidativo. Varias enzimas oxidorreductasas participan en el transporte fotosintético de electrones al metabolismo redox del cloroplasto32. En el acervo genético mesoamericano, ontologías relacionadas con el metabolismo del 1,3−β − D−glucano en las categorías principales (función molecular: GO:0003843; proceso biológico: GO:0006075, GO:0006074, GO:0051274; componente celular: GO:0005774) se enriquecieron en el subconjunto de 264 genes seleccionados mediante los dos enfoques basados ​​en ventanas (Figura complementaria 8). Este metabolito es un polisacárido que se encuentra en una amplia variedad de plantas, hongos y bacterias como componente principal de las paredes celulares primarias. En las plantas, se sintetiza en diferentes etapas de desarrollo y tejidos, especialmente en las paredes de las células madre del polen y en los tubos polínicos. Además, el 1,3-β-D-glucano desempeña un papel en una variedad de estreses abióticos y bióticos debido a su acumulación entre la membrana plasmática y la pared celular después de la exposición de las plantas a condiciones de estrés33. Por ejemplo, en albahaca común (Ocimum basilicum L.) Alhasnawi evaluó la reducción de los efectos negativos del estrés salino en plantas sometidas a tratamientos con β-glucanos34. Asimismo, Liang et al. informaron la relación directa de la sobreexpresión del factor de transcripción NAC en avena con el contenido y biosintético de (1,3;1,4)-β-D-glucano, que mejora la tolerancia a la sal y la sequía35.

De acuerdo con los importantes resultados de enriquecimiento de GO, utilizamos los genes seleccionados mediante ambos enfoques basados ​​en ventanas deslizantes (XP-CLR y popgenome) dentro de cada conjunto de genes para llevar a cabo el análisis de la ruta de la Enciclopedia de genes y genomas de Kyoto (KEGG) (Figuras complementarias). .9 y 10). Dentro del acervo genético andino, el análisis seleccionó vías relacionadas con el metabolismo de los carbohidratos, que son importantes productos de la fotosíntesis y fuente de varios procesos vegetales como células en crecimiento. Dentro del acervo genético mesoamericano, el análisis seleccionó la vía de señalización de la proteína quinasa activada por mitógenos (MAPK), que desempeña un papel en la activación y transducción de señales en varias condiciones de estrés abiótico (sal, frío y sequía)36. Un gen interesante que pertenece a esta vía es Pl04G0000254700, que es un factor de transcripción VP1 implicado en las respuestas al estrés de las plantas en A. thaliana37 y B. napus, donde también se considera un gen central junto con MYB44 en las respuestas al estrés por sequía y salinidad38.

Curiosamente, encontramos dos genes relacionados con rasgos del síndrome de domesticación en barridos selectivos en ambos acervos genéticos. El primero es el gen Pod Dehiscence 1 (PDH1) (Pl03G0000340600), que es responsable del depósito de lignina en la capa de fibras de la pared de la vaina y contribuye a dividir las válvulas de la vaina39,40. En el frijol común silvestre, las capas de células fibrosas y fuertemente lignificadas difieren en la anatomía de la vaina en comparación con las variedades locales donde las capas de fibra están reducidas41. El segundo gen es Pl07G0000312000 (P Locus) que se ha asociado con el color de la semilla42. En el acervo genético mesoamericano, identificamos además un conjunto de genes involucrados en la respuesta a condiciones de estrés. El primero es el gen Pl11G0000087300 (PIP2), que pertenece a la familia de proteínas de las acuaporinas, está implicado en la permeabilidad al agua en las membranas vacuolares y plasmáticas y juega un papel esencial en la resistencia a la sequía43. Además, el gen homólogo Phvul.011G079300 fue informado previamente por Schmutz et al. como objetivo de selección en frijol común mesoamericano8. El segundo gen es Pl06G0000180000 (ASN1), cuya sobreexpresión conduce a un mayor contenido de nitrógeno y proteínas solubles en las semillas y a un aumento del peso de las semillas42. Pl04G0000029100 (ABCB19) es una proteína transportadora ABC involucrada en varios procesos relacionados con la arquitectura vegetal en frijol común, como la dominancia apical y el gravitropismo del hipocótilo42.

También comparamos los genes detectados bajo selección en frijol lima con los reportados por Schmutz et al. en frijol común que se asociaron con la domesticación8. En el conjunto de datos de frijol común, se identificaron 1835 genes en el acervo genético mesoamericano y 748 genes en el acervo genético andino, para un total de 2524 genes (solo se observaron 59 genes en común). Identificamos 2361 ortólogos de estos genes en frijol lima, 1726 en el acervo genético mesoamericano, 686 en el acervo genético andino y 51 compartidos entre acervos genéticos. De estos, 428 (24,8%) y 168 (24,4%) también se incluyeron en barridos selectivos de frijol lima mediante al menos un enfoque y en al menos un acervo genético (Datos complementarios 4). Estos números se reducen a aproximadamente la mitad si la intersección se realiza por separado para las dos regiones de domesticación.

De los genes seleccionados en los acervos genéticos mesoamericanos de ambas especies (común y frijol lima), destacamos cinco genes respaldados por todos los enfoques (Pl01G0000337700.v1, Pl06G0000127200.v1, Pl11G0000105700.v1, Pl11G0000106200.v1 y Pl11G0000120200.v 1). La caracterización funcional de dichos genes nos muestra relación con compuestos que desempeñan un papel en varias vías de defensa de las plantas como las lectinas codificadas por el gen Pl01G0000337700.v1, que junto con las quinasas similares a receptores (RLK) y las proteínas similares a receptores (RLP) generan una respuesta de las plantas a diferentes estímulos bióticos y abióticos44. Además, el gen Pl11G0000105700.v1 está implicado en la producción de proteínas ferredoxina en el cloroplasto, y participa en el proceso de regulación redox y defensa antioxidante en las plantas45. El gen Pl11G0000106200.v1 codifica una proteína de transporte SEC24-1 y Pl11G0000120200 codifica una beta-1,3-galactosiltransferasa, que en Arabidopsis ha informado que tiene un papel importante en el desarrollo de las plántulas, especialmente en el endospermo micropilar46.

Al comprender la importancia potencial de los TE como impulsores genéticos de la variación fenotípica que se seleccionó durante los procesos de domesticación, también analizamos los datos de WGS para proporcionar información sobre la composición del mobiloma del frijol lima, es decir, la dinámica de los TE dentro de la especie. Para identificar posibles eventos de eliminación que abarquen elementos transponibles anotados, ejecutamos la funcionalidad para identificar eliminaciones grandes disponibles en NGSEP a partir de lecturas de extremos emparejados con longitudes de fragmentos previstas anormalmente grandes47. Se derivó una matriz de variación de presencia-ausencia a partir de eliminaciones solicitadas en accesiones individuales, verificando para cada accesión y para cada TE anotado si al menos el 85% del TE se superponía con un evento de eliminación. Después de filtrar las llamadas de baja calidad (consulte “Métodos” para obtener más detalles), se identificaron 39,459 TE con evidencia de eliminación en al menos una adhesión (Datos complementarios 5). Estos eventos de eliminación involucraron toda la gama de retroelementos LTR y no LTR de Clase I (es decir, superfamilias GYPSY, COPIA y LINE) y transposones de ADN de Clase II (es decir, superfamilias hAT y CACTA).

La Figura 3a muestra los recuentos de eventos de eliminación de TE (en relación con la referencia) para cada muestra, lo que suma un total de 332,758 eventos de eliminación individuales (Tabla complementaria 3). Los recuentos de estas eliminaciones nos permitieron diferenciar las dos poblaciones andina (AI) y mesoamericana (MI) (Figura complementaria 11). Estos recuentos se compararon con una prueba de rango de Wilcoxon entre cada par de poblaciones (DOM_AI, WILD_AI, DOM_MI, WILD_MI). Se observaron diferencias significativas para todas las combinaciones, a excepción de la comparación entre WILD_AI - DOM_AI y WILD_MI - DOM_MI. (Tabla complementaria 4). De manera similar a la base de datos SNV, las accesiones mixtas MI/MII G27435 y G26680 tuvieron el recuento más alto de eventos de eliminación entre las accesiones mesoamericanas. Un vecino que se une al agrupamiento de la matriz PAV diferencia las poblaciones de AI y MI y la mayoría de las accesiones entre las poblaciones mesoamericanas (MI) domesticadas y salvajes (Figura complementaria 12).

a Recuento de variación de presencia-ausencia (PAV) de TE anotados para cada accesión de frijol lima. b Alelos PAV de TE variables principalmente presentes en las muestras mesoamericanas y ausentes en la mayoría de las muestras andinas. Los colores diferencian la población de origen de cada accesión (DOM_AI=andina domesticada, WILD_AI= andina salvaje, DOM_MI= mesoamericana domesticada, WILD_MI= mesoamericana salvaje). Las muestras resaltadas con una flecha roja (G27435, G26680) se mezclan entre acervos genéticos mesoamericanos (MI y MII) y la muestra marcada con una estrella corresponde al genoma de referencia.

Aunque la distribución de frecuencia de alelos menores (MAF) de TE variables no tiene el pico cercano a 0,5 observado en la distribución derivada de la variabilidad de SNP (Fig. 13 complementaria), 1653 TE con PAV diferencian los acervos genéticos andinos y mesoamericanos (Fig. 3b , Datos complementarios 6, valor p de la prueba de Fisher <10-10). Estos TE podrían ser inserciones que ocurrieron en la población mesoamericana al menos 0,5010 ± 0,02611 millones de años antes del presente (mybp), cuando probablemente ocurrió la divergencia entre los acervos genéticos del frijol lima48. La superfamilia LTR/Gypsy está sobrerrepresentada en este grupo con 1439 TE (87%; valor de p = 2,2e-16 de una prueba de chi-cuadrado). Al comparar las muestras mesoamericanas silvestres y domesticadas, no hubo TE que diferenciaran estos acervos genéticos con un valor de p <10-10. Sin embargo, 61 TE tienen una diferencia significativa en las frecuencias alélicas con un valor p <10-5 (tabla complementaria 5). Nuestra hipótesis es que estos TE han sido seleccionados por el proceso de domesticación dentro de la población MI. Finalmente, 9326 TE corresponden a eliminaciones únicas, lo que sugiere una eliminación reciente de estos elementos26.

Como informaron estudios anteriores, la dinámica de TE puede afectar la función y expresión de los genes si las inserciones de TE ocurren en las proximidades o dentro de las regiones codificantes18. Para evaluar el impacto potencial de los TE en los genes de frijol lima, seleccionamos TE ubicados en las proximidades de genes que codifican proteínas y que tienen PAV dentro de las muestras secuenciadas. De los 39.459 PAV TE, 29.824 se observaron en las regiones flanqueantes de aproximadamente el 38% de los genes en el transcriptoma, en una ventana de 10 Kpb. Al comparar los acervos genéticos, se observó un mayor número de TE variables cercanas a los genes en el acervo genético andino en comparación con el acervo genético mesoamericano, probablemente porque el genoma de referencia fue secuenciado a partir de una accesión mesoamericana domesticada. Se observó una mayor cantidad de TE variables cercanas a los genes en poblaciones silvestres, en comparación con las poblaciones domesticadas en ambos conjuntos de genes (Figura complementaria 14).

Centrándonos en genes previamente reportados como importantes en el proceso de domesticación del frijol lima4,41,49,50, encontramos TE variables asociadas con 13 genes relacionados con rasgos de rotura de vainas, cianogénesis, floración fotoperiódica, tiempo de floración, hábito de crecimiento, tolerancia a la sequía, Peso de 100 semillas y arquitectura de la planta (Datos complementarios 7). La Figura 4a, b destaca el caso del gen GIGANTEA (GI), que codifica la proteína nuclear única específica de la planta. Se han informado muchas funciones pleiotrópicas en diversos procesos fisiológicos para este gen, como la regulación del tiempo de floración, señalización luminosa, acumulación de almidón, acumulación de clorofila, transpiración, tolerancia a herbicidas, tolerancia al frío y tolerancia a la sequía50. En la soja, un haplotipo mutante de este gen se ha asociado con un tiempo de floración temprano en genotipos cultivados51. De acuerdo con la inversión previamente reportada entre el frijol lima y el frijol común en el cromosoma Pl044, la cadena codificante del gen ortólogo en el frijol común (Phvul.004G088300) es la cadena negativa del genoma de referencia, mientras que la cadena codificante del gen del frijol lima ( Pl04G0000200500) es la cadena positiva del genoma de referencia (Fig. 4a). Identificamos 29 TE asociados con el gen del frijol común, en una ventana de 10 Kbp aguas arriba y aguas abajo del gen. Para el frijol lima registramos 28 TE asociados, cinco de ellos con evidencia de variabilidad. La primera variable TE es un LTR/Copia/ALE-RETROFIT (4063 pb) aguas arriba del gen. En el segundo intrón identificamos dos TE variables de LTR/Gypsy/TAT y en el tercer intrón identificamos otras dos TE variables de la misma clasificación.

a Modelo genético del gen GIGANTEA en frijol común y frijol lima, incluidos los TE anotados. Los TE con (PAV) están coloreados en rojo. Los TE sin variabilidad están coloreados en gris. b Representación de los alelos del gen GIGANTEA de haba, según PAV de TE. Las accesiones resaltadas con colores tienen el correspondiente alelo de no referencia. c Modelo genético del gen AQUAPORIN en frijol común y frijol lima, incluidos los TE anotados. Los TE con (PAV) están coloreados en rojo. Los TE sin variabilidad están coloreados en gris. d Representación de los alelos del gen ACUAPORINA de haba, según PAV de TEs. Las accesiones resaltadas con colores tienen el correspondiente alelo de no referencia.

La Figura 4b muestra el alelo de referencia y siete alelos alternativos observados en la población, teniendo en cuenta el PAV identificado para los cinco TE. El alelo de referencia lo llevan 41 accesiones (alelo I). Seis muestras mesoamericanas (cuatro silvestres y dos domesticadas) portan un alelo alternativo, al que le falta el TE dentro del primer intrón (alelo VIII). Este es el único alelo no de referencia presente dentro del acervo genético mesoamericano. Dentro del acervo genético andino, la copia LTR ubicada antes del sitio de inicio de la transcripción falta en dos accesiones domesticadas (alelo III). Todos los intrones TE están presentes en estas muestras. Una accesión silvestre pierde los cuatro intrones TE (alelo II), mientras que tres accesiones domesticadas y una accesión silvestre solo conservan el intrón TE más pequeño (alelo VII). Los alelos IV, V y VI, representados en cuatro muestras domesticadas y dos silvestres, muestran configuraciones diferentes a las que les falta uno o dos intrones TE.

Los TE también han sido objetivos de procesos evolutivos como la domesticación, lo que ha permitido su rápida fijación en los barridos selectivos. Para investigar más a fondo la evolución adaptativa en la domesticación del frijol de lima, mediada por eventos de inserción de TE, detectamos aquellos TE de PAV que ocurrieron dentro de barridos selectivos identificados con marcadores SNP. Encontramos 22.639 TE ubicados en regiones de barrido selectivo identificadas en el presente estudio. De ellos, 11.331 TE estaban presentes exclusivamente en regiones de barrido dentro del acervo genético mesoamericano, 11.308 TE se localizaron en barridos selectivos dentro del acervo genético andino y 6.471 TE se identificaron en ambos acervos genéticos. Un caso interesante de una TE variable que afecta a un gen seleccionado se identificó en el acervo genético mesoamericano en el gen Pl04G0000100000 en frijol lima (Fig. 4c). Este gen pertenece a la subfamilia de acuaporinas conocidas como proteínas intrínsecas de la membrana plasmática (PIP). Las acuaporinas están involucradas en muchos procesos fisiológicos de las plantas, como la diferenciación y elongación celular, la transpiración de las plantas y la regulación de la hidráulica de las plantas52. Varios estudios han demostrado que las acuaporinas están relacionadas con la respuesta al estrés por sequía en variedades de frijol común, y se observaron marcadas diferencias en la expresión genética en genotipos resistentes a la sequía versus susceptibles53,54,55. Identificamos cinco TE con variabilidad en el gen de la haba de lima (Pl04G0000100000) en los intrones cuarto y sexto (Fig. 4c). Además, 22 TE adicionales se encuentran aguas arriba y aguas abajo de este gen. Phvul.004G082700 es el gen homólogo de la acuaporina del frijol común. En este gen se encontraron 13 TE asociados, solo uno de ellos localizado dentro del primer intrón. La inserción de TE explica la extensión genómica más larga de este gen en el genoma del frijol lima, en comparación con el genoma del frijol común. La Figura 4d muestra la variación alélica dentro de la población, basada en las variables TE. En este caso, solo se identificó un alelo no de referencia en el que las cinco variables TE no están presentes. Este alelo aparece en cuatro (alrededor del 25%) accesiones silvestres mesoamericanas y en una accesión silvestre andina. Por el contrario, el alelo de referencia que incluye los cinco TE está fijado en las poblaciones domesticadas, lo que respalda la reducción de la diversidad esperada para un barrido selectivo.

El género Phaseolus representa un ejemplo único de domesticación múltiple y paralela. El frijol lima y el frijol común desarrollaron estructuras genéticas similares a través de sus eventos de domesticación independientes, lo que hace posible la comparación interespecífica entre ellos56,57. En este estudio, realizamos WGS de poblaciones silvestres y domesticadas para identificar barridos selectivos a través del genoma del frijol de lima que podrían usarse para anotar elementos genómicos relacionados con los procesos de domesticación que ocurren en la historia evolutiva del frijol de lima. Dada la creciente evidencia que indica que la dinámica de los elementos transponibles es el principal impulsor de la variación fenotípica en las plantas15,16,17,18,19,20,21,22,23, decidimos tener en cuenta tanto los genes codificantes de proteínas como los TE en nuestro estudio. Investigación de elementos genómicos relacionados con barridos selectivos. El análisis de marcadores SNP de alta densidad y polimorfismos de presencia-ausencia de TE resultó útil no sólo para identificar regiones genómicas afectadas por barridos selectivos, sino también para identificar regiones en las que los polimorfismos de TE podrían haber sido el objetivo de la selección, una información que se pasaría por alto. con el uso exclusivo de marcadores SNP. Recientemente se ha aplicado un enfoque similar en la diversidad genética del tomate para mejorar la importancia de las asociaciones genotipo-fenotipo26.

Como base para este trabajo, identificamos, clasificamos y anotamos TE en los genomas del frijol lima y del frijol común utilizando una combinación de enfoques de homología, estructura y de novo, incluidos enfoques de aprendizaje profundo. Como resultado, generamos una base de datos seleccionada de elementos transponibles para P. lunatus, incluidos 223.780 TE y que cubren 254 Mbp del ensamblaje del genoma (aproximadamente el 46,5%). Aunque previamente se generó una base de datos de 791 transposones no redundantes para el frijol común25, no estaba disponible una anotación completa de los TE en todo el genoma. Esto se convierte en una limitación práctica para analizar la dinámica de los TE entre especies. Por lo tanto, también desarrollamos una base de datos TE para el genoma de P. vulgaris que incluye 230.300 TE y cubre 218 Mb del tamaño del ensamblaje del genoma (aproximadamente el 41,8%). La anotación y reanotación de los genomas del frijol común y del frijol lima permitieron la identificación de nuevas familias, especialmente en los grupos ADN y MITE y una identificación a nivel de linaje para el grupo de retrotransposones LTR. La mejora en la detección y anotación de TE se debe principalmente a la mejora continua de los procesos bioinformáticos, combinando metodologías sólidas. La identificación y clasificación de nuevos MITES (o elementos transponibles en miniatura de repetición invertida, elementos no autónomos de clase II) parece particularmente interesante para estudios futuros. De hecho, los MITEs a menudo se insertan en las proximidades de genes donde pueden desempeñar un papel en la regulación de la expresión genética y promover mutaciones58,59,60.

La mejora en esta base de datos fue crucial para comprender la dinámica del TE entre el frijol lima y el frijol común. Un análisis filogenético de los dominios RT de los retrotransposones LTR nos permitió identificar diferencias importantes en la dinámica de TE entre el frijol lima y el frijol común. Es probable que estas diferencias ocurrieran después de la separación de las dos especies de su ancestro común más reciente. El linaje Gypsy/TEKAY-DEL muestra una proliferación muy reciente en el frijol lima, como lo demuestra la gran cantidad de ramas cortas en la filogenia. Por otro lado, el linaje Gypsy/TAT muestra diversificación y proliferación diferencial de subgrupos entre frijol lima y frijol común. Esta proliferación independiente de retrotransposones LTR puede ser inducida por estreses bióticos y abióticos y, como consecuencia, puede causar un aumento repentino en el tamaño del genoma como se observa en Oryza australiensis61. El linaje Gypsy/TEKAY-DEL es particularmente activo en varias especies de plantas y representa una fracción significativa de su genoma62. Recientemente, un análisis comparativo en tres especies de Capsicum mostró una variación significativa en la proporción del linaje Gypsy/TEKAY-DEL63, lo que demuestra su propensión a acumularse rápidamente en los genomas. Su reciente amplificación en frijol lima proporcionará marcadores interesantes para comprender su dinamismo e impacto a nivel intraespecies. De hecho, se ha informado que la inserción de elementos transponibles podría ser un factor de innovación y adaptación a un entorno cambiante64. Especialmente en especies que han ampliado ampliamente su área de distribución geográfica, como las habas silvestres y domesticadas, las poblaciones tuvieron que adaptarse a una variedad de condiciones ecológicas y agroecológicas. Teniendo en cuenta que la domesticación del frijol lima fue un evento muy reciente, los primeros domesticados tuvieron que adaptarse rápidamente a nuevas presiones de selección impulsadas por los humanos y los TE pueden haber contribuido a esta adaptación, como se muestra a continuación.

El análisis de los datos WGS de 61 accesiones de P. lunatus silvestres y domesticadas nos permitió investigar al mismo tiempo barridos selectivos y dinámicas de TE intraespecies. Como primer hito hacia este objetivo, generamos la primera base de datos densa de variabilidad genética, que incluye información genotípica de 7.316.508 SNP. Como era de esperar, el análisis global de esta base de datos de variabilidad fue consistente con el obtenido del genotipado mediante datos de secuenciación en estudios anteriores3,4. Además, la base de datos reunida permitió una reconstrucción y un análisis casi completos de la variación genética de genes individuales. Esta base de datos es un recurso de marcadores genéticos para futuras actividades de mejoramiento. Además, esta base de datos es un recurso principal para identificar barridos selectivos relacionados con procesos de domesticación en frijol lima. Combinando diferentes enfoques, identificamos barridos selectivos en hasta el 10% de los modelos genéticos. Independientemente del método de identificación, menos del 12% de los genes con barridos selectivos se compartieron entre acervos genéticos, lo que sugiere que la domesticación puede haberse logrado en ambos acervos genéticos por diferentes vías genéticas. Se observó un resultado similar en el frijol común, donde sólo el 2,3% de los genes identificados mediante selección se compartieron entre los acervos genéticos8. Curiosamente, encontramos que más de 500 genes observados bajo selección en frijol lima también se detectaron en frijol común, lo que sugiere que un grupo de genes podría haber sido seleccionado consistentemente en la domesticación de ambas especies. Al comparar los acervos genéticos, obtuvimos más genes relacionados con barridos selectivos en el acervo mesoamericano que en el acervo andino con el enfoque basado en genes. Esto podría sugerir una evolución proteica más rápida dentro del acervo genético mesoamericano. Sin embargo, este resultado podría deberse a un sesgo generado por el hecho de que el genoma de referencia fue ensamblado a partir de una accesión de origen mesoamericano. Además, se necesitan más experimentos para evaluar la contribución de la variación genética permanente y nuevas mutaciones beneficiosas en la respuesta a la selección durante la domesticación. Además, esta distinción es fundamental si se pretende comprender cómo surgen fenotipos similares a partir de eventos de domesticación independientes, como ha ocurrido en el frijol lima.

Con base en varios estudios recientes sobre diferentes especies, se podría argumentar que la dinámica de los elementos transponibles puede desempeñar un papel más importante en la estructura genómica y la variación fenotípica de las especies, en comparación con las mutaciones del SNV15,16,17,18,19,20. 21,22,23. Dos de los principales efectos causados ​​por las inserciones de TE son la regulación de la expresión génica a través de elementos cis o trans en secuencias de TE, y la generación de modificaciones epigenéticas causadas por inserciones o deleciones de TE65,66. La identificación de grandes eliminaciones de los datos WGS de extremos pares nos permitió caracterizar algunas de las dinámicas de TE que ocurren dentro de la variabilidad del frijol lima. Construimos un catálogo de variación de presencia-ausencia (PAV) de TE para generar el primer mobiloma de TE en frijol lima. Reconocemos que el uso de lecturas cortas limita la cantidad de eventos de variación de TE que podrían identificarse y genotipificarse correctamente a nivel de población. Sin embargo, siguiendo un enfoque conservador, pudimos evaluar la variación alélica de presencia-ausencia para 39.459 TE. Algunas de estas variables TE diferencian los acervos genéticos andinos y mesoamericanos, así como las poblaciones silvestres de las domesticadas dentro del acervo genético MI. Debido a que nuestro análisis está guiado por un genoma de referencia mesoamericano, identificamos menos PAV dentro de las muestras mesoamericanas en comparación con las muestras andinas más distantes. La distribución MAF de los PAV no mostró el pico de alta frecuencia observado en la distribución MAF derivada de los SNP. Una posible explicación para este comportamiento es que las variantes estructurales tienden a ser perjudiciales y, por tanto, podrían estar sujetas a una selección negativa, lo que produce un exceso de alelos de baja frecuencia. Sin embargo, la estructura genética inferida de los PAV TE concuerda con la obtenida de los SNP del genoma completo. Por lo tanto, estos eventos de TE pueden estar relacionados con la historia demográfica del frijol lima silvestre y domesticado y sus procesos adaptativos, en particular con los procesos de selección durante la domesticación. Una gran cantidad de genes relacionados con diferentes procesos contienen TE variables dentro de regiones intrónicas. Aunque se podría argumentar que estas inserciones no deberían tener un efecto importante en la función genética porque son "sinónimos" de productos genéticos, la evidencia de otras plantas sugiere que algunas de estas inserciones podrían alterar la expresión genética a través de diferentes mecanismos. Por ejemplo, alrededor del 10% de los genes del maíz tienen al menos una inserción TE intrónica, y algunas de estas inserciones se han asociado con altos niveles de metilación y dimetilación de CHG de la lisina 9 de la histona H3 (H3K9me2), que desempeña un papel en la cromatina. modificaciones67. Estos resultados sugieren la importancia de caracterizar los patrones de metilación en haba de lima en futuras investigaciones.

Las diferencias observadas en la ganancia/pérdida de TE entre las accesiones silvestres y domesticadas en el acervo genético mesoamericano de frijol lima pueden deberse al hecho de que la domesticación puede haber involucrado inicialmente pocos genotipos, contribuyendo así a una mayor divergencia entre las poblaciones silvestres y locales debido a la Efectos de la deriva genética. Además, la presencia o ausencia de algunos de estos TE, especialmente aquellos cercanos o dentro de genes, puede haber proporcionado alguna ventaja a las variedades locales y, por lo tanto, puede haber sido seleccionada inconscientemente a favor de los primeros agricultores. Por ejemplo, se ha informado que en el maíz un transposón ubicado entre 58,7 Kpb y 69,5 Kpb aguas arriba del gen (tb1) era un potenciador de la expresión genética, lo que explica las diferencias en la arquitectura vegetal entre el maíz y su pariente silvestre68. Ese estudio mostró cómo los TE pueden ser un medio de adaptación rápida, ya que pueden crear rápidamente diversidad genética además de ser potenciadores de la expresión genética69. Es interesante observar que de los 39,459 TE de PAV observados en el frijol de lima, el 22% se ubicaron en regiones intergénicas y el 75% se ubicaron cerca o dentro de los genes, lo que proporciona un gran potencial de los TE para afectar las funciones de los genes en el frijol de lima. Para explorar más a fondo el papel de los TE en la domesticación, mostramos la variabilidad intraespecie de los TE en proximidad a genes previamente relacionados con la domesticación y rasgos agronómicos como la dehiscencia de la vaina, la cianogénesis y el tiempo de floración. Si bien este estudio marca un buen punto de partida, los estudios futuros deberían aumentar la disponibilidad de ensamblajes de genoma completo y datos WGS sobre un conjunto más amplio de muestras silvestres y domesticadas.

Dada la importancia del frijol de lima como cultivo actual para la seguridad alimentaria, creemos que tanto las bases de datos como la información recopilada aquí proporcionada proporcionarán una base para futuros estudios sobre la evolución y función de los TE en diferentes especies de plantas, así como aplicaciones a la genética. mejoramiento del frijol lima. En particular, en el corto plazo, esperamos construir ensamblajes genómicos de diferentes accesiones, incluido el acervo genético andino (AI).

El genoma de referencia de P. lunatus V.1 y el de P. vulgaris V.1.0 se recuperaron de Phytozome v.13. Estos genomas se utilizaron como base para la identificación, clasificación y anotación de TE. El genoma del frijol lima tiene una longitud total de 546,42 Mbp4. El genoma del frijol común tiene una longitud total de 520,99 Mbp8.

Los genomas ensamblados (P. lunatus V.1 y P. vulgaris V.1.0) se utilizaron para identificar transposones de la siguiente manera. Se utilizó Inpactor227 para identificar transposones LTR completos mediante un enfoque de aprendizaje automático. Luego, para identificar los TE por similitud, las secuencias de TE identificadas previamente en P. vulgaris25 se agruparon con las secuencias detectadas por Inpactor2 utilizando CD-HIT70. Se retuvo una secuencia TE por grupo según la longitud y el conjunto esperado de dominios en la familia. Esta base de datos filtrada se utilizó para generar la clasificación específica por superfamilias utilizando el Extensive de-novo TE Annotator (EDTA)28. Debido a los filtros estrictos utilizados por el paso RepeatMasker29 en la canalización de EDTA, el análisis de RepeatMasker se repitió utilizando la biblioteca EDTA como entrada. Este procedimiento nos permitió integrar señales de homología y estructura en el proceso de clasificación para completar la anotación y caracterización del catálogo de elementos transponibles del genoma de P. lunatus (Figura complementaria 15). Las regiones que fueron anotadas con ambas herramientas de software (RepeatMasker y EDTA) se separaron en superfamilias. Se descartaron anotaciones desconocidas, repeticiones simples, regiones de baja complejidad, repeticiones en tándem y anotaciones de pseudogenes. Para cada superfamilia, se filtraron los TE para eliminar las anotaciones de tamaño pequeño (consulte la Tabla complementaria 6 para obtener más detalles). Finalmente, se fusionaron las anotaciones redundantes, reduciendo así el número de elementos anotados inicialmente.

Los árboles filogenéticos se reconstruyeron utilizando el dominio retrotranscriptasa de los transposones LTR como se describió anteriormente71. Primero, cada genoma se comparó con una base de datos de RT utilizando CENSOR72 que conserva dominios de RT con una longitud mínima de 150 aminoácidos. Esta base de datos de referencia estaba compuesta por las bases de datos GypsyDB73 y REXdb74. Los resultados del mapeo se filtraron por 50% de identidad y 50% de longitud de alineación. Luego, los dominios RT identificados y los dominios de referencia se concatenaron en una base de datos RT final. Todos los dominios RT se alinearon usando MAFFT (v. 7.475) 75 y se reconstruyó un árbol filogenético de máxima probabilidad aproximado usando FastTree (v. 2.1.11) 76 y se editó con Itol77.

Realizamos la secuenciación del genoma completo de 60 muestras obtenidas del Centro Internacional de Agricultura Tropical (CIAT) (consulte los Datos complementarios 3 para obtener más detalles). Esto incluyó 32 muestras domesticadas (14 del acervo genético de IA andino y 18 del acervo genético de MI mesoamericano) y 28 muestras silvestres (15 del acervo genético de IA y 13 del acervo genético de MI). Se recogieron hojas jóvenes trifoliadas de plántulas de dos semanas de edad y se congelaron con nitrógeno líquido. Con base en los requisitos de integridad y concentración del ADN de la tecnología de secuenciación de Illumina, la extracción de ADN se realizó utilizando el método de extracción desarrollado por Vega-Vela & Sánchez78. La biblioteca Illumina utilizó 1,0 μg de ADN según un kit de preparación de biblioteca de ADN NEBNext siguiendo las recomendaciones del fabricante (New England BioLabs, Ipswich, MA, EE. UU.). El ADN genómico se fragmentó hasta un tamaño de 350 pb, los fragmentos se ligaron a adaptadores NEBNext y se enriquecieron mediante PCR. La distribución del tamaño de la biblioteca se analizó con un bioanalizador Agilent 2100 (Agilent Technologies, Santa Clara, CA, EE. UU.) y se cuantificó mediante PCR en tiempo real. Las bibliotecas se secuenciaron en una plataforma Illumina HiSeq (Illumina, San Diego, CA, EE. UU.) utilizando una ejecución de 150 pares (2 × 150 bases) y un tamaño de inserción de 450 pb. Los datos WGS sin procesar están disponibles en la base de datos del archivo de lectura de secuencias del NCBI con el número de acceso del bioproyecto PRJNA596114.

Las lecturas de Illumina de las 60 muestras secuenciadas (WGS) se validaron en calidad y se asignaron al genoma de referencia de P. lunatus utilizando la Plataforma de experiencia de secuenciación de próxima generación (NGSEP) V.4.279. Las lecturas de Illumina de la adhesión del genoma de referencia (G27455) se recuperaron del NCBI (SRR10726092) y también se asignaron al genoma de referencia del frijol lima (Figura complementaria 16). Se identificaron variantes y se genotiparon los individuos utilizando el comando MultiSampleVariantDetector del NGSEP V.4.279 con los siguientes parámetros: -maxAlnsPerStartPos 2 como número máximo de alineamientos permitidos para comenzar en el mismo sitio de referencia, -maxBaseQS 30 como valor máximo permitido para una base puntuación de calidad, -h 0,0001 como tasa de heterocigosidad (probabilidad previa de encontrar un SNP heterocigoto en cada posición) y -STR conocidos con el archivo con repeticiones cortas en tándem (STR) de haba de lima conocidas. Se obtuvo un conjunto sin procesar de variantes confiables filtrando con el comando NGSEP VCFFilter con los siguientes criterios: -q 40 puntuación mínima de calidad del genotipo (codificada en Phred, donde 40 significa 0,9999 de probabilidad posterior de que cada llamada de genotipo sea correcta), y -frs para eliminar regiones repetitivas. Este procedimiento generó un conjunto de 7.316.508 SNV bialélicos con aproximadamente un 33% de datos faltantes.

Esta base de datos de variaciones inicial se filtró aún más para excluir variantes con frecuencia de alelos menores (MAF) <0,05, variantes con heterocigosidad máxima observada >0,1 y retener solo SNP bialélicos. También se descartaron variantes con menos de 40 muestras genotipadas. Después de este paso se obtuvo un total de 1.724.831 SNP. Esta base de datos se utilizó para reconstruir una topología de árbol para el análisis de diversidad genética basado en el enfoque Neighbor-Joining (NJ). Se utilizaron los comandos VCFDistanceMatrixCalculator y NeighborJoining del NGSEP. El árbol fue visualizado y editado con iTOL v.4.4.210377.

Para identificar barridos selectivos, aplicamos un enfoque integrador que se centra en tres enfoques que compararon muestras silvestres y domesticadas dentro de cada acervo genético: (1) un método de probabilidad basado en el cálculo de estadísticas de diferenciación de frecuencia de alelos multilocus entre poblaciones aplicadas a ventanas deslizantes genómicas. (2) evaluación de los índices de diversidad y diferenciación genética (π y FST) mediante un enfoque de ventana deslizante genómica. (3) evaluación de índices de diversidad mediante un enfoque gen por gen. La identificación de barridos selectivos se realizó en la base de datos de SNP filtrada que consta de 1.724.831 loci de SNP.

En el primer enfoque, evaluamos la diferenciación de la frecuencia de los alelos en loci vinculados entre muestras silvestres y domesticadas dentro de cada conjunto de genes con las estadísticas llamadas XP-CLR (prueba de índice de probabilidad compuesta entre poblaciones)30 en ventanas de 50 Kbp/5 Kbp. Los barridos selectivos se identificaron como aquellas ventanas con valores normalizados de XP-CLR ≥ 5. En el segundo enfoque, los datos genómicos se evaluaron en ventanas deslizantes de 50 Kbp/5 Kbp con el programa PopGenome31. Dentro de cada acervo genético, se calculó para cada ventana la reducción de la diversidad de nucleótidos en las muestras domesticadas (un efecto conocido como efecto fundador) (medido como proporciones (πsalvaje - πdomesticado)/πsalvaje) y los índices FST entre las muestras silvestres y domesticadas. Los barridos selectivos se identificaron como aquellas ventanas en el 10 por ciento superior de la distribución de valores de baja diversidad y FST. En el tercer enfoque, aplicamos los mismos criterios que en el segundo enfoque para detectar genes candidatos a la domesticación en Mesoamérica y los Andes. Para esto, calculamos estadísticas de diversidad de intercambio de alelos (el número promedio de diferencias por pares por Kbp y FST) a través de todos los genes en el catálogo del genoma del frijol lima usando el módulo VCFAlleleSharingStats de NGSEP y seleccionamos los genes dentro del 10 por ciento superior del distribución de baja diversidad y valores de FST. Se comparó la distribución de los barridos selectivos entre los acervos genéticos del frijol de lima de Mesoamérica y los Andes y también con las regiones genómicas potencialmente afectadas por los barridos selectivos que se han identificado previamente en el frijol común8. Finalmente, generamos un consenso sobre los resultados obtenidos por todos los enfoques para obtener una lista de genes candidatos que puedan validarse en futuros estudios.

El detector de variantes de muestra única del software NGSEP V.4.279 se ejecutó de forma independiente para cada muestra, activando el análisis de pares de lectura para identificar grandes eliminaciones de lecturas de extremos emparejados. Luego, la variación de presencia/ausencia de TE se infirió a partir de la superposición entre la ubicación del TE y las eliminaciones identificadas por NGSEP (Figura complementaria 17). Para cada entrada y cada TE, el TE se consideró eliminado (alelo cero) dentro de la entrada si al menos un porcentaje fijo de los pares de bases del TE se superponen con un evento de eliminación. En caso contrario, el alelo de referencia se codificó con el número uno. Se obtuvieron cuatro matrices diferentes de TE genotipados según el porcentaje del transposón que se eliminó (100%, 95%, 90% y 85%). Seleccionamos la matriz del 85% para el siguiente análisis según datos experimentales. Brevemente, calculamos el número de TE variables utilizando los cuatro porcentajes mínimos (Tabla complementaria 7). Según esta métrica, la matriz del 85% presentó el mayor número de TE con PAV (52.276). Al filtrar los TE con una longitud <500 pb, obtuvimos un total de 39,459 PAV (Datos complementarios 5).

Los PAV se agruparon mediante agrupación jerárquica. Se utilizó el paquete hclust para crear los clusters y plot.hclust para visualizar los resultados en R v. 4.1.3. La matriz se transformó a un formato VCF y se utilizó el comando VCFDiversityStats de NGSEP para calcular las frecuencias de alelos menores (MAF) de las variables TE.

Para detectar TE que difieren en frecuencia entre los acervos genéticos mesoamericanos y andinos, y también entre las muestras silvestres y domesticadas dentro del acervo genético mesoamericano, aplicamos pruebas exactas de Fisher a cada TE (Datos complementarios 5). Posteriormente, con esta matriz se utilizó el paquete ComplexHeatmap80 de R para visualizar asociaciones entre diferentes TE entre las colecciones.

Los genes anotados de P. lunatus se contrastaron con la base de datos TE para identificar transposones asociados. Se utilizó una ventana de 10 Kbp para identificar los TE en sentido ascendente y descendente de los genes. A partir del archivo de comparación se realizó la búsqueda de genes relacionados con la domesticación. Posteriormente, con la web JBrowse, se navegó por el genoma y se visualizaron las inserciones de TE cerca o dentro de los genes. Para validar la variación de presencia/ausencia (PAV) de un TE (tamaño 1423 pb) anotado en el gen GIGANTEA, se seleccionaron al azar siete accesiones de diferentes acervos genéticos (mesoamericanos, andinos, silvestres y domesticados). Se utilizó el software Samtools V.1.1081 para extraer la fracción del archivo de mapeo (archivo BAM) correspondiente al TE y las regiones flanqueantes de 100 kb: "Pl04:27199747-27401170". Posteriormente, cada región fue indexada y visualizada con la herramienta Integrated Genome Browser (IGV)82. Finalmente, los genes ortólogos en P. vulgaris V.1.0 y V.2.0 se identificaron utilizando el comando GenomesAligner del NGSEP V.4.283. La posición de los genes se extrajo y visualizó en JBrowse.

Este estudio analiza los datos de la secuencia del genoma completo de Illumina de 61 muestras de frijol lima. Para las comparaciones entre poblaciones, el número de individuos por población fue 13 para la población MI salvaje, 19 para la población MI domesticada, 15 para la población AI salvaje y 14 para la población AI domesticada. La semilla biológica para todas las accesiones utilizadas en este estudio se puede solicitar al Centro Internacional de Agricultura Tropical (CIAT). Los métodos para mapear lecturas en el genoma de referencia, construir las bases de datos de variación genómica de SNP y TE variables, y filtrar estas bases de datos se describen completamente en las secciones de métodos correspondientes. Los detalles completos sobre los métodos estadísticos para identificar barridos selectivos se describen en la sección “Identificación de barridos selectivos”. La importancia del enriquecimiento de la ontología genética dentro de los barridos selectivos se evaluó mediante la prueba exacta de Fisher disponible en el software TopGO v4.384.

Para determinar la importancia de las diferencias de los recuentos de PAV de los TE entre los acervos genéticos (andinos y mesoamericanos) y el estado biológico (salvaje y domesticado), se llevó a cabo una prueba de Wilcoxon utilizando la función R Wilcox.test con la alternativa "bilateral". Se utilizó una prueba exacta de Fisher para evaluar la importancia de las frecuencias alélicas de PAV entre poblaciones (MI frente a IA y MI salvaje frente a MI domesticado). Finalmente, se realizó una prueba de chi-cuadrado ejecutando la función R chisq.test en los recuentos de superfamilias TE anotadas para evaluar la sobrerrepresentación de cada familia particular en los genomas de P. lunatus y P. vulgaris. El número de puntos de datos por categoría para esta prueba siempre fue mayor que 137 (Tabla complementaria 1).

Más información sobre el diseño de la investigación está disponible en el Resumen del informe de Nature Portfolio vinculado a este artículo.

Los datos utilizados en este estudio están disponibles en la base de datos del archivo de lectura de secuencias (SRA) del NCBI (https://www.ncbi.nlm.nih.gov/sra) con el número de acceso del bioproyecto PRJNA596114. La base de datos de variación genómica está disponible en la base de datos del Archivo Europeo de Variaciones (EVA) con el número de acceso del bioproyecto PRJEB62157. El ensamblaje del genoma de referencia está disponible en la base de datos de la Asamblea del NCBI (https://www.ncbi.nlm.nih.gov/assembly/) con el número de acceso GCA_013389735.1. El genoma también está disponible en Phytozome (https://phytozome-next.jgi.doe.gov/). Los elementos transponibles anotados se incluyen como archivos complementarios de esta publicación (Datos complementarios 1 y 2). Se encuentran disponibles datos de origen numéricos para gráficos y tablas (Datos complementarios 8). Todos los demás datos están disponibles del autor correspondiente (u otras fuentes, según corresponda) previa solicitud razonable.

Martínez-Reina, AM et al. Análisis tecnológico y socioeconómico del sistema de producción local del frijol rosado de Zaragoza (Phaseolus vulgaris L.) en el Caribe de Colombia. Rev. Colomb. Delaware. Ciencia. Hortíc. 15, e11520 (2021).

Artículo de Google Scholar

Palupi, HT, Estiasih, T., Yunianta & Sutrisno, A. Caracterización fisicoquímica y proteica de la semilla de frijol lima (Phaseolus lunatus L). Res. alimentaria. 6, 168-177 (2022).

Artículo de Google Scholar

Chacón-Sánchez, MI & Martínez-Castillo, J. Prueba de escenarios de domesticación del frijol lima (Phaseolus lunatus L.) en Mesoamérica: conocimientos a partir de marcadores genéticos de todo el genoma. Frente. Ciencia vegetal. 8, 1551 (2017).

Artículo PubMed PubMed Central Google Scholar

García, T. et al. Recursos genómicos integrales relacionados con la domesticación y los rasgos de mejoramiento de cultivos en frijol lima. Nat. Comunitario. 12, 702 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Delgado-Salinas, A., Bibler, R. & Lavin, M. Filogenia del género Phaseolus (leguminosae): una diversificación reciente en un paisaje antiguo. Sistema. Bot. 31, 779–791 (2006).

Artículo de Google Scholar

Marks, RA, Hotaling, S., Frandsen, PB y VanBuren, R. Representación y participación a lo largo de 20 años de secuenciación del genoma de plantas. Nat. Plantas 7, 1571–1578 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Chacón-Sánchez, MI, Martínez-Castillo, J., Duitama, J. & Debouck, DG Flujo genético en frijoles Phaseolus y su papel como un posible impulsor de la aptitud ecológica y la expansión de los cultígenos. Frente. Ecológico. Evolución. 9, 618709 (2021).

Artículo de Google Scholar

Schmutz, J. y col. Un genoma de referencia para el frijol común y el análisis de todo el genoma de domesticaciones duales. Nat. Gineta. 46, 707–713 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Moghaddam, SM et al. El genoma del frijol tépari proporciona información sobre la evolución y la domesticación en condiciones de estrés por calor. Nat. Comunitario. 12, 2638 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Wisser, RJ y cols. Ensamblaje del genoma de una variedad de frijol lima derivada de Mesoamérica: un cultivar fundamental en el Atlántico Medio de EE. UU. G3 11, jkab207 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Li, F., Cao, D., Liu, Y., Yang, T. y Wang, G. Secuenciación del transcriptoma de haba (Phaseolus lunatus) para identificar una supuesta selección positiva en Phaseolus y leguminosas. En t. J. Mol. Ciencia. 16, 15172–15187 (2015).

Artículo PubMed PubMed Central Google Scholar

Heredia-Pech, M. et al. Consecuencias de la introgresión y el flujo de genes sobre la estructura genética y la diversidad del frijol lima (Phaseolus lunatus L.) en su área de diversidad mesoamericana. PeerJ 10, e13690 (2022).

Artículo PubMed PubMed Central Google Scholar

Bourque, G. y col. Diez cosas que debes saber sobre los elementos transponibles. Genoma Biol. 19, 199 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Chuong, EB, Elde, NC & Feschotte, C. Actividades regulatorias de elementos transponibles: de los conflictos a los beneficios. Nat. Rev. Genet. 18, 71–86 (2017).

Artículo CAS PubMed Google Scholar

Feschotte, C. Elementos transponibles y la evolución de las redes regulatorias. Nat. Rev. Genet. 9, 397–405 (2008).

Artículo CAS PubMed PubMed Central Google Scholar

Niu, XM y cols. Los elementos transponibles impulsan una rápida variación fenotípica en Capsella rubéola. Proc. Acad. Nacional. Ciencia. Estados Unidos 116, 6908–6913 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Quadrana, L. et al. La transposición favorece la generación de mutaciones de gran efecto que pueden facilitar una rápida adaptación. Nat. Comunitario. 10, 3421 (2019).

Artículo PubMed PubMed Central Google Scholar

Xiao, H., Jiang, N., Schaffner, E., Stockinger, EJ y van der Knaap, E. Una duplicación de genes mediada por retrotransposones subyace a la variación morfológica del fruto del tomate. Ciencia 319, 1527-1530 (2008).

Artículo CAS PubMed Google Scholar

Zhang, L. y col. Un ensamblaje del genoma de una manzana de alta calidad revela la asociación de un retrotransposón y el color rojo del fruto. Nat. Comunitario. 10, 1494 (2019).

Artículo PubMed PubMed Central Google Scholar

Akakpo, R., Carpentier, MC, Ie Hsing, Y. & Panaud, O. El impacto de los elementos transponibles en la estructura, evolución y función del genoma del arroz. N. fitol. 226, 44–49 (2020).

Artículo de Google Scholar

Catlin, NS y Josephs, EB La importante contribución de los elementos transponibles a la variación y evolución fenotípica. actual. Opinión. Biol vegetal. 65, 102140 (2022).

Artículo CAS PubMed Google Scholar

Liu, Z. y col. Variación natural y dinámica evolutiva de elementos transponibles en Brassica oleracea basada en datos de secuenciación de próxima generación. Hortico. Res. 7, 145 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Roncal, J. et al. Los elementos transponibles activos recuperan los límites de las especies y la estructura geográfica en las especies de café de Madagascar. Mol. Gineta. Genoma. 291, 155-168 (2016).

Artículo CAS Google Scholar

Parker, TA y cols. La pérdida de cadenas de vainas en el frijol común se asocia con la duplicación de genes, la inserción de retrotransposones y la sobreexpresión de PvIND. N. fitol. 235, 2454–2465 (2022).

Artículo CAS Google Scholar

Gao, D., Abernathy, B., Rohksar, D., Schmutz, J. & Jackson, SA Anotación y diversidad de secuencias de elementos transponibles en frijol común (Phaseolus vulgaris). Frente. Ciencia vegetal. 5, 339 (2014).

Artículo PubMed PubMed Central Google Scholar

Domínguez, M. et al. El impacto de los elementos transponibles en la diversidad del tomate. Nat. Comunitario. 11, 4058 (2020).

Artículo PubMed PubMed Central Google Scholar

Orozco-Arias, S. et al. Inpactor2: un software basado en aprendizaje profundo para identificar y clasificar retrotransposones LTR en genomas de plantas. Breve. Bioinformar. 24, bbac511 (2022).

Artículo PubMed Central Google Scholar

Ou, S. y col. Evaluación comparativa de métodos de anotación de elementos transponibles para la creación de un proceso completo y optimizado. Genoma Biol. 20, 275 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Flynn, JM y cols. RepeatModeler2 para el descubrimiento genómico automatizado de familias de elementos transponibles. Proc. Acad. Nacional. Ciencia. Estados Unidos 117, 9451–9457 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Chen, H., Patterson, N. y Reich, D. Diferenciación de población como prueba para barridos selectivos. Genoma Res. 20, 393–402 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Pfeifer, B., Wittelsbürger, U., Ramos-Onsins, SE y Lercher, MJ PopGenome: una navaja suiza eficiente para análisis genómicos de poblaciones en R. Mol. Biol. Evolución. 31, 1929-1936 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Reddy, AR y Raghavendra, AS Estrés fotooxidativo. En Fisiología y biología molecular de la tolerancia al estrés en plantas 157–186 (Springer, Dordrecht, 2006) https://doi.org/10.1007/1-4020-4225-6.

Jacobs, AK y cols. Se requiere una callosa sintasa de Arabidopsis, GSL5, para la formación de callosa papilar y de heridas. Célula vegetal 15, 2503–2513 (2003).

Artículo CAS PubMed PubMed Central Google Scholar

Alhasnawi, A. Alivio del estrés por NaCl mediado por β-glucano en Ocimum basilicum L. en relación con la respuesta de las enzimas antioxidantes y la evaluación del marcador de ADN. żynieria Ekol. 20, 90–99 (2019).

Google Académico

Liang, XD, Shalapy, M., Zhao, SF, Liu, JH y Wang, JY Un factor de transcripción sensible al estrés, PeNAC1, que regula los genes biosintéticos de beta-d-glucano, mejora la tolerancia a la sal en la avena. Planta 254, 1–14 (2021).

Artículo de Google Scholar

Kumar, K., Raina, SK y Sultan, SM Vías de señalización de Arabidopsis MAPK y sus conversaciones cruzadas en la respuesta al estrés abiótico. J. Bioquímica vegetal. Biotecnología. 29, 700–714 (2020).

Artículo CAS Google Scholar

Tsugama, D., Liu, S. y Takano, T. Análisis de funciones de VIP1 y sus homólogos cercanos en respuestas osmosensoriales de Arabidopsis thaliana. MÁS UNO 9, e103930 (2014).

Artículo PubMed PubMed Central Google Scholar

Shamloo-Dashtpagerdi, R., Razi, H., Ebrahimie, E. & Niazi, A. Caracterización molecular de los factores de transcripción relacionados con el estrés de Brassica napus, BnMYB44 y BnVIP1, seleccionados en función del análisis comparativo de los transcriptomas de Arabidopsis thaliana y Eutrema salsugineum. Mol. Biol. Representante 45, 1111-1124 (2018).

Artículo CAS PubMed Google Scholar

Murgia, ML et al. Una investigación fenotípica exhaustiva del "síndrome de rotura de vainas" en el frijol común. Frente. Ciencia vegetal. 8, 251 (2017).

Artículo PubMed PubMed Central Google Scholar

Funatsuki, H. y col. Base molecular de una resistencia devastadora que impulsa la difusión global de la soja. Proc. Acad. Nacional. Ciencia. 111, 17797–17802 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Parker, TA, Berny Mier y Teran, JC, Palkovic, A., Jernstedt, J. & Gepts, P. La indehiscencia de las vainas es un rasgo de resistencia a la domesticación y la aridez en el frijol común. N. fitol. Rev. 225, 558–570 (2020).

Artículo CAS Google Scholar

Moghaddam, SM et al. Un estudio de asociación de todo el genoma identifica loci candidatos que subyacen a los rasgos agronómicos en un panel de diversidad de frijol común de América Central. Genoma vegetal 9, genoma vegetal 2016–02 (2016).

Artículo de Google Scholar

Ariani, A. & Gepts, P. Identificación y caracterización de todo el genoma de la familia de genes de acuaporina en frijol común (Phaseolus vulgaris L.). Mol. Gineta. Genoma. 290, 1771-1785 (2015).

Artículo CAS Google Scholar

Lanno, N. & Van Damme, EJ Dominios de lectina en las fronteras de la defensa vegetal. Frente. Ciencia vegetal. 5, 397 (2014).

Artículo de Google Scholar

Hashida, SN y cols. El sistema ferredoxina/tioredoxina juega un papel importante en el estado cloroplástico de NADP de Arabidopsis. Planta J. 95, 947–960 (2018).

Artículo CAS PubMed Google Scholar

Oñate, J. et al. Caracterización bioquímica y funcional de GALT8, una β-(1, 3)-galactosiltransferasa de Arabidopsis GT31 que influye en el desarrollo de las plántulas. Frente. Ciencia vegetal. 12, 678564 (2021).

Artículo de Google Scholar

Duitama, J. et al. Un marco integrado para el descubrimiento y genotipado de variantes genómicas a partir de experimentos de secuenciación de alto rendimiento. Ácidos nucleicos res. 42, e44 (2014).

Artículo PubMed PubMed Central Google Scholar

Serrano-Serrano, ML, Hernandez-Torres, J., Castillo-Villamizar, G., Debouck, DG & Chacon-Sanchez, MI Acervos genéticos en frijol lima silvestre (Phaseolus lunatus L.) de las Américas: evidencia de un origen andino y migraciones pasadas. Mol. Evolución filogenética. Rev. 54, 76–87 (2010).

Artículo CAS Google Scholar

Lai, D. y col. Biosíntesis de glucósidos cianogénicos en Phaseolus lunatus y evolución de las defensas basadas en oximas. Planta directa 4, e00244 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Mishra, P. & Panigrahi, KC GIGANTEA: una historia emergente. Frente. Ciencia vegetal. 6, 8 (2015).

Artículo PubMed PubMed Central Google Scholar

Wang, Y. et al. Apoyo evolutivo molecular y geográfico para el papel esencial de GIGANTEAa en la domesticación de la época de floración de la soja. BMC evolución. Biol. 16, 79 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Maurel, C., Verdoucq, L., Luu, DT y Santoni, V. Acuaporinas vegetales: canales de membrana con múltiples funciones integradas. Año. Rev. Planta Biol. 59, 595–624 (2008).

Artículo CAS PubMed Google Scholar

Aroca, R., Ferrante, A., Vernieri, P. y Chrispeels, MJ Efectos de la sequía, el ácido abscísico y la tasa de transpiración sobre la regulación de la expresión y abundancia del gen PIP en plantas de Phaseolus vulgaris. Ana. Bot. 98, 1301-1310 (2006).

Artículo CAS PubMed PubMed Central Google Scholar

Montalvo-Hernández, L. et al. Acumulación diferencial de ARNm en cultivares de frijol común tolerantes y susceptibles a la sequía en respuesta al déficit hídrico. N. fitol. 177, 102-113 (2008).

Artículo de Google Scholar

Recchia, GH, Caldas, DG, Beraldo, AL, da Silva, MJ & Tsai, SM Análisis transcripcional de genes inducidos por sequía en las raíces de un genotipo tolerante en frijol común (Phaseolus vulgaris L.). En t. J. Mol. Ciencia. 14, 7155–7179 (2013).

Artículo CAS PubMed PubMed Central Google Scholar

Bitocchi, E. et al. El frijol (Phaseolus ssp.) como modelo para comprender la evolución de los cultivos. Frente. Ciencia vegetal. 8, 722 (2017).

Artículo PubMed PubMed Central Google Scholar

Rendón-Anaya, M. et al. La historia genómica del origen y domesticación del frijol común revela su especie hermana más cercana. Genoma Biol. 18, 60 (2017).

Artículo PubMed PubMed Central Google Scholar

Lu, C. y col. Los elementos transponibles de repetición invertida (MITEs) en miniatura se han acumulado mediante ráfagas de amplificación y desempeñan funciones importantes en la expresión genética y la diversidad de especies en Oryza sativa. Mol. Biol. Evolución. 29, 1005-1017 (2012).

Artículo CAS PubMed Google Scholar

Guo, Z. et al. Los elementos transponibles en miniatura de repetición invertida impulsan una rápida diversificación de microARN en angiospermas. Mol. Biol. Evolución. 39, msac224 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Feschotte, C., Jiang, N. y Wessler, S. Elementos transponibles de plantas: donde la genética se encuentra con la genómica. Nat. Rev. Genet. 3, 329–341 (2002).

Artículo CAS PubMed Google Scholar

Piegu, B. et al. Duplicar el tamaño del genoma sin poliploidización: dinámica de expansiones genómicas impulsadas por retrotransposición en Oryza australiensis, un pariente silvestre del arroz. Genoma Res. 16, 1262-1269 (2006).

Artículo CAS PubMed PubMed Central Google Scholar

Ming, R. y col. El genoma de la piña y la evolución de la fotosíntesis CAM. Nat. Gineta. 47, 1435-1442 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

de Assis, R. et al. Relaciones genómicas y diversidad de retrotransposones LTR en tres especies cultivadas de Capsicum L. (Solanaceae). Genoma de BMC. 21, 237 (2020).

Artículo de Google Scholar

Baduel, P. & Quadrana, L. Impulsar la evolución: cómo la transposición puede facilitar la adaptación a los rápidos cambios ambientales. actual. Opinión. Biol vegetal. 61, 102043 (2021).

Artículo CAS PubMed Google Scholar

Hollister, JD y cols. Los elementos transponibles y los ARN pequeños contribuyen a la divergencia en la expresión génica entre Arabidopsis thaliana y Arabidopsis lyrata. Proc. Acad. Nacional. Ciencia. Estados Unidos 108, 2322–2327 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Naito, K. y col. Consecuencias inesperadas de una amplificación repentina y masiva de transposones en la expresión del gen del arroz. Naturaleza 461, 1130-1134 (2009).

Artículo CAS PubMed Google Scholar

West, PT y cols. Distribución genómica de H3K9me2 y metilación del ADN en un genoma de maíz. MÁS UNO 9, e105267 (2014).

Artículo PubMed PubMed Central Google Scholar

Studer, A., Zhao, Q., Ross-Ibarra, J. y Doebley, J. Identificación de una inserción de transposón funcional en el gen de domesticación del maíz tb1. Nat. Gineta. 43, 1160-1163 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Oliver, KR, McComb, JA y Greene, WK Elementos transponibles: poderosos contribuyentes a la evolución y diversidad de las angiospermas. Genoma Biol. Evolución. 5, 1886-1901 (2013).

Artículo PubMed PubMed Central Google Scholar

Fu, L., Niu, B., Zhu, Z., Wu, S. y Li, W. CD-HIT: acelerado para agrupar los datos de secuenciación de próxima generación. Bioinformática 28, 3150–3152 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Raharimalala, N. y col. La ausencia del gen de la cafeína sintasa está implicada en el estado naturalmente descafeinado de Coffea humblotiana, una especie silvestre del archipiélago de las Comoras. Ciencia. Rep. 11, 8119 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Kohany, O., Gentles, AJ, Hankus, L. & Jurka, J. Anotación, envío y selección de elementos repetitivos en Repbase: RepbaseSubmitter y censura. Bioinformación de BMC. 7, 474 (2006).

Artículo de Google Scholar

Llorens, C. et al. La base de datos Gypsy (GyDB) de elementos genéticos móviles: versión 2.0. Ácidos nucleicos res. 39, D70-D74 (2011).

Artículo CAS PubMed Google Scholar

Neumann, P. y col. El estudio sistemático de los retrotransposones LTR de plantas aclara las relaciones filogenéticas de sus dominios poliproteicos y proporciona una referencia para la clasificación de elementos. Multitud. ADN 10, 1 (2019).

Artículo PubMed PubMed Central Google Scholar

Katoh, K. & Standley, DM MAFFT software de alineación de secuencias múltiples versión 7: mejoras en el rendimiento y la usabilidad. Mol. Biol. Evolución. 30, 772–780 (2013).

Artículo CAS PubMed PubMed Central Google Scholar

Price, MN, Dehal, PS y Arkin, AP FastTree 2: árboles de probabilidad máxima aproximada para alineaciones grandes. MÁS UNO 5, e9490 (2010).

Artículo PubMed PubMed Central Google Scholar

Letunic, I. & Bork, P. Árbol interactivo de la vida (iTOL) v4: actualizaciones recientes y nuevos desarrollos. Ácidos nucleicos res. 47, W256–W259 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Vega-Vela, NE & Sánchez, MIC Aislamiento de ADN de alta calidad en 16 especies aromáticas y medicinales colombianas mediante columnas de extracción a base de sílice. Agronomía Colomb. 29, 349–357 (2011).

Google Académico

Tello, D. et al. NGSEP3: llamada de variantes precisa entre especies y protocolos de secuenciación. Bioinformática 35, 4716–4723 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Gu, Z., Eils, R. & Schlesner, M. Los mapas de calor complejos revelan patrones y correlaciones en datos genómicos multidimensionales. Bioinformática 32, 2847–2849 (2016).

Artículo CAS PubMed Google Scholar

Danecek, P. y col. Doce años de SAMtools y BCFtools. GigaScience 10, giab008 (2021).

Artículo PubMed PubMed Central Google Scholar

Robinson, JT y cols. Visor de genómica integrativa. Nat. Biotecnología. 29, 24-26 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Tello, D. et al. NGSEP 4: identificación eficiente y precisa de ortogrupos y alineación de todo el genoma. Mol. Ecológico. Recurso. 23, 712–724 (2023).

Artículo CAS PubMed Google Scholar

Alexa. A. y Rahnenfuhrer, J. topGO: análisis de enriquecimiento para ontología genética. Paquete R versión 2.52.0, http://bioconductor.org/packages/release/bioc/html/topGO.html (2023).

Descargar referencias

El trabajo presentado en este manuscrito fue apoyado con financiamiento interno de la Universidad de los Andes a través del fondo de investigación FAPA y un proyecto para abordar las metas de desarrollo sostenible, otorgado a JD. También agradecemos a la unidad de computación de alto rendimiento DSIT de la Universidad de los Andes por su apoyo para realizar los análisis presentados en este manuscrito. Los autores reconocen el IFB Core Cluster que forma parte de la Red Nacional de Recursos Computacionales (NNCR) del Institut Français de Bioinformatique (https://www.france-bioinformatique.fr). RG agradece a BIO_ANDES LMI por su apoyo.

Los siguientes autores supervisaron conjuntamente este trabajo: María Isabel Chacón-Sánchez, Jorge Duitama.

Systems and Computing Engineering Department, Universidad de los Andes, Bogotá, Colombia

Daniela Lozano-Arce, Laura Natalia Gonzalez-Garcia & Jorge Duitama

Departamento de Agronomía, Facultad de Ciencias Agrarias, Universidad Nacional de Colombia, Bogotá, Colombia

Tatiana García & Maria Isabel Chacón-Sánchez

Instituto de Investigación para el Desarrollo (IRD), UMR DIADE, Universidad de Montpellier, CIRAD, 34394, Montpellier, Francia

Laura Natalia Gonzalez-Garcia & Romain Guyot

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

JD y MICS concibieron el estudio. MICS realizó trabajo de campo y de laboratorio para secuenciar las muestras. DLA, LNGG y RG realizaron análisis bioinformáticos de elementos transponibles. DLA, TG y JD realizaron análisis de datos WGS. Todos los autores contribuyeron a escribir el manuscrito y aprobaron la versión final.

Correspondence to Jorge Duitama.

Los autores declaran no tener conflictos de intereses.

Communications Biology agradece a Azalea Guerra y a los demás revisores anónimos por su contribución a la revisión por pares de este trabajo. Editores principales: Shahid Mukhtar y David Favero. Un archivo de revisión por pares está disponible.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Lozano-Arce, D., García, T., González-García, LN et al. Firmas de selección y dinámica poblacional de elementos transponibles en frijol lima. Común Biol 6, 803 (2023). https://doi.org/10.1038/s42003-023-05144-y

Descargar cita

Recibido: 10 de enero de 2023

Aceptado: 13 de julio de 2023

Publicado: 02 de agosto de 2023

DOI: https://doi.org/10.1038/s42003-023-05144-y

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.