BMC Plant Biology, 2005; 5: 12-12 (más artículos en esta revista)

Etiquetas de secuencias expresadas (EST) y secuencia de repetición simple (SSR) octoploid marcadores de fresa (Fragaria x ananassa)

BioMed Central
Kevin M Folta (kfolta@ifas.ufl.edu) [1], Margaret Staton (meg@genome.clemson.edu) [2], Philip J Stewart (stewart5@ufl.edu) [1], Sook Jung (sjung @ Clemson.edu) [2], Dawn H Bies (dbies@ufl.edu) [1], Christopher Jesdurai (jcdr@genome.clemson.edu) [2], Dorrie Main (dmain@genome.clemson.edu) [2 ]
[1] Planta de Biología Molecular y Celular de Programa y Departamento de Ciencias Hortícolas, de la Universidad de Florida, Gainesville, FL, EE.UU.
[2] La genética, la bioquímica y de Estudios de Ciencias de la Vida, la Universidad de Clemson, Clemson, SC, EE.UU.

Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons License (http://creativecommons.org/licenses/by/2.0], que permite el uso irrestricto, la distribución y reproducción en cualquier medio, siempre que la obra original sea debidamente citada.

Resumen
Antecedentes

Cultivado fresa (Fragaria x ananassa) representa uno de los más valorados frutales en los Estados Unidos. A pesar de su importancia económica, el genoma octoploid presenta una formidable barrera a la eficaz estudio de la estructura del genoma y los mecanismos moleculares que subyacen a los rasgos de la agricultura. Muchos potencialmente fructíferas vías de investigación, sobre todo en gran escala la expresión de los genes y el desarrollo de los estudios de marcadores genéticos moleculares han sido limitados por la falta de información de secuencias en las bases de datos públicas. Como primer paso para poner remedio a esta discrepancia una biblioteca de cDNA se ha desarrollado a partir de salicilato tratados, en su conjunto-los tejidos de las plantas y más de 1800 etiquetas de secuencias expresadas (EST's) se han secuenciado y analizado.

Resultados

Un putativo unigene conjunto de 1304 secuencias - 133 contigs y 1171 singlets - se ha desarrollado, y las transcripciones se han anotado funcionalmente. Búsquedas de homología indican que el 89,5% de cuota de secuencias significativas similitud con conocidos / o putativo proteínas Rosaceae tecnologías ecológicamente racionales. Las tecnologías ecológicamente racionales se han caracterizado funcionalmente y genes de interés para determinados procesos fisiológicos de importancia económica han sido identificados. Un conjunto de herramientas útiles para el desarrollo y la República Socialista Soviética de la cartografía se presenta.

Conclusión

Secuencias derivadas de este esfuerzo se puede usar para acelerar los esfuerzos en el descubrimiento de genes y la Fragaria Rosaceae, en general, y también abrir nuevas vías de cartografía comparativa. Este informe representa un primer paso en la expansión de los análisis genético-molecular de la fresa y herramientas computacionales demuestra cómo se puede utilizar de forma óptima las minas una gran masa de información útil a partir de un pequeño conjunto de datos.

Antecedentes

Comercial de fresas tiene un valor de 1,4 mil millones de dólares en los Estados Unidos, y representa un importante regional de los cultivos en todo el mundo. A pesar de su valor, anotado menos de 100 secuencias de las bases de datos existentes en público a principios de 2004. La información discrepancia es consecuencia de la limitación de estudio molecular en el difícil octoploid variedades cultivadas. La delgada base de la informática pública, por lo tanto, representa una barrera significativa para el estudio de la genómica funcional, mecanismos genéticos, así como la sistemática molecular de las relaciones entre la octoploid fresa, el Rosaceae y otras especies. La falta de información básica secuencia obstaculiza el desarrollo de tecnologías transgénicas que permitan avanzar en los estudios moleculares y fisiológicos potencialmente favorables para el productor y el consumidor. En general, la escasez de información ha limitado secuencia ágil estudios moleculares en la resolución de este importante cultivo de plantas.

Para solucionar esta discrepancia ~ 1800 etiquetas de secuencias expresadas (EST) fueron secuenciados de toda una biblioteca de cDNA de plantas derivadas de los diversos tejidos del Festival de la Fresa cultivar. Este cultivar ha sido elegido por su costa este de la costa oeste y linaje, así como su gama de atributos favorables hortícolas. 'Strawberry Festival' produce grandes, uniformes, la empresa de frutas, y es resistente a Botrytis cinera, el agente causal detrás de moho gris [1]. Es un cultivar predominante crecido en la Florida, y ha sido bien estudiado en numerosos informes de la utilización de fungicidas, la resistencia a las enfermedades y post-cosecha de fruta de calidad. El estudio de una importante variedad comercial proporcionará herramientas de ayuda directamente a la cría de la sonda y los mecanismos genéticos en estos cultivares.

Fresa tiene potencial sin explotar como un modelo de investigación y herramienta, y la falta de marcadores moleculares para la cría y la eventual necesidad de la mejora genética de la actual serie de cultivares hace especialmente oportuna secuencia de examen. Información obtenida de la octoploid traducir también a la definición de marcadores moleculares para facilitar la cartografía tanto en la especie diploide (por ej. Fragaria vesca Fragaria y nubicola), así como octoploid cultivares. Un fuerte secuencia de la base de datos es la piedra angular de los estudios de genómica funcional, y que esta información le ayuda el desarrollo de tales instrumentos en Fragaria y en el Rosaceae en general. Definición de la secuencia de genes expresados en la variación octoploid puede ayudar en la comprensión de la evolución poliploides y / o silenciar componente de los genomas. Secuencia de la información constituye una base para la posible invertir la genética y la activación de estudios de etiqueta. Tanto el diploide y octoploid especies son excelentes candidatos para esos estudios en que se transformó de manera eficiente y regenerada [2 - 4], poseen un genoma diploide que es ligeramente más grande que el de Arabidopsis thaliana [5], y puede propagarse rápidamente de las semillas ( 3-5 meses) o corredores [6]. Strawberry también puede ser un excelente candidato como un bioreactor, un sistema específico para la fabricación de compuestos de interés. Una presentación de los elementos de la fresa transcriptome facilita el inicio de dichos estudios.

A pesar de los cultivos de fresas del valor y potencial como herramienta de investigación, un análisis formal de la EST de datos no ha sido reportado. En este informe nos identificamos más de 1300 transcripciones único ensamblado de 1847 derivados de las tecnologías ecológicamente racionales en su conjunto de los tejidos vegetales de plantas después de 24 h de tratamiento de ácido salicílico. La biblioteca de cDNA fue preparado a partir de ARN total combinada de las raíces, los pecíolos, estolones, hojas y meristemas de generar un conjunto diverso de las transcripciones con limitado redundancia. Múltiples análisis, tales como el desarrollo de un conjunto unigene, con anotación putativo de la función y la identificación de SSRs, abre nuevos caminos de investigación que la velocidad de fresas en la fisiología, evolución, la genética y la genómica. Esto representa el primer gran informe de Fragaria EST y ahora puede servir como base de referencia para estos nuevos estudios.

Resultados
El Fragaria x ananassa EST biblioteca

La biblioteca de cDNA Lambda ZAP se generó en su totalidad de los tejidos de las plantas maduras de 24 plantas de tratamiento después de ácido salicílico. Los detalles de salicilato de tratamiento, la planta de la biblioteca y los materiales de construcción se presentan en Métodos.

EST procesamiento y la Asamblea

Un total de 1.847 fueron secuenciados de tecnologías ecológicamente racionales, por lo que en 1505 de alta calidad recortado secuencias que se presentaron a GenBank el 6 de agosto de 2004. Que representa una tasa de éxito del 81,5%, estas secuencias tienen una longitud media de 613 bp PHRED calidad y un valor de 35. Asamblea de las secuencias en una unigene se realizó con el fin de reducir la redundancia de las secuencias y la identificación de los mismos para la codificación de proteínas (Métodos, la Asamblea). El total unigene consiste singlets de 1171 por un total de 1304 unigenes.

Contigs fueron ensamblados de secuencias EST. El final unigene tiene 133 contigs, 120 de dos o tres fusionado tecnologías ecológicamente racionales. Ocho contigs se reunieron cuatro de las tecnologías ecológicamente racionales. Contigs reunido cinco o más de esas tecnologías pueden ser útiles para deconstruir en el interés de estudiar la diversidad alélica en el octoploid. En diploide especies representan heterozygousity alelos en un locus dado, así como la duplicación de genes y subfunctionalization de una determinada región de codificación. Diversidad alélica es potencialmente enriquecido en el octoploid, ya que la octoploid mantiene los alelos mantenerse en por lo menos tres donantes genomas diploides. Expresión de alelos específicos pueden ser informativos, como pueden ser los patrones de remontarse a los contribuyentes diploide del genoma, lo que permite la descripción de expresión desde dentro, o entre los donantes genomas.

Por ejemplo, Contig 23 representa psaL, una codificada nuclear de la subunidad photosystem 1 centro de reacción. El contig fue montado EST de cinco, dos de los cuales (4C07 y 6C09) son idénticos en secuencia aún varían en longitud. Los otros miembros contener SNPs, especialmente 18C04, que mantiene cinco única base de los cambios más de un 540 bp alineación de los cinco tecnologías ecológicamente racionales. Otros contienen una sola alteración en esta secuencia genética relativamente conservadas. Resultados similares fueron observados para contigs 32 y 99, que se reunieron entre siete y nueve EST, respectivamente.

Otros contigs se han reunido muchas de las tecnologías ecológicamente racionales, como Contigs 29 y 12. Estos contigs codificar captadores de luz, clorofila vinculante (Lhcb, ex taxi) y no las proteínas específicas de la proteína de transferencia de lípidos, respectivamente. Las tecnologías ecológicamente racionales correspondientes a estos genes se derivan de pequeñas multigene familias dentro de un genoma diploide, en la mayoría de las especies, haciendo que estos constructos menos útil para el estudio de los polimorfismos del genoma-.

Funcional anotación

Herramientas computacionales son regularmente utilizados para inferir la función sobre la base de similitud de secuencias significativas toexperimentally verifiedproteins o putativo de las proteínas. Estos análisis aplicar FASTA y BLAST comparaciones contra bases de datos no redundantes, así como GO anotación. Los EST son secuencias de bases de datos conocido en comparación contra el uso de estas herramientas.

Homología de proteínas búsquedas se realizaron a fin de determinar la función putativo de la EST (Métodos, Caracterización funcional). NCBI no redundante (nr) de proteínas y bases de datos de EST Rosaceae búsquedas se ejecutan en 27 de febrero de 2005 utilizando el algoritmo FASTX3.4 [7]. La base de datos contenía nr 2321663 secuencias de aminoácidos de proteínas en el momento de la búsqueda. De los 1304 unigenes, 1105, o el 84,74% del conjunto, había coincidencias importantes a la base de datos (Tabla 1]. La comparación contra SWISS-PROT se realizó el 26 de julio de 2004, que arrojan un significativo menor número de partidos. SWISS-PROT es una curada, muy anotado, más pequeña base de datos de 153871 demostrado función de las proteínas. 714 de la unigenes (54,75%) había coincidencias significativas (Tabla 1]. Sólo 191 de la unigenes no se corresponde con una proteína en cualquiera de estas dos bases de datos de proteínas (Cuadro 2]. Tras un análisis exhaustivo de secuencias EST no contiene importantes marcos de lectura abierta, lo que sugiere que la secuencia representa EST largo regiones no traducidas, estructurales ARN, o proteínas de buena fe, exclusivo de Fragaria actual sobre la base de las comparaciones.

Comparaciones a Rosaceae EST

Cuadro 1 también se presentan los resultados de la comparación de los unigene-disponible públicamente contra Rosaceae tecnologías ecológicamente racionales a fin de evaluar la forma en Fragaria se relaciona con el resto de la familia Rosaceae, en la secuencia genética y de los niveles de contenido. El algoritmo BLASTN entonces fue utilizado para EST búsquedas de homología contra conocidos Rosaceae tecnologías ecológicamente racionales. Rosaceae EST 227.250 fueron descargados de dbEST. De los 1304 unigenes, 835 (64,03%) tuvieron importantes Rosaceae homología a otras tecnologías ecológicamente racionales. Desde esta base de datos se compone de las tecnologías ecológicamente racionales público, que contiene una gran cantidad de redundancia. La mayoría de las tecnologías ecológicamente racionales público se han secuenciado de los 5 'finales, de modo que las tecnologías ecológicamente racionales generados por el extremo 3' puede ser menos probabilidades de encontrar homólogos en la búsqueda de tecnologías ecológicamente racionales contra el público. Sin embargo, las tecnologías ecológicamente racionales de los 191 que no mostraron homología con SWISS-PROT y Genbank nr (Tabla 2], 54 TER había homólogos representados en el conjunto Rosaceae EST. Esto deja 137 transcripciones muestran que no fuera significativa homología de Fragaria dentro de la familia Rosaceae. Estas tecnologías ecológicamente racionales, fue comparada con la planta de TIGR repetir para comprobar si las bases de datos que pueden tener su origen en retroelement expresión. Ninguno de los aparentemente Fragaria específicos de las transcripciones presentó más de homología con secuencias de repetición dentro de la base de datos.

Caracterización de genes de la ontología

El Fragaria unigenes fueron anotados por más de genes ontología (IR) sobre la base de la cesión único "mejor éxito" partido contra la base de datos SWISS-PROT. Todas las tecnologías ecológicamente racionales con 714 votos a SWISS-PROT han concordancia GO-Términos (Figura 1]. Las tres categorías son función (Grupo A), el proceso (Grupo B), y el componente (Grupo C). Para la función molecular, la fresa EST fueron asignados a ocho categorías. La mayoría (51%) de la EST fueron asignados a "actividad catalítica" (GO: 0003824). Por proceso biológico, la EST fueron asignados a cuatro categorías con la mayoría (77%) en representación de los genes que participan en el metabolismo (GO: 0008152). Cuando agrupados de acuerdo con probable componente celular, la EST fueron asignados a seis categorías y el 93% fueron cubiertas por dos GO términos: "intracelulares" (GO: 0005622) y "membrana" (GO: 0016020). El cuadro completo de la misión de la EST a determinadas categorías GO plazo puede ser visto en la RDA sitio web [8].

Homología asignada a Peach EST

Enlace en las relaciones se han identificado muchos de melocotón tecnologías ecológicamente racionales y han facilitado la colocación en el mapa genético de durazno. Comparación de la Fragaria unigene a este conjunto de tecnologías ecológicamente racionales presenta una base para el desarrollo de las relaciones entre la vinculación establecida melocotón, y la creciente Fragaria, vinculación mapas. Una serie de tecnologías ecológicamente racionales melocotón han sido concluyente anclado a los mapas genéticos mediante el intercambio de BAC con marcadores genéticos que antes se utilizaban para la hibridación BAC [9]. De las 295 asignadas melocotón EST 22 (7,04%) mostraron un importante partido con la fresa unigene (Tabla 3].

Análisis computacional de SSR y ORFs en la EST

Repite secuencia simple (SSR) se identificaron en la fresa unigene conjunto de datos (Open Reading Frame y análisis de microsatélites, Métodos). En este estudio, se definen como SSRs dímeros con al menos 5 repeticiones, trimers con por lo menos 4 repeticiones, tetramers con al menos 3 repeticiones, y pentamers con al menos 3 repeticiones. 190 unigene secuencias (14%) tenían una o más repetir, y 79 diferentes motivos fueron identificados en el conjunto de clones. Un total de 269 SSRs se encontraron con trimers ser el motivo más común de longitud (Tabla 4]. La frecuencia de los motivos para todos los posibles dímeros y trimers aparece en el cuadro 5. Examinar la distribución de la SSR en la región de codificación putativo y la UTR, que hemos detectado marcos de lectura abierta en el unigenes utilizando el programa FLIP (Brossard 1997). Cuando el marco de lectura abierto más larga fue seleccionado como la codificación de la región putativo, 176 (65,4%) de estos microsatélites se encontraron dentro putativo de codificación de las regiones. Cuando filtrada a los mejores candidatos primer óptimo (40-60% de contenido GC) un total de 208 secuencias de acompañamiento SSR-cumplían los criterios (cuadro 6]. Estos candidatos óptimos se pueden descargar a través de la RDA sitio ftp [10].

Discusión

Fragaria x ananassa poliploides es complejo, derivado de una mezcla entre espontánea Fragaria virginiana y Fragaria chiloensis. El genoma contiene contribuciones de por lo menos tres especies diploides [11, 12]. Durante el siglo pasado octoploid cultivo de la fresa ha avanzado únicamente en el cuidado de los esfuerzos de los obtentores, fisiólogos y bioquímicos. Este complejo genoma y coincidiendo incómoda la genética se ha hecho más lento el desarrollo de marcadores moleculares y otras herramientas que beneficien a la cría de esfuerzos y la comprensión de la genómica fresa. Este informe da un punto de partida para avanzar en la investigación de las vías tradicionales de fresa, utilizando las modernas herramientas moleculares que transmita la estructural-funcional de la genómica y los estudios en esta importante especie de cultivo. Como importante, que demuestra que herramientas computacionales pueden ser utilizados ampliamente a las minas grandes cantidades de datos importantes de un conjunto relativamente pequeño de datos. A medida que se disponga de estas herramientas como aplicaciones basadas en web, pequeñas secuencias esfuerzos pueden extraer información valiosa que puede determinar cuestiones de investigación insuficientemente representados en cultivos como la fresa.

Los esfuerzos recientes demuestran la importancia de la secuencia de la información como la base de estudios de la genómica funcional-. Informes anteriores de la expresión genética de la fresa han dependido del descubrimiento y caracterización de genes específicos de interés, tales como O-metiltransferasa asociados con sabor [13], las enzimas que influyen en el sector de las frutas firmeza [14 - 17], así como varios otros [18, 19]. Tecnologías actuales tienen la capacidad de evaluar a escala del genoma transcriptome cambios asociados a un determinado tratamiento o proceso de desarrollo [20, 21]. Estudios recientes en fresas cultivadas han aplicado propiedad secuencia de la información en un formato microarray para revelar la transcriptome que coincide con la maduración de los frutos [22 - 24]. Estos estudios han determinado que los reguladores críticos sabor de la fruta. El primer estudio identificó fresa alcohol acetil transferasa como una enzima fundamental en la producción de ésteres volátiles. La transcripción asociado aumentó durante la maduración de los frutos y la proteína recombinante cataliza la síntesis adecuada de una variedad de sustratos en E. Coli [23]. Un reciente estudio de la genómica funcional-caracterizado Nerolidol Synthase 1, la enzima que cataliza la formación de los compuestos de sabor linalool y nerolidol de geranilado diphosphase y farnesyl difosfato, respectivamente. La enzima se expresa en el receptáculo de la maduración de frutas, no en las hojas, y es altamente expresado en las especies cultivadas en relación con las especies silvestres. El informe concluye que la selección de las variedades cultivadas de frutas sabor fija mecanismos para expresar y localizar las enzimas asociadas-terpeno que favorablemente afectados sabor, mientras que la represión de aquellos que hacen de las frutas menos deseable [22]. Aunque los factores que conducen a las frutas sabor de la fresa se han estudiado durante décadas, una encuesta transcriptome producido la mayoría de los resultados definitivos, debido de nuevo a la utilidad de una base de datos de secuencias en Fragaria.

Las transcripciones caracterizado de este proyecto permitirá el desarrollo de la genómica de recursos para el estudio de otros importantes respuesta fisiológica. Un subconjunto de estas tecnologías ecológicamente racionales se muestra en la Tabla 7. Estas tecnologías ecológicamente racionales son pertinentes a los procesos de interés para la industria de la fresa y pueden representar importantes herramientas moleculares a los investigadores. El primer conjunto representa una serie de tecnologías ecológicamente racionales con homología de secuencia a los genes relacionados con el control fotoperiódico de la floración. Estas incluyen cerca homólogos a CONSTANS (CO), un probable factor de transcripción que induce meristemo identidad de los genes específicos en relación con el fotoperíodo [25, 26]. Un homólogo de un regulador fundamental de la identidad meristemo AGL20/SUPPRESSOR DE CO OVEREXPRESSION también fue identificado. Este gen codifica una MADS-box factor de transcripción que probable funciones aguas abajo de la OC en las señales de luz que confiere a los promotores de los genes meristemo identidad [27]. Una representación de VERNALIZATION EST INSENSITIVE 3 también se identificó en esta biblioteca. VIN3 es una proteína que se muestra abajo de CO función en la regulación de la floración de temporada respuestas [28]. VIN3 es una remodelación de la cromatina-proteína que reprime la FLC, una proteína que regula negativamente-CO función [29] que permite a la planta adecuada en relación con el tiempo de floración de temporada escalofriante.

El análisis de esta base de datos reveló una serie de homólogos que probablemente relacionados con la patogénesis (PR) genes, como thionins, Ndr1, β 1-3-glucanasa y quitinasas, LRR y proteínas. La prevalencia de esta familia de proteínas no es sorprendente ya que las instalaciones fueron tratados con ácido salicílico 24 h antes de la cosecha para enriquecer ARN de los genes PR en la biblioteca. Estos genes son de particular interés para los científicos de plantas debido a su potencial para ayudar a definir el mecanismo (s) de la resistencia a las enfermedades y la susceptibilidad. Es posible que estos genes puede ser especialmente útil para los objetivos antisentido o sobreexpresión en la develación estos importantes rasgos de la agricultura-, o posiblemente en el diseño de plantas transgénicas con mayor resistencia a los patógenos de las plantas comunes. Todos estos aspectos son importantes, como el cultivo de la fresa exige abundante aplicación de fungicidas y / o compuestos bacteriostáticos, que aseguren la adecuada fijación de los frutos.

De interés para este laboratorio son homólogos de los genes asociados con photomorphogenesis, como Hy5 y no fototropismo hipocotilo 3. Estos juegan un papel tanto en la primera luz del desarrollo y, sin embargo, HY5 también se ha demostrado que influyen en los procesos de desarrollo como la maduración de los frutos y la pigmentación [30] y también se une a los promotores de los genes asociados con la progresión del reloj circadiano [31].

La información destilada de todos estos análisis se pueden utilizar ahora para el diseño de fresas-sondas específicas para evaluar los patrones de la expresión génica y el desarrollo de los transgénicos directamente a la función de prueba de genes. Estos importantes estudios están en marcha y facilitar las comparaciones entre los biológicos sensoriales / de los mecanismos de respuesta de la fresa a las de los sistemas modelo.

La aparente secuencia de conservación entre Fragaria rosáceas y otros cultivos arbóreos sugiere que las especies cruzadas microarrays estudios pueden ser productivos dentro de las Rosaceae. Este estudio demuestra que menos del 11% de las tecnologías ecológicamente racionales son exclusivos de la fresa. Este valor es probable infladas, como las tecnologías ecológicamente racionales por naturaleza contienen variables sin traducir regiones y otras características que puede impedir la eficaz identificación de homólogos. De las 1305 EST, 835 tienen fuertes Rosaceae homología con otras tecnologías ecológicamente racionales. Aquellos en los que más del 85% de homología de más de 100 bases son entre 86 y 100% idénticas a las transcripciones Rosaceae aislado de los demás, con un promedio de 91% de identidad (+ / -0,001%). El alto grado de similitud puede ser una plataforma útil para las comparaciones entre molecular-mecanicista diferencias entre las diversas especies exhiben con poca variación de secuencias. Aquí, la diversidad dentro de la Rosaceae es probable debido a la variación en la expresión de genes, y EST microarrays de datos y tecnologías de plataforma son una idea de estudiar estos patrones.

La relativamente amplia en la elaboración de mapas genéticos Prunus ha delineado vinculación entre las asociaciones de genes del género, las de seleccionar las especies e incluso Rosaceae Arabidopsis [32]. Física mapas También se han elaborado mapas de transcripción [9]. El TER de esta colección se Fragaria comparación con el melocotón mapeado los genes, y 23 de acuerdo con fuerte homología (Tabla 3]. Estas relaciones son importantes, ya que la base actual para estudiar las relaciones estructurales entre las especies dentro del primo Rosaceae. Desde estos lugares se asignan en el durazno, las que representan una excelente loci a añadir también a la creciente vinculación diploide fresa mapa [33], y eventualmente en el mapa octoploid.

Cartografía esfuerzos también pueden ser apresurado de identificación de SSRs. SSR deriva de las tecnologías ecológicamente racionales de proporcionar una base para asignar las relaciones de vinculación a los productos de genes conocidos, y esos estudios se han iniciado en diploide fresa [33]. En la EST colección se presenta en este documento, una serie de SSR están presentes en las transcripciones a correlacionar putativo alergenos, los reguladores del reloj circadiano, y la limpieza general de los genes. Estas transcripciones pueden ahora ser fácilmente mapeado en la diploide mediante las poblaciones existentes, y esos estudios están actualmente en curso. Además, genes específicos de interés puede ser estudiado de la variación dentro de las especies diploides o para intrón específicos de polimorfismos que permita su cesión a la diploide fresa vinculación de ruta. Estos estudios en última instancia, facilitar la generación de marcadores moleculares para seguir rasgos / genes de interés en los cultivares comerciales, la adición de la resolución de herramientas moleculares para complementar las estrategias convencionales de mejoramiento.

El general proporciones de los diferentes grupos funcionales (Figura 1] reflejar así el esperado estado de la planta madura transcriptome como se informó en anteriores estudios. Transcripciones de codificación de las enzimas asociadas con el ciclo celular, el citoesqueleto o paredes celulares no son abundantes como plantas maduras se fían menos de los que rigen los procesos de mayor número de células o tamaño de la celda. Aproximadamente la mitad de las transcripciones asociadas a la fotosíntesis son miembros de la clorofila a / b proteína de unión familiar, la otra mitad generalmente contiene plastidio codificada transcripciones. Como era de esperar, la mayoría de las transcripciones de las enzimas detectadas representan el metabolismo general.

Conclusión

Aunque una pequeña EST conjunto, la suite completa de los análisis realizados en este documento demuestran que un finito transcriptome instantánea puede proporcionar recursos suficientes a las semillas adicionales de estudio. Aquí un número relativamente pequeño de tecnologías ecológicamente racionales ha proporcionado información suficiente para participar en un nuevo molecular, estudios genéticos y fisiológicos. Por ejemplo, el tratamiento previo con salicilato probable enriquecido la expresión de la patogénesis relacionados con las transcripciones que se pueden utilizar ahora para estudiar la progresión de la enfermedad en determinados cultivares de fresa, con grandes variaciones en la sensibilidad y resistencia. Evidentemente, el desarrollo de un amplio catálogo de SSR permite la caracterización de estos posibles marcadores genéticos en la progenie de cultivares polimórficos, en un importante cultivo de especies prácticamente carece de vinculación asociaciones. A diferencia de otros marcadores, derivados EST-SSR, por definición, son originarios de una secuencia que se expresa, la adición de la resolución funcional a los grupos vinculación estructural construida sobre los polimorfismos. Más importante aún, el mismo conjunto de herramientas utilizadas para llevar a cabo estos análisis serán pronto disponibles a través de una interfaz pública a la RDA, lo que hace comparables los análisis posible. Estas aplicaciones son una importante razón para la secuenciación y análisis de un conjunto limitado EST, ya que incluso un pequeño programa de investigación pueden encontrar los recursos suficientes para iniciar el estudio genético-molecular de una sub-representadas especies de cultivo.

Métodos
Biblioteca de la construcción

Raíces, hojas, pecíolos, estolones, meristemas y de las nuevas plantas fueron cosechadas hija de varios cámara individual crecido-fresa (Fragaria × Fragaria ananassa cultivar 'Strawberry Festival) las plantas después de 24 h de tratamiento de ácido salicílico (4 μ m foliar spray, 1 μ M drench). Los tejidos fueron lavados brevemente para eliminar la suciedad y luego se congelaron en nitrógeno líquido. ARN total fue extraído mediante el método siguiente, una modificación de los protocolos utilizados en la extracción de RNA de piñas [34]. En pocas palabras, 1 g de tejido terreno en nitrógeno líquido utilizando un mortero y pestle, luego incubadas en buffer de extracción (2% CTAB, 2% polyvinylpyrrolidone, 100 mM Tris-HCl (pH 8.0), 25 mM EDTA, 2,0 M NaCl, 0,5 G / ml espermidina, y el 2,0% de β-mercaptoetanol) a 65 ° C durante 10 min. Las muestras se enfría a temperatura ambiente, un volumen igual de cloroformo: octonol (24:1) y se añade la mezcla fue homogeneizada utilizando un Polytron (T10-35 homogeneizadora) en el 80-90% de velocidad máxima. Las fases acuosa y orgánica fueron separadas por centrifugación a 5700 × g y el sobrenadante fue vortex con un volumen igual de cloroformo: octonol. Las fases fueron de nuevo separados por centrifugación y el sobrenadante se transfirió a un tubo de ensayo limpio, LiCl se añadió a una concentración final de 2,5 M y precipitó sobre el hielo durante la noche. ARN fue recogida por centrifugación a 5700 × g. El pellet se resuspendió en 500 μ l SSTE (1 M NaCl, 0,5% SDS, 10 mM Tris-HCl (pH 8.0), 1 mM EDTA) y extrajeron con un volumen igual de cloroformo: octonol. El sobrenadante se precipitó con dos volúmenes de etanol, el pellet fue lavado con etanol 76% que contiene 0,3 M de acetato de sodio, secos brevemente en una Speed Vac, y resuspendido en 50 μ l 10 mM Tris-HCl (pH 8,0) 2,5 mM EDTA antes de cuantificación Por espectrofotometría.

Para la construcción de bibliotecas ARNm se aisló ARN total de la utilización directa de la Oligotex mRNA Mini Kit (Qiagen Inc, Valencia, CA) a través de 500 μ g de ARN total. La biblioteca de cDNA se construyó a partir del 5 μ g ARNm utilizando la Uni-ZAP XR Clonación Kit (Stratagene Inc, Carlsbad, CA) según las instrucciones del fabricante. La principal consistía en la biblioteca de 6,2 × 10 7 unidades formadoras de colonias con tamaño de inserción promedio de 800 pb y el 98% de los clones que contienen inserciones de ≥ 200 pb. Misa de la escisión se realizó fagos filamentosos y phagemids fueron clonados a E. coli para la secuenciación.

La secuencia y la secuencia de procesamiento

Un total de 1847 EST clones fueron secuenciados desde el extremo 3 'en la Universidad de Florida ICBR Core Facility con ET Terminator (Amersham Inc, Schaumburg, IL). Estas secuencias fueron procesados mediante el software incorporado a disposición del público en una totalmente automatizados en la propia secuencia de comandos (ProcEST.pl) desarrollado en la Universidad de Clemson en la base de datos del genoma para Rosaceae (RDA) la bioinformática equipo. Secuencia de los archivos de traza se convierte en el formato de secuencias FASTA y el nivel de calidad PHRED archivos a través de la base [35]-llamando programa. Vector de acogida y la contaminación y enmascarados se identificaron utilizando el programa de comparación de secuencias CROSS_MATCH [36]. Vector recorte extirparon la más larga secuencia de vectores y no el recorte de más baja calidad eliminado bases (phred puntuación de menos de 20) en los dos extremos de una lectura. Secuencias fueron descartadas si tuvieran mayor que el 5% ambigua bases, más de 40 PolyA o Poly T bases o menos de 100 bases de alta calidad (mínimo phred puntuación de 20). La utilización de este protocolo, el 81% de las secuencias (1505) se consideraron de alta calidad y presentarse a la NCBI EST repositorio dbEST público [37]. Para reducir la redundancia y aumentar la longitud transcripción de alta calidad secuencias fueron ensambladas utilizando el programa contig asamblea CAP3 [38]. Diversas asambleas se realizaron con diferentes parámetros CAP3 identificar a los que se requiere construir menos edición manual. Más estrictos parámetros (- p 90-d 60) se utiliza para prevenir más de reunión y de ayudar a identificar posibles paralogs. La asamblea se perfeccionó si es posible, utilizar homología a la base de datos SwissProt para indicar contig exactitud. Homología se determinó mediante la comparación de los contigs y clones contra el suizo Prot fastx3.4 base de datos utilizando el algoritmo [7] con EXP <1e -6. Contigs cuyos clones mostró diferencia en la homología y contigs se deconstruye con la misma homología a otras contigs se unieron CAP3 usando parámetros por defecto. Unigene El conjunto de datos se obtuvo combinando las contig y simples conjuntos de datos.

Caracterización funcional

La caracterización funcional de los unigene conjunto de datos pairwise consistió en la comparación de los dos clones de alta calidad y secuencias de la contig consenso en contra de la NCBI nr [39] y SWISS-PROT [40] proteína fastx3.4 bases de datos utilizando el algoritmo [7]. El más significativo coincide (CAD <1e -7 y EXP <1e -6 para el NCBI nr SWISS-PROT búsquedas, respectivamente) para cada individuo y contig clones en la biblioteca se registraron. El Swiss-Prot más coincidencias fueron clasificados por la ontología de genes [41]. Contigs o clones que no tienen un importante partido con cualquiera de estas bases de datos se hicieron búsquedas en contra de la InterPro familias de proteínas y dominios de bases de datos (Mulder et al, 2005) utilizando InterProScan [42].

El unigene secuencias se caracteriza también por la comparación con el conjunto de datos Genbank Rosaceae EST (227.250 como de 14 de febrero de 2005) y 256 durazno mapeado EST [43], descargados de la base de datos del genoma para Rosaceae (RDA). Utilizando el algoritmo BLASTN [44], con secuencias> 85% de similitud más de una alineación longitud de 100 bp se consideraron significativas coincidencias.

Abrir el marco de lectura y análisis de microsatélites

Marcos de lectura abierta (ORFs) se identificaron las tecnologías ecológicamente racionales en el uso de software programa FLIP [45] y el más largo ORF se registró como putativo de codificación de la región. Repite secuencia simple (SSR) se identificaron en el unigene conjunto de datos utilizando una versión modificada (CUGISSR), de un script de perl SSRIT [46]. SSR registrados en el último conjunto de datos incluyen los dímeros con al menos 5 repeticiones, trimers con por lo menos 4 repeticiones, tetramers con al menos 3 repeticiones, y pentamers con al menos 3 repeticiones. SSR-containing sequences were identified as optimal candidates for primer development if they contained a GC content between 40% and 60% and a minimum of 20 base pairs of sequence on either side of the SSR. Using the FLIP output, CUGISSR reports the location of SSRs in the relation to the putative coding region.

Data storage and web interface

All sequence, assembly, homology, ORF and SSR data were uploaded to the Genome Database for Rosaceae (GDR) (Jung et al, 2004) as well as library, protocol, contact and publication information. GDR scripts were utilized to allow users to browse, query or download all the project data.

Public access and dissemination

The GDR website has a number of different EST project sections including the Fragaria EST dataset detailed here. These web pages are extensively linked such that users can easily access data of interest regardless of the navigation entry point. To access the project pages for this EST project, users can go to the project page which can be found by a link in the &quot;About Us&quot; drop down menu in the top navigation bar. This project is listed on the &quot;Data Overview&quot; page as &quot;Folta – University of Florida&quot; [ 47 ]. The sidebar for this project allows the user to view the project description, the library details, the processing protocol, a report on the successful clones, unigene details, gene homology pages, microsatellite analysis, contact information, and publication information. The cDNA phage library and individual clones generated in this study are available upon request.

For members of the Rosaceae community or of the public who are interested in searching the dataset, the EST search page allows users to search the Fragaria sequence set directly [ 48 ]. The ESTs and the unigene can be searched by name, by homology, and by features such as presence of a microsatellite or component of a contig. Once an EST or contig has been selected, the sidebar allows users to view all information relating to the sequence (or consensus sequence), the library details, the assembly information, the open reading frame and microsatellites, homology, and for contigs, the component ESTs.

Contribuciones de los autores

KF prepared the RNA for, and generated the cDNA libraries, provided functional annotation and analysis and drafted the manuscript with MS. MS and CJ performed all computational analyses under the guidance of SJ and DM. PS and DB collected plant tissue, participated in RNA isolation and functional EST annotation. All authors read and approved the final manuscript.

Agradecimientos

This work was supported by the Florida Agricultural Experiment Station, the NSF Plant Genome Research Program award #0320544 (DM), a grant from the North American Strawberry Growers Association (KMF) and funding from the Horticultural Sciences Department at the University of Florida (KMF ). This work was approved for publication as Florida Agricultural Experiment Station Journal Series Number R-10920.