PLoS Genetics, 2005; 1(1): (más artículos en esta revista)

Un hombre-Curada de anotación de la Candida albicans Genoma

Biblioteca Pública de la Ciencia
Burkhard R Braun [1], Marco van het Hoog [2], Christophe d'Enfert [3], Mikhail Martchenko [2], Jan dungan [4], Alan Kuo [4], Diane O Inglis [1], M. Andrew Uhl [1], Hervé Hogues [2], Matthew Berriman [5], Michael Lorenz [6], Anastasia [2] Levitin, Ursula Oberholzer [2], Catherine Bachewich [2], Doreen Harcus [2], Anne Marcil [2], Daniel Dignard [2], Tatiana Iouk [2], Rosa Zito [2], Lionel Frangeul [7], Fredj Tekaia [8], Kim Rutherford [5], Edwin Wang [2], Carol A Munro [ 9], Steve Bates [9], un Neil Gow [9], Lois L [10] Hoyer, Gerwald Köhler [4], Joachim Morschhäuser [11], George Newport [4], Sadri Znaidi [12], Martine Raymond [ 12], Bernard Turcotte [13], Gavin Sherlock [14], Maria Costanzo [14], Jan Ihmels [15], Judith Berman [16], Dominique Sanglard [17], Nina Agabian [4], Aaron Mitchell P [18 ], Alexander Johnson D [1], Malcolm Whiteway [2], André Nantel [2]
[1] Departamento de Microbiología e Inmunología de la Universidad de California, San Francisco, California, Estados Unidos de América
[2] Instituto de Investigación de Biotecnología, Consejo Nacional de Investigaciones de Canadá, Montreal, Quebec, Canadá
[3] Unité Postulante Biologie et Pathogénicité Fongiques, INRA USC 2019, el Instituto Pasteur de París, Francia
[4] Departamento de Estomatología de la Universidad de California, San Francisco, California, Estados Unidos de América
[5] El Centro Sanger, de Cambridge, Reino Unido
[6] Departamento de Microbiología y Genética Molecular, Utah-Houston Medical School, Houston, Texas, Estados Unidos de América
[7] Plate-Forme Intégration et Analyse Génomique, Institut Pasteur, París, Francia
[8] Unité de Génétique Moléculaire des Levures, Institut Pasteur, París, Francia
[9] Facultad de Ciencias Médicas de la Universidad de Aberdeen, Instituto de Ciencias Médicas, Foresterhill, Aberdeen, Reino Unido
[10] Departamento de Veterinaria Pathobiology, de la Universidad de Illinois en Urbana-Champaign, Urbana, Illinois, Estados Unidos de América
[11] Institut für Molekulare Infektionsbiologie, Universidad de Wurzburg, Wurzburg, Alemania
[12] Institut de Recherches Cliniques de Montreal, Montreal, Quebec, Canadá
[13] Departamento de Medicina, Royal Victoria Hospital, McGill University, Montreal, Quebec, Canadá
[14] Departamento de Genética, Stanford University School of Medicine, Palo Alto, California, Estados Unidos de América
[15] Departamento de Genética Molecular, Instituto Weizmann de Ciencia, Rehovot, Israel
[16] Departamento de Genética, Biología Celular y Desarrollo de la Universidad de Minnesota, Minneapolis, Minnesota, Estados Unidos de América
[17] Instituto de Microbiología, Hospital Universitario de Lausanne, Lausanne, Suiza
[18] Departamento de Microbiología y el Instituto de Investigaciones sobre el Cáncer, la Universidad de Columbia, Nueva York, Nueva York, Estados Unidos de América
Resumen

Y de reunión reciente secuenciación del genoma de los hongos patógenos Candida albicans simple automatizado de los procedimientos utilizados para la identificación de genes putativo. Hemos revisado toda la asamblea, tanto a mano y bioinformáticas con recursos adicionales, para describir con precisión el mapa y 6354 para identificar los genes y 246 genes cuyas entradas de la base de datos original figura la secuencia de errores (o posiblemente mutaciones) que afectan a su marco de lectura. Comparación con otros hongos genomas permite la identificación de numerosos genes específicos hongo-que podrían ser blanco de la terapia antifúngica. También observó que, en comparación con otros hongos, la codificación de secuencias de proteínas en la C. Albicans genoma son especialmente ricas en breve secuencia se repite. Por último, la mejora de nuestra anotación permite un análisis detallado de varios multigene familias, y la genómica comparada estudios demostraron que C. Albicans tiene una gama mucho mayor de catabolismo, codificación respiratorias Complejo 1, y varias novela oxidoreductasas cetona cuerpo enzimas degradantes, malonyl-CoA y enoyl-CoA transportistas, novela de varias enzimas degradantes de aminoácidos, una gran variedad de secretada catabólica de las lipasas y las proteasas, y numerosos transportistas La resultante de asimilar los nutrientes. Los resultados de estos esfuerzos se asegurará de que la comunidad de investigación ha Candida uniforme y completa de la información genómica en la investigación médica, así como para futuras aplicaciones terapéuticas y de diagnóstico.

Introducción

Candida albicans es un comúnmente hongos patógenos responsables de infecciones en general, ya sea clasificada como superficial (aftas y vaginitis) o sistémicas (como la vida en peligro de transmisión sanguínea candidiasis) [1, 2]. Su ciclo de vida tiene aspectos fascinantes que han generado gran entusiasmo en la última década, con una afluencia de los trabajadores y las nuevas técnicas moleculares que se ejercen sobre los problemas de larga data [3]. Temas de especial interés son el organismo de la capacidad para trasladar a varios fenotípicos diferentes estados, algunos con funciones distintas de la infección, y su recién descubierta capacidad de mate, que por lo menos parte de un ciclo sexual, aunque la población de los estudios genéticos indican que es todavía en gran medida Una población clonal diploide. Otras adaptaciones especiales para la infección incluyen una batería de proteínas y externamente mostradas secretado enzimas digestivas; complejas interacciones con el sistema inmune del huésped normalmente mantener C. Albicans a raya como una pequeña parte de la flora de la mucosa [1, 4, 5].

En este sentido, un detallado informe anotación de la secuencia del genoma de este organismo, con lo que el crudo disponible anteriormente secuencia a un nuevo nivel de estabilidad y usabilidad. El genoma de C. Albicans ha sido secuenciado escopeta a un nivel de 10,9 veces la cobertura [6]. Sin embargo el montaje de esta secuencia se enfrentan a dificultades especiales debido a que el organismo es diploide, pero con poco o ningún intercambio de genes en la naturaleza. Así, los cromosomas homólogos muestran importantes divergencias, y muchos genes están presentes dos alelos distintivos. Esto requiere que el proceso de ser consciente de la condición diploide y se dice dispuesta a segregar en dos alelos de un sector del genoma. Al mismo tiempo, el genoma es rica en genes recientemente divergieron familias que se confunde fácilmente con alelos. Esta tarea se complica aún más por la ausencia de un mapa físico completo de la C. Albicans genoma. Sin embargo, este arduo proceso de montaje dio lugar a un conjunto de datos (reunión 19, con 266 primarias contigs más de ocho cromosomas), que ya ha dado una serie de avances importantes, incluida la producción de microarrays de ADN [7], las bibliotecas de genes sistemático knockouts [8], Gran escala transposón mutagénesis [9], y la capacidad de muchas personas dedicadas a la investigación para identificar nuevos genes utilizando herramientas bioinformáticas [10]. Lamentablemente, debido principalmente a los métodos de cálculo utilizados en su desarrollo, la actual asamblea genoma contiene todavía un número importante de genes predichos que son fragmentados, superpuestos, o de otra manera errónea. Como consecuencia de ello, los diferentes grupos han utilizado diferentes métodos para la identificación y clasificación de C. Albicans genes, lo que ha dificultado la comunicación y complicado comparaciones entre conjuntos de datos a gran escala.

Tras la publicación de estos primeros estudios de la genómica funcional, se dieron cuenta de que las necesidades de la C. Albicans comunidad de investigación sería mejor servido por una nomenclatura unificada de genes. Los resultados de este esfuerzo de base comunitaria se basa inicialmente en la versión 19 el cómputo preliminar de reunión y de anotación producida independientemente por varios grupos de investigación. Se utilizó la inspección visual de 11615 putativo de codificación de secuencias y diversas herramientas bioinformáticas para afinar la calidad y la descripción de cada marco de lectura abierta (ORF).

En total, que proporcionan identificadores únicos, coordenadas, nombres y descripciones de los 6354 genes. Con la excepción de algunas grandes familias de genes, no hemos anotado en la parte de la 19 asamblea de ADN que se había reservado como alelos secundaria, en lugar concentrarse en la secuencia primaria que se forma un genoma equivalente haploides. La investigación de la identidad y la diferencia relativa de todos los alelos será un importante proyecto para la C. Albicans genoma, así como el acabado y la vinculación de la pequeña cantidad de lagunas que permanecen en la secuencia principal. Además, se describe una variedad de familias de genes y debatir ideas sobre la virulencia. Por último, el uso de la genómica comparativa señalar de otra serie de ideas que son iluminadas por la alta calidad de anotación al respecto. Este proyecto sirve como modelo para anotación con base en la comunidad que pudiera ser utilizada por otras comunidades de investigación que desean mejorar en la secuenciación automatizada de producción de tuberías que pueden estar disponibles para sus organismos de interés.

Resultados y Discusión
El proceso de anotación
Contenido y estadísticas generales

Como se detalla en los cuadros 1 y 2, 6354 genes que hemos identificado en la versión 19 de la C. Albicans genoma Asamblea. Este número está determinado a cambiar ligeramente con el tiempo a medida que más datos salen a la luz. Por ejemplo, 80 de estos genes son probablemente los duplicados, tras casi idénticos homólogos cerca de los extremos de la secuencia contigs. Novela genes también pueden radicar en unsequenced / sin montar diferencias entre la secuencia de ADN contigs. Se identificaron 246 genes que contengan la secuencia de mutaciones o errores que se traducen en una frameshift, o la inserción de un codón de parada, que tendrá que ser confirmado a través de resequencing. Entre tanto, estos elementos se han unido como una sola entrada ORF y etiquetados con la inscripción "la secuencia de error?" Dentro de su campo Nota. También hemos identificado 190 genes truncados en el extremo de contigs, de los cuales sólo 35 tienen una contrapartida en una idéntica podría duplicar contig. Nueva información será continuamente integrarse en la comunidad, ya que los datos se presenta.

El promedio de longitud de codificación de la proteína de 1439 pb (480 bis) es casi idéntica a lo que se ha observado en S. Y S. cerevisiae Pombe, mientras que la densidad de genes se encuentra en un gen por cada 2342 pb. Breve descripción de todos los productos génicos fueron proporcionados por annotators, generalmente basados en la similitud de secuencia. Un total de 1218 (19,2%) genes codifican proteínas únicas con homólogos no significativa en la secuencia de bases de datos, un porcentaje casi idéntico al observado en la versión actual de la S. Cerevisiae anotación [16]. Un adicional de 819 (12,9%) exhibieron productos genéticos importantes similitudes con otras proteínas de función desconocida. Además, hemos proporcionado Enzimas de la Comisión (CE) y el número de genes Ontología (GO) los términos para 1334 y 3586 productos genéticos, respectivamente.

Genoma basado en la identificación de objetivos antifúngicos

Uno de los principales argumentos de apoyo a gran escala para proyectos de secuenciación de hongos patógenos es la esperanza de encontrar nuevos antifúngicos objetivos, en particular los que están ausentes en el genoma de su anfitrión. Cuadro 4 muestra una lista de 228 C. Albicans genes que tienen un muy fuerte secuencia homólogo (sobre la base de una de las principales afectadas BLASTP esperar valor (e-valor) <1e -45) en los cinco genomas de los hongos pero no significativa similitud de secuencias (en el mejor valor BLASTP e-> 1e -10 ) A los genes en los genomas de los seres humanos, ya sea o ratones. Por ejemplo, la lista incluye FKS1, que codifica una 1,3-beta-glucano sintasa que es el objetivo de la pared celular denominada echinocandins agentes [30]. En la lista figuran 46 productos genéticos que se supone que se encuentra en la membrana plasmática, el 71 que se prevé están involucrados en el transporte de pequeñas moléculas, y 21 que parecen estar involucrados, directa o indirectamente, con la síntesis de la pared celular. Por otra parte, 41 productos de los genes se han asociado con un número CE, que indica una actividad enzimática, con fosfolipasas, siendo los más abundantes. Las funciones y los sitios de acción de estos productos genéticos sugieren que sería a la vez accesible y teóricamente susceptibles a la inhibición por pequeñas moléculas.

Short Tandem repite

Breve tándem repite (ITS), también llamado de corta secuencia se repite o microsatélites de ADN, desempeñan un papel importante en la evolución y se han utilizado para caracterizar la variabilidad de la población. A pesar de que pueden surgir a través de la DNA polimerasa de deslizamiento y la recombinación desigual, de todo el análisis del genoma ha sugerido que mecanismos adicionales para el control de la producción STR / corrección aún no se han identificado [31 - 33]. Jones et al. [6] escaneada la C. Albicans genoma de informes sobre transacciones sospechosas de tamaños de unidad entre dos y cinco y se determinaron 1940 trinucleótidos repetidos en sus secuencias de ORF. Para confirmar que esta alta frecuencia STR es, en efecto, un distintivo de la C. Albicans genoma, hemos utilizado un enfoque estadístico para medir las frecuencias de repetición en cuatro hongos genomas terminó con un énfasis en ITS que afectan a las secuencias de proteínas. Hemos utilizado las secuencias del genoma al azar para calcular la probabilidad de que cada uno de los posibles STR (incluidas las mutaciones que puedan surgir a raíz de la amplificación caso) es no aleatoria, y se utilizan sólo a los que tienen más de 95% de probabilidad.

Como puede verse en Datasets S2 - S5 y en la Tabla 5, la STR frecuencias en C. Albicans y N. Crassa son significativamente mayores que las frecuencias observadas en S. Y S. cerevisiae Pombe. Reitera que se producen dentro de la codificación de las secuencias se caracteriza además en la Tabla 5. Como era de esperar, se repite con un módulo de tres son más comunes en la codificación de las secuencias, aunque tomamos nota de que las especies con mayor frecuencia STR tienen la menor proporción que se repite de romper un marco de lectura. Si bien la secuencia de codificación de ITS en C. Albicans y la mayoría de los otros hongos comúnmente para codificar repeticiones de glutamina, asparagine, ácido glutámico y el ácido aspártico, tomamos nota de que algunos de los que se repite frecuente en C. Albicans genes son distintos. Repite de la ACT (threonine) y TCA (serina) codones se sabe son especialmente raras en la mayoría de los taxones [31, 33]. Correlacionar el STR de distribución con Gene Ontología anotaciones muestra que una proporción importante de la C. Albicans genes cuyos productos se clasifican como ADN o proteínas que unen citoesqueleto elementos también contienen informes sobre transacciones sospechosas. Varios productos de genes se ha demostrado que desempeñan un papel en la generación y corrección de los informes sobre transacciones sospechosas en eucariotas novela [34]. Una comparación de las secuencias de aa Rad51p, Rad52p, Mre1p, Hpr5p, y Pob3p de C. Albicans, S. cerevisiae, S. pombe, y N. Crassa no reveló ninguna correlación significativa que podría estar asociado con cambios en la distribución STR. La alta proporción de ITS en C. Albicans genes sostiene que este organismo haga un mejor modelo de S. Cerevisiae para el estudio de la creación y el alargamiento de estos elementos que causan una variedad de patologías neuromusculares en el ser humano. Nuestras observaciones indican además que en el futuro los estudios sobre la frecuencia de ITS en genomas eucariotas debe incluir un espectro más amplio de genomas de los hongos. El S. Cerevisiae genoma ha sido utilizado como el representante de hongos en los estudios comparativos publicados hasta la fecha [31 - 33].

Identificación de genes espurios

Algunos de los 6354 predijo ORFs es probable que sean falsas. Utilizamos datos de S. Cerevisiae para modelar un enfoque que combina el gen de longitud, de homología genética, y la expresión de genes de datos para buscar espurio de genes candidatos. En teoría, sin secuencia de los genes y de la similitud con los perfiles de expresión que no se correlaciona con otros genes conocidos tienen muchas más probabilidades de ser espurios. En un estudio anterior, espurio genes en S. Cerevisiae fueron identificados por comparación de secuencias estrechamente relacionadas entre cuatro especies de levadura [16]. La mayoría no tenía orthologs con otros eucariontes, fueron de corta duración, y ha perfiles de expresión que no se correlacionaron con los de otros genes en el genoma (Figura 2 Ay 2 B). La combinación de ambos criterios de la homología de secuencia y de expresión correlación producido una lista de S. Cerevisiae genes candidatos que era altamente enriquecido para ORFs que se consideraban falsas basadas en la comparación de secuencias por separado entre la especie vecina. Hemos repetido esta homología / expresión / longitud análisis de los genes de la C. Albicans genoma. C. Albicans genes con un ortholog en otros eucariotas se supone que sea real y se excluyeron como candidatos (510 de 513 genes de S. cerevisiae dictaminó espurio por el marco de lectura de conservación de la prueba [16] no tenía ortholog en C. albicans). En el análisis anterior, alrededor de 1000 los experimentos de expresión génica se analizaron para S. Cerevisiae [35], mientras que alrededor de 200 disponibles actualmente experimentos fueron analizados por C. Albicans (ver Materiales y Métodos]. Cuadro S1 incluye una lista clasificada de la C. 349 Albicans genes que son los más susceptibles de ser falsas.

Multigene Familias

Muchos demostrado putativo y factores de virulencia de C. Albicans son miembros de las grandes familias multigene. Ejemplos conocidos de estas familias codificar secretada aspartil proteinasas [36, 37]], agglutinins [38], las lipasas secretadas [39], de alta afinidad de los transportistas de hierro [40], y férrico reductases [41]. Los miembros de cada una de estas familias están expresadas diferencialmente en función de la levadura de hifas transición, fenotípica de conmutación, o el calendario durante la infección experimental. Además, cada una de estas familias es grande en comparación con los correspondientes homólogo o de la familia de homólogos en el S. Cerevisiae, que conduzca a la idea de que la expansión de muchas C. Albicans familias de genes puede ser una adaptación a un estilo de vida y los comensales pueden ser, en parte, responsable de la C. Albicans albicans es la inusual capacidad para ocupar una variedad de nichos de acogida.

La secuenciación del genoma proporciona la oportunidad de la encuesta mundial de ocurrencia y la magnitud de multigene familias como un primer paso en la evaluación de su contribución a la colonización y la enfermedad. Hemos ideado un método puramente computacional para definir una lista completa de las familias multigene utilizando NCBI BLAST-Perl y scripts personalizados. Cada traducido ORF ORF anotado en el conjunto se comparó con todos los demás ORF en el conjunto, si un par de la ORF BLAST alineación tenía una expectativa de valor inferior a 1e -30 y una longitud superior a 60% de la longitud del más largo de los dos ORFs , Y luego los dos ORFs se consideran miembros de una misma familia. A la clausura transitiva norma se aplica para garantizar que cada miembro de ORF había una y sólo una familia. En total, el 23% de los ORFs eran miembros de las familias, un porcentaje similar a la observada en otros eucariotas [18]. El enfoque dado 451 familias, con un promedio de 3,27 miembros cada uno, 13 de las familias tienen diez o más miembros, mientras que el más grande de la familia tiene 39 miembros, de las proteínas con posible ricos en leucina repetir dominios.

Una notable diferencia entre C. Albicans y S. Cerevisiae es la forma en que adquieren los nutrientes del medio ambiente. Además de los bien descritos secretada aspartil proteasas, lipasas, y de hierro de alta afinidad de los transportistas, C. Albicans posee ampliado las familias de ácido esfingomielinasas (con cuatro haploides por los genes del genoma), fosfolipasas, B (seis genes), oligopeptide transportistas (siete genes), y permeasas de aminoácidos (23-24 genes). Otra notable diferencia es la insistencia de la C. Albicans en catabolismo respiratorio, como se refleja en las familias ampliadas de peroxisomal enzimas. Estos incluyen las familias de acyl-CoA oxidasas (tres genes), 3-ketoacyl-CoA thiolases (cuatro genes), acyl-CoA thioesterases (tres o cuatro genes), ácido graso-CoA synthases (cinco genes), y glutatión peroxidasas (cuatro Genes).

Otras familias que se refieren a la colonización o la patogénesis incluyen los de codificación de la proteína de unión de estrógeno OYE1 (siete genes), el fluconazol-transportador de la resistencia FLU1 (13 genes), y la proteína vacuolar PEP3/VPS16 (cuatro genes), cuyo homólogo Aspergillus es Nuclear necesario para la migración y el crecimiento polarizado.

De lípidos y metabolismo de aminoácidos

Algunos de los C. Albicans ORFs que no tienen claros homólogos en el S. Cerevisiae, pero sí tienen homólogos en otros hongos, bacterias, y / o los vertebrados codifican enzimas catabólicas, oxidoreductasas, y de las proteínas que participan en las vías de detección del medio ambiente. La lista de genes que C. Albicans no comparte con S. Cerevisiae es sesgada hacia las enzimas que participan en el catabolismo de los ácidos grasos y en los órganos de cetonas en la peroxisome. También son numerosos los oxidoreductasas, algunos de los cuales pueden estar involucrados en la activación de los compuestos orgánicos hidrofóbicas como preludio a su degradación oxidativa. Este mecanismo metabólico puede reflejar, en parte, el estado del ancestro común con S. Cerevisiae, lo que también se refleja en Yarrowia lipolytica, C. antartica, C. rugosa, C. tropicalis, C. maltosa, y C. Deformans, que son organismos modelo en el estudio de las lipasas y alcano oxidación para fines industriales. Cabe mencionar, sin embargo, que el género Candida surgió originalmente para identificar hongos que se unclassifiable, asexual, y ascomycetous de propiedades que parecen estar en correlación con el parasitismo y la presencia de las familias de genes catabólicos, como las lipasas y alcano-asimilación de citocromo P - 450 enzimas. Beta-oxidación en hongos es predominantemente peroxisomal, y el número de enzimas que participan en el proceso es mayor en C. Albicans que en S. Cerevisiae. C. Albicans también codifica una relacionados etanolamina quinasa (orf19.6912), un malonyl-CoA acyl proteína transportadora acyltransferase (MCT1), y un enoyl-CoA hydratase (orf19.6830) no se encuentra en S. Cerevisiae. Además el suministro de sustratos para la oxidación de varias enzimas son codificadas por C. Albicans que participan en la degradación de asparagine (asparaginasa; orf19.3791), cisteína (cisteína dioxygenase [CDG 1] y cisteína sulfinate descarboxilasa [orf19.5393]), valina (3-hydroxyisobutyrate deshidrogenasa [orf19.5565]) y arginina ( Orf19.3498). Otros enzimas catabólicas una sorpresa en el sentido de que pueden estar relacionados con la basura de insospechadas fuentes de carbono. C. Albicans codifica tres D - Aminoácido oxidasas (IFG3, DAO1, y DAO2) cuyos sustratos pueden ser derivados de la pared celular bacteriana, cuya oxidoreductasas diversos sustratos es probable que compuestos aromáticos y alifáticos no utilizados por el anfitrión, un camino coherente con omega oxidación de los ácidos grasos ( Que se convierta en alcanos alfa-omega dioles, ácidos grasos y ácidos dicarboxylic), y un benceno desulfurase (orf19.3901).

Acetil-CoA generado en el peroxisome se transfiere a la mitocondria, en donde la diferencia más notable de S. Cerevisiae es la presencia de una respiratorias Complejo I, que ahora puede ser reconstruida en gran parte sobre la base de similitud de secuencias de los componentes se encuentran en otros organismos. La importancia del Complejo I en la biología de C. Albicans se deduce de la observación de que la supresión de una de sus subunidades se traduce en un defecto en filamentation [75] y de la observación de que la subunidad 49 es esencial para el crecimiento vegetativo [8]. Otra diferencia es la presencia de dos variantes de oxidasas que pudieran estar implicados en la protección contra el estrés oxidativo [76]. Por lo tanto, aún no está claro si la capacidad de los omnívoros catabólica C. Albicans refleja su patrimonio y papel como hongos saprophyte ayudar a la descomposición orgánica, o si estas capacidades se han elaborado y ajustado en respuesta a la problemática específica de los receptores de células de mamíferos que consumen.

Signal Transduction

Las diferencias en la transducción de señales y vías de reglamentación entre C. Albicans y S. Cerevisiae son numerosos. Muchos de estos C. Albicans específicos de genes codifican proteínas que son sensibles a los cambios en el medio ambiente. Se puede, pues, ser sensibles a la colonización de un nuevo sitio anatómico (por ejemplo, el paso por el estómago), las fluctuaciones en la disponibilidad de nutrientes, o la aparición de reacciones inflamatorias de acogida. Genética de los productos comprendidos en esta categoría incluyen (1) un homólogo (TIP120), de un PDD-proteínas que interactúan en los seres humanos y ratas, que actúa como regulador mundial de la clase I, II, III y de los genes en respuesta a cambios bruscos en las condiciones ambientales [104 ], (2) un pariente (orf 19,1798), de tuberin, un regulador negativo de crecimiento de las células en respuesta a los bajos niveles de energía celular de los mamíferos [105], (3) un grupo de stomatin conservado-al igual que las proteínas (orf 19,7296 y SLP2) Que pueden desempeñar un papel en mechanoreception, (4) una familia de pirin homólogos que, evidentemente, surge de un reciente caso de la duplicación (PRN1, PRN2, PRN3, y PRN4) - estos son los factores nucleares cuyos homólogos humanos interactúan con el oncogén Bcl-3 producto Y con una A. Thaliana proteína G subunidad alfa-implicados en la regulación de la germinación de la semilla y el desarrollo temprano de plántulas [106]], y (5) una romboidal de proteínas (orf 19,5234), probablemente se encuentra en la membrana plasmática, cuyos homólogos en eucariotas y bacterias proteolíticas mediar en la liberación de Péptidos de señalización de un precursor más grande [107]. Además de las diferencias novela atribuirse a los genes, las otras vías de componentes que comparten, sin duda, han sido alterados en su función y regulación, como la vía de apareamiento [108].

Dos de las más importantes familias de enzimas que participan en vías de transducción de señales son las quinasas y las pequeñas GTPasas. El C. Albicans anotación identifica 96 proteínas cinasas, la mayoría de los cuales tienen fuertes orthologs en S. Cerevisiae. El C. Albicans genoma contiene dos genes que codifican heterotrimeric GTPasas de la proteína G subunidad alfa-familia-GPA1 y GPA2. Además, contiene 29 pequeñas GTPasas de la superfamilia p21. Estos incluyen una única proteína Ras (Ras1p), varios miembros de la familia Rho y Rab, la Ran1 homólogo Gsp1p, y varios miembros de la ADP ribosylation subfamilia. La mayoría de estas proteínas tienen claro S. Cerevisiae orthologs. Sin embargo, S. Cerevisiae no tiene un homólogo Rac, mientras orf19.6237 parece codificar un C. Albicans Rac proteínas y por lo tanto, ha sido nombrado RAC1. Además, parece ser orf19.5902 alejadas a Ras fuerte, pero carece de cualquier equivalente en cualquier organismo, y ha sido designada Rlp1p, de Ras-al igual que las proteínas, mientras que orf19.2975 es un YPT / RAB miembro de la familia que ha sido nombrado RAB7 Porque no tiene claro S. Cerevisiae YPT ortholog.

Conclusiones

Hemos coordinado un esfuerzo de toda la comunidad para confirmar manualmente, editar, anotar y 6354 genes de montaje 19 de la C. Albicans genoma. Esta anotación incluye 214 intrón que contienen genes, 246 genes con cualquiera de las dos mutaciones missense o secuencia de errores, y 190 genes que truncado por terminado en los extremos de la secuencia contigs. C. Albicans genes resultaron ser excepcionalmente rica en breve secuencia se repite, sobre todo en comparación con los genomas de S. Pombe y S. Cerevisiae. Correlación con el perfil transcripcional de datos se utilizan para identificar los genes potencialmente falsa. Este conjunto de datos permite la mejora de la identificación de hongos específicos de los genes y permite un análisis detallado de varias grandes multigene familias. Genómica comparativa estudios indican que C. Albicans es mucho más versátil en su producción de los lípidos-y secreta-amino-ácidos y las enzimas degradantes, en su capacidad de importación de la consiguiente nutrientes.

Materiales y Métodos
Apoyo a la Información
Coordina y Todos los campos de la anotación para el 6354 Confirmado
Tenga en cuenta que Microsoft Excel puede convertir algunos de los nombres de genes a las fechas y dejar de importar algunos de los más grandes campos.
Secuencia y Posición de todas estadísticamente significativas en ITS
(291 KB TXT)
Secuencia y Posición de todas estadísticamente significativas en ITS
(11 KB TXT)
Secuencia y Posición de todas estadísticamente significativas en ITS
(66 KB TXT)
Secuencia y Posición de todas estadísticamente significativas en ITS
(488 KB TXT)
Descripción detallada de nuestro algoritmo de identificación de STR
(4 KB TXT)
Lista de genes potencialmente espurios
(34 KB XLS)

Este proyecto, y muchos otros que se aplican técnicas de genómica funcional para el estudio de la C. Albicans, no habría sido posible sin la publicación de datos de la secuencia genómica por Ted Jones, Stewart Scherer, y sus colegas de la SGTC. También queremos dar las gracias a Keith James para scripting-Perl, Susumu Goto de corrección de los números de la CE, y numerosos miembros de la comunidad de investigación Candida por su aliento. Damos las gracias a la Magnaporthe Aspergillus y Proyectos de Secuenciación de la Universidad del Estado de Carolina del Norte y el Broad Institute del Instituto de Tecnología de Massachusetts y de Harvard ( Http://www.broad.mit.edu ) Para el acceso a los datos de secuencia del genoma preliminar. Muchos de los annotators el apoyo de los Institutos Nacionales de Salud de subvención # RO1 AI49187 (AJ), la Comisión Europea concede # QLK2-2000-00795 y MCRTN-CT-2003-504148 (CD), Instituto Nacional de Investigación Dental y Craneofacial de subvención # P01 DE07946 (NA), y los Institutos Canadienses de Investigación en Salud de subvención # RP-42516 (MW). Por último, agradecen el apoyo directo a la comunidad el esfuerzo de Pharmacia Corporation, el Fondo Burroughs Wellcome, el Wellcome Trust y el Consejo Nacional de Investigación de Canadá y Genoma Iniciativa de Salud. Este es el Consejo Nacional de Investigación de Canadá publicación # 46227.