Analysis of the statistical distribution of amino acid compositions within 22 protein families shows that a GC bias generally affects proteins with a variety of functions from the extreme thermophile Thermus. This results in evident enrichment in amino acids of the group L, V, A, P, R and G and underrepresentation of amino acids of the group I, M, F, S, T, C and W. The strong amino acid composition biases noted in Thermus proteins are not related to thermoadaptation; they were also found in mesophilic homologues encoded by GC-rich genes. The results of a comparative analysis on large samples of translated sequences from 30 organisms, representing the three major kingdoms of life and including extremophiles, indicate a universal correlation between the usage of particular amino acids and the genomic GC content. It is concluded that the codon first letter plays a dominant role in translating the genomic GC signature into protein amino acid composition and sequences.
Role de la premiere lettre du codon dans la relation entre le contenu en GC et la composition en acides amines des proteines. L'etude de la distribution statistique des compositions en acides amines au sein de 22 familles de proteines aux fonctions diverses montre que le contenu eleve en GC observe dans Thermus, une espece thermophile extreme, affecte de maniere generale la composition de ses proteines. On observe un enrichissement marque en acides amines L, V, A, P, R et G et un appauvrissement en I, M, F, S, T, C et W. Cette variation de la composition en acides amines des proteines de Thermus n'est pas liee a la thermoadaptation de l'espece puisqu'elle est aussi observee dans des proteines homologues mesophiles encodees par des genes riches en GC. Par analyse comparative de nombreuses sequences traduites provenant de 30 organismes representant les trois regnes majeurs du monde vivant et comprenant des extremophiles, nous montrons qu'il existe une correlation universelle entre la presence d'acides amines particuliers dans les proteines et le contenu genomique en GC de ces organismes. En conclusion, il apparait que la premiere lettre des codons joue un role important en refletant le contenu genomique en GC dans la composition et la sequence en acides amines des proteines.