Analyse bioinformatique des séquences

Analyse bioinformatique des séquences

4. - La manipulation des données
4.2 - Les formats
4.2.2 - Les formats liés aux banques

> Format EMBL

Chaque entrée de la base EMBL est composée de lignes qui commencent par un code à deux caractères (champ) suivi de 3 blancs eux même suivis d'informations.
Pour plus de détails :
ID Identificateur ou mnémonique (nom de l'entrée)
XX Ligne vide séparatrice.
AC Numéro d'accession
DT Dates d'incorporation dans la base et de la dernière mise à jour.
DE Description de la séquence
KW Mot(s)-clé(s) (par ordre alphabétique).
OS Organisme d'où provient la séquence.
OC Classification taxonomique de l'organisme
OG Localisation sub-cellulaire des séquences non nucléaires (chloroplaste, cinétoplaste, mitochondrie, plasmide...)
RN Références bibliographiques de l'entrée.
RC Commentaires sur la référence
RX Région pour laquelle la référence bibliographique est associée.
RP Références associées aux différentes régions de la séquence.
RA Auteurs des articles
RT Titre de l'article
RL Références du journal
DR liaisons avec d'autres bases de données
FH En-tête du champ FT
FT Caractéristiques de la séquence (features).
SQ Séquence (60 nucléotides par ligne dans le sens 5'--->3').
CC Commentaires
// Fin de l'entrée .

Format de base :
La 1ère ligne contient ID, 3 espaces puis l'identificateur (9 caractères-chiffres max).
La 2e ligne contient AC, 3 espaces puis le numéro d'accession (6 caractères-chiffres max).
La 3e ligne contient DE, 3 espaces puis le descriptif (6 caractères-chiffres max).
La 4e ligne contient SQ, 3 espaces suivis de la taille de la séquence.
Les ligne suivantes contiennent la séquence, découpée en 6 blocs (par ligne) de 10 caractères, séparés par un espace.
Chaque entr&ea14 décembre, 2006:AC Accession number
LINE 3 :DE Describe the sequence any way you want
LINE 4 :SQ Length BP
LINE 5 : ACGTACGTAC GTACGTACGT ACGTACGTAC GTACGTA...
LINE 6 : ACGT...
LINE 7 ://
EX : EMBL:HSU94344 [par SRS]