Combinaison des données d’expressions génique et des données cliniques pour améliorer la qualité de la prédiction de la survie à 5 ans de patients atteints de cancer. Mohamed-Ramzi Temanni1, Blaise Hanczar1, Jean-Daniel Zucker1 1Laboratoire d’Informatique Médicale et Bioinformatique (LIM&BIO), UFR SMBH, Université Paris 13, France.
Journées Francophones d’Informatique Médicale, Lille 12-13 mai 2005
Combinaison des données d’expressions génique et des données cliniques pour améliorer la qualité de la prédiction de la survie à 5 ans de patients atteints de cancer. Mohamed-Ramzi Temanni1, Blaise Hanczar1, Jean-Daniel Zucker1 1Laboratoire d’Informatique Médicale et Bioinformatique (LIM&BIO), UFR SMBH, Université Paris 13, France. 1 Introduction
Les biopuces représentent une des nouvelles technologies émergentes de la recherche biomédicale. L'application la plus répandue des biopuces concerne actuellement l'étude du transcriptome dans le cadre d’études différentielles, d’étude de profil génique ou d’études pronostiques ou prédictives. L’apprentissage automatique joue un rôle majeur dans l’extraction des connaissances à partir de ces données. Ce domaine de recherche est à l’intersection de l’intelligence artificielle et des statistiques. Son essor n’a cessé de croître au cours des vingt dernières années. Il a entre autres pour objectif d’analyser les propriétés et de concevoir des algorithmes qui permettent d’approximer des fonctions. Quand les co-domaines de ces fonctions sont finis, on parle de classeurs. Les applications de ces algorithmes en biomédecine sont innombrables [1-3]. Quand les exemples d’apprentissage sont des points dans Rn, les approches classiques de régression aussi bien que celles issues de l’apprentissage statistique comme les réseaux de neurones ou les machines à vecteurs de supports (SVM) sont utilisées [4-6]. Lorsque les exemples sont structurés, on recourt à des approches spécifiques d’apprentissage automatique d’arbres ou règles de décision. Un des verrous scientifiques actuels est de concevoir des algorithmes qui produisent des classeurs qui s’accommodent de faibles nombres d’exemples en regard du nombre de descripteurs. De ce fait, avec les données transcriptomiques nous sommes confrontés au problème connu sous le nom de la « malédiction de la dimension » (curse of dimentionality) puisque nous disposons de peu d’exemples et de milliers de descripteurs (les valeurs d’expressions des gènes).
L’une des directions de recherche les plus actives en apprentissage automatique est celle de la combinaison de classeurs dont le but est d’améliorer le pouvoir prédictif. Par ailleurs, des études très récentes ont démontré l’intérêt de combiner des classeurs utilisant des descriptions distinctes des mêmes exemples [7-10]. Cet aspect est tout particulièrement intéressant en biomédecine où des patients peuvent être décrits à de multiples niveaux de détails (génétique, transcriptomique, protéomique, clinique, environnemental, etc.). L’intégration de tels classeurs pour augmenter le pouvoir prédictif de leur combinaison est un enjeu scientifique clef. Dans ce papier nous présentons une méthode d’apprentissage qui combine les données d’expressions géniques et les données cliniques pour prédire la survie après cinq ans de patients atteints de cancer.
Journées Francophones d’Informatique Médicale, Lille 12-13 mai 2005
2 Matériel et méthodes
Nous avons utilisé dans notre analyse les données publiques du cancer du poumon de l’université de Harvard [11] ainsi que les données de la tumeur du cerveau de l’université du Massachusetts [12]. Chaque ensemble de données a un nombre différent de gènes et des attributs cliniques distincts. Les données d’expressions utilisées ici ont été produites sur la plateforme Affymetrix. Dans un premier temps, nous réalisions une étape de centrage – réduction des données d’expressions géniques. Le centrage consiste à ramener la valeur de la moyenne de la distribution de chaque expérience à 0 pour les rendre comparables. L’étape suivante de réduction a pour effet de supprimer les effets de variation entre les expériences en ramenant leurs écart-types à la même valeur.
Table 1 : Données utilisées pour la prédiction de la survie après cinq ans Cancer du poumon (Harv43) Tumeur du cerveau (Mit40) Class distribution Données Biocliniques Données Biopuces
Pour la base de données du cancer du poumon de l’université de Harvard, nous avons sélectionné 43 patients ayant à la fois les données cliniques et les données d’expressions disponibles et nous avons exclu tous les patients qui avaient des données manquantes ou ceux qui ont été censurés et dont le temps de survie était plus court que 5 ans. Dans notre sélection, 22 patients ont survécu après 5 ans et 21 sont décédés avant 5 ans. Les données cliniques regroupement l'âge, le sexe, la classification TNM et le stade du cancer. Pour la classification TNM, la lettre T (de l’anglais «tumor», tumeur) s’applique à la taille et à l'emplacement de la tumeur primitive, la lettre N («node», ganglion) indique si des cellules cancéreuses ont envahi les ganglions lymphatiques qui drainent des liquides dans la partie du corps où est située la tumeur et la lettre M («métastase», métastase) indique si le cancer s’est propagé à d’autres régions de l’organisme. Nous avons codé la classification TNM en utilisant trois attributs, par exemple la classification T2N1M0 est codée (2, 1, 0) et lorsque nous avons M1, le code correspondant est (-1, -1, 1). Nous avons par ailleurs converti les stades du cancer en nombres (IA=1, IB=2, IIA=3, IIB=4, IIIA=5, IIIB=6, IV=7). La table de données d’expressions de la base Harvard contient le profil transcriptionnel de 3588 gènes.
La sélection que nous avons retenue dans la base de données de la tumeur du cerveau de l’université du Massachusetts regroupe 40 patients. Nous avons gardé seulement les patients ayant à la fois des données cliniques et des données d’expressions disponibles simultanément. Dans cette sélection, 22 patients ont survécu après 5 ans et 18 sont décédés avant 5 ans. L'ensemble de données cliniques regroupe le stade de la tumeur, l'âge au diagnostique, le sexe, la chimiothérapie (V=vincristine, C=cisplatin, Cx=cytoxan, VP=etoposide, CC=ccnu, Ca=carboplatin, P=procarbazine, M=methotrexate, T=thiotepa) et le sous-type de la tumeur (classique, Desmoplastique). Nous avons choisi la même codification présentée précédemment et nous avons opté pour coder les chimiothérapies et le sous-type par des variables booléennes. Dans cette base, les données biopuces regroupent l'expression de 7129 gènes. Nous résumons les données utilisées dans notre étude dans le tableau 1.
Journées Francophones d’Informatique Médicale, Lille 12-13 mai 2005
Notre approche de combinaison s’appuie sur les machines à vecteurs de supports SVM [13] qui se sont déjà avérés efficaces en apprentissage automatique dans le domaine médical et plus particulièrement sur des données biopuces. Ces méthodes représentent les données au moyen d'une fonction noyau, qui définit une sorte de mesure de similarité entre les données. Chaque fonction noyau fournit une description ou une vue partielle des données, ainsi combiner ces données devrait fournir une meilleure vue d’ensemble de l’objet décrit. Les opérations algébriques de base telles que l'addition, la multiplication et l'élévation à une puissance préservent la condition de Mercer [13] et permettent ainsi une algèbre simple mais puissante sur les noyaux.
L’algorithme de combinaison se déroule en deux phases : une phase d’apprentissage de modèles et une phase de prédiction à partir des modèles appris. Les données sont d’abord subdivisées en deux sous ensembles : un ensemble d’apprentissage de taille n-1 patients et un ensemble de test de 1 patient.
La phase d’apprentissage nous fournit un modèle construit à partir des données d’apprentissages. Au cours de cette phase, nous construisons en un premier temps la matrice noyau pour chaque source de données, K
des données d’expressions géniques et K
est la matrice noyau obtenue à partir des
données cliniques. Avant de combiner ces matrices, nous avons effectué la transformation suivante afin de garantir des mesures comparables entre les deux sources :
En appliquant cette transformation à K
chaque matrice sont comprises entre 0 et 1. Ensuite nous avons introduit une constante positive α pour chaque matrice afin d’avoir des matrices définies positives. La matrice noyau résultante de la combinaison de K
µ est le coefficient des données d’expressions indiquant le poids de la contribution de la mesure de similarité des données d’expressions dans la matrice noyau globale. Si le paramètre µ=0, seule la mesure de similarité construite à partir des données cliniques est prise en compte. Pour une valeur du paramètre µ=1, nous construisons la matrice noyau à partir des données biopuces uniquement. La valeur optimale du paramètre µ est calculée expérimentalement en faisant varier sa valeur entre 0 et 1. Ce paramètre dépend des caractéristiques des données utilisées.
Afin de trouver le classifieur optimal basé sur la combinaison, nous employons la formulation à marge douce [14] des machines à vecteurs de supports qui se ramène à la résolution d’un problème de programmation quadratique avec des contraintes linéaires (3) pour chaque valeur de µ.
Journées Francophones d’Informatique Médicale, Lille 12-13 mai 2005
La phase de prédiction détermine la classe des nouvelles données à partir du modèle construit dans la phase précédente et permet de prédire la classe des éléments de l’ensemble de test qui sont inconnus du modèle construit. Ensuite, pour chaque valeur de
μ nous calculons le taux d’erreur qui nous permettra de sélectionner le modèle le plus
performant, c'est-à-dire celui qui minimise l’erreur. La qualité de chaque classifieur que nous avons employé est calculé en utilisant une forme particulière de la validation croisé qui est connue sous le nom de leave-one-out (LOOCV) [15]. La meilleure combinaison sera celle qui montre les meilleurs résultats de prédiction. Cette mesure est une évaluation de l'erreur de généralisation, en d'autres termes, la mesure de l’erreur est faites sur les ensembles de test qui ne sont pas connu du modèle lors de la phase d’apprentissage. Au lieu de donner seulement le résultat optimal obtenu, nous avons voulu tracer la courbe de variation du résultat pour comprendre l’évolution de la combinaison. La figure 1 schématise le fonctionnement général de l’algorithme.
Figure 1 : Principe de fonctionnement de la méthode de combinaion
L’ algorithme de combinaison décrit ci-dessus a été implémenté en utilisant le langage de programmation R [16].
3 Résultats
Nous présentons ci-après, les résultats obtenus en utilisant notre méthode de combinaison. Nous traçons pour chacun des deux jeux de données utilisées la courbe représentant la variation de la précision de la prédiction selon le critère d’estimation leave-one-out en fonction duparamètre µ. Nous avons évalué différents noyaux (linéaire, polynomial de degré 2, polynomial de degré 3 et radial) et différentes valeurs du paramètre de régularisation C pour chaque source de données. Ensuite, nous avons essayé plusieurs combinaisons de fonctions noyaux (lin-lin, lin-poly2, …, radial-radial) et nous donnons dans ce qui suit seulement la meilleure combinaison pour chaque ensemble de données.
Journées Francophones d’Informatique Médicale, Lille 12-13 mai 2005
ion de is c ré Coefficient des données d’expressions (µ) Figure 2 : Variation de la précision de la prédiction (survie après 5 ans, données Harvard)
Le Figure 2 représente la courbe de la variation de la précision de la prédiction de la survie après 5 ans pour les données de l’université de Harvard en fonction du paramètre µ. Nous avons utilisé un noyau linéaire pour les données d’expressions, un noyau polynomial degré 2 pour les données cliniques et la valeur 4 pour la variable d’écart C.
Les résultats obtenus à partir des données cliniques seules (µ=0) est de 51,16%, Avec les des données d’expressions (µ=1) nous obtenons une précision de 76,74%. Nous avons une valeur constante de la précision pour µ∈[0,0.5], puis un accroissement pour µ∈]0.5,0.95]. La précision de prédiction optimale est de 86,05%, elle est obtenue pour µ=0,95. Les résultats que nous obtenons avec la combinaison sont améliorés de 10% comparé aux résultats obtenus à partir des données d’expressions et de 25% comparé aux résultats obtenus à partir des données cliniques.
Coefficient des données d’expressions (µ) Figure 3 : Variation de la précision de la prédiction (survie après 5 ans, données Massachusetts)
Comme avec le premier jeu de données, la figure 3 exprime la précision de la prédiction de la survie après cinq ans avec les données de l’université du Massachusetts. Nous avons utilisé un noyau linéaire pour les données d’expressions, un noyau linéaire pour les données cliniques et C=2.
Journées Francophones d’Informatique Médicale, Lille 12-13 mai 2005
La précision obtenue en utilisant uniquement les données cliniques (µ=0) est d’environ 60%, avec les données d’expressions (µ=1) la précision est d’environ 65%. Avec les données de la tumeur du cerveau, quelques combinaisons (µ=0.05, µ=0.1) ont des performances inférieures à celles obtenues à partir données cliniques seules, alors que pour les autres valeurs les résultats sont meilleurs. Le résultat optimale est de 67,5%, ce résultat a été obtenu pour µ=0.75. La combinaison optimale améliore le pouvoir prédictif de 2,5% comparés aux résultats obtenus à partir des données d’expressions et d’environ de 7,5% comparés aux résultats obtenus à partir des données cliniques.
4 Discussion
Nous avons décrit dans le présent papier une nouvelle approche pour prédire la survie après cinq ans en se basant sur la combinaison de noyaux construits à partir des données d’expressions de gènes et des données cliniques. Cette méthode emploie la formulation à douce marge des machines à vecteurs de supports et exploite une combinaison linéaire pondérée des mesures de similarité des données hétérogènes. L’étude que nous venons de réaliser montre que notre méthode améliore significativement le pouvoir prédictif par rapport aux classifieurs qui utilisent les données séparément.
Avec les données du cancer du poumon, l'amélioration est tout à fait significative (10% comparé aux données d’expressions et 25% comparé aux données cliniques). La courbe représentant la précision de la prédiction en fonction du paramètre µ est uniforme. Avec cet ensemble de données, la combinaison donne des résultats toujours supérieurs à ceux obtenus en utilisant uniquement les données cliniques. En d’autres termes, nous n'avons aucune dégradation de la précision de la prédiction avec la combinaison quelque soit la valeur de µ. Par contre, avec les données de la tumeur du cerveau la courbe obtenue est variable. Bien que pour certains points la précision de la prédiction diminue, la combinaison optimale donne des résultats qui sont plus intéressants que ceux obtenues avec les données prises séparément. Une explication possible de cette variabilité est que les noyaux standards utilisés (noyau linéaire, noyau polynomial, .) ne sont pas très adaptés pour ces données. Des analyses statistiques et mathématiques sont en cours pour essayer de comprendre les courbes résultantes et d’interpréter la variabilité des résultats obtenus par notre méthode de combinaison.
5 Conclusion
Les maladies complexes comme les cancers sont des maladies multifactorielles. Pour avoir des résultats de prédictions précis, il est intéressant de prendre en considération des informations sur les patients et les données d’expressions des gènes. Les puces à ADN ont permis d’avoir une nouvelle vision sur les maladies complexes, cependant elle se limite à traduire les changements subis au niveau de l’ARN dans les cellules. Certes, les systèmes d’aide à la décision médicale ont besoin d’une approche plus vaste qui intègre différentes informations sur les patients et sur les maladies.
Dans cet article nous avons proposé une nouvelle approche de combinaison pour la prédiction qui intègre à la fois les informations issues des données biopuces et des données cliniques. Etant données la différence entre ces deux sources de données hétérogènes, il n'était pas évident a priori qu'une combinaison améliorerait les résultats. Il est possible que pour certaines données la combinaison n'améliore pas de manière significative les résultats de la prédiction. Au stade actuel de notre étude, le paramètre µ qui optimise la combinaison ne reflète pas nécessairement le poids ou l'importance des données elles-
Journées Francophones d’Informatique Médicale, Lille 12-13 mai 2005
mêmes. Sa valeur dépend clairement des fonctions noyaux utilisées en particulier et des paramètres des SVM en général mais aussi de la nature des données utilisées. Une direction intéressante des travaux futurs est l'intégration des connaissances experts et l'utilisation de mesures de similarité spécifiques aux données et plus particulièrement quand il s’agit de données de grande dimension comme c’est le cas pour les puces à ADN. Il est aussi intéressant d’étudier l'impact d’une combinaison locale sur les résultats de la prédiction.
Références
A.A., et al., Distinct types of diffuse large B-cell lymphoma identified by gene expression
profiling, Nature, 403 (2000) 503-511.
Golub, T.R., Slonim, D. K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J. P., Coller, H., Loh, M. L., Downing, J. R., Caligiuri, M. A., Bloomfield, C. D., and Lander, E. S., Molecular classification of cancer: class discovery and class prediction by gene expression monitoring., Science, 286 (1999) 531-537.
M.A., et al., Diffuse large B-cell lymphoma outcome prediction by gene-expression profiling
and supervised machine learning, Nat Med, 8 (2002) 68-74.
Dudoit, S., Fridlyand, J., and Speed, T. P, Comparison of discrimination methods for the classification of tumors using gene expression data, Journal of the American Statistical Association, 97 (2002) 77-87.
M.P.S., et al., Knowledge-based analysis of microarray gene expression data by using
support vector machines, PNAS, 97 (2000) 262-267.
Michael C. O'Neill and Song, L., Neural network analysis of lymphoma microarray data: prognosis and diagnosis near-perfect, BMC Bioinformatics., 4 (2003).
P., et al., Gene functional classification from heterogeneous data. Proceedings of the fifth annual international conference on Computational biology, Vol. 1-58113-353-7, ACM Press, C Montreal, Quebec, Canada, 2001, pp. 249-255.
J.R., et al., Towards integrated clinico-genomic models for personalized medicine:
combining gene expression signatures and clinical factors in breast cancer outcomes prediction, Hum. Mol. Genet., 12 (2003) 153R-157.
Lanckriet, G.R.G., Deng, M., Cristianini, N., Jordan, M.I., Noble, W.S, Kernel-based Data Fusion and its Application to Protein Function Prediction in Yeast, In press: Proceedings of the Pacific Symposium on Biocomputing (PSB) (2004).
D.P., et al., Integration of microarray data for a comparative study of classifiers and
identification of marker genes. In springer (Ed.), The 4th International Conference on Critical Assessment of Microarray Data Analysis 2003(CAMDA03), Vol. 2004a, Durham, North Carolina, USA, 2003.
A., et al., Classification of human lung carcinomas by mRNA expression profiling
reveals distinct adenocarcinoma subclasses, Proc. Natl. Acad. Sci. USA, 98 (2001) 13790-13795.
S.L., et al., Prediction of central nervous system embryonal tumour outcome based on
gene expression, Nature, 415 (2002) 436-442.
The Nature of Statistical Learning Theory, Springer, New York, 1995.
Cristianini, N. and Shawe-Taylor, J., An introduction to support vector machines and other kernel-
Journées Francophones d’Informatique Médicale, Lille 12-13 mai 2005
based learning methods, Cambridge University Press, Cambridge; New York, 2000.
Trevor Hastie, R.T., and Jerome Friedman, The Elements of Statistical Learning, Springer, 2001.
R: A language and environment for statistical computing, R Foundation for
Statistical Computing, Vienna, Austria, 2003.
Adresse de correspondance
Laboratoire d’Informatique Médicale et de Bioinformatique
UFR de Santé, Médecine et Biologie Humaine (SMBH) - Léonard de Vinci
74, rue Marcel Cachin 93017 Bobigny Cedex, France
Journées Francophones d’Informatique Médicale, Lille 12-13 mai 2005
The T &T Foresight Sector Foresight Project: FOOD & BEVERAGE Chapter 3: Overall T&T ‘Best Larry Placide, Dorian Scott & Nick Marsh Sept. 25, 2006 CONTENTS Picking the best of the ‘Best Bets’. 3 Title: Red Hot Peppers – ‘Soca Fire’ . 10 F & B Chapter 3 NEXT – Final 250906 1 Introduction Altogether thirt
ANNOUNCEMENTS THIS WEEK Office Hours The office is open Monday - Thursday from 9:00 am until4:00 pm . On Friday, the office is open from 9:00 am until3 : 0 0 p m . P h o n e : 2 3 1 - 7 9 6 - 2 6 0 0 ) ( E m a i l :trinity@ fastm ail.net) Check out the Trinity W eb-Site: www.trinityinfo.org and Ladies: The Thursday m orning Bible study is starting a six-week study that coinci