David K. Crockett, Stephen R. Piccolo, Scott P. Narus, Joyce A. Mitchell und Julio C. Facelli
Obwohl viele gemeldete Mutationen im RET-Onkogen direkt mit erblichem Schilddrüsenkarzinom in Verbindung gebracht wurden, werden andere Mutationen als unsichere Genvarianten bezeichnet, da sie nicht eindeutig mit einem klinischen Phänotyp in Verbindung gebracht wurden. Der Prozess zur Bestimmung des Schweregrads einer Mutation ist kostspielig und zeitaufwändig. Informatiktools und -methoden können helfen, diese Genotyp-Phänotyp-Lücke zu schließen. Zu diesem Zweck wurden Klassifizierungsalgorithmen für maschinelles Lernen auf ihre Fähigkeit hin untersucht, gutartige und pathogene RET-Genvarianten zu unterscheiden, die durch Unterschiede in den Werten der physikochemischen Eigenschaften des im Wildtyp vorhandenen Rests und des Rests in der mutierten Sequenz gekennzeichnet sind. Repräsentative Algorithmen wurden aus verschiedenen Kategorien von Klassifizierungstechniken für maschinelles Lernen ausgewählt, darunter Regeln, Bayes und Regression, nächster Nachbar, Support Vector Machines und Bäume. Modelle für maschinelles Lernen wurden dann mit etablierten Techniken verglichen, die zur Vorhersage des Mutationsschweregrads verwendet werden. Mithilfe der Klassifizierung für maschinelles Lernen kann der RET-Mutationsstatus nur anhand von Primärsequenzinformationen genau vorhergesagt werden. Vorhandene Algorithmen, die auf Sequenzhomologie (Orthologerhaltung) oder Proteinstrukturdaten basieren, sind nicht unbedingt besser.