Ahmad Maleki*, Vahid Vaezinia und Ayda Fekri
Der Promotor ist ein Teil der DNA-Sequenz, der vor dem Gen kommt und als Regulator von Genen von entscheidender Bedeutung ist. Die Vorhersage des Promotors hilft dabei, die Genposition zu bestimmen und die Genexpression zu analysieren. Daher ist sie im Bereich der Bioinformatik von großer Bedeutung. In der Bioinformatikforschung werden eine Reihe maschineller Lernansätze angewendet, um aus biologischen Datenbanken neues, bedeutsames Wissen zu gewinnen. In dieser Studie werden zwei Lernansätze, Expectation-Maximization-Clustering und Support Vector Machine Classifier (EMSVM), zur Promotorerkennung verwendet. Der Expectation-Maximization-Algorithmus (EM) wird verwendet, um Gruppen von Proben zu identifizieren, die sich ähnlich und unähnlich verhalten, wie z. B. die Aktivität von Promotoren und Nicht-Promotoren in der ersten Phase, während die Support Vector Machine (SVM) in der zweiten Phase verwendet wird, um alle Daten in die richtige Klassenkategorie zu klassifizieren. Wir haben diese Methode auf Datensätze angewendet, die den Promotoren σ24, σ32, σ38 und σ70 entsprechen, und ihre Wirksamkeit wurde an einer Reihe verschiedener Promotorregionen nachgewiesen. Darüber hinaus wurde es mit anderen Klassifizierungsalgorithmen verglichen, um die entsprechende Leistung des vorgeschlagenen Algorithmus zu ermitteln. Testergebnisse zeigen, dass EMSVM eine bessere Leistung als andere Methoden bietet.