Rong Xu und Quanqiu Wang
Personalisierte Medizin bedeutet, dem richtigen Patienten das richtige Medikament in der richtigen Dosis zu verabreichen. Die Pharmakogenomik (PGx), also die Studien zur Identifizierung genetischer Varianten, die die Arzneimittelwirkung beeinflussen können, sind für die personalisierte Medizin wichtig. Computergestützte Ansätze zur Untersuchung der Beziehungen zwischen Genen und der Arzneimittelwirkung entwickeln sich zu einem aktiven Forschungsgebiet für die personalisierte Medizin. Derzeit ist die systematische Untersuchung von Arzneimittel-Gen-Beziehungen begrenzt, da es schwierig ist, eine groß angelegte, maschinenverständliche Wissensbasis über Arzneimittel-Gen-Beziehungen aufzubauen und auf dem neuesten Stand zu halten. Die wissenschaftliche Literatur enthält umfangreiche Informationen über Arzneimittel-Gen-Beziehungen und ist daher die ultimative Wissensquelle für PGx-Studien und für die personalisierte Medizin. Diese Informationen sind jedoch größtenteils in freiem Text mit eingeschränkter Maschinenverständlichkeit vergraben. Es besteht Bedarf an der Entwicklung automatischer Ansätze zur Extraktion strukturierter Arzneimittel-Gen-Beziehungen aus der biomedizinischen Literatur. In dieser Studie präsentieren wir einen halbüberwachten Ansatz zur Extraktion von Arzneimittel-Gen-Beziehungen aus MEDLINE. Die Technik verwendet ein Startmuster und lernt iterativ verschiedene Möglichkeiten, wie die Beziehung in 20 Millionen MEDLINE-Abstracts ausgedrückt werden kann. Unser Ansatz hat eine hohe Genauigkeit (0,961–1,00) beim Extrahieren von Arzneimittel-Gen-Beziehungen aus MEDLINE erreicht und viele Arzneimittel-Gen-Paare gefunden, die in PharmGKB, einer umfangreichen, manuell kuratierten PGx-Wissensdatenbank, nicht verfügbar sind.