Талисман (программное обеспечение) - Mascot (software)

Талисман
Оригинальный автор (ы)Дэвид Перкинс и Дэррил Паппин
изначальный выпуск1999 (1999)
Стабильный выпуск
2.6.00 / декабрь 2016 г.; 3 года назад (2016-12)
Операционная системаLinux или Windows
Доступно вC
ТипИдентификация белков Биоинформатика
Лицензияпроприетарный, бесплатно для онлайн-использования
Интернет сайтhttp://www.matrixscience.com/

Талисман это программная поисковая система, которая использует масс-спектрометрии данные для идентификации белки от пептидная последовательность базы данных.[1][2] Талисман широко используется исследовательскими центрами по всему миру. Mascot использует вероятностный алгоритм оценки для идентификации белков, который был адаптирован из MOWSE алгоритм. Mascot находится в свободном доступе для использования на веб-сайте Matrix Science.[3] Лицензия требуется для внутреннего использования, где можно включить больше функций.

История означает

MOWSE был одним из первых алгоритмов, разработанных для идентификации белков с использованием дактилоскопия пептидной массы.[4] Первоначально он был разработан в 1993 году в результате сотрудничества Дэррила Паппина из Императорский фонд исследования рака (ICRF) и Алан Близби из Совет по науке и инженерным исследованиям (SERC). MOWSE отличался от других алгоритмов идентификации белков тем, что вырабатывал вероятностную оценку для идентификации. Также впервые было учтено неравномерное распределение пептид размеры, вызванные ферментативным перевариванием белка, необходимого для масс-спектрометрического анализа. Тем не менее, MOWSE был применим только к поиску пептидных массовых отпечатков пальцев и зависел от предварительно скомпилированных баз данных, которые были негибкими в отношении посттрансляционных модификаций и ферментов, кроме трипсина. Чтобы преодолеть эти ограничения, воспользоваться преимуществами многопроцессорных систем и добавить функциональность неферментативного поиска, Дэвид Перкинс из Imperial Cancer Research Fund снова начал разработку с нуля. Первые версии были разработаны для систем Silicon Graphics Irix и Digital Unix. В конечном итоге это программное обеспечение было названо Mascot, и для того, чтобы охватить более широкую аудиторию, Дэвидом Кризи и Джоном Коттреллом была создана внешняя биоинформатическая компания под названием Matrix Science для разработки и распространения Mascot. Существуют устаревшие версии программного обеспечения для Tru64, Irix, AIX, Solaris, Microsoft Windows NT4 и Microsoft Windows 2000. Mascot доступен в качестве бесплатной услуги на веб-сайте Matrix Science с 1999 года и был процитирован в научной литературе более 5000 раз. Matrix Science все еще продолжает работать над улучшением функциональности Mascot.

Приложения

Талисман идентифицирует белки, интерпретируя данные масс-спектрометрии. Преобладающим экспериментальным методом идентификации белка является восходящий подход, когда образец белка обычно переваривается Трипсин с образованием более мелких пептидов. Хотя большинство белков слишком большие, пептиды обычно попадают в ограниченный диапазон масс, который может измерить типичный масс-спектрометр. Масс-спектрометры измеряют молекулярную массу пептидов в образце. Затем Mascot сравнивает эти молекулярные массы с базой данных известных пептидов. Программа расщепляет все белок в указанной поисковой базе данных in silico по определенным правилам в зависимости от декольте фермент используется для переваривания и рассчитывает теоретическую массу для каждого пептида. Затем Mascot вычисляет оценку на основе вероятности того, что пептиды из образца соответствуют пептидам из выбранной базы данных белков. Чем больше пептидов Mascot идентифицирует из определенного белка, тем выше оценка Mascot для этого белка.

особенности

Поиск по отпечатку пальца пептида
Определяет белки из загруженного списка пиков с помощью метода, известного как дактилоскопия пептидной массы.
Последовательный запрос
Объединяет данные о массе пептидов с аминокислотной последовательностью и информацией о составе, обычно получаемой из МС / МС. тандемная масс-спектрометрия данные. На основе метка пептидной последовательности подход.
МС / МС ионный поиск
Определите ионы фрагментов из неинтерпретированных данных МС / МС одного или нескольких пептидов.

Программа обрабатывает данные масс-спектрометров следующих компаний:

Важные параметры

  • Модификации может быть фиксированным или переменным.
    • Фиксированные модификации применяются повсеместно ко всем аминокислота остаток указанного типа или в N-конец или C-конец пептида. Масса для модификации добавляется к каждому из соответствующих остатков.
    • Когда указаны вариабельные модификации, программа пытается сопоставить все различные комбинации аминокислотных остатков с модификациями и без них. Это может значительно увеличить количество сравнений и привести к снижению результатов и увеличению времени поиска.
  • Установив таксономия, поиск может быть ограничен определенными видами или группами видов. Это сократит время поиска и обеспечит включение только релевантных белков.

Подсчет очков

Гистограмма оценки протеина талисмана
График плотности вероятности
Верхнее изображение представляет собой пример графика оценки протеина талисмана. Нижний график показывает распределение вероятностей для сравнения. На обоих изображениях область, отмеченная зеленым цветом, выделяет 95% площади. функция плотности вероятности площадь. Вероятность случайного получения оценок справа от зеленой заштрихованной области составляет менее 5%.

Фундаментальный подход Mascot к идентификации пептидов состоит в том, чтобы вычислить вероятность того, что наблюдаемое совпадение между экспериментальными данными и пептидными последовательностями, найденными в справочной базе данных, произошло случайно. Совпадение с наименьшей вероятностью возникновения случайности возвращается как наиболее значимое совпадение. Значимость совпадения зависит от размера запрашиваемой базы данных. Талисман использует широко используемые уровень значимости 0,05, что означает, что в одном тесте вероятность случайного наблюдения за событием меньше или равна 1 из 20. В этом свете оценка 10−5 может показаться очень многообещающим. Однако, если поисковая база данных содержит 106 последовательностей можно было бы ожидать несколько оценок такой величины случайно, потому что алгоритм выполнил 106 индивидуальные сравнения. Для базы данных такого размера, применив Коррекция Бонферрони для учета множественные сравнения порог значимости снижается до 5 * 10−8.[1]

Помимо рассчитанных оценок пептидов, Mascot также оценивает Коэффициент ложного обнаружения (FDR) путем поиска в базе данных приманок. При выполнении поиска-приманки Mascot генерирует рандомизированную последовательность одинаковой длины для каждой последовательности в целевой базе данных. Последовательность-приманка создается так, чтобы она имела такой же средний аминокислотный состав, как и база данных-мишени. FDR оценивается как отношение совпадений ложной базы данных к совпадениям целевой базы данных. Это относится к стандартной формуле FDR = FP / (FP + TP), где FP - ложные срабатывания, а TP - истинные срабатывания. Обманчивые совпадения наверняка будут ложными идентификациями, но мы не можем различить истинные и ложные срабатывания, идентифицированные в целевой базе данных. Оценка FDR была добавлена ​​в ответ на рекомендации журналов по отчетам об идентификации белков, например, из Molecular and Cellular Proteomics.[5] Расчет FDR Mascot основан на идеях из разных публикаций.[6][7]

Альтернативы

Наиболее распространенные альтернативные программы поиска по базам данных перечислены в Программное обеспечение для масс-спектрометрии статья. Работоспособность различных программ масс-спектрометрии, включая Mascot, можно наблюдать в Исследование iPRG 2011 г.. Сканирование отпечатков пальцев на основе генома - еще один метод, который сравнивает пептидные отпечатки пальцев со всем геномом, а не только с аннотированными генами.

использованная литература

  1. ^ а б Perkins DN, Pappin DJ, Creasy DM, Cottrell JS (декабрь 1999 г.). «Вероятностная идентификация белков путем поиска в базах данных последовательностей с использованием данных масс-спектрометрии». Электрофорез. 20 (18): 3551–67. Дои:10.1002 / (SICI) 1522-2683 (19991201) 20:18 <3551 :: AID-ELPS3551> 3.0.CO; 2-2. PMID  10612281.
  2. ^ Кениг Т., Мензе Б.Х., Кирхнер М. и др. (Сентябрь 2008 г.). «Надежное предсказание оценки MASCOT для улучшенной оценки качества в масс-спектрометрической протеомике». J. Proteome Res. 7 (9): 3708–17. Дои:10.1021 / pr700859x. PMID  18707158.
  3. ^ Программное обеспечение талисмана, Матричная наука.
  4. ^ Паппин DJ, Хойруп П., Близби А.Дж. (июнь 1993 г.). «Быстрая идентификация белков путем снятия отпечатков пальцев по массе пептидов». Curr. Биол. 3 (6): 327–32. Дои:10.1016 / 0960-9822 (93) 90195-Т. PMID  15335725.
  5. ^ Брэдшоу, Р. А. (31 января 2006 г.). «Отчетность по данным идентификации белков: новое поколение рекомендаций». Молекулярная и клеточная протеомика. 5 (5): 787–788. Дои:10.1074 / mcp.E600005-MCP200. PMID  16670253.
  6. ^ Элиас, Джошуа Э; Хаас, Вильгельм; Фаэрти, Брендан К.; Гайги, Стивен П. (1 сентября 2005 г.). «Сравнительная оценка масс-спектрометрических платформ, используемых в крупномасштабных протеомных исследованиях». Природные методы. 2 (9): 667–675. Дои:10.1038 / nmeth785. PMID  16118637.
  7. ^ Ван, Гуанхуэй; Wu, Wells W .; Чжан, Чжэн; Масиламани, Шьяма; Шен, Ронг-Фонг (1 января 2009 г.). «Методы приманки для оценки ложноположительных результатов и ложных открытий в протеомике дробовика». Аналитическая химия. 81 (1): 146–159. Дои:10.1021 / ac801664q. ЧВК  2653784. PMID  19061407.