на главную страницу
 > Обзоры > NCBI.

National Center for Biotechnology Information.


    NCBI организован в 1988 как отделение National Library of Medicine (NLM) в National Institutes of Health (NIH). В настоящее время это крупнейшая биологическая база данных (молекулярная биология, биохимия и генетика). NCBI имеет мощные системы обработки и представления этих данных.

    По этому адресу имется очень толковое описание ресурсов сайта.


    Описание некоторых ресурсов:


    GenBank

    База данных нуклеотидных последовательностей из более чем 70,000 организмов (для кодирующих последовательностей приведена трансляция). GenBank-участник (вместе с EMBL и DDBJ) консорциума баз данных (базы данных обмениваются данными ежедневно и потому эквивалентны; описания и номера всех последовательностей одинаковы).

    Доступ (получение последовательностей) через Entrez (поиск по названию, номеру, организму, автору и т.п.). Поиск по подобию осуществляется с помощью BLAST. Можно получить весь GenBank.

    Для представления последовательностей в GenBank предложено два инструмента (перед отправкой полезно провести поиск векторных последовательностей с помощью VecScreen - инструмента, позволяющего идентифицировать в предложенной последовательности компоненты векторов, линкеров или адаптеров. Разработан для предотвращения загрязнения публичных баз данных векторами и т.п):

    1. BankIt – www представление одной или нескольких последовательностей.
    2. Sequin - www представление для длинных последовательностей, полных геномов, результатов популяционных и филогенетических исследований.

    Разделы GenBank:

  • ESTs - expressed sequence tags; короткие (300-500), просиквенированные один раз cDNA последовательности. Также включают последовательности cDNA из RACE и differential display экспериментов.
  • GSSs - genome survey sequences; короткие, просиквенированные один раз геномные последовательности, exon trapped последовательности, cosmid/BAC/YAC концы и т.п.
  • HTGs - high throughput genome sequences от крупных сиквенсовых центров. Незавершенные и завершенные последовательности.
  • STSs - sequence tagged sites; короткие (200-500) последовательности, уникальные для данного генома. Используются для картирования геномов.

    RefSeq

    Reference Sequences база данных. Неповторяющиеся последовательности геномной DNA, mRNA и известных белков (в будущем - хромосом).

    DbSNP

    База данных single nucleotide polymorphisms, небольших делеций/инсерций, полиморфных повторяющихся элементов и microsatellite variation (как клинические, так и нейтральные). Содержит популяционные частоты распространённости.

    UniGene

    В этой базе данных ESTs и полноразмерные mRNA последовательности организованы в уникальные кластеры, представляющие известные или предполагаемые гены. Для кластеров представлена информация по картированию, экспрессии и другие ресурсы.

    В настоящее время для четырёх организмов: Homo sapiens, Mus musculus, Rattus norvegicus, Danio rerio.

    OMIM

    Online Mendelian Inheritance in Man – база данных человеческих генов и генетических заболеваний под редакцией Dr. Victor A. McKusick. Имеются ссылки на Entrez базу данных.

    The OMIM Morbid Map – алфавитный каталог генетических заболеваний и их цитологической локализации.

    Genomic Biology

    Представлены геномные карты (с Entrez связями) для Fruit fly, Human, Malaria parasite, Mouse, Rat, Retroviruses, Zebrafish. По возможности суммированы данные UniGene, сиквенс, имеющиеся мутанты, гомологи из других организмов.

    Entrez

    Обеспечивает доступ к нуклеотидным и белковым последовательностям (GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-ProtиPDB, GenPept, RPF), 3-х мерным структурам и популяционным данным. Практически для каждой последовательности можно затребовать подобные последовательности или структуры (заранее вычисленные) и MEDLINE ссылки относящиеся к последовательности. Относительно большие запросы можно организовывать с помощью Batch Entrez. Запрос можно организовывать с помощью разного рода текстовой информации: имя автора, организм, название гена или белка, уникальный идентификатор (accession number, sequence ID, PubMed ID, MEDLINE UID).

    Можно использовать Entrez через E-mail (Query E-mail Server); чтобы узнать правила работы достаточно послать письмо с текстом HELP.

    Entrez Genomes

    Обеспечивает доступ к полным сиквенированным геномам (более 800; >500 вирусов, >25 бактерий, Saccharomyces cerevisiae, Drosophila melanogaster; включает незаконченные геномы:human, mouse, Caenorhabditis elegans, Plasmodium falciparum, Leishmania major, rice, and corn). Графическое представление геномов. Интегрированные хромосомные карты дрозофилы и человека.

    Литература.

    PubMed организован National Center for Biotechnology Information (NCBI) National Institutes of Health (NIH). PubMed содержит полное содержание MEDLINE и PREMEDLINE баз данных и некоторые статьи не входящие в них. Очень удобно доверить регулярный просмотр ссылок на PubMed программе BioMail.

    Citation Matcher позволяет найти статью по библиографическим даным. Возможен поиск сразу же большого количества статей. Можно использовать Citation Matcher через E-mail (E-Mail Citation Matcher); чтобы узнать правила работы достаточно послать письмо с текстом HELP.

    Книги на сайте NCBI (читать подряд неудобно, но зато есть возможность поиска):

    • C.elegans II. Riddle, Donald L.; Blumenthal, Thomas; Meyer, Barbara J.; Priess, James R., editors. Plainview (NY): Cold Spring Harbor Laboratory Press; c1997.
    • Introduction to Genetic Analysis. 7th ed. Griffiths, Anthony J.F.; Gelbart, William M.; Miller, Jeffrey H.; Lewontin, Richard C. New York: W H Freeman & Co; c1999.
    • Modern Genetic Analysis. Griffiths, Anthony J.F.; Gelbart, William M.; Miller, Jeffrey H.; Lewontin, Richard C. New York: W H Freeman & Co; c1999.
    • Molecular Biology of the Cell. 3rd ed. Alberts, Bruce; Bray, Dennis; Lewis, Julian; Raff, Martin; Roberts, Keith; Watson, James D. New York and London: Garland Publishing; c1994
    • Molecular Cell Biology. 4th ed. Lodish, Harvey; Berk, Arnold; Zipursky, S. Lawrence; Matsudaira, Paul; Baltimore, David; Darnell, James E. New York: W H Freeman & Co; c2000.
    • Retroviruses. Coffin, John M.; Hughes, Stephen H.; Varmus, Harold E. Plainview (NY): Cold Spring Harbor Laboratory Press; c1997.

    BLAST

    Сравнение представленной последовательности с последовательностями в базе данных для выбора подобных последовательностей. В настоящее время реализована версия Gapped QBLAST (2.0). QBLAST позволяет получать результаты BLAST по номеру запроса известному только Вам (можно несколько раз, результаты не слишком больших поисков хранятся в течении 24h). При повторных запросах есть возможность слегка менять форму представления результата. Эта версия:

    1. разрешает пробелы при сравнении последовательностей (так что результат не разбивается на несколько последовательностей);
    2. позволяет выполнять поиск по специфическим организма;
    3. реализует PSI-BLAST (Position-specific-iterated search), при котором статистически значимые выравнивания преобразуются во множественное выравнивание всех белков. По этому выравниванию генерируется матрица, которая может быть использована для следующих итераций.
  • PHI-BLAST - Pattern Hit Initiated BLAST – задаётся белок и мотив; ищутся подобные белки содержащие данный мотив.
  • BLAST 2 Sequences - инструмент для выравнивания двух заданных аминокислотных или нуклеотидных последовательностей.
  • IgBLAST - инструмент, облегчающий анализ последовательностей иммуноглобулинов. Даёт возможность проводить поиск в базе данных вариабельных областей иммуноглобулинов.
  • Можно использовать BLAST через E-mail (BLAST E-mail server); чтобы узнать правила работы достаточно послать письмо с текстом HELP.
  • Stand-alone BLAST – есть возможность загрузить BLAST программу на собственную машину и проводить поиски локально. Имеются программы для следующих платформ: IRIX 6.2, Solaris 2.6, DEC OSF1 (ver. 4.0d), LINUX и Win32 systems. Так же имеются BLAST базы данных.
  • Программы BLAST поиска:

    blastpсравнение заданной аминокислотной последовательности с базой данных белковых последовательностей.
    blastnсравнение заданной нуклеотидной последовательности с базой данных нуклеотидных последовательностей.
    blastxсравнение заданной нуклеотидной последовательности транслированной в 6 рамках считывания с базой данных белковых последовательностей.
    tblastnсравнение заданной аминокислотной последовательности с базой данных нуклеотидных последовательностей транслированных в 6 рамках считывания.
    tblastxсравнение заданной нуклеотидной последовательности транслированной в 6 рамках считывания с базой данных нуклеотидных последовательностей транслированных в 6 рамках считывания. tblastx не может быть использована при сравнении с nr базой данных на BLAST Web сервере.

    Базы данных для BLAST поиска.

    Базы аминокислотных последовательностей:

    nrтрансляция всех неповторяющихся кодирующих последовательностей из GenBank+PDB+SwissProt+PIR+PRF
    monthвсе новые или исправленные nr-последовательности за последние 30 дней.
    swissprotпоследний выпуск SWISS-PROT базы данных.
    Drosophila genomeбелки генома дрозофилы, представленные Celera и Berkeley Drosophila Genome Project (BDGP).
    yeastдрожжевые( Saccharomyces cerevisiae) белки.
    E. coliтрансляция кодирующих последовательностей генома E.coli.
    pdbпоследовательности 3-х мерных структур Brookhaven Protein Data Bank.
    kabat [kabatpro]последовательности, имеющие отношение к иммунологии.
    aluтрансляция Alu повторов.

    Базы нуклеотидных последовательностей.

    nrвсе неповторяющиеся последовательности из GenBank+EMBL+DDBJ+PDB( но не входят EST, STS, GSS, или фазы 0, 1 или 2HTGS последовательности)
    monthвсе новые или исправленные GenBank+EMBL+DDBJ+PDB - последовательности за последние 30 дней.
    dbestEST - отдел GenBank+EMBL+DDBJ.
    dbstsSTS - отдел GenBank+EMBL+DDBJ.
    htgsHigh Throughput Genomic Sequences: фазы 0, 1и 2 (оконченные, фаза 3HTG последовательности находятся в nr).
    Drosophila genomeгеном дрозофилы, представленный Celera и Berkeley Drosophila Genome Project (BDGP).
    yeastдрожжевой( Saccharomyces cerevisiae) геном.
    E. coliгеном E. coli.
    pdbпоследовательности 3-х мерных структур Brookhaven Protein Data Bank.
    kabat [kabatnuc]последовательности, имеющие отношение к иммунологии.
    vectorвекторные последовательности GenBank(R), NCBI.
    mitoБаза данных митохондриальных последовательностей.
    aluAlu повторы из REPBASE.
    epdбаза данных эукариотических промоторов.
    gssGenome Survey Sequence, одократно прочитанные геномные последовательности, exon-trapped и Alu PCR последовательности.

"Практическая Молекулярная Биология" http://molbiol.edu.ru
e-mail: pmb@molbiol.edu.ru


Rambler's Top100