遺伝子情報やアミノ酸、タンパク質などの配列情報は日々蓄積されています。ここでは塩基配列には限定せず、様々な用途に使用される公共データベース、検索システム、バイオリソースについてまとめています。

文献を検索する

Semantic ScholarはAIを活用した科学的な文献探索ツール。引用数や影響度での文献ソートやPDFの有無でのフィルタリング検索も可能。Chromeの拡張機能を使うと簡単に論文検索が実施できる。

リファレンスデータを用意する

Ensembleはゲノム解読された真核生物を対象に自動アノテーションを行い、データベースとして公開。相同性検索やデータのダウンロードなども可能

https://youtu.be/C2g37X_uMok

GenbankはNIH遺伝子配列データベース。2ヶ月ごとのリリースはftpサイトから入手可能

Fishbaseは、魚類に関する情報を包括的に収集しているデータベース

BOLD(Barcode of Life Data)は真核生物の遺伝子データに形態情報や分布データなどを組み合わせたデータベースリポジトリ

MitoFishは魚類のミトコンドリアゲノム情報を検索可能なデータベース。サイト内でBLASTが可能

NCBIは遺伝子関連の各種データベースに対する検索が可能な検索システム

China National GeneBank DataBase (CNGBdb)は中国の遺伝子データバンク。NCBI同様、各種データベースに対する検索が可能

GTDBはBacteriaとArchaeaに属する生物の分類情報を提供するゲノム分類データベース。分類法は普遍的なSingle copy-proteinsから推定した系統推定

SILVAは細菌、古細菌、真核生物について16S/18S, 23S/28S rRNA配列の包括的かつキュレーションデータベースを提供

RDPはリボソームデータベースプロジェクトの略称。細菌、古細菌の16s rRNA、真菌の28s rRNAシーケンスのデータベースと分析ツールを提供

GreengenesはGTDBでも適用されているような系統学的分類法により精選された、細菌、古細菌の16s rRNAシーケンスのデータベース。Greengenes2が2022年に論文が公開されている

QIIME2 format GG2: https://github.com/biocore/q2-greengenes2/

NGSの登録データを利用する

DRAはシーケンスの生データとアライメント情報のアーカイブサイト DDBJはアノテーションが付与されたゲノム、遺伝子、転写産物の塩基配列データベース

https://youtu.be/lhKqDSFuQ-k

DOI: https://youtu.be/lhKqDSFuQ-k (DDBJ, SRAについて)

Korean Nucleotide Archive (KoNA)は韓国のハイスループットシーケンスデータのアーカイブサイト Paper: https://doi.org/10.1093/gpbjnl/qzae017

CNSAは中国ののハイスループットシーケンスデータのアーカイブサイト

塩基配列に関する情報を検索する

GGGenome(ゲゲゲノム)は様々な生物種のゲノムや転写産物情報を高速に検索することのできるツール GitHub: https://github.com/meso-cacase/GGGenome

GGRNAは遺伝子をGoogleのように検索できるサイト。NCBI RefSeq の transcript を全文検索可能 GitHub: https://github.com/meso-cacase/GGRNA

https://youtu.be/KxohXPUG7yM https://youtu.be/KxohXPUG7yM

DOI: https://youtu.be/KxohXPUG7yM (GGGenome, GGRNAについて)

対象生物の遺伝子関連情報を探す

MicrobeDBはゲノム情報を中心に遺伝子や系統、環境など様々なデータが統合されているwebサイト。

https://youtu.be/pyoKka5K0Bg

DOI: https://doi.org/10.7875/togotv.2020.090

OrthoDBはオルソログ情報に関するデータベースサイト

BioCYCは生物固有のPathway/Genome Databasesで、生物のゲノムと代謝パスウェイ情報を提供

https://youtu.be/iAN1nOhe_ac

Plant GARDENは植物のゲノムポータルデータベースサイト

Paper: https://doi.org/10.1186/s12870-023-04392-8

https://youtu.be/oXVm3mYapLw https://doi.org/10.7875/togotv.2022.008

DOI: https://doi.org/10.7875/togotv.2022.008

細菌の薬剤耐性関連データベース

CARD(Comprehensive Antibiotic Resistance Database)は抗菌剤耐性遺伝子やタンパク質及び表現型に関する包括的なデータベース。 Paper: https://academic.oup.com/nar/article/51/D1/D690/6764414?login=false

VFDB(virulence factor database)は細菌性病原体の病原性因子に関するデータベース。 Paper: https://academic.oup.com/nar/article/50/D1/D912/6446532

ResFinderは細菌の DNA 配列全体または一部における、獲得遺伝子の同定や、抗菌薬耐性を媒介する染色体変異を検出をサポートするwebツール & データベース Paper: https://www.microbiologyresearch.org/content/journal/mgen/10.1099/mgen.0.000748

MEGAResは手作業でキュレーションされたおおよそ9,000の抗菌耐性遺伝子の配列データを持つデータベース

Paper: https://academic.oup.com/nar/article/51/D1/D744/6830666

デモデータを探す

PacBioのシーケンサーを使って各分析メニューで生成されたデータをまとめたサイト LINK: https://www.pacb.com/connect/datasets/

PacBio HiFi Shotgun Metagenomics Datasets

PacBio HiFiシーケンスで生成された、一般公開されているショットガンメタゲノミクスデータセットの情報がまとめられたサイト。SRA-toolkitを使用して配列取得することで利用することができます。

https://github.com/PacificBiosciences/pb-metagenomics-tools/blob/master/docs/HiFi-Metagenomics-Publications.md LINK: https://github.com/PacificBiosciences/pb-metagenomics-tools/blob/master/docs/HiFi-Metagenomics-Publications.md

アダプターシーケンスの情報を探す

Illuminaシーケンサーのアダプター配列に関する情報がまとめられたサイト

LINK: https://support-docs.illumina.com/SHARE/AdapterSequences/Content/AdapterSeq.htm