美國國家生物技術信息中心的基因表達數據庫(GEO)項目是為了應對高通量基因表達數據公共存儲庫日益增長的需求而發(fā)起的?;虮磉_數據庫(GEO)提供了靈活和開放的設計,便于從高通量基因表達和基因組雜交實驗中提交、存儲和檢索不同類型的數據集。基因表達數據庫(GEO)的目的不是要取代內部的基因表達數據庫,這些數據庫受益于連貫的數據集,并且構建這些數據庫是為了促進特定的分析方法,而是通過充當第三級中央數據分發(fā)中心來補充這些數據庫?;虮磉_數據庫(GEO)的三個核心數據實體是平臺、樣本和系列,設計時考慮到了基因表達和基因組雜交實驗。從本質上講,平臺是一系列探針,它們定義了可以檢測到的分子集。一個樣本描述了正在被探測的一組分子,并引用了用于生成其分子豐度數據的單一平臺。一系列將樣本組織成有意義的數據集,這些數據集構成了一個實驗。基因表達數據庫(GEO)可通過萬維網公開訪問。
基因表達數據庫(GEO)將數據分成三個主要組件,平臺、樣本和系列,每個組件都在關系數據庫中訪問(即給定唯一和恒定的標識符)。為了實現(xiàn)開放和靈活的設計,允許存儲和檢索非常不同的數據類型,數據沒有在數據庫中完全細化。取而代之的是,為每個平臺和每個示例存儲制表符分隔的ASCII表。該表由多個列以及相應的列標題名稱組成。此表中的數據目前部分提取用于編制索引,但可能會進一步提取以進行更廣泛的搜索和檢索。此外,提交者可提供任意數量的補充列,以包括提交者定義的附加信息。
平臺的實例本質上是一系列探針,它們定義了在利用該平臺的任何實驗中可以檢測到的分子集。例如,平臺數據表可以包含標識每個探針(SPOT)的位置和生物試劑含量的GEO定義的列,諸如GenBank登錄號、開放閱讀框架(ORF)名稱和克隆識別符,以及提交者定義的列。平臺登錄號有一個‘GPL’前綴。
一個樣本的實例描述了正在被探測的一組分子的派生,并利用平臺來產生分子豐度數據。每個樣本都有且只能有一個必須預先定義的父平臺。例如,樣本數據表可以包含指示在其平臺中定義的相應斑點的最終相關豐度值的列,以及任何其他由GEO定義的(例如,原始信號、背景信號)和提交者定義的列。樣本登錄號有一個‘GSM’前綴。
序列的實例將樣本組織成組成實驗的有意義的數據集,并由共同的屬性綁定在一起。系列登錄號有一個‘GSE’前綴。
對于新提交的和更新的提交,有兩種通信模式可用,即交互或直接存放。交互式Web表單界面路線簡單明了,最適合偶爾提交數量相對較少的樣本。通過直接存放簡單總括格式(SOFT)的文件,可以將大量提交的大量數據集迅速并入地球觀測組織。SOFT是一種基于行的ASCII文本格式,允許在一個文件中表示多個GEO平臺、樣本和系列。在Soft中,元數據顯示為標簽-值對,并與平臺和示例的制表符分隔的文本表相關聯(lián)。Soft的設計使其易于使用現(xiàn)成的行掃描軟件進行操作,并且可以非常容易地從電子表格、數據庫和分析軟件中生成或導入其中。有關SOFT和提交過程的更多信息,可從網站獲得。
提交可以私下保存最多6個月;這項政策允許數據發(fā)布與稿件發(fā)布一致。這些提交的材料有一個最終的加入號,可能會在出版物中引用。在這一點上,提交的文件不是經過整理的,而是經過人工掃描,以確保滿足最低基本要求。通過使用數據表中的標準列標題并提供足夠的補充信息,使數據對其他人有用完全取決于提交者。
搜索和檢索
在編寫本報告時,僅通過登錄號就可以檢索完整的平臺、樣本和系列提交的材料。對GEO中的數據進行了廣泛的索引和鏈接,并可通過名為Entrez ProbeSet的新Entrez數據庫進行查詢。這個數據庫的Web界面使用與其他流行的NCBI資源(如PubMed和GenBank)相似的索引和鏈接引擎。與任何其他Entrez數據庫一樣,可以輸入一個簡單的布爾短語,并將其限制為任何數量的受支持屬性字段。匹配項鏈接到完整的GEO條目以及其他Entrez數據庫--目前是核苷酸、分類和PubMed-以及相關的Entrez ProbeSet條目。Entrez ProbeSet可通過Entrez網站作為用于選擇要查詢的Entrez數據庫的下拉菜單之一進行訪問。
基因表達數據庫(GEO)正在不斷開發(fā),目的是改進其索引、鏈接、搜索和顯示能力,以便能夠進行更有力的數據挖掘。作為GEO儲存庫的擴展,我們目前正在開發(fā)一個完全細化的豐度測量數據庫,該數據庫將允許查詢和檢索單個豐度測量結果。然而,在當前高通量基因表達和基因組雜交實驗的復雜性和快速發(fā)展帶來的限制下,豐度測量可能只在類似派生的小組數據集內具有可比性。我們計劃利用這些可比較的數據子集,以便盡可能多地查詢豐度測量數據,以及提供這些數據的有用的概觀。
Edgar R, Domrachev M, Lash AE. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res. 2002 Jan 1;30(1):207-10. doi: 10.1093/nar/30.1.207. PMID: 11752295; PMCID: PMC99122.
NEWS CENTER