データベースの構築

i) cDNA配列の相同性比較とゲノム配列へのマッピング データベースの構築
オリゴキャッピング法により作成されたcDNA libraryより単離され、シークエンスを決定された各cDNAは、 ベクター配列、シークエンス品質の低い部分を除去された後、BLASTを用いてRefSeqデータベース中の cDNA配列との相同性が検索される。95 %以上1.0e-100以上の相同性が認められたものに対してそのcDNAは RefSeqと同一の遺伝子であると分類される。また、複数のRefSeqにヒットするものに対しては、 データの正確性を保持するために、データセットから破棄される。これらのシークエンスはさらに、 Golden Path 上のヒトゲノム配列にsim4を用いてマッピングされゲノム上での配置が決定される


ii) 代表的完全長cDNA配列〜Ref-Full データベースの構築
我々は、代表的完全長cDNA配列〜Ref-Fullを構築している。RefSeqと我々の収集したcDNA配列の比較の結果、 ほぼ半数のRefSeq配列が5'端に延長できることが明らかとなった。例えば、RefSeqのエントリーNM_005718は 第3染色体の11,780,511からスタートしているが、我々の配列HRC00655は11,775,385からスタートしている。 この場合、その差分175bpが付加されRef-Fullのエントリーとして登録される。Ref-Fullの配列は "ダウンロード"で公開している。
<<Back