InChI(International Chemical Identifier)は、標準的かつ人間が読める方法で分子情報を提供し、またウェブ上でのデータベースからの情報の検索機能を提供する。元々、2000年から2005年にIUPACとNISTによって開発され、フォーマットとアルゴリズムは非営利であり、開発の継続は、IUPACも参画する非営利団体のInChI Trustにより、2010年までサポートされていた。現在の1.04版は、2011年9月にリリースされた。
1.04版の前までは、ソフトウェアはオープンソースのGNU Lesser General Public Licenseで無償で入手できたが[3]、現在は、IUPAC-InChI Trust Licenseと呼ばれる固有のライセンスとなっている[4]。 識別子は、情報のレイヤーとして化学物質を記述する。レイヤーには、原子とその結合、互変異性情報、同位体情報、立体化学、電荷の情報がある。しかし全てのレイヤーが提供される訳ではなく、例えば互変異性のレイヤーは省略されることがある。 広く用いられているCAS登録番号とは、以下の点で異なる。 そのため、InChIは、IUPAC命名法を一般化、極端な定式化したものと見なすことができる。@media screen{.mw-parser-output .fix-domain{border-bottom:dashed 1px}}単純なSMILES記法よりも多くの情報を表現でき、全ての構造が、データベースの応用に必要な独自のInChI文字列を持つ点が異なっている[要出典]。原子の3次元配列の情報はInChIでは表せず、この目的のためにはPDB等のフォーマットが用いられる。 InChIアルゴリズムは、入力された構造情報を、正規化(冗長な情報の除去)、標準化(各原子に固有の番号を生成)、整列化(特徴の文字列を付与)の3段階の過程で固有の識別子に変換する。 hashed InChIとも呼ばれるInChIKeyは、25文字の固定長であるが、デジタル表現なので人間には読むことができない。InChIKeyの仕様は、ウェブでの検索を可能にするために、2007年9月にリリースされた[5]。InChIそのものとは異なり、InChIKeyは一意ではなく、非常に稀ではあるが重複が発生する[6]。 2009年1月、InChIソフトウェアの最終の1.02版がリリースされた。これにより、いわゆるstandard InChIの生成が可能となった。standard InChIは、InChI文字列と、異なったグループによって生成されたキーの比較を容易にし、データベースやウェブ資源等の広範な情報源からのアクセスを可能にした。 InChI formatMIMEタイプchemical/x-inchi 全てのInChIは、InChI=という文字列から始まり、バージョン(現在は1)が続く。standard InChIでは、これにSの文字が続く。残りの情報は、レイヤーとサブレイヤーの配列として構造化され、各々のレイヤーは、1つの種類の情報を収める。レイヤーとサブレイヤーは、区切り文字 / で隔てられ、(メインレイヤーの化学式サブレイヤーを除き)固有の接頭文字で始まる。6つのレイヤーと各々の重要なサブレイヤーは、以下の通りである。 区切り文字と接頭文字のフォーマットは、使用者が特定のレイヤーのみ合致する識別子を探すために容易にワイルドカード検索を実施できる点で優位性がある。 CH3CH2OH InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3 (standard InChI) InChI=1S/CH5N/c1-2/h2H2,1H3/p+1 (standard InChI) InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2-,5+/m0/s1 (standard InChI) このフォーマットは、元々IChI(IUPAC ChemicalIdentifier)と呼ばれていたが、2004年7月にINChI(IUPAC-NIST Chemical Identifier)と改名され、同年11月にInChI(IUPAC International Chemical Identifier)に再改名され、IUPACの商標とされた。
概要
自由に使え、非営利である。
構造情報から計算でき、組織による割当が必要ない。
ほとんどの情報は、人が読むことができる。
フォーマットとレイヤー
種別chemical file format
メインレイヤー
組成式(接頭文字なし) - 全てのInChIに現れる唯一のサブレイヤー
元素はHill順位則、すなわち炭素C、水素H、他の元素をアルファベット順、で記述される
原子の繋がり(接頭文字: c) - 組成式中の水素以外の元素には出現順に番号が付与される。このサブレイヤーでは、原子が他のどの原子と結合されているかを記述する。
水素原子(接頭文字: h) - 各々の原子にいくつの水素原子が結合しているかを記述する。
電荷レイヤー
プロトンサブレイヤー(接頭文字: p)中性の系からプロトンを何個付加/除去するかを表す
電荷サブレイヤー(接頭文字: q)系の電荷を表す
立体化学レイヤー
二重結合とクムレン(接頭文字: b)
原子の四面体配置とアレーン(接頭文字: t, m)
立体化学の種類の情報(接頭文字: s)
同位体レイヤー(接頭文字: i, h、同位体立体化学に対しては b, t, m, s)
固定Hレイヤー(接頭文字: f) - 原子の繋がり以外の、上記の一部または全てのレイヤーを含む。oサブレイヤーで終わってもよい。
InChI生成で構造を正規化する際に水素は除去されるため、互変異性体や双性イオンなどは同じInChIを与える場合がある。これらを区別するために水素が結合している原子を明示的に与える必要がある。
再接続レイヤー(接頭文字: r) - 金属原子と再接続する全ての構造のInChIを含む。standard InChIには含まれない。
例
エタノールInChI=1/C2H6O/c1-2-3/h3H,2H2,1H3
CH3N+H3
メチルアンモニウムInChI=1/CH5N/c1-2/h2H2,1H3/p+1
L-アスコルビン酸InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1
名前
Size:20 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)』
担当:undef