A statistically improbable phrase (統計的にありそうもないフレーズ) は文書内で一部の大規模なコーパスよりも頻繁に出てくるフレーズまたは単語の集まり[1][2][3]。本やチャプターのキーワードはセクション内では偏って現れるため、Amazon.comはこの概念を所定の本またはチャプターを決定するキーワードとして使った[4][5] 。クリスチャン・ラダーは著書『Dataclysm』で一定の人種または性別の最も特徴的なフレーズを決めるためにこのコンセプトを出会い系サイトとツイッターの投稿からのデータと共に使った[6]。 コンピューターについての文書内で最も一般的な単語はtheの可能性が高いが、theは英語で最も共通して使われる単語でもあり、どの文書でもtheが頻繁に使われている可能性がある。しかしながら「明示的なブーリアンアルゴリズム」のようなフレーズは英語よりも文書でより高い確率で現れる。「Hence(それ故に)」は与えられたドキュメントでは出てくる可能性は低いが、与えたドキュメントでは現れる。「明示的なブーリアンアルゴリズム」は統計的にありそうもないフレーズである。 ダーウィンの種の起源の統計的に起こりそうもないフレーズは「temperate productions」「genera descended」「transitional gradations)」 「unknown progenitor」 「fossiliferous formations」 「our domestic breeds」 「modified offspring」 「doubtful forms」「closely allied forms」「profitable variations」「enormously remote」「transitional grades」「very distinct species and mongrel offspring」である[7]。
例
関連項目
Googlewhack(英語版
tf-idf ? 情報検索とテキストマイニングで使われる統計
脚注[脚注の使い方]^ “ ⇒SIPping Wikipedia”. Courses.cms.caltech.edu. 2017年1月1日閲覧。
^ Jonathan Bailey (2012年7月3日). “How Long Should a Statistically Improbably Phrase Be?
ウェブサイト
A9.com
AbeBooks
China
The Book Depository
BookFinder
中国
Curse
ダッシュ
Digital Photography Review
Fresh
Goodreads
IMDb
Box Office Mojo
Withoutabox
Amazon.co.jp
Junglee.com
マーケットプレイス
Pay
Twitch
Woot.com
Zappos.com
Souq.com
クラウド
Amazon Web Services
AMI