A statistically improbable phrase (統計的にありそうもないフレーズ) は文書内で一部の大規模なコーパスよりも頻繁に出てくるフレーズまたは単語の集まり[1][2][3]。本やチャプターのキーワードはセクション内では偏って現れるため、Amazon.comはこの概念を所定の本またはチャプターを決定するキーワードとして使った[4][5] 。クリスチャン・ラダーは著書『Dataclysm』で一定の人種または性別の最も特徴的なフレーズを決めるためにこのコンセプトを出会い系サイトとツイッターの投稿からのデータと共に使った[6]。 コンピューターについての文書内で最も一般的な単語はtheの可能性が高いが、theは英語で最も共通して使われる単語でもあり、どの文書でもtheが頻繁に使われている可能性がある。しかしながら「明示的なブーリアンアルゴリズム」のようなフレーズは英語よりも文書でより高い確率で現れる。「Hence(それ故に)」は与えられたドキュメントでは出てくる可能性は低いが、与えたドキュメントでは現れる。「明示的なブーリアンアルゴリズム」は統計的にありそうもないフレーズである。 ダーウィンの種の起源の統計的に起こりそうもないフレーズは「temperate productions」「genera descended」「transitional gradations)」 「unknown progenitor」 「fossiliferous formations」 「our domestic breeds」 「modified offspring」 「doubtful forms」「closely allied forms」「profitable variations」「enormously remote」「transitional grades」「very distinct species and mongrel offspring」である[7]。
例
関連項目
Googlewhack(英語版
tf-idf ? 情報検索とテキストマイニングで使われる統計
脚注[脚注の使い方]^ “ ⇒SIPping Wikipedia”. Courses.cms.caltech.edu. 2017年1月1日閲覧。
^ Jonathan Bailey (2012年7月3日). “How Long Should a Statistically Improbably Phrase Be?
ウェブサイト
A9.com
AbeBooks
China
The Book Depository
BookFinder
中国
Curse
ダッシュ
Digital Photography Review
Fresh
Goodreads
IMDb
Box Office Mojo
Withoutabox
Amazon.co.jp
Junglee.com
マーケットプレイス
Pay
Twitch
Woot.com
Zappos.com
Souq.com
クラウド
Amazon Web Services
AMI
Aurora
CloudFront
DynamoDB
EBS
EC2
MTurk
Product Advertising API
RDS
S3
SimpleDB
SQS
VPC
Amazon Silk
Amazon Glacier
Amazon Storywriter
デジタル
Alexa
Appstore
Audible
コミクソロジー
Cloud Drive
Prime Video
プライム
Kindle Store
Music
Reflexive Entertainment
Amazon Digital Game Store
デバイス
Blink Home
Cloud Cam
Dash buttons
Dash wand
Echo
Show
Kindle
Fireタブレット
Fire
Fire HD
Fire HDX
Fire HD 10
Fire TV
Stick
Fire Phone
技術
1-Click
ゲームスタジオ
Amazon Robotics
Carbonado
Dynamo
Gurupa
Lab126
Double Helix Games
Obidos
リクアビスタ
出版
Amazon Publishing
Amazon Studios
Breakthrough Novel Award