Statistically_Improbable_Phrases
[Wikipedia|▼Menu]

A statistically improbable phrase (統計的にありそうもないフレーズ) は文書内で一部の大規模なコーパスよりも頻繁に出てくるフレーズまたは単語の集まり[1][2][3]。本やチャプターのキーワードはセクション内では偏って現れるため、Amazon.comはこの概念を所定の本またはチャプターを決定するキーワードとして使った[4][5] 。クリスチャン・ラダーは著書『Dataclysm』で一定の人種または性別の最も特徴的なフレーズを決めるためにこのコンセプトを出会い系サイトとツイッターの投稿からのデータと共に使った[6]

コンピューターについての文書内で最も一般的な単語はtheの可能性が高いが、theは英語で最も共通して使われる単語でもあり、どの文書でもtheが頻繁に使われている可能性がある。しかしながら「明示的なブーリアンアルゴリズム」のようなフレーズは英語よりも文書でより高い確率で現れる。「Hence(それ故に)」は与えられたドキュメントでは出てくる可能性は低いが、与えたドキュメントでは現れる。「明示的なブーリアンアルゴリズム」は統計的にありそうもないフレーズである。

ダーウィンの種の起源の統計的に起こりそうもないフレーズは「temperate productions」「genera descended」「transitional gradations)」 「unknown progenitor」 「fossiliferous formations」 「our domestic breeds」 「modified offspring」 「doubtful forms」「closely allied forms」「profitable variations」「enormously remote」「transitional grades」「very distinct species and mongrel offspring」である[7]
関連項目

Googlewhack
(英語版) ? グーグル検索に2つの単語を入力し出てくる検索結果を一つだけにするゲーム

tf-idf ? 情報検索とテキストマイニングで使われる統計

脚注[脚注の使い方]^ “ ⇒SIPping Wikipedia”. Courses.cms.caltech.edu. 2017年1月1日閲覧。
^ Jonathan Bailey (2012年7月3日). “How Long Should a Statistically Improbably Phrase Be?”. Plagiarism Today. 2018年2月16日閲覧。
^ Errami, Mounir; Sun, Zhaohui; George, Angela C.; Long, Tara C.; Skinner, Michael A.; Wren, Jonathan D.; Garner, Harold R. (1 June 2010). ⇒“Identifying duplicate content using statistically improbable phrases”. Bioinformatics 26 (11): 1453?1457. doi:10.1093/bioinformatics/btq146. PMC 2872002. .mw-parser-output cite.citation{font-style:inherit;word-wrap:break-word}.mw-parser-output .citation q{quotes:"\"""\"""'""'"}.mw-parser-output .citation.cs-ja1 q,.mw-parser-output .citation.cs-ja2 q{quotes:"「""」""『""』"}.mw-parser-output .citation:target{background-color:rgba(0,127,255,0.133)}.mw-parser-output .id-lock-free a,.mw-parser-output .citation .cs1-lock-free a{background:url("//upload.wikimedia.org/wikipedia/commons/6/65/Lock-green.svg")right 0.1em center/9px no-repeat}.mw-parser-output .id-lock-limited a,.mw-parser-output .id-lock-registration a,.mw-parser-output .citation .cs1-lock-limited a,.mw-parser-output .citation .cs1-lock-registration a{background:url("//upload.wikimedia.org/wikipedia/commons/d/d6/Lock-gray-alt-2.svg")right 0.1em center/9px no-repeat}.mw-parser-output .id-lock-subscription a,.mw-parser-output .citation .cs1-lock-subscription a{background:url("//upload.wikimedia.org/wikipedia/commons/a/aa/Lock-red-alt-2.svg")right 0.1em center/9px no-repeat}.mw-parser-output .cs1-ws-icon a{background:url("//upload.wikimedia.org/wikipedia/commons/4/4c/Wikisource-logo.svg")right 0.1em center/12px no-repeat}.mw-parser-output .cs1-code{color:inherit;background:inherit;border:none;padding:inherit}.mw-parser-output .cs1-hidden-error{display:none;color:#d33}.mw-parser-output .cs1-visible-error{color:#d33}.mw-parser-output .cs1-maint{display:none;color:#3a3;margin-left:0.3em}.mw-parser-output .cs1-format{font-size:95%}.mw-parser-output .cs1-kern-left{padding-left:0.2em}.mw-parser-output .cs1-kern-right{padding-right:0.2em}.mw-parser-output .citation .mw-selflink{font-weight:inherit}PMID 20472545. ⇒http://bioinformatics.oxfordjournals.org/content/26/11/1453 2017年1月1日閲覧。. 
^ “What are Statistically Improbable Phrases?”. Amazon.com. 2007年12月18日閲覧。
^ Weeks, Linton (2005年8月30日). ⇒“Amazon's Vital Statistics Show How Books Stack Up”. The Washington Post. ⇒http://www.washingtonpost.com/wp-dyn/content/article/2005/08/29/AR2005082901873.html 2015年9月8日閲覧。 
^ Rudder, Christian (2014). Dataclysm: Who We Are When We Think No One's Looking. New York: Crown Publishers. ISBN 978-0-385-34737-2 
^Sociologically Improbable Phrases Crooked Timber April 2005











Amazon
製品 ·
サービス

ウェブサイト

A9.com

AbeBooks

China

The Book Depository

BookFinder

中国

Curse

ダッシュ

Digital Photography Review

Fresh

Goodreads

IMDb

Box Office Mojo

Withoutabox


Amazon.co.jp

Junglee.com

マーケットプレイス

Pay

Twitch

Woot.com

Zappos.com

Souq.com

クラウド

Amazon Web Services

AMI

Aurora

CloudFront

DynamoDB

EBS

EC2

MTurk

Product Advertising API

RDS

S3

SimpleDB

SQS

VPC

Amazon Silk

Amazon Glacier

Amazon Storywriter


デジタル

Alexa

Appstore

Audible

コミクソロジー

Cloud Drive

Prime Video

プライム

Kindle Store

Music

Reflexive Entertainment

Amazon Digital Game Store

デバイス

Blink Home

Cloud Cam

Dash buttons

Dash wand

Echo

Show


Kindle

Fireタブレット

Fire

Fire HD

Fire HDX

Fire HD 10


Fire TV

Stick


Fire Phone

技術

1-Click

ゲームスタジオ

Amazon Robotics

Carbonado

Dynamo

Gurupa

Lab126

Double Helix Games

Obidos

リクアビスタ

出版

Amazon Publishing

Amazon Studios

Breakthrough Novel Award


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:18 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef