🤧◯ the Urban Dictionary 言葉はどう進化するのか──世界最大のスラング辞書を徹底解剖

2018-03-18 04:28:01 | ♪ One Short Talk

Connectivity

The Anatomy of the Urban Dictionary

The first large-scale study of the Urban Dictionary provides unique insights into the way our language is evolving.

 

The Urban Dictionary is a crowdsourced website that records new words and their meanings. It began life in 1999 as a parody of Dictionary.com but has since become an important resource on the Web. Indeed, judges in the U.K. famously used the site in 2005 to help them understand slang used by two rappers involved in a dispute.

Part of Urban Dictionary’s appeal is its informal approach, which allows both definitions and descriptions of words. It even allows opinions, which can sometimes be offensive. It captures new words quickly and registers many of the variations that emerge over time. A voting system allows users to show admiration or disdain, revealing words’ popularity.

Today, many millions of users rely on the site to keep them up to date with slang, common usage, and popular culture.

 
Upvotes slightly outnumber downvotes on the Urban Dictionary.

Of course, Urban Dictionary has its shortcomings. In the absence of style guides, editors, and moderators, the content can be vague and inaccurate. Also, little is known about the people who post new words and whether the entries reflect real changes in the language or just those that affect a small subset of people.

So just how good is the Urban Dictionary at capturing new words, and how does it compare with more conventional approaches to producing online dictionaries?

Today, we get an answer of sorts thanks to the work of Dong Nguyen at the Alan Turing Institute in London and a few pals, who compare the Urban Dictionary and its content with Wiktionary, another crowdsourced dictionary. “To the best of our knowledge, this is the first systematic study of Urban Dictionary at this scale,” they say.

Wiktionary is an interesting comparison because it takes a much more formal approach to crowdsourcing. This is a sister site to Wikipedia, run by the same Wikimedia organization. It records only word definitions and employs guidelines about how these should be compiled. It also guides users as to what constitutes a definition. Moderators edit the content, control vandalism, and aim to generate high-quality results. Unsurprisingly, Wiktionary has also become an important online resource, one that researchers increasingly use for natural-language processing and so on. 

Nguyen and co begin by analyzing the Urban Dictionary content in the broadest terms. They say it records 2,661,625 definitions for 1,620,438 words and phrases. Most words have just one definition, but a few have upwards of 1,000.

The word with the highest number of definitions is emo, with 1,204.  And the top definition is this:

  1. A terribly misconstrued and misused word. In contemporary culture it is utilized as a broad term to describe a multitude of children and teenagers who straighten their hair, have their hair in their face, perhaps dye it black, and wear tight clothing. Unfortunately this is completely inaccurate. Actual “emo” music existed in the late 80’s and was a subgenre of hardcore punk rock, after all, “emo” is a shortening of “Emotional hardcore punk rock.” The people in early emo bands dressed like regular people, everyday guys/girls who just played music that they enjoyed. Sadly, since the formulation and ongoing existence of Hot Topic, the term emo has been incorrectly characterized for a little more than a decade. You have to wonder how the original bands feel about the slandering and mass misunderstanding and misuse of their originality with those of the unoriginal.

By contrast, Wiktionary lists five definitions for emo:

  1. A particular style of hardcore punk rock 2. An individual or group of people associated with that subculture and musical style. 3. Any form of guitar-driven alternative rock that is particularly or notably emotional 4. An individual or group of people associated with a fashion or stereotype of that style of rock. 5. A young person who is considered to be over-emotional or stereotypically emo.

The word with the next highest number of definitions on Urban Dictionary is love, with 1140. The other words in the top 10 by number of definitions are: godurban dictionarychode, Canada’s historysexschoolcunt, and scene.

In terms of popularity, upvotes slightly outnumber downvotes. But, say Nguyen and co, “there is a wide variation among the definitions, with some having more than ten times more up votes than down votes and some the other way around.” 

The team also compare the lexical coverage of Urban Dictionary and Wiktionary. It turns out that the overlap is surprisingly small—72 percent of the words on Urban Dictionary are not recorded on Wiktionary. 

However, the team note that many words on Urban Dictionary are relevant to only a small subset of users. Many are nicknames or proper names such as Dan Taylor, defined as “A very wonderful man that cooks the best beef stew in the whole wide world.” These usually have only one meaning.

So to study more common words, the team also compared only those words that have two or more definitions. In that case, the overlap is much larger: just 25 percent of the definitions appear only on Urban Dictionary. For example, the word phased appears on both dictionaries as something being done bit by bit—in phases.

However, Urban Dictionary also describes several other meanings, such as “A word that is used when your asking if someone wants to fight” and “to be ‘buzzed.’ when you arent drunk, but arent sober.”

In this analysis, many more words appear only on Wiktionary, some 69 percent of them. Nguyen and co say that many of these are encyclopedic entries such as acacetinsdramaturge, and Shakespearean sonnets.

That leads the team to a clear conclusion. “In general, we can say that the overlap between the two dictionaries is small,” they say.

Urban Dictionary meanings also include opinions, unlike those on Wiktionary. One definition of beer is this: “Possibly the best thing ever to be invented ever. I MEAN IT.”

To work out what proportion of definitions these make up, the team had crowdworkers assess each to determine whether it was an opinion or a meaning and whether they were familiar with it.

They found that up to 50 percent of meanings for proper nouns were opinions and that the workers were unfamiliar with the majority of these uses. They also found definitions such as coffee, “a person who is coughed upon.”

In addition, crowdworkers found that much of the Urban Dictionary content was offensive, but that this cntent  tended to get lower votes.

“We also found that words with more definitions tended to be more familiar to crowdworkers, suggesting that Urban Dictionary content does reflect broader trends in language use to some extent,” say Nguyen and co.

The work provides a unique window into a website that has come to play an important role in popular culture. That should set the scene for other studies. In particular, an interesting question is whether online dictionaries not only record linguistic change but actually drive it, as some linguists suggest.

Perhaps something for a future research project.

Ref: arxiv.org/abs/1712.08647 : “Emo, Love, and God: Making Sense of Urban Dictionary, a Crowd-Sourced Online Dictionary“

 

2018-03-18 04:28:01 

MIT Technology Review
時代とともに言葉の持つ意味は変わる。世界最大のクラウド・ソーシング型オンライン辞書「アーバン・ディクショナリー」に対する大規模な研究から、言語の進化とオンライン辞書の役割が見えてきた。
「アーバン・ディクショナリー」とは何か
「アーバン・ディクショナリー(Urban Dictionary)」は新しい俗語や慣用句とその意味を登録するクラウド・ソーシングのWebサイトだ。
アーバン・ディクショナリーは、1995年にドメイン登録されたオンライン辞書「ディクショナリー・コム(Dictionary.com)」のパロディとして1999年に始まり、その後、Web上の重要なリソースになった。
事実、2005年に英国の裁判官が、ある紛争に関わった2人のラッパーが使用したスラングを理解するためにこのサイトを利用をしたのは有名な話だ。
アーバン・ディクショナリーの魅力は、言葉の定義と説明の両方の登録ができる肩肘張らない取り組みにある。ときに攻撃的な意見さえも登録を許される。
新しい言葉をいち早く取り入れ、時の経過と共に派生する言葉も登録する。投票システムによって、ユーザーは登録された言葉に対する称賛または嘲罵を表明できるため、言葉の人気も明らかにできる。
現在、何百万人ものユーザーが最新のスラング、慣用句、大衆文化を知るためにこのサイトを利用している。
アーバン・ディクショナリーでは登録された言葉に対する投票で、賛成票が反対票よりやや多い
もちろん、アーバン・ディクショナリーにも短所はある。用語統一の規定がなく、編集者や調整役(モデレーター)が不在のため、内容が曖昧で不正確になる恐れがある。
また、新しい言葉を投稿する人に関する情報はほとんどなく、登録された項目が実際に言語の変化を反映しているのか、少人数のグループに影響を与えている言葉にすぎないのかも不明だ。
とはいえ、アーバン・ディクショナリーは新しい言葉を捉えるのにどれだけ長けているのか、オンライン辞書を作成する従来の取り組みと比べてどうなのか、という疑問がわいてくる。
「ウィクショナリー」との比較研究
ロンドンのアラン・チューリング研究所のドング・グエン研究員と同僚が実施したアーバン・ディクショナリーとその内容を、別のクラウド・ソーシング辞書「ウィクショナリー(Wiktionary)」と比較する研究で、上の問いに対するある種の回答が得られている。
「我々の知る限り、この規模でアーバン・ディクショナリーを体系的に研究するのは初めてのことです」とグエン研究員らは述べている。
ウィクショナリーはよりフォーマルなクラウド・ソーシングのアプローチをとっているため、比較対象として興味深い。ウィクショナリーは、ウィキペディア(Wikipedia)と同じウィキメディア(Wikimedia)財団によって運営されているウィキペディアの姉妹サイトだ。
ウィクショナリーは言葉の定義のみを登録し、編集の方法に関するガイドラインを設けている。定義の構成に関する指針もユーザーに示している。モデレーターが内容を編集し、荒らし行為を取り締まり、質の高い内容を生み出すことを目指している。
当然のことだが、ウィクショナリーも重要なオンライン・リソースになっており、研究者が自然言語処理などの目的で利用する頻度が高まっている。
研究チームは、最初にアーバン・ディクショナリーの内容を幅広く分析した。研究チームによれば、アーバン・ディクショナリーには162万438項目の単語と慣用句に対して、266万1625件の定義が登録されている。大半の言葉の定義は1つだが、いくつかの言葉には1000以上の定義が登録されている。
定義の数が最も多い言葉は「emo(エモ)」で、1204もある。以下は「emo」で最初に表示される定義だ。
ひどく誤解され、誤用されている言葉。その当時の文化として、まっすぐな髪を顔にかかるまで伸ばし、おそらく髪は黒く染め、身体にぴったりした服を着る子供やティーンエイジャーの一群を説明する広義の用語として使用されている。残念ながら、これはまったく不正確な説明だ。1980年代後半の実際の「エモ」音楽は、ハードコア・パンク・ロックのサブジャンルだった。もともと「エモ」は「エモーショナル・ハードコア・パンク・ロック(Emotional hardcore punk rock)」の略である。初期のエモ・バンドのメンバーは、気に入った音楽を演奏する普通の服を着た、普通の男の子や女の子だった。悲しいことに、ポップ・カルチャーと音楽に触発されたファッションを専門とする「ホット・トピック(HOT TOPIC)」が販売する服装などが一般化し継続的に人気を集めていることによって、エモという用語はここ10年の間、不正確に表現されている。オリジナリティのない人がエモ・バンドのオリジナリティに向ける中傷や、大衆の誤解と誤用に対するオリジナルのバンド・メンバーたちの思いは察して余りある。
それと対照的に、ウィクショナリーは以下の5つの定義を列記している。
1. ハードコア・パンク・ロックの際立ったスタイル。

2. ハードコア・パンク・ロックのサブカルチャーと音楽スタイルにつながる個人またはグループ。

3. 特に、あるいは顕著にエモーショナル(感情的)なギター演奏を中心とするオルタナティブ・ロック。

4. オルタナティブ・ロック・スタイルのファッションまたはその典型的なファッションを好む個人またはグループ。

5. 過度に感情的または典型的なエモであると見なされている若者。
アーバン・ディクショナリーでエモの次に多い1140定義もある言葉は「love(愛)」だ。
定義の多さトップ10にランクインしているその他の言葉は、「god(神)」「 urban dictionary(アーバン・ディクショナリー)」「 chode(ばか)」「 Canada’s history(カナダの歴史)」「sex(セックス)」「school(学校)」「cunt (女性器)」「scene(シーン)」である。
投票による言葉の人気では、全体として賛成票が反対票をわずかに上回っている。だが、研究チームは「定義によって賛否は大きく異なり、一部の定義には反対票の10倍以上の賛成票が投じられているのに対して、賛否の比率がその逆になっている定義もあります」という。
網羅している語彙の範囲も比較
研究チームはアーバン・ディクショナリーとウィクショナリーが網羅している語彙の範囲も比較している。重複している言葉は驚くほど少なく、アーバン・ディクショナリーの言葉の72%はウィクショナリーには登録されていないことが分かった。
ただし、研究チームは、アーバン・ディクショナリーに登録されている言葉の多くは、ごく少数のユーザーにとってしか意味を持っていないと指摘している。
多くは「世界で一番おいしいビーフ・シチューを作る非常に素晴らしい男性」と定義される「Dan Taylor(ダン・テイラー)」のような、ニックネームや固有名詞だ。この種の言葉は通常1つの意味しかない。
したがって、より広く使われている言葉を研究するために、研究チームは複数の定義を持つ言葉だけでも比較した。その場合の重複率ははるかに高くなった。
アーバン・ディクショナリーだけに表示される定義は全体の25%にすぎず、たとえば「phased(段階的な)」という言葉は、両方の辞書に「何かが少しずつ実行されている様子」と表示される。
だが、アーバン・ディクショナリーには「誰かに戦いたいかと問うときに使う言葉」「酔っ払ってはいないが、しらふでもない『ほろ酔い』の状態」など、その他の意味も記載されている。
分析によると、複数の定義を持つ言葉はアーバン・ディクショナリーよりもウィクショナリーだけに登録されてることが多く、登録されている言葉の約69%を占めていた。
研究チームは、複数の定義を持つ言葉の多くが、「acacetins(アカセチン)」「dramaturge(ドラマトゥルク)」「 Shakespearean sonnets(シェイクスピア式ソネット)」などの百科事典的な項目だという。
以上のことから研究チームは明確な結論を得ている。「おおむね、2つの辞書の重複率は低いといえます」
言語の変化をオンライン辞書が後押し
アーバン・ディクショナリーの定義には、ウィクショナリーの定義と異なる見解も含まれる。たとえば、「beer(ビール)」の定義の1つとして「おそらく、これまでに発明された最高のもの。自分はマジでそう思う」である。
アーバン・ディクショナリーがどのような定義をしているのかを探るために、研究チームは個々の定義をクラウドワーカーに評価させた。評価ポイントは、割り振られた定義が見解か意味のどちらなのか、クラウドワーカーがその定義を知っているかどうかという点だ。
その結果、固有名詞の定義の最大50%は「意見」であり、クラウドワーカーはその用法の大半を知らないことが判明した。また、クラウドワーカーは「coffee(コーヒー)」を「咳をする人(cough[コフ、咳]にひっかけている)」といった定義も発見した。
さらに、クラウドワーカーはアーバン・ディクショナリーの内容の多くが攻撃的であるが、その種の内容は投票では反対票を集める傾向があることも発見した。
「言葉の定義が多いほど、クラウドワーカーが知っている確率が高い傾向があることも分かりました。アーバン・ディクショナリーの内容が、ある程度、言葉が使用される状況をより広く捉えている傾向を反映していることを示唆しています」と研究チームはいう。
この研究は、大衆文化で重要な役割を果たすようになったWebサイトを知るユニークな機会を与えてくれる。それが他の研究の足掛かりになるはずだ。
特に興味深いのは、一部の言語学者が示唆しているように、オンライン辞書は言語の変化を記録しているだけでなく、むしろそれを後押ししているのではないかということだ。
おそらく、オンライン辞書の役割は将来の研究プロジェクトのテーマになるだろう。
(参照:arxiv.org/abs/1712.08647 : “Emo, Love, and God: Making Sense of Urban Dictionary, a Crowd-Sourced Online Dictionary)
 
(執筆:エマージングテクノロジー フロム アーカイブ/米国版 寄稿者、写真:Paladjai/iStock)
This article is provided by MIT TECHNOLOGY REVIEW Japan. Copyright © 2018, MIT TECHNOLOGY REVIEW Japan. All rights reserved.
この記事は、株式会社KADOKAWAが、米Technology Review社との許諾契約に基づき、再許諾しました。一部の見出し、写真等は株式会社ニューズピックス等の著作物である場合があります。


最新の画像もっと見る

コメントを投稿