ソースコードで最もよく使われる単語が明らかに

2012年7月29日 18:27

あるAnonymous Coward 曰く、 英文で最も多く使われるアルファベットが「e」だというのはよく知られていますが、最も多く使われる単語は「the」だそうです。プログラミング言語ではどうなのか、GitHubで公開されているソースコードを解析した結果が発表されました(The Most Frequent Word in Source Code on GitHub: PDF)。

調査ではソースコードからコメント行を除外し、アルファベットと数字のみが連続する部分を単語として検出しています。調査対象となった10種類のプログラミング言語全体で、ソースコードに最も多く登場する単語はなんと「0」で、次に「if」が続くという結果になっています。

「if」のように良く使われそうな予約語が1位というのなら解りやすいのですが、「0」が圧倒的多数で1位の座を獲得したことに素直に驚きました。マジックナンバーは使用厳禁と言いながらも、考えてみれば初期化等に使う「0」だけは、ひとつの意味をもった定数であるかのごとく無意識のうちにそこら中で使っていることに気付いた次第です。その他にもプログラミング言語が自然言語の特性を持つかジップの法則を使って検証しており、どの言語がより自然言語に近いか検証していて面白いですよ。

 プログラミング言語別にみると、「0」が1位なのはC、C++、JavaScriptのみ。5言語では5位以下となっている。JavaScriptでは上位20個のうち14個が1文字の単語だ。一方、「if」はRubyを除く9言語で5位以内に入っている。

 スラッシュドットのコメントを読む | デベロッパーセクション | 統計 | プログラミング | idle | デベロッパー

 関連ストーリー:
プログラミングでもっとも使われるキーは「E」? 2012年07月13日

 

関連記事

最新記事