音の高さ(音階)の定義
人間が聞くことができる音はだいたい20Hz~20000Hzと言われていて、20Hz側の音が低音で20000Hz付近を高音と認識します。これらのうち特定の音程を持つ音を、我々はド(英語ではC)とかミ(E)とか認識するわけです。では音程の定義はどう行われているかというと、現在は以下の表のようになります。基準の音はA4⁼440Hz(ラ)の音で、その音から2倍になると一音階上のラA5(880Hz)になります。現在のシステムでは、この間を等比数列的に12分割しています。つまりピアノでいう隣の鍵盤に移ると、音の周波数は倍になります。12回隣に移動したらちょうど2倍となり1オクターブ上がります。このような等比級数的な音の定義は、人間の広い可聴域を表すために非常に有効です。
単音をフーリエ変換
音程の基準になるような音は唯一の音で構成されるモノクローム的な特殊な音ですが、我々が通常耳にする音はたくさんの波長の音で構成されています。ここでギターの音と、リコーダーの音をみてみましょう。ギターは六弦のうち1弦だけA4を鳴らしています。
形は随分違いますが、両者ともA4の音440Hzと、880,1320...のような倍音で構成されていることが分かります。これら1つ1つの周波数は、異なる振動モードと対応しています。つぎにさきほどの音階表と見比べてみると、A4の音は、{A4,A5,E6,A6,C7#...}で構成されていることがわかります。おおよそA4と同じA系列で構成されていますが、一部違う音が微妙に含まれています。実はこれが和音とか平均律の原理をを理解するうえで大変重要な点となります。
倍音と和音
倍音を視覚的な意味はこのようになります。
このようなものを何個も書いて考えると、基準音に対して周波数が1.5倍・1.25・1.75・1.333・1.125・・・のように有理数倍になっている音が重要になることが予想されます。実際紀元前5世紀ごろにはピタゴラスが「弦の長さが簡単な整数比になるときハーモニクスが生まれる」ことを発見しています。本記事ではこれらを便宜的に「ピタゴラス比」と呼ぶことにします。ちなみに皆さんはピタゴラスの定理で有名なピタゴラスが、宗教団体を設立し、音楽の調和を研究していたことをご存知でしょうか。彼らは和音を構成する音の紐の長さが単純な整数比となることを発見し、そこに神秘性を感じました。紐の長さLと周波数fの関係はで表せられるため、ピタゴラスの和音は、上記の振動モードで説明できることがわかります。
音階が12分割される理由
系列の具体的な数字を見ていきましょう。
このように、先ほど導入したピタゴラス比と非常に近い値が頻繁に現れます。そのため1オクターブを等比数列的に12分割することで、ピタゴラス比を表すことができると考えられます。これがいわゆる平均律です。
平均律・純正律との関係
平均律と比較される概念として、純正律というものがあります。音楽をやっている人は聞いたことがあるでしょう。さきほど等比数列を12個並べた平均律は、ピタゴラス比と比べて若干のずれがあります。具体的にはは1.5と比べて少し低いし、は1.3333と比べて少し高い。そのため本当に完璧な和音を出したいときには、平均律から音をすこしチューニングするようです。僕は真面目に音楽をやったことがないので分からないですが、吹奏楽出身の人とかは純正律でないと気持ち悪いと言います。
まとめ
以上を考えると音を12分割する理由は、「公比の等比級数がピタゴラス比をあらわすために便利だったから」ということになります。細かいことをいうと24分割とか36分割でもいいと思うんですが、音を最小数で構成したかったのでしょう。もし一音階24個もあったらピアノが今の2倍の長さになって困りますしね。
そして最後に脱線。「なぜ人は2倍の音を同じ音と感じる」のでしょうか?答えは最初のギターのスペクトルにあります。聴覚の感覚器である人間の鼓膜は二次元の振動膜なので、1次元の振動、つまり弦の運動と全く同じプロパティを持っています。そのため音を聞いたとき、基音以外では2倍音を一番多く感知します。したがってA4とA5の音に類似性を感じるのだと考えられます。そう考えると、和音に対する感性とか音に関する感性が、後天的に決定されることにも納得できますね