音響から音と音楽へ

1. はじめに
 私が何を専門にしているかをたずねられるとき、簡単に音楽心理学と言ってしまうことがある.しかしそうするとすぐに,「音楽を聞くとどんな気持ちになるかとか,落ち込んだときにはどんな音楽を聞くとよいかというようなことを研究しているのですか.最近は音楽療法というものもあるそうですね」という反応が返ってくることがしばしばである.このような反応には心理学一般に対する多くの人々の誤解が反映しており,そのような問題にあまり関心がない心理学者はがっかりしてしまう.音楽を聞くとどんな気持ちが生じるかというようなことは,あまりおもしろい問題ではない.私の関心は,音や音楽の知覚と認知の問題にある.音が聞こえて,これは鳥のさえずりだとか,バッハの曲だということがわかるなどの知覚や認知の経験が生じるまでに,我々の中で (おそらく脳で) どのような仕事が営まれているのだろうかというようなことである.それらは自分の脳が営んでいる仕事であるにもかかわらず,多くはきわめて短時間のうちに起こり,自分自身には気づかれない.その仕事が完了した結果だけが自覚に上る.自分がやっていることでありながら,それが自分でわからないことが私には気になってしかたがない.

2. 音響としての音と聞こえるものとしての音
 物体に力が加えられると,物体が振動してまわりの空気媒体に圧力の変化が生じ,それが広がっていったものが音波である.音波が人 (および他の動物) の耳に入ると,聞こえる音としての聴覚現象になる.音という言葉には,音響としての音と聞かれるものとしての音の両方の意味があるが,日常の言葉の用法ではこれらふたつの意味が混同されることが多い.しかしこのような意味の違いを区別することは重要である.
 音響現象としての音波は,物理学の一分野である音響学で取り扱われ,精密な測定と分析に基づいて,物理法則に照らして説明することが可能である.また音が聴覚器官と聴覚中枢を含む聴覚系でどのように処理されるかを研究する聴覚生理学では,蝸牛の音受容細胞や聴覚皮質のニューロンの反応など,聴覚系のさまざまなレベルにおける生理学的反応を測定することによって,その仕組みと働きを研究する.この場合も,きわめて高度な技術的問題はあるものの,研究対象の現象は明確であり,少なくともそれが起こっているかいないかは,測定精度の限界内で決着をつけることが可能である.しかし聴覚経験としての音はそのようにはいかない.音響学や生理学のようなやり方で測定装置を使って音の聞こえをはかることはできないので,音を聞いている人や動物にたずねてみなければわからない.ところが動物や言葉を習得する以前の赤ちゃんに言葉でたずねるわけにはいかないし,おとなの人間でも自分が感じている聴覚経験を正確に答えてくれるという保証はない.また聴覚現象のすべてが人に自覚されるわけでもない.これらが,経験を対象にする心理学研究すべてに共通する難問である.

3. 聴覚系の周波数分析とマスキング
 客観的現象としての音響と,経験された現象としての音の聞こえを比較してみると,それらが必ずしも一致しない場合があることがわかる.つまり音の物理的特性から言えばこのように聞こえるはずなのに,そのようには聞こえないというくいちがいがある.音が耳に入ってから,我々の内部でどのように処理されて音の聞こえの現象が生じるのかを知るのに,このようなくいちがいが重要な手がかりとなる.
 たとえば,音の強さと音の大きさをを考えてみよう.音の強さは,物理的な音のパワーのことであり,計測器を使って測ることができる.一方,音の大きさは,音を聞いた人が経験する聞こえの性質であり,音の強さに対応する聞こえの側面である.音の大きさは音の強さと同じではない.また強い音の中では弱い音はかき消されて聞こえなくるマスキングと呼ばれる現象がある.だから電気的拡声の助けがないと,講演会場では講演者の声はまわりの物音などのために聴衆にはよく聞こえないし,ライブコンサートでは歌手の声は電気的に増幅された伴奏楽器の音にうもれて聞こえなくなくなってしまう.ところがオペラ劇場では,歌い手の声はマイクを使わなくともオーケストラの大音量にもかき消されることなく聞くことができる.これはどうしてなのだろうか.オペラ歌手の声は,オーケストラの音に負けないくらい強いのだろうか.たしかに鍛え上げられたオペラ歌手の声量は普通の人の声をはるかにしのぐものではあるが,だからといって,ひとりの歌手の声が,音を出す専用の目的で作られた楽器が100以上も集まったオーケストラの音に物理的な強さの点ではかなうはずがない.
 この疑問を解くための第一歩は,まず物理的なレベルで音のエネルギ分布 (スペクトル) を調べてみることである.<図1>は,オーケストラの音,普通の話し声,オペラ歌手の歌声の平均を表したものであるが,これを見ると,オーケストラの音は500 Hzあたりが最も強く,周波数が高くなっていくほど音の強さが単調減少していくことがわかる.一方オペラ歌手の声は,2-3 kHzのあたりに,歌手のフォルマントと呼ばれるエネルギの高まりがあるのが特徴的である (Sundberg, 1999).


 次に,聴覚系が行っている周波数分析の働きを考慮に入れる必要がある.我々が聞く音は,ひとつの音に聞こえていても周波数が異なるたくさんの成分 (部分音,または倍音と呼ばれる) からできているが,聴覚系はそれらの部分音を周波数に応じて選別している.したがって楽器の音と歌声のスペクトルが重なっている周波数領域では,歌声がマスクされてしまうが,歌手のフォルマントがある領域では歌声はマスクされることなく聞きとることができる.ついでに言うと,普通の話し声の平均スペクトルはオーケストラの音とほぼ重なるので,歌手が普通の話し声と同じ発声で歌ったのでは,楽器の音にマスクされて聞こえなくなってしまう.このとき,マイクを使えば声を聴衆に聞こえるようにすることはできるだろうが,今度は声が楽器の音をマスクするほどに大きくなって不自然に聞こえてしまう.
 マスキングは単なる音の強さの問題として片づけることはできず,聴覚系の周波数分析の働きを考慮して考える必要がある問題である.このことは日常の音環境の中でよく経験することでもある.たとえば電車内や駅の構内などでのアナウンスや信号音は,その場に存在している騒音の周波数分布を考慮して,マスキングを受けない周波数領域の成分を強く含むような音にすれば,必要以上に音を大きく拡声しなくても明瞭に聞きとることができる.か細い携帯電話の音が雑踏の中でも聞き取れるのも,これと同じ理由による.このことを考慮しないで騒音の中でも声が聞こえるようにしようとすると,騒音に負けないくらいに声を大きく拡声しなければならなくなるので,ますます環境を騒々しいものにしてしまうことになる.またカーステレオで音楽を聞くときは,車の走行音は低周波数領域が相対的に強いノイズなので,その中では低音はそれにマスクされて聞こえにくくなり,低音が不足した感じになるのは当然である.それではもの足りないとばかりに,低音を強め,音量を上げて,外に音をまき散らしながら走っている車が時々あるが,そういう車に限って,排気音がことさらにうるさい.空気環境と音環境の両方を汚染している困りものである.

4. メロディの知覚
 マスキングや音の大きさは,聴覚系の周波数分析の仕組みを考慮することによって,生理学のレベルで説明することができた.しかしもっと高いレベルの処理を必要とする知覚現象も数多く存在する.その一つとして,音の系列やメロディがひとつのまとまりとして聞こえてくることについて考えてみよう.ひとつひとつの音が個々ばらばらに知覚されたのでは,ことばや音楽にはならない.知覚された声や音がことばやメロディとして意味を持つようになるためには,まずそれらの音がひとつながりのまとまりとして知覚される必要がある.これは知覚的体制化と呼ばれる知覚の働きの一例である.ここでも物理的音響と知覚された音の違いに着目することが有効である.
 最も単純な例として,周波数が異なる (従って異なる高さに聞こえる) 2つの音が交互に繰り返される系列を考えてみよう.2音の周波数の隔たりが比較的小さいときは (図2a),実際に音が鳴っているとおりに高音と低音が交代しているように聞こえる.しかし2音の周波数の隔たりが大きくなると (図2b),高音と低音の交代には聞こえなくなり,高音の連なりと低音の連なりに分かれて聞こえるようになる.客観的には高音と低音が交代しているのであるが,我々の知覚系はこの音系列をいったん解体して,同じ周波数の音同士を連結し直しているかのようである.このとき知覚される高音の連なりと低音の連なりは,音の流れと呼ばれるが,これは知覚の働きによって作り出されたものである (Bregman, 1990).


Figure 2: 音の流れの分離 (Auditory Stream Segregation)

 もう少し複雑な例で見てみよう.<図3>はG.F. テレマンのフルート・ソロのためのファンタジーの一部である.この曲はフルート1本だけで演奏されるので,当然であるが,楽譜に書かれているように,同時に複数の音を鳴らすようにはなっていない.しかしこの曲が演奏されるのを聞くと,確かに一度にひとつの音しか鳴っていないにもかかわらず,高音声部と低音声部の2つのメロディが絡み合いながら進行しているように聞こえる.客観的にはフルート1本がひとつの旋律を奏でているだけなのであるが,聞こえの上では,あたかも2声部の対位法的な曲のように感じられる.このような聞こえが生じるのは,楽譜を見るとわかるように,高音と低音が織り合わせになるように旋律が作られていることによる音の流れの分離現象が起こっているからである.音をこのように組み合わせると,こうした知覚上の効果が生じることを作曲者はすでに知っていたのであり,疑似対位法と呼ばれる.この技法はバロック期の作曲家の作品の中に数多く見られ,特に単音楽器のソロのために書かれた曲でこの効果が顕著に見られる例が多い.テレマンのこの例の他にも,たとえばJ.S. バッハのチェロ組曲やヴァイオリン・ソロのためのソナタとパルティータにその見事な例を聞くことができる.疑似対位法の曲で重要なことは演奏のテンポである.テンポが速すぎると,声部の知覚的分離があまりにもはっきりしすぎるし,遅すぎると分離が起こらない.速すぎも遅すぎもしないちょうどよいテンポで演奏されると,聴き方によってひとつながりの旋律としても聞こえ,同時に複数声部が絡み合うようにも聞こえるという多義性のおもしろさを味わうことができる.


Figure 3: 音の流れが分離して疑似対位法の効果が感じられる音楽 (G. P. テレマン,フルートソロのためのファンタジーより)

 これらの知覚的分離現象は,音の周波数のへだたりによるものであったが,音色の違いによっても同様の分離が生じる.<図4a>では同一音色で演奏されると3音の上昇パターンの繰り返しに聞こえるが,<図4b>のように1音ごとに2種類の大きく異なる音色の間で交互に切り替えると,ゆっくりとからみあって下降する2つの3音パターンが聞こえる.音の順序は全く変わっていないにも関わらず,我々の知覚システムは音色の違いによって音を組み替えて,実際に出ているものとは異なる音のつながりが知覚されるようにしている.



Figure 4: 音色により音の流れの分離が生じる系列.黒音符と白音符は音色が異なることを示す.

 これらの例で見られる音の知覚的体制化は,音環境を正しく知覚するのに不可欠の働きである.音は我々のまわりの世界にあるさまざまな音源から生じるが,それらの音が耳に入ってくるときにはすべて入り混じってしまっている.従って音の世界を正しく知覚するためには,耳に入ってくる音のかたまりを解きほぐして,正しくもとの音源からきた音に仕分けしなければならない.このような知覚的体制化が聴覚系が音を認知する際に最初に行わなければならない前処理の仕事なのである.この時,周波数が近い音や音色が同じ音はひとつの音源から生じた音であり,周波数や音色が大きく異なる音は別々の音源からの音であるとすることが,聴覚系にとっての有効なヒューリスティクスであると言える.

5. 音楽的意味の認知
 ここまでの話は,耳から入ってきた音を分析処理することによって,音の知覚が成立するという意味で,ボトムアップ処理の例であった.この過程はすでに相当複雑な働きであるが,人間の認知システムはさらに高度な働きを営んでいる.一例として音楽の認知を考えてみよう.音楽を作っている音は,ある規則に従って,音楽的意味を伝えるように配列されている.音楽には言語の文法に似た構造があると言える.このような音楽の構造についての知識は,言葉で表すことができるような明示的知識ではなく,いわば暗黙のうちの知識であり,特別に音楽の教育を受けなくとも,日常の経験の中で音楽を耳にすることによって学習されるものと考えられる.音楽の中で鳴り響く音は,この暗黙のうちの知識を背景にして,初めて音楽的意味を持つものとなる.このような音楽の意味の認知は,経験によって獲得された音楽的知識を参照しながら進められるトップダウン処理によって成立するものであると言える.
 暗黙のうちの音楽的知識は,何しろ潜在的なものなので,直接それが自覚されることはほとんどない.しかしそうした知識が参照されていることは,音楽を聞くさまざまな場面でうかがい知ることができる.たとえば,初めて聴く曲であるのに,メロディや和声の動きから曲が終止したということがわかったり,曲が完結しないでまだ続きがあるように感じられたりすることや,ピアニストが音をはずして弾いたことがわかったりするのは,ここでいう暗黙のうちの音楽的知識を聴き手が持っていることを示している.また認知論的な立場に立つ音楽美学の見方によると,このような音楽的知識から,音楽がどのように進んでいくのかについての期待が生まれ,その期待がはぐらかされたり,期待された進行が遅延したりすることによって,音楽の情緒的意味が生まれるとされている (Meyer, 2001).
 心理学者は,暗黙のうちの音楽的知識を目に見える形でとらえようと実験を行うが,そのひとつに次のようなものがある (Krumhansl, 1990).被験者に,たとえばハ長調やト短調などのような,ある特定の調性を確立する音階や和音系列 (コンテクスト刺激) と,それにすぐ続いて1オクターブ内の12の音のひとつをプローブ音として提示する.被験者はコンテクスト刺激で確立された調性の中で,プローブ音がどの程度よく適合していると感じられるかを評定する.たとえば7点尺度を用いて評定する場合,最もおさまりがよいと感じられ時には7,最もおさまりが悪いと感じられ時には1のように答える.こうして得られた典型的なパターンが<図5>に示されているような調性プロフィールである.この図から,音階の主音 (ド) が最も適合度が高い (安定している) と評定され,他の音階音 (レ,ミ,ソなど) がそれに続き,音階外の音 (ド#, ファ#など) が最も安定度が低くなっていることがわかる.この結果が示しているのは,調性コンテクストを意識して音を聞くと,それぞれの音が異なる重みを持つものとして聞こえるということである.このような音の安定度の階層性が音楽的意味が生まれる基礎となっていると考えられる.


Figure 5: ハ長調 (C major) とイ短調 (A minor) における音高の適合度評定実験の結果 (Krumhansl, 1990 より)

むすび
 私たちは,聴覚に特別の支障がない限り,音が聞こえるのは当たり前のことと思っている.そのため,聴覚を通してまわりの世界を知覚したり,音楽を聞くことの中に,たいへん複雑な仕組みと働きが含まれていることが私たちには見えなくなっている.ここではそうした問題に対する3つの方向からの研究を紹介した.最初のマスキングの現象は,生理学的な方向からのアプローチの一例で,音響心理学の分野に属する.これは聴覚現象を聴覚系の働きとの関連で説明しようとする.次に紹介した音の知覚的体制化は,生理学的レベルだけでは説明しきれないもう少し上のレベルの過程を含み,知覚心理学の問題のひとつである.ここでは刺激が分析・処理されて,知覚されるようになるまでのボトムアップ的過程に焦点が当てられる.しかし知覚にはすでに知っていることに導かれるトップダウン的過程が重要な役割をはたす場合もあり,音楽の認知が暗黙のうちの音楽的知識を背景にして進められることにその典型を見ることができる.

引用文献

Bregman, A.S. (1990), Auditory scene analysis: The perceptual organization of sound. MIT Press

Krumhansl, C.L. (1990), Cognitive foundations of musical pitch. Oxford University Press

Meyer, L.B. (2001), Music and emotion: Distinctions and uncertainties. In P. N. Juslin & J. A.

Sloboda (Eds.), Music and emotion: Theory and research (pp. 341-360). Oxford University Press

Sundberg, J. (1999), The perception of singing. In D. Deutsch (Ed.), The psychology of music, 2nd edition (pp. 171-214). Academic Press