漫画（VTuber）研究者の読む『青春ヘラ』Vol.7「VTuber新時代」～その①～

漫画（VTuber）研究者の読む『青春ヘラ』Vol.7「VTuber新時代」～その①～
漫画（VTuber）研究者の読む『青春ヘラ』Vol.7「VTuber新時代」～その②～ - izumino’s note
漫画（VTuber）研究者の読む『青春ヘラ』Vol.7「VTuber新時代」～その③～ - izumino’s note

　どうも、漫画研究者としては『ユリイカ』の2008年6月号が商業デビュー（初期は「イズミ」名義）であり、後に『ユリイカ』の2018年7月号でVTuber論を掲載していただいております、泉信行と申します。

参考：2015年時点までの発表まとめ（PDF）

　今回取り上げる『青春ヘラ』Vol.7「VTuber新時代」という同人誌は、昨日（21日）の文学フリマ東京よりも3週早く、大阪大学の大学祭でも頒布されており、関西住みの自分はそちらで先に入手しておりました。

【新刊告知】
〈VTuberとは何者か？〉について特集した『青春ヘラver.7「VTuber新時代」』を、4/30～5/1の「いちょう祭」並びに、5/21の「文学フリマ東京36」にて頒布します。特装版では「架空のVTuberのキャラソンCD」が付いてきます。#いちょう祭 #文学フリマ東京 #文学フリマ東京36 pic.twitter.com/wOHGhzGW4k
— 大阪大学感傷マゾ研究会@文フリ東京お-34 (@kansyomazo) 2023年4月22日

はじめに

　多くの読者よりもフライング気味に購入できたと思われるので、自分の感想の公開はしばらく控えることにしていました。イベント終了後は5月24日発送予定の通販が全国区の入手チャンスとして残っているのですが、文フリ翌日の今日から何個かに分けてエントリ化していこうと思います。

　エントリの草稿にしているのは、あくまで「研究目的のメモ」であり、建設的な批判検討が主になっています。
　なので、取り上げない記事もありますし、面白かったところやいいところには逆に言及するでもない内容になると思いますが、念のためご了承下さい。

　その代わりに、「VTuber研究」としてこの本を読み解こうとした場合は、漫画研究者／VTuber研究者としての専門的な注釈となりますし、併せて必読とされるべき記事となるだろうと確信しています。
　奇遇にも今回は、従来の「漫画・アニメ研究」の成果を応用した論考も多く、自分は漫画論／VTuber論の両面から必要なだけの批判を行える立場だと思われるからです。

（p56～）ペシミ：「VTuberの倫理学」を検討する

　最初に取り上げるのは、サークル代表でもあるペシミ氏の論考。
　

ペシミ：「VTuberの倫理学」を検討する──バーチャル・アイデンティティと「場」の形成
「VTuberの存在論」を考えた上で「VTuberの倫理学」が必要である、との思いから書かれた論考。VTuberに特有のアイデンティティをめぐった問題は、その複雑さからしばしば炎上や分断につながってしまいます。それらはなぜ起こるのかをVTuber特有の「身体性」の面から考え、解決方法をリレーショナル・アートとの比較から提示します。
note.com

　余談だが、「VTuberの倫理学」というと、「VTuberコミュニティの倫理学」として泉も密かに考えていたテーマと重なってたりもする。

　それでは早速、ピンポイントで指摘したい箇所をp64～65から取り上げよう。今回のエントリは、この一箇所についての検証のみに留めることとしたい。

　一方、VTuberは完全なリップシンクを実現していることが多い。〔中略〕
　「アメリカのアニメーションにおけるプレシンクされリップ・シンクを達成された声は、目の前の身体を人間に擬装させ、「人間／非人間」の境界を危うくさせる」(13)という細馬の言葉の通り、VTuberの「身体」はキャラクターでありながら限りなく人間に近いアンビバレントな状況が生み出すのではないか。

　アニメーション研究の名著、『ミッキーはなぜ口笛を吹くのか』の著者である細馬宏通さんは直接お会いしたことや座談会でお話したこともある方だ。その『ミッキーは～』で提示されていたリップシンク論は、VTuber論で必ず参照されるべきだと考えていたものなので、引用する人が現れたこと自体は嬉しい。

　ちなみに細馬さんとは共に執筆者として並んだ漫画論の本もあり、来月刊行予定の『フキダシ論』はその時の発表を単著として膨らませた内容ではないかと思われる。

　さて、その引用された箇所に戻りたいが、結論から先に述べると、ペシミ氏の論考における「細馬のリップシンク論」への理解は、出典で主張されているものとは真反対と言っていいほど異なってしまっている（以下敬称略）。

　大和田俊之『アメリカ音楽史ミンストレル・ショウ、ブルースからヒップホップまで』における「擬装」論を参照しつつ展開される細馬の主張（仮説）は、かなり複雑な理論構造をしているため、理解や応用が難しいのは仕方がないとも思えるのだが。

　まず『ミッキーは～』で語られる「プレシンクされリップシンクを達成されたアメリカのアニメーション」の特徴は、（日本語話者にはない英語話者に特徴的な「口を突き出す・頬を膨らませる動き」を代表とした）役者の口の運動や形状を自然に再現しようとした点にある。

　おそらくそこを、「発声と唇の開閉のタイミングが合う」くらいの水準で理解することで、「日本のVTuberは日本のアニメと比べて完全な（アメリカのアニメーションの水準で）リップシンクを実現している」という解釈になっているのだと想像される。
　しかし実際には、「プレシンクされたアメリカのアニメーション」と「日本のVTuber」を見比べてみるとどうだろうか？　一般的な日本アニメのキャラクターと同じくらいには、VTuberもリップシンクを重視されていないと分かるはずだ。

　アニメーション技術としては、目蓋をパチパチさせる「目パチ」と併せて、非常に小さな口が小刻みに開閉するような変化が「口パク」と呼ばれ、日本アニメの特徴とされている。
　そして、多くのVTuberも口が小さく、開く大きさの揺れ幅や「丸く開いた口」などのバリエーションは細かいものの、実際の人間の唇の運動よりも「コミカルに」抽象化されたパターンで構成されている。

VtubeStudioでのお口の表作りました。
いらない所に打ってたキーを削ったらこんな感じでした。#Live2D pic.twitter.com/win2Enc2jz
— 雨瀬おるこ ☂️ (@Amase_Oruko) 2021年9月23日

　それらはリアルな人間の口の運動よりも、アニメキャラの口パクに近付けようとしていると感じられる。
　例えば、「きれいな楕円形に開いた口」はむしろ人間で実際に再現するほうが難しく、逆に「突き出した口」のパターンがVTuberのモデルで強調されることは一般にない。

　さらに付け加えるなら、VTuberの口の変化は、iPhone Xのカメラ表情認識などを用いた「フェイストラッキング」だから完全なリップシンクなのだろう、と結論付けてしまうのかもしれない。
　しかし上掲の画像を見れば分かる通り、VTuberのモデルは「用意されたアニメ的な口のパーツ」をその時々の発声に合わせるというシステムであり、「表情認識の通りにリアルな口の変形を生成する」ものではない。
　アメリカのアニメーションのように「プレスコした役者の口の演技を模して作画する」という、半分ロトスコープ的なシステムとは表現の目的が異なる以上、リップシンクの程度が別物になるのも当然だろう。

www.youtube.com

　そもそも、フェイストラッキングの精度やマシンスペックの限界もあってか、大手の企業VTuberであろうと「開きっぱなしで話しつづける」「閉じたまま話しつづける」という見え方が続くことは珍しくもなく、「日本のアニメオタクはリップシンクにこだわらない」という性格がこうした不完全さを許しているとも言える。

　この、「VTuberモデルの口の動きの解像度の粗さ」は、かつて『ユリイカ』誌上で届木ウカが、VR アバターを手に入れることについて「肉よりもノイズが少なくなり純度が高くなる」とした見解（2018年7月号p62-63）と呼応していると見ることもできるだろう。
　モーションの解像度が「肉」よりも下がることは、純度が上がるということだと、VR アバター界の当事者として感じていたわけだ。

　そして、細馬のリップシンク論のなかで「アメリカのプレスコ的リップシンク」と比較された「日本のアテレコ的口パク」は、さらに「解像度の低さから生じる純粋さ」に注目しており、究極的にはウルトラマンや仮面ライダーのように口を動かすことすらない、「非人間的／超人的」な性格をキャラクターに与えるものとしている。

　VTuberのリップシンクは確かにアテレコではなく、事実上プレスコと考えてもよいリアルタイムのモーションだ。しかし、細馬論を参照する際に重要となるのは「アテレコかどうか、タイミングが合っているかどうか」ではない。リアルな発音に合わせた唇の変形が、どれほど念入りに模倣されているか、なのだ。

　そこで細馬論では、口の動きや、作画上の口の大きさが最小に近付くほど（最小の典型が、仮面で口元を隠したスーパーヒーロー）、そのキャラクターは「リアルな人間」から離れ、「非人間なキャラクター」として感じられるのだと分析している。
　非人間的、というのはつまり「二次元的」と言い換えることもできるし、狭く言えば「二次元オタクの萌え」の対象になりうる「非実在キャラクター」の魅力の条件を備えていると言うこともできる。

　日本の一般的なVTuberにとって「二次元的な魅力」とのシナジーは欠かせざる条件のはずで、そのため口のモーションのパターンもコミカルな範囲に留められていると考えられるだろう。

　また、参考としての話をすると、「英語圏の日本ゲームファン」においてはリップシンクの強調を求める声が強いらしい。
　この下の動画で確かめられるが、確かに日本の「口パク」と比べて大げさに感じられるくらい、英語話者らしいアニメーションが母音レベルで強調されている。

網羅的に見ているわけではないのですが、こちらの比較動画が分かりやすかったです。how？やmore？の上がるア音とオ音で強調される口の形は日本語発音では出てきにくいのではないかなと。
ちなみに前作からこのリップシンクになって高評価を受けたタイトルのようでhttps://t.co/lMmv8viDYT https://t.co/QpDdBiaIRg
— 泉信行 (@izumino) 2023年1月10日

※Twitterの埋め込み動画が自分の環境だと妙に重くて再生が止まるので、うまく再生できなかった人は変換した動画URLを直接開いてみてください

　この『Xenoblade Chronicles 3』のケースは日本アニメライクなルックと、アメリカ的なリップシンクがやや中途半端に組み合わさることで、独特なキャラクター表現になっているように映る。
　だが、逆説的に「どんなにLive2Dのコストを掛けたとしてもこうしたVTuberが日本で求められることはあまりないのではないか」という確認もできるのではないだろうか。

　さらに細かく、問題を整理していこう。細馬のリップシンク論は「ミンストレル・ショーにおけるブラックフェイス（黒塗り）」から着想を得ている通り、「擬装行為によって真似ている当人の人種アイデンティティや属性を曖昧にし透明化させる」という説明に用いられている。

ペシミ論で引用されていた、

目の前の身体を人間に擬装させ、「人間／非人間」の境界を危うくさせる

という文章も、元々は「動物キャラクターが人間を真似る」という、アメリカの作品がよく好んだシチュエーションを念頭に置いて書かれたものだった。
　だから、「人間のキャラクターに実際の人間を再現させる」という、プレシンク全般の話とは異なる論旨に基づいていたのが細馬の「擬装」論である、という点も留意すべきだろう。

　細馬論から考えられる問題は、もっと詳しく論じることもできる。とは言え、VTuberとはほぼ無関係な議論にも広がってしまいそうなので、「一般的なVTuberのリップシンクは細馬の擬装論に当てはめて語れない」を結論とするのが無難だろう。

　ただ、ペシミの論考においては『ミッキーは～』が引用される位置だけが気になるのであって、その前後は「日本のアニメキャラクターの口パク」と「VTuberのリップモーション」がもたらす感覚的な差を説明しようという目的で書かれている。

　特に、鑑賞者がVTuberを見聞きすることでイメージする「身体」の生成プロセスに眼目が置かれているようだ。その点を、補足として考えてみたい。

　細馬論においては、前者の「口パク」はキャラクターの非人間性や超人性を強調する働きをする。多くの美少女キャラクターにとっては、「現実にこんなに可愛い話し方をする子はいない！」といった、非現実的・妄想的なイマジネーションを助けるように働くと考えられる。

　それは、細馬の直前に引用されている程斯の声優論を借りた場合でも、「キャラクターのアニメーションと声がバラバラで不一致なことによって、現実にはありえないような身体と特徴的な声が求められる（大意）」という理解で一致しうるだろう。

　では後者の「VTuber」はどうなのか。非現実的なイマジネーションを刺激するという点では、アニメキャラとさほど変わらない、と個人的には考えている。
　先述したように、VTuberのリップシンクも基本的には不完全かつ抽象度も高く、モーションと声がバラバラであっても口パク同然に大して気にされないからだ。

　そもそもの話を言えば、「発声中は口を開き、発声していない時は口を閉じている」というON/OFFは廉価なアニメ作品でも可能なことだ。それに、例えば「ば行、ぱ行、ま行」といった両唇音の時は口を閉じているのか？　といったことを、ほとんどの日本人は細かく聞き分ける（見分ける）こともない、と思われる。

　逆に、アテレコの尺をミスって口パクと不一致を起こすアニメも珍しくないのだが、むしろ「配信中にちょっとラグってタイミングがズレる」VTuberの配信のほうがよほど多く見られるはずだ。そこは、リアルタイム生成をしなければならないVTuberのほうがむしろ不利であるようにすら思う。

　確かに、「VTuberはアテレコではないリップシンクを行っている」というのは客観的事実だろう。だが、手段としてリアルタイム・トラッキングの技術が用いられているだけであって、プレシンク並のことが実現されているとは見なし難いのだ。

　VTuberの視聴にとって、より重要だと思われるのは「おそらくトラッキングしているのであろう」というレベルの主観的認識を重ねることではないだろうか。その認識においては、リップシンクの徹底や「実際の人間に近付けること」に対する関心はかなり薄い。

　VTuberを鑑賞する時、一般的なアニメと同程度かそれより劣る水準の口パクであろうとも、唐突なアドリブや早口、挙動不審な言動といった、本人にも制御しようのない発声に対してモーションが最低限追随している……、という瞬間に、「ああ、これはトラッキングなんだな」という認識が強まっていくはずだ。
（ちなみに当然、遅延を入れたライブ配信や収録映像では、外部からのモーション操作を「トラッキングだと錯覚させる」ことは充分に可能ではある。）

　そして、こうした「トラッキングの実感＝身体の発見」は、声に対するリップモーションの追随にかぎらず、まばたきや首を傾げるモーションなどが加わった形となる。

　ここで改めて、論考全体の主張に還元させてみよう。VTuberの声は、「日本のアニメキャラ（アニメ声優）」と同レベルの水準で、特徴的かつ非現実的な声質が求められると考えてよい、と思われる。

　やや余談ながらここから倫理のテーマにスライドさせると、そうした声質が有する非人間性、「現実にこんな可愛い子はいない」という印象は、「現実にこんな“いい子”はいない」という先入観に繋がっていると個人的には考えている。

　「現実にこんな、漫画の主人公みたいな人はいない」というのは現実のアイドルやアーティスト、アスリートなどを「物語化」して応援する時に湧きやすい感情だが、魅力的な声をしているVTuberの多くは、物語化される以前から「こんな善性のある人は現実にいない」という先入観で見られやすく、期待されやすいとも言える。

　この側面を突き詰めていくと、VTuberコミュニティが善意や肯定感によって駆動されやすく、同時に「ファンの信頼への裏切り」や「現実にはありふれた、いじめなどの生々しい悪事」が小さなことでも多大な反動を生み出しやすい、VTuber文化の性格そのものを方向付けている……、とまで結び付けていくこともできるだろう。

（※細馬論を応用することだけでなく、もうひとつ「スコット・マクラウドのキャラ図像論の延長」も合わせてこうしたカルチャー分析に繋がっているのだが、その残りの考察については今回はさすがに割愛。）

　余談から戻すと、VTuberの声は、アニメキャラクターと同じく、現実の土台から飛躍した声が求められる。と同時に、各部位のリアルタイム・トラッキングによって、通常のCGアニメにはない「身体」を見る者に想起させる。

　その想起も、リアルタイム・トラッキングの高い精度によるものだけではない。むしろ「腕を動かせていないのに腕を使った行為を実況している」といった、「見えない身体」によって想起されるものの価値が高い。また、そうした「身体」の価値については『ユリイカ』の拙論でも詳述していた。

　つまり、「非現実的な声質」に「トラッキングの対象外にある見えない身体」が合わさる時に、VTuberの特筆すべき点が生まれると言えるのではないか。

　この「見えない身体」は、拙論の文脈を導入するなら「実質的現実の身体」と言い換えることができる。それがどのようなリアリティを持つのか、というのは感じる者の自由ではあるだろう。
　現実的に捉えたい人は、自然主義的な人間の肉体を前提にイメージしてよいし、二次元オタクとしての嗜好が強ければ（あけすけに言うなら「二次元恋愛における性行為」の妄想で現れるような）二次元的身体をベースに想像してもよい。

　ただ、髪や目の質感を「自然主義的に置き換えることが難しい」のが、二次元キャラクターの存在感というものだから、どうしても「髪や目の二次元らしさ」に全身も引っ張られることになるはずだ。

　こうした「非現実的な声質と実質的現実の身体の合成」から生まれる身体観は、アニメキャラクターにはない、確実に言えるVTuberの特徴である。