完全自律型のバーチャルユーチューバーは可能か？

7月 11, 2018

よく知らないけど vtuberについて考察します
むしろ中の人の人間性が面白いことが評価される世界だよね
ルーツは「ゆっくり実況」な気がする
動画型のvtuverに関してはシナリオの自動作成
自動で面白いシナリオを作ることは可能か
機能的にいうと、自分で発言するのが不得意だと思う
なぜ自分から喋ることができないのか
長いエピソードトークをすることは可能か
ちょっとおまけ
まとめ

よく知らないけど vtuberについて考察します

*勝手な妄想を語っていますので注意。
youtubeなんて全然見ないんですけど、ほんとに純粋なAIの「バーチャルユーチューバー」がいたらすごく面白いなと思うのです。
vtuber界のドンであるキズナアイさんは設定はAIですけど、そうじゃないですし。

むしろ中の人の人間性が面白いことが評価される世界だよね

普通のyoutuberとの違いはそんなないと思うんですけど、
– 別の人間になりきることでキャラが立ちやすい
– 人嫌いな人も抵抗なく見れる
– 単純に珍しいので注目されてる
てなところでしょうか。ルックスがいけてなくても、声がダメダメでも中身の魅力で勝負できると言った感じ。
いや、声は可愛い方がいいな・・・。

ルーツは「ゆっくり実況」な気がする

アバター使って、声もゆっくりごえ。これってvtuberですよね。
3Dや2Dの表情が連動できるようになったので制作が楽になったというのが普及の原因でしょうか。
録画した動画だけでなく、生で視聴者に反応できるのも今までなかった特徴かもしれません。

今現在バーチャル化できてるものは
– 姿・容姿
– 声
– 設定？
– モーションのトレース
となります。

まだバーチャル化できてないものは
– モーション元
– 発声元
– 会話
– 動画のシナリオ
– 中の人 / 人格
ですね。

録画型のものであれば、かなりバーチャルにできてると思うんですが、
動画のシナリオ作成、モーション作成が結構手間だとおもいますので、自分で喋って撮影するタイプには制作の効率でかなわない感じがします。

動画型のvtuverに関してはシナリオの自動作成

シナリオを自動で生成して、それに合わせたモーションを勝手にやってくれるようになれば、さらに動画制作が効率的になるんじゃないでしょうか。
リアルのyoutubeとか、芸能人でもいいんですが「カメラの前で喋るだけ」で人を楽しませるって、ものすごい生産性だと思います。
そりゃー金持ちになるよ。
でも、上記の勝手にシナリオを作成して、勝手に声入れして、勝手にモーションつけてくれて、それが面白ければ既存のコンテンツの生産コストを大幅に改善できるのではないかと思います。

自動で面白いシナリオを作ることは可能か

シナリオや小説を書く人は、シナリオ制作に関する方法論や、今まで作ってきたものの蓄積がありますので、全部完全に生成することは難しいかもしれませんがプロット作るとか、セリフのパターンとかでかなり自動でできるノウハウを持ってたりするのではないかと思ってます。
たまーに文章書くひとの記事とかみると、そういう発言してるひともたまにいますよね。
そういうツールが存在するんでしょうか。

機能的にいうと、自分で発言するのが不得意だと思う

アレクサやsiriなど、会話AIが出てきていますが、それらは「発言に反応する」ことはできても、自発的に声を発するというのがすごく苦手な気がします。
タイマーで設定しとけば喋ってくれますし、声をかければ反応してくれます。それ以外が非常に苦手な気がします。

なぜ自分から喋ることができないのか

上記の「時間」や「反応」はかなりわかりやすいトリガーなのですが、それ以外の発話のトリガーが複雑すぎるのではないかと思います。
たとえば AI側が「お腹空いてない？何か食べる？」という発言をするとします。
これは相手がしばらくの間何も食べていないことを知っていないと発言できないのです。
もしこれを達成するなら、AIスピーカーにカメラをつけて監視させたり、今までの内容からお腹が空いていることを察する/直接質問するといった工程が必要になってきます。(食事記録をこまめにスマホに入れてる人なら可能かも)
「働きすぎじゃありませんか」というばあいも同様。「オススメの映画です」　これも同様。(これはamazonが得意そうです)

全然的外れのところで、長々と話を始められても困りますし、いまのところ実用性をかんがえると少し寡黙な方がいいのかなと思います。
(今まさに聞きたい面白エピソードをAIスピーカーが話し出したら衝撃です。)

もし、AIスピーカーのスキルを作るとするならば「いかにいい感じのタイミングでいい感じの話題をふるか」を考えるといい気がしています。
お腹が空いている時に「オススメの商品を紹介する」
料理を作っている時に「おすすめの料理について教えてくれる」
服に迷っている時に「ファッションについての知識を披露してくれる」

といったことです。これらは、既存のセンサーでは一律にできないことだと思います。
工夫したそれらを「察する」センサーを身に付けることによって上記のことが可能になるのではないかと思います。
なにか思いついた方、世界を豊かにするチャンスですよ。

長いエピソードトークをすることは可能か

全然嘘でもなんでもよくて、ロボットが適度な長さのおもしろいエピソードを語ることは可能でしょうか。
普段の生活だと、めちゃくちゃ構成がいいまとまったエピソードを耳にすることなんてほとんどありません。

まーとりとめもなくてオチのない話しをしてるなーと、プロの芸人さんの発言を見てると考えてしまいます。
これにもきっといろいろなテクニックがあるのだと思います。
「面白い話とは何か」ってのを真剣に解析して
「それを生み出すにはどうしたらいいか」という方法を考えなければならないと思います。

ちょっとおまけ

いまのvtuberは顔のモーションを読み取って表情をつけてます。
これは非常に効率がいいですが、もっと効率がいいのはシナリオの内容のポジティブ・ネガティブ　喜怒哀楽を読み取って勝手に表情をつけることだと思います。
ネガティブな単語、ポジティブな単語というのはある程度ありそうですから、これもある程度まではできそうな気がしますよね。
内容に合わせてポーズまでとってくれたらすごいですけど。
シナリオ生成に関しても、生放送でお客さんの反応を見てさらにそれに反応するものができたら面白いなーと思います。

まとめ

シナリオの自動生成が鍵となる
しかも面白いシナリオを作るとなると方法論の解析や確立が必要になる。

おわりです。