thank you for your access



 デジタル降魔録・更新情報



初めてのFlash PIC
【 初めてのFlash PIC 】詳細


【 肝とりカツ 】詳細



音ネタバイキング 5000
製作:D-space KEYOSS
販売:(株)アートグローブ

ゲットFlash クーリングオフ代行手続専門法務事務所 mayu search タウンネット・コム



当ホームページはリンクフリーです。

リンク後メールを頂けましたら、相互リンクさせていただきます。

ご感想などもございましたらこちらからお寄せください。

なお迷惑メールが大変多くて困っております。できましたら件名に『デジタル降魔録を見た』とお書き添えください。よろしくお願い申し上げます。


バナーは下記の物をご自由にお持ち帰りください



このたびは、D-space KEYOSSが運営するデジタル降魔録をご訪問いただき、誠にありがとうございます。ここはパソコンと日々を暮らす私が語る超ニッチなサイトとなっております。

2024年 3月 9日(土)10.5℃(午前 6時 8分)

あれから2か月……(2)

進む

人間の手助けをしてくれる AIシステムもかなり進化してきて、プログラムのコーディングを手伝ってくれるコパイロット(Copilot)と呼ばれる生成 AIが登場する時代です。そんなレベルには到底無理ですが、ワタシもそれなりのサポーター処理を作って、この繁忙期を乗り切っています。

 と書いても具体的な説明が無いと疑問符しか出ないでしょう。かといって細かく説明すると読むのも大変だし、だいたいワタシのやっている仕事があまりにも特殊ですので、なかなか理解してもらえないのが残念ですが、とにかくせっかくパソコンを使った仕事をしているのですから、もっとパソコンを活用してやれと思い立つたびに手掛けてきたのがこのサポート処理たち。ちょっと大袈裟ですが、このサポーターのおかげで涙がちょちょぎれるほど楽になっています。

 ということで、前回の第一弾は『漢字システム』でしたが、今回は『クチパクエンジン』です。

 何に使うのかというと、アニメーションでは欠かせないキャラクターのクチの動きを自動化しようというものです。世間ではリップシンクとか呼ばれていて、優れたものでは人の口の動きを読み取って絵で描かれたクチを動かす本格的なものがありますが、そんな大掛かりなことは予算的にできません。

 でも英会話のアニメーションでクチが動かないのはアウトですし、会話の無い英会話なんて、もう英会話ではなくなっていますし。最低限セリフに合わせてクチがパクパクする処置をしないとダメです。

 はじめのころは音声に合わせて開いたクチの絵と閉じたクチの絵を手作業で切り替えて、それなりにやってきましたが、短納期ではとてもじゃないですが追いつきません。アニメーションの時間は 1本あたり 3~5分ですが、数人のキャラクタがだいたい交互に会話しますので、その作業は手足や体を動かすより苦痛になります。この処理に掛かる時間をなんとか短縮できないかと常々思っていました。

 使用する オーサリングツール は After Effects(以降 AE)ですので、ネットで調べるといろいろなものが出てきます。しかしなかなか自分で思っているものと一致するものが見つかりませんでした。ならば作るしかないか、と時間のあるうちに手掛けていたのが、クチパクエンジンです。

 ダサいネーミングですみません。根がダサいのでこれでいいんです。

 基本的な方法は、オーディオのデータを振幅波形に変えて、波の大きさを数値化して利用するものです。ネットで出てくるのはたいていこの方法です。ただ、数値化された値をどうやってクチの切り替えに利用するかで、いろいろなやり方に枝分かれするようです。

 ワタシの採った方法を、何とかしてやろうと考えている方で、AEをだいたいマスターした人の参考になる程度で説明しますと……。

 クチの開けと閉めを 5フレームで分けたクチパクコンポジションにタイムリマップを掛けてから、それに切り替え用のスクリプトをエクスプレッションとして書き込みます。
 スクリプトのアルゴリズムはとてもシンプルで、フレームごとに音源の振幅を数値として並べた振幅レイヤーから、 1フレーム進むたびに値を読み取って、クチパクコンポジションの表示フレームを切り替える方法です。

 エクスプレッションでは振幅レイヤーが示す数値の最大値から、クチパクコンポジションでの『クチを開けた絵』の最大フレーム内に収まるようにわり算しています。ようは数値がある値より小さければ、クチパクコンポジションの『クチ閉め』フレームに、その基準より大きければ『クチ開け』のフレームが選ばれるようにしています。このエンジンの利点は、クチパクの切り替える値を if文で割り振ればいいだけですので、2パターンのクチパクの絵だけではなく、3枚の絵で構成されたクチパクでも簡単に変更できます。半分開いたクチの絵をあいだに挟むとかなりリアルになります。

 理論的にはこれでよさそうですが、実際にやってみるとかなり問題が多く、声優さんの口調に左右されます。はっきりとメリハリよくしゃべるとすごくいい感じで動きますが、音を引きずるようにしゃべったり、次の言葉とつないでしゃべると音の切れ目が読み取れず、クチが閉じるべきところで、開いたままになるときが連発します。これが次の壁でした。ネット上でもこの問題が取り上げられていますね。

 やがてこのクチパクエンジンの決め手は、音量の差ではなく、音の伸縮だと気づいたのです。そこで少しでもメリハリをつける方法として考えたのは、オーディオデータを扱う Adobeの Audition(以降 Auと書きます)を使って、声優さんの声をエフェクトのエクスパンダーを掛けて振幅の上下を誇張させた音に変換してから、AEでオーディオ振幅レイヤーを作ると、音量の差がはっきり出て、大きい音は大きく、小さい音は小さくと波形自体が鮮明になって、切り替えの閾値(しきいち)が目立つようになり、誤変換が少なくなりました。でもこのままだとこもった感じの声になりますので、クチパクの処置が終わったらもとの音源に戻すことにしました。

 Auについて詳しくはこのサイトの楽しい効果音づくり をご覧ください。


 問題はもう一つ。波形データが切り替えの閾値周辺で何度も変化すると、クチが開いたり閉じたりを繰り返してバタつきます。そのようなときは "posterizeTime(n)" を入れて対処しました。
 これはフレームレートを"n"に替えてコマ落ちさせるもので、n=12~16(fps=30の動画で)にするとバタつきが収まります。あまり小さな数値にすると今度は動きが鈍くなりますので、 サ・デポン でやってます。

 とはいってもまだ完璧ではありません。数か所は修正しないと不自然になります。しかし修正方法が簡単で、振幅レイヤーをグラフエディタで見て、グラフの頂点をマウスでドラッグして上げ下げするだけでクチの動きが修正できます。
 慣れてくるとグラフをざっと見ただけでおかしな部分が先に分かるようになりますので、その場で修正しています。どちらにしても、耳で声を聞いてクチの開け閉めのタイミングを見測っていたころを思えば雲泥の差です。おかげで一人の会話で数十分かかっていた仕事が 1分ほどで完了するようになりました。

 次回は『拡張生成 AI』です。
 さすがにこれはオリジナルではありません。このサイトでも何度か出てきました Adobe PhotoShop に去年から搭載された生成 AIです。
 気なる方は、先に2023年10月1日をご覧ください。




2024年 3月 6日(水)11.5℃(午前 6時58分)

あれから2か月……(1)

進む 戻る

年末から始まった缶詰生活もようやく出口が見えてきました。数学の字幕起こしが 400点。小学校の算数教材アニメーションが 250点、中学校英会話が 90点、小学校英会話が 32点。
 これだけの数を 2か月ちょっとでこなすには一人の力では到底むりです。そこで助っ人を……。

 といっても人ではありません。特殊な分野ですのでそう簡単にアシスタントとして立候補してくれる人はいません。そこでやむなく採った処置が、パソコンをサポーターとして手伝わそうというものです。

 今回活躍したサポーターたちは、教材用漢字システム、クチパクエンジン、AIによる画像の拡張生成。この 3つです。

 まず、動画の字幕起こしは去年作った教材に特化した漢字システムが大活躍。すでに小学校 6年生までの漢字は学習済みですので、中学校あたりの漢字変換はおてのもの、あえて平仮名表記しなければいけない、まだ習っていない漢字や教科書に準拠した漢字もほぼ自動的に変換してしまいます。このあたりの詳しいことは 2023年の1月 6日あたりから書き綴っていますので、興味のある方は覗いてみてください。

 この漢字変換システムのおかげで通常の倍ぐらいの効率アップに成功しています。つまり私が二人いるような計算です。二人いれば必ずどちらがさぼりますが、パソコンは黙々と仕事をしてくれます。

 ワタシの役目は、支給された動画をプレミアに入力して自動文字起こし処理をスタートさせ、吐き出された文字列を漢字システムにのせかえることと、本当に正しい数学用語になっているか最終確認と、字幕の行あふれをみつけたらそれを正して、srtファイルと呼ばれる字幕専用のデータに書き出して納品するだけです。

 人間のほうが雑用のように思えますが、この漢字システムも簡易的なものですから、ミスることが多々あります。たとえば、計算記号の "( )" と、ことばとしての "かっこ" の使い分けが完璧ではありません。でも改良するには時間が掛かりそうでしたので、誤変換した場合は人間が修正することとしています。例を挙げますと。

 動画の中で先生が、『ここで かっこをつけてワイ イコール に かっこエックスぷらすいち かっことじる』 と説明していたら、プレミアは、

『ここで括弧を付けてワイイコール 2括弧エックスプラス 1括弧とじる』 とこれぐらいの日本語文字に起こしてくれますが、数学の教材としては使えませんので、次に漢字システムに切り替えます。
 すると、
『ここで かっこ をつけて y=2(x+1)』 ここまで変換してくれます。

 ちなみに教科書では『括弧』や『付ける』の漢字は平仮名にするルールがありますので、ちゃんと平仮名に再変換されています。しかも計算式の中は記号の "(" や ")"になっていてこれで完璧です。

 でも、これは話者となる人が、『ここでかっこを』と『かっこ』の後に『を』を言ってくれていたり、"かっことじる" としゃべっているからです。もしそのようにしゃべってくれないと、どちらも記号の "("になってしまい、

『ここで ( つけて y=2(x+1(』 と数学的に変な文字列になってしまいますので、あとで修正しています。

 このへんはまだ改良の余地がありますが、現時点では考えていません(時間が無いのが本音)。

 他にも制約はいろいろありますが、ここら辺をよーく監視しておかないと、あとで訂正させられることになります。でも人間がすべてを黙々とやるより力強い助っ人になっていることは、お分かりいただけると思います。

 さてお時間です。時間的に余裕ができたとはいっても、まだ 3月末までは作業は続きますのでここらへんで……。
 次回はクチパクエンジンと、拡張生成サポーターの話です。


 つぎの絵コンテはまだかな~  ( ̄∀ ̄) ~♪







2024年 1月 1日(月)13.5℃(午前 5時58分)

正月からモノ思う……

進む 戻る

フリーランスになってはや 3年を迎えようとしております。これまで、どうにかこうにかやってこれたのも、ひとえに偉大なる Kプロデューサー様のおかげだと……。冒頭にこう書けといわれていますので、書かせていただきましたが。

 でもじっさい途切れることなくお仕事を頂けるのは、やはりプロデュースと営業を兼ねて日々奮闘していただけるからで、心よりありがたく思っている次第です。祝日休日が皆無になろうとも、年末年始がなくなって正月休みが幻になろうとも、マウスがつぶれるまで頑張らせていただきます。

 と強い決心のもと――。

 にしても。なぜに年末あたりから制作依頼が集中するのでしょうか。すでに 3月までスケージュールびっしり。プロデューサーさんの話によると数学の3D映像の依頼が 150点あったらしいですが、にっちもさっちもいかず、ご遠慮させていただいたとのこと。でも断り切れなかった 4点だけが、この真っ黒けのスケジュールに、さらにねじ込まれたという。まぁ、うれしい悲鳴なのですが。去年もそうでした。なぜか年末あたりから嵐のように依頼が殺到するのです。

 ま、学校教材ですから、一人の人間がエイやぁー、って勢いで作るものではなく、編集部の人たちが長い時間かけて練り上げた作品が、最終的にこれをアニメーションしてくださいって、ここに持ち込まれるのが、1年も終わろうとするころなんでしょうね。うれしいことです。

 と思う今日は1月1日、午前5時です。大晦日の夕刻までに数学の字幕起こしを終わらせての翌日。本日はお休みをいただいて、明日から小学校英語のアニメーションに取り掛からせていただきます……と、業務連絡的な内容を書きつつ、貴重な年に一度の休日なのに、相も変わらずパソコンに向かってこれを書いている自分って何なんだろうなと首をひねりながら、年頭のご挨拶とさせていただきます。


  今年もよろしくお願いします。m(^_^)m



《補足と業務連絡》
 ―― そういう事情ですので、©Caramel-bonさんのパンダのエフェクトはもうしばらくお持ちください。
 ちなみに 12点の nftアートもまもなく発売でございます。





2023年 11月24日(金)20℃(午後 4時52分)

そろそろマシンの老化が……

進む 戻る

時が流れれば老いもやってきます。あ、自分のことではありません。いや自分も年をとっているのですが、このサイトでは年齢不詳となっていますので、最近右腕が痛くて上がらないな~とか、テレビを見ているとピンボケがひどいなぁ~などという話題は禁句です。右腕が痛いのもテレビがボケて見えにくいのも、連日休日なしで10時間以上もディスプレイの前でマウスを振り回しているからで、決して、老いのせいではありません。(うそ……。せいです)

 年をとったと痛感するのはパソコンのことです。
 仕事場には HP社のパソコンとマウスコンピュータさんの DAIVシリーズのマシンが 2台あります。HP社のパソコンは嫁さんが使っているので、オモチャみたいなものなのですが、映像関係、とくに 3Dものの制作には DAIVシリーズのマシンでないと、遅くて仕事になりません。

 購入時は最新のパーツが使われていますので、それなりに快適な動きを見せてくれました。しかし時が流れてスキルアップとともに仕事の内容もレベルアップ。ありがたいことですが、マシンの性能は当時のまま、徐々に重く感じられる昨今です。

 1台は5年目になる i7 CPUで GTX1080のGPU、RAM32GBという、引退寸前のマシン。
 もうひとつは、i9 CPUで RTX2080SのGPU、RAM64GB、2年前の購入当時は、怖いものなしで暴れまくっていましたが、最近は仕事の内容についてくるので精一杯という感じ。
 といっても、最近よく使いだした生成 AIの処理や画像の加工に関してはどちらのマシンもサクサク動くので問題はありません。ですが、こと 3Dの作成になると、5年前の GTX1080マシンではもう限界。RTX2080のマシンでもだいぶ重く感じます。

 その原因は仕事の内容が肥大化してきたことに尽きます。昔のように本がぱたんと閉じるとか、タブレットがくるくる回るとか、単体のものを 3D化して動かすなどのような簡単なものではなく、アニメーションに使う背景を自由な角度や自由な距離感を出せる 3D映像にしてしまおうという流れに代わってきたからです。

 これまではイラストの作家さんが描いた背景を利用していましたので、シーンに合わないと感じても、描き直すコストと時間を掛けることができずあきらめていました。

 ところが、背景が 3D化されるとカメラのアングルも距離感も自由自在です。プロデューサーさんのイメージどおりのものになるというのが最大の利点です。

 しかも依頼内容が教材用アニメーションですので、グラフィカルなイラスト風に画質を落とすのにちょっとコツがいりますが、超リアルに作る必要が無いうえに、描かれたキャラクターの角度に背景のほうを合わせることができますので、従来の方法よりとびぬけて良いとなったわけです。

 最近やったのに、教室、廊下、階段のある風景はもちろん、学校の敷地内にあるものをすべて作ったうえに、周辺の町並みも一緒に作っています。体育館から渡り廊下、朝礼台、鉄棒からうんてい。花壇やテニスコート、陸上トラックなど背景となりそうなものを実際の写真を参考に架空の3D空間に設置してあります。

 加えて、運動場の周囲にはフェンスを張って、その外には家並み、ビル街、交番もあって、交通安全の旗が風に揺れている横を、バスが信号付きの交差点を通過していきます。どんなシーンの依頼が来ても、どこでも背景にすることができるように作ってあります。


運動場から360度カメラを回転させることもできます

少しでもデータを軽くするため細部は省略して、マテリアルもラフに作っていますが、交番横の交通安全の旗はマジで風に揺れていますし、バスもちゃんとタイヤを回転させて走って行きます。そのおかげで、場所を問わず、どこへでもカメラを近づけてアニメーションの背景として利用できるわけです。


 しかしこうなると RTX2080のマシンでも四苦八苦。使われるシーンはどれも 40秒ほどですが、レンダリングに数十分から数時間もかかってしまいます。自分の老いよりも、マシンの老化が気になるというもので、そろそろ次の助っ人が欲しいのが本音です。


 やっぱ CPUよりも GPUなんでしょうかね。となると、NVIDIAのRTX4090っすか?
 RAMは夢の 128GBで、アフターエフェクトのプレビューもストレス無しでサクサクと動かしたいですね。

 で……。おいくら?


 "んげっ!"  ( ̄ω ̄;) タカ~。