注目のAI数字人オープンソースプロジェクト

Rewa-Evija · May 12, 2025, 2:17pm

1. はじめに

AIを活用したデジタルヒューマンは、エンターテインメント、教育、顧客サービスをはじめとする多様な分野でその重要性を増しています。デジタルヒューマンとは、人間の外見や行動を模倣し、AIによって駆動される仮想的な存在です。近年、この分野では目覚ましい技術進歩が見られ、よりリアルでインタラクティブなデジタルヒューマンの作成が可能になっています。この進展の背景には、敵対的生成ネットワーク（GANs）や変分自己符号化器（VAEs）といった生成モデル、自然言語処理（NLP）、音声合成、コンピュータビジョンの分野におけるAI技術の急速な発展があります。これらの技術革新により、現実と見分けがつかないほどリアルなデジタルヒューマンの生成、人間らしい自然な対話、感情豊かな表現などが実現されつつあります。

オープンソースの取り組みは、この分野のイノベーション、透明性、コミュニティの協調、そしてプロプライエタリなコストなしで最先端技術へのアクセスを促進するという点で、非常に重要な役割を果たしています。オープンソースプロジェクトは、世界中の開発者や研究者による共同作業を可能にし、多様な視点と専門知識が結集することで、技術の進歩を加速させます。また、ソースコードが公開されているため、その仕組みや動作原理が透明であり、セキュリティ上の懸念や倫理的な問題を検証しやすくなります。さらに、オープンソースであることは、中小企業や個人開発者にとって、高価な商用ソフトウェアに頼ることなく、高度なデジタルヒューマン技術を利用できる機会を提供し、より幅広い層による技術の活用を促進します。

本レポートでは、注目すべきオープンソースのAIデジタルヒューマンプロジェクトを専門家の視点から概観します。これらのプロジェクトの機能、技術的な基盤、潜在的なユースケース、そしてコミュニティの側面について分析することで、この分野の現状と将来の可能性を探ります。

2. 主要なオープンソースプロジェクトの詳細な概要

2.1 HeyGem.ai

HeyGemデジタルヒューマンは、Silicon Intelligenceによって開発された無償のオープンソースプロジェクトであり、わずか10秒のビデオクリップからデジタルヒューマンの視覚的な外観と声の特徴を正確に複製できることに重点を置いています。ローカルでの展開とAPI統合の両方をサポートしており、ユーザーはテキスト入力またはオーディオアップロードを通じて、リップシンクと音声合成を自動的に行い、リアルなビデオを生成できます。この手軽なクローニング機能は、技術的な専門知識がないユーザーでも容易にパーソナライズされたデジタルアバターを作成できるため、デジタルヒューマン技術の普及を促進する可能性があります。

HeyGemの重要な特徴の一つは、インターネット接続を必要としない完全オフラインでの動作です。これは、データプライバシーとセキュリティに対する懸念の高まりに対応するものであり、ネットワーク送信中のデータ漏洩のリスクを回避し、安全で独立した環境でのコンテンツ作成を可能にします。ユーザーフレンドリーなインターフェースもHeyGemの魅力であり、技術的な背景を持たない初心者でもソフトウェアの操作を迅速に習得し、デジタルヒューマンの作成を開始できます。

HeyGemは、スクリプトの多言語サポート（英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語の8言語）と、ワンクリック起動パッケージによる複数のモデルのインポートと管理をサポートしています。これにより、ユーザーはさまざまなクリエイティブなニーズやアプリケーションシナリオに基づいて適切なモデルを簡単に選択できます。技術的な側面では、高度な音声クローニング技術、自動音声認識（ASR）、およびリップシンクのためのコンピュータビジョン技術が活用されており、生成されるデジタルヒューマンビデオの高いリアリズムを保証しています。これらのAI技術の統合は、生成されるデジタルヒューマンビデオの現実感を高める上で不可欠であり、継続的な技術の進歩は、HeyGemで作成されるデジタルヒューマンのさらなるリアルな表現を可能にするでしょう。

HeyGemプロジェクトは活発に開発されており、GitHubでは8.1kを超えるスターと1.3kのフォークを集めています。5人のコントリビューターがリストされており、頻繁なアップデートと日々の課題解決が行われていることから、活発な開発状況がうかがえます。メインブランチには96件のコミットがあり、6つのリリースが行われています。クライアントインターフェースはユーザーフレンドリーですが、WindowsへのインストールにはDockerの知識が必要となる場合があります。一方、Ubuntu 22.04へのインストールはAppImageファイルを使用するため、より簡単です。

HeyGemのユースケースは多岐にわたり、ディープラーニングフレームワークの経験を持つ技術ユーザーによる詳細なカスタマイズやコミュニティへの貢献、迅速なビジネス統合のためのAPIサービスの利用、上位レベルのアプリケーション開発に焦点を当てるビジネスユーザー、そして商用シナリオでのエンタープライズレベルのSLA保証を必要とするユーザーなどが想定されています。具体的な例としては、ワンクリックでのデジタルヒューマン起動、ローカル展開チュートリアル、サイバーワーカー革命、無制限の無料デジタルヒューマンなどが挙げられています。これらの多様なユースケースは、HeyGemがさまざまなユーザーグループや業界にわたって幅広い応用可能性を持つことを示唆しています。

2.2 LiveTalking

LiveTalking（以前はmetahuman-streamと呼ばれていました）は、リアルタイムのインタラクティブなストリーミングデジタルヒューマンの作成に焦点を当てたプロジェクトであり、同期されたオーディオとビデオによる対話機能を目指しています。商用アプリケーションに適した高品質なデジタルヒューマンライブソリューションの構築を目標としており、音声クローニングやデジタルヒューマンの発話の中断などの機能もサポートしています。リアルタイム性はこのプロジェクトの重要な特徴であり、即時のインタラクションを必要とするアプリケーションに適しています。

LiveTalkingは、ernerf、musetalk、wav2lip、Ultralight-Digital-Humanといった複数のデジタルヒューマンモデルをサポートしており、音声クローニングの機能も備えています。また、デジタルヒューマンの発話中に中断を可能にする機能、全身ビデオのスティッチング、RTMPおよびWebRTCによるストリーミングとの互換性も提供しています。さらに、デジタルヒューマンが話していないときにカスタムビデオを再生する機能や、複数の同時操作をサポートするマルチコンカレンシー機能も備えています。

このプロジェクトは、Ubuntu 20.04、Python 3.10、PyTorch 1.12、CUDA 11.3でテストされており、macOS GPU推論もサポートしています。Dockerサポートにより、手動での依存関係のインストールなしでプロジェクトを実行できるため、導入プロセスが簡素化されています。

LiveTalkingは活発なコミュニティを持っており、GitHubでは5.5kのスターと818のフォークを集めています。14人のコントリビューターがリストされており、高品質なFAQ、ベストプラクティス、Q&Aのための知識共有プラットフォーム「知識星球」や、WeChatの公式アカウント「数字人技術」を通じてサポートが提供されています。メインブランチには189件のコミットがあり、複数のコントリビューターによる継続的な開発が行われていることが示唆されます。

クイックスタートガイドが提供されており、モデルのダウンロード、アプリケーションの実行、ブラウザからのアクセスといった手順が明確に示されています。Dockerの利用はインストールをさらに簡素化し、技術的な専門知識がないユーザーにとってもアクセスしやすいものにしています。LiveTalkingの潜在的なユースケースには、顧客サービスや情報キオスク向けのインタラクティブなデジタルアバター、視覚的な存在感を持つバーチャルアシスタント、eラーニングやオンライン教育での利用、プレゼンテーションや講演、エンターテインメントやゲームなどが考えられます。リアルタイムインタラクションに重点を置いているため、即時の応答とエンゲージメントを必要とするアプリケーションに特に適しています。

2.3 Linly-Talker

Linly-Talkerは、大規模言語モデル（LLMs）と視覚モデルを組み合わせた新しいヒューマンAIインタラクション手法を作成するインテリジェントなAIシステムです。Whisper、Linly、Microsoft Speech Services、SadTalkerのtalking head生成システムなどのさまざまなテクノロジーを統合しています。GeminiProやQwenのような強力なLLMsを活用することで、デジタルヒューマンとのより自然で文脈を理解した会話が可能になります。

このシステムは、ASRのためのWhisperやtalking head生成のためのSadTalkerなどの視覚モデルを統合しており、視覚モデルと言語モデルの組み合わせにより、ユーザーの入力を理解し、適切な視覚的応答を生成できます。GPTモデルを搭載したマルチターン会話機能により、Linly-Talkerは文脈に関連した一貫性のある会話を理解し、維持することができ、インタラクションの現実感を大幅に向上させます。さらに、GPT-SoVITSなどのテクノロジーを利用した音声クローニング機能により、ユーザーは1分の音声サンプルをアップロードして微調整することで、自分の声をクローンし、デジタルヒューマンがユーザーの声で会話できるようになります。

Linly-Talkerは活発なコミュニティを持ち、GitHubでは2.6kのスターと436のフォークを集めています。プロジェクトは継続的に開発されており、プルリクエストは歓迎されています。ユーザー向けのディスカッショングループも用意されており、7人のコントリビューターがリストされています。2023年から2024年にかけてほぼ毎月アップデートが行われていることから、活発な開発状況がうかがえます。

使いやすさの面では、WebUIが提供されており、初心者向けのAutoDLデプロイチュートリアル、Windowsオールインワンパッケージ、Google Colabでの実行サポートなど、複数のデプロイオプションとユーザーフレンドリーなインターフェースを提供することで、使いやすさが重視されています。Linly-Talkerの潜在的なユースケースには、バーチャルアシスタント、教育ツール、エンターテインメントなどがあり、会話型および視覚的な機能により、幅広いインタラクティブアプリケーションに適しています。さまざまなモデルとの統合機能は、特定のニーズに合わせて柔軟なアーキテクチャを適応できることを示唆しています。

2.4 VHProject

VHProjectは、Unity向けのプロシージャルアニメーションツールキットであり、リアルなバーチャルヒューマン（アバターとエージェント）のアニメーション作成を支援することに重点を置いています。プロシージャルアニメーションに重点を置くことで、動的で応答性の高いキャラクターの動きが可能になり、ゲームやVR/AR体験などのインタラクティブなアプリケーションに特に価値があります。

このツールキットには、ブレンドシェイププリセットエディター、怒り、嫌悪、恐怖、幸福、悲しみ、驚きなどのプロシージャルな感情の制御、静的、ランダム、スクリプト化、確率的など、さまざまな視線モードなどの機能が含まれています。また、リアルタイムおよび録音済みのオーディオに基づくリップシンク機能も備えています。これらの機能により、開発者はバーチャルヒューマンの外観と動作を細かく制御できます。

VHProjectはUnityプラットフォーム向けに設計されており、ゲーム開発やVR/AR環境での利用に適しています。GitHubでは63のスターと17のフォークを集めており、他のプロジェクトと比較するとコミュニティの規模は小さいものの、関心とエンゲージメントが存在します。最終更新日は2025年3月18日であり、アクティビティタブには最近のコミットが表示されていることから、継続的なメンテナンスと開発が行われていることが示唆されます。

VHProjectは、Unity開発者にとって最適化されており、統合が容易なパッケージとして設計されており、明確なインストールガイドが提供されています。この使いやすさにより、Unityに慣れている開発者は、リアルなバーチャルヒューマンを自分のプロジェクトに迅速に組み込むことができます。VHProjectのユースケースには、ゲーム、シミュレーション、VR/AR、デジタルストーリーテリング、バーチャルアシスタントなどがあり、多様なインタラクティブなバーチャルヒューマン体験の作成に役立ちます。

2.5 Vitruvian Project

Vitruvian Projectは、Creative Commons Zero（パブリックドメイン）ライセンスの下で、Blenderでカスタマイズ可能なデジタルヒューマンを作成することを目標としています。このパブリックドメインライセンスは、ユーザーがモデルを最大限に自由に使用および変更できることを意味し、幅広い採用とコミュニティ主導の機能強化につながる可能性があります。

このプロジェクトの機能には、FACSリグ（100以上のブレンドシェイプ）、カスタマイズ用の100以上のモーフ、および4Kテクスチャのサポートが含まれています。これらの機能は、リアルなデジタルヒューマンを作成するための高レベルの詳細とカスタマイズオプションを提供します。FACSリグの包含は、詳細な顔のアニメーションに適しています。

Vitruvian Projectは、アニメーションやゲーム開発、特にBlenderとの連携に関連しています。Unreal Engineとの互換性（ACES経由）により、このプラットフォームにも適しています。メインプロジェクトリポジトリのGitHubでのアクティビティは限られていますが（1スター、0フォーク）、Blender Artistsコミュニティフォーラムではより大きな議論が行われており、プロジェクトへのコミュニティの関心を示しています。プロジェクトの進捗は主に単一のコントリビューター「hopefullyidont1」の努力に依存しており、アップデートとリリースはBlender Artistsフォーラムで共有されています。

Vitruvian Projectを効果的に利用するにはBlenderの知識が必要であり、VitruvianはCharMorphアドオンを介してダウンロードできます。CharMorphのインストール手順が提供されています。Vitruvian Projectのユースケースには、ゲーム開発、アニメーション、VR/AR、教育目的、個人的なプロジェクトなどがあり、モデルの汎用性とパブリックドメインライセンスにより、幅広いクリエイティブアプリケーションにとって貴重なリソースとなっています。

2.6 SadTalker AI

SadTalker AIは、静止画を音声でアニメーション化し、リアルなtalking headビデオを生成する機能に重点を置いています。このテクノロジーは、静止画に同期された音声による現実的な顔の動きと表情を作成する比較的簡単な方法を提供し、コンテンツ作成、教育、エンターテインメントなど、さまざまなアプリケーションで利用できます。

SadTalker AIの機能には、画像からビデオへの変換、リップシンク、カスタマイズ設定などがあります。これらの機能により、ユーザーはパーソナライズされた魅力的なtalking avatarビデオを作成できます。カスタマイズのレベルにより、さまざまなスタイルやアプリケーションに適応させることができます。

SadTalker AIのインストールプロセスには、Anaconda、Python、Git、FFmpegのインストールが含まれ、Hugging Face SpacesやGoogle Colabなどのプラットフォームで利用できます。詳細なインストールプロセスは、ローカルセットアップにはある程度の技術的知識が必要であることを示唆しています。一方、Hugging FaceやColabなどのクラウドプラットフォームでの利用は、強力なローカルハードウェアを持たないユーザーにとってよりアクセスしやすいものになっています。

SadTalker AIは活発なコミュニティを持ち、GitHubでは12.7kのスターと2.4kのフォークを集めています。Discordにも公式に統合されており、コミュニティチュートリアルも利用可能です。高いレベルのエンゲージメントは、プロジェクトが十分にメンテナンスされ、人気があることを示しています。

使いやすさは選択したプラットフォームによって異なり、クラウドプラットフォームはより簡単なエントリーポイントを提供しますが、ローカルインストールには複数の手順が含まれます。これにより、さまざまな技術スキルとハードウェア機能を持つユーザーに対応できます。SadTalker AIのユースケースには、コンテンツ作成、教育、エンターテインメント、マーケティング、バーチャルアバターなどがあり、静止画から顔をアニメーション化する機能は、幅広いクリエイティブで実用的なアプリケーションの可能性を開きます。

2.7 その他の注目すべきプロジェクト（概要）

NVIDIA AI Blueprint: Digital Human : 顧客サービスアプリケーションに焦点を当てており、NVIDIA TokkioとACEテクノロジーを搭載し、アニメーション、音声AI、生成AIにNIMマイクロサービスを使用しています。NVIDIAハードウェアとソフトウェアスタックのさまざまな分野の専門知識が必要です。このプロジェクトは、エンタープライズアプリケーションでのデジタルヒューマンの利用を強調し、NVIDIAの特殊なハードウェアをパフォーマンスに活用しています。
Duix.ai : Silicon-based IntelligenceによるリアルタイムインタラクションSDKで、AndroidとiOSをサポートし、低コストでの展開とネットワーク依存性の低さが特徴です。インテリジェントな顧客サービスなどのアプリケーション向けに、包括的なマルチモーダルリアルタイムインタラクションSDKを提供しています。
OpenHuman : リアルなデジタルヒューマンのためのオープンストアであり、さまざまなデジタルヒューマンアセットや、ジェスチャー生成やヒューマンモデルなどの関連プロジェクトの共有とアクセスを提供するプラットフォームを目指しています。OpenHumanは、デジタルヒューマンリソースの中央リポジトリを作成し、コラボレーションとアクセスしやすさを促進することを目的としています。
Awesome Digital Human : 衣類を着た人物に関する厳選されたリソースコレクションで、2D/3D/4Dのヒューマンモデリング、アバター生成とアニメーション、衣類を着た人物のデジタル化、バーチャルトライオンなどが含まれています。このプロジェクトは、関連分野の研究者や開発者にとって貴重な情報源として役立っています。

3. 比較分析

機能	HeyGem.ai	LiveTalking	Linly-Talker	VHProject	Vitruvian Project	SadTalker AI
主な焦点	正確なクローニングとオフラインビデオ生成	リアルタイムインタラクティブストリーミング	会話型AIとアバター生成	Unityでのプロシージャルアニメーション	カスタマイズ可能なデジタルヒューマンモデル（Blender）	音声駆動型talking headビデオ生成
リアリズム	高い	高い（商用グレード目標）	良い	高い（プロシージャル）	高い	良い
インタラクティブ性	限定的（ビデオ生成）	高い（リアルタイム）	高い（会話型）	中程度（Unity経由）	限定的	限定的
使いやすさ	高い（クライアント）、中程度（セットアップ）	中程度	高い	中程度（Unity開発者向け）	中程度（Blenderユーザー向け）	高い（クラウド）、中程度（ローカル）
音声クローニング	はい	はい	はい	いいえ	いいえ	いいえ
多言語対応	はい（スクリプト）	いいえ	はい	いいえ	いいえ	はい（リップシンク）
プラットフォーム	Windows、Ubuntu、Android、iOS（言及あり）	Ubuntu、macOS、Docker	Web（Gradio）、Docker、Colab、Windows	Unity	Blender	Windows、Linux、macOS、Colab、Hugging Face
コミュニティ	活発（8.1kスター）	活発（5.5kスター）	活発（2.6kスター）	中程度（63スター）	中程度（Blenderフォーラム）	非常に活発（12.7kスター）
ユースケース	コンテンツ作成、マーケティング	顧客サービス、教育、放送	バーチャルアシスタント、教育、エンターテインメント	ゲーム、VR/AR、シミュレーション	アニメーション、ゲーム開発、VR/AR、教育	コンテンツ作成、教育、マーケティング

Google スプレッドシートにエクスポート

上記の表は、本レポートで取り上げた主要なオープンソースAIデジタルヒューマンプロジェクトの主要な機能とターゲットとなるユースケースを比較したものです。リアリズム、インタラクティブ性、使いやすさ、音声クローニング機能、多言語対応、サポートされているプラットフォーム、コミュニティの活動状況、そして主なユースケースといった側面から、各プロジェクトの特徴を概観することができます。この比較を通じて、読者は自身のニーズや目的に最も適したプロジェクトをより効果的に見つけることができるでしょう。

4. 産業界におけるユースケースとアプリケーション

オープンソースのAIデジタルヒューマンプロジェクトは、多様な産業分野で応用される可能性を秘めています。顧客サービスにおいては、LiveTalkingやDuix.aiがウェブサイトやキオスクでインタラクティブな仮想エージェントとして活用できる可能性があります。NVIDIA AI Blueprintは、エンタープライズレベルの顧客サービスアプリケーション向けのフレームワークを提供します。教育分野では、Linly-TalkerやSadTalkerがオンラインコースの魅力的な仮想インストラクターとして利用でき、VHProjectはUnityでインタラクティブな教育シミュレーションの開発に役立ち、Vitruvianはカスタマイズ可能な解剖学モデルを提供できます。エンターテインメント業界では、LiveTalkingやLinly-Talkerがゲームや仮想体験のインタラクティブなキャラクターの作成に利用され、SadTalkerは歴史上の人物のアニメーション化や、ストーリーテリングのためのユニークなキャラクターの作成に役立ち、Vitruvianはアニメーション映画のベースモデルを提供できます。バーチャルアシスタントの分野では、Linly-TalkerやLiveTalkingが視覚的な存在感とより自然な会話能力を備えたアシスタントを実現し、VHProjectはVR/ARにおけるパーソナライズされたデジタルアシスタントのアバターを作成できます。コンテンツ作成の分野では、HeyGemやSadTalkerがマーケティング、ソーシャルメディア、または個人的なコンテンツ向けのデジタルアバターを使用したビデオを迅速に生成するツールを提供し、Vitruvianはさまざまなメディア向けのユニークなデジタルキャラクターを作成するために使用できます。これらの多様なアプリケーションは、AIデジタルヒューマン技術がさまざまな分野で広範な可能性を秘めていることを示しています。

5. 技術的な考慮事項と実装

AIデジタルヒューマンの作成には、音声合成、顔のアニメーション、自然言語処理、レンダリング技術など、さまざまな基盤技術が活用されています。これらの技術は複雑に絡み合っており、いずれかの分野の進歩がオープンソースのデジタルヒューマンプロジェクトのリアリズムと能力に大きな影響を与える可能性があります。

これらのプロジェクトのインストールとセットアップは、プラットフォーム固有の課題を伴う場合があります。たとえば、HeyGemのWindowsへのインストールにはDockerが必要であり、LiveTalkingとSadTalkerには特定のPython、PyTorch、CUDAのバージョンが必要です。Linly-Talkerのインストールは時間がかかる可能性があり、VHProjectにはUnityが必要です。VitruvianにはBlenderの知識が求められ、SadTalkerにも独自の依存関係があります。これらのセットアップの複雑さは、ある程度の技術的な習熟度と細部への注意を必要とします。

トレーニングやリアルタイムレンダリングなどの集中的なタスクには、GPUなどのハードウェア要件も考慮する必要があります。多くの高度なデジタルヒューマンタスクは、特にGPUにおいて、かなりの計算リソースを必要とします。したがって、これらのプロジェクトのアクセシビリティは、潜在的なユーザーが強力なハードウェアを利用できるかどうかに左右される可能性があります。

6. コミュニティと今後の開発

これらのプロジェクトのコミュニティにおける活動とエンゲージメントは、GitHubのスター数、フォーク数、コントリビューター数、およびDiscordやフォーラムなどの他のプラットフォームでの存在感を通じて評価できます。コミュニティのエンゲージメントは、プロジェクトの健全性、持続可能性、および成長の可能性を示す強力な指標です。より大規模で活発なコミュニティを持つプロジェクトは、より多くの貢献、より良いサポート、そしてより迅速な開発から恩恵を受ける可能性が高くなります。

オープンソースのAIデジタルヒューマン技術の今後の方向性と進歩の可能性としては、リアリズムの向上、より自然なインタラクション、より良いクロスプラットフォーム互換性、および他のAIツールとの統合などが挙げられます。AIデジタルヒューマンの分野は活発な研究開発の対象であり、継続的な進歩が見られています。オープンソースプロジェクトは、イノベーションを推進し、これらの進歩をより幅広い層にアクセス可能にする上で重要な役割を果たすでしょう。

この技術の倫理的考慮事項と責任ある利用の重要性も言及しておく必要があります。デジタルヒューマン技術がより現実的になるにつれて、その潜在的な悪用に関する倫理的な懸念が高まっています。オープンソースプロジェクトは、倫理的な懸念に積極的に対処し、その技術の責任ある利用を促進する必要があります。

7. 結論

本レポートでは、注目すべきオープンソースのAIデジタルヒューマンプロジェクトについて概観しました。HeyGem.aiは、迅速かつオフラインでのクローニングとビデオ生成に強みを持っています。LiveTalkingは、リアルタイムでのインタラクティブなストリーミングに焦点を当てています。Linly-Talkerは、強力な会話型AIとアバター生成機能を備えています。VHProjectは、Unityでのリアルなプロシージャルアニメーションのためのツールキットを提供します。Vitruvian Projectは、カスタマイズ可能な高品質のデジタルヒューマンモデルをBlenderで利用可能にしています。SadTalker AIは、静止画から音声駆動によるtalking headビデオの生成に優れています。

これらのプロジェクトはそれぞれ独自の強みと弱みを持っており、さまざまなユースケースに対応しています。全体として、オープンソースの取り組みは、AIデジタルヒューマン技術へのアクセスを民主化し、イノベーションを促進する上で重要な役割を果たしています。今後の技術の進歩、コミュニティの協力、そして倫理的な考慮が、この分野の未来を形作っていくでしょう。