⚠️ このドキュメントは AI によって自動翻訳されています。不正確な部分がある場合は、英語版 を参照してください。
multimodal-Parent-Child と multimodal-General。
ナレッジベースノードがツールプラグインのマルチモーダル出力(テキスト、画像、音声、動画など)を認識し埋め込むためには、以下の2つの設定を完了する必要があります:
- ツールコードファイル内:ツールセッションインターフェースを呼び出してファイルをアップロードし、
filesオブジェクトを構築します。 - ツールプロバイダーのYAMLファイル内:
output_schemaをmultimodal-Parent-Childまたはmultimodal-Generalとして宣言します。
ファイルのアップロードとファイルオブジェクトの構築
マルチモーダルデータ(画像など)を処理する際は、まずDifyのツールセッションを通じてファイルをアップロードし、ファイルのメタデータを取得します。 以下の例は、Dify公式プラグイン Dify Extractor から抜粋したもので、ファイルのアップロードとfiles オブジェクトの構築方法を示しています。
UploadFileResponse オブジェクトを返します:
name、size、extension、mime_type など)をマルチモーダル出力構造の files フィールドにマッピングします。
マルチモーダル出力構造の宣言
マルチモーダルデータの構造は、Dify公式のJSON Schemaによって定義されています。 ナレッジベースノードがプラグインのマルチモーダル出力タイプを認識できるようにするには、プラグインプロバイダーのYAMLファイルでoutput_schema の result フィールドを対応する公式Schema URLに指定します。
multimodal-Parent-Child を使用した完全なYAML設定は以下の通りです: