Difyのチャンクについて非エンジニア向けに解説していきます。
チャンクとは?
Difyに学習させる情報をアップロードした際に文章を分割して管理します。この分割したものをチャンクと言います。
https://docs.dify.ai/v/japanese/guides/knowledge-base/knowledge_and_documents_maintenance
上記のようにDifyのナレッジベースに保存されます。
なぜチャンクに分けるのか?
何かしらの情報をアップロードした際にそれをまとめて取り扱うよりも分けて管理したい方が精度がますためDifyではチャンクに分けて管理しています。
例えば本まるまる学習するよりも分割することで答えてほしい部分に関連するところだけに絞った情報で学習する方が無駄なノイズがないため正確に早く返答することができます。
また、token制限がある場合に分割して読み込むことで制限内で大量のデータを学習させることもできます。
チャンクの長さは?
Difyではチャンクの長さを設定できるのですが、どう適切な長さを見つければいいのか分からないと思います。
https://docs.dify.ai/v/japanese/guides/knowledge-base/knowledge_and_documents_maintenance
基本的には長ければノイズが多すぎて精度が下がりますが、短すぎるとそもそも情報がないので答えられない可能性があります。ここは個人的な推測ですが、おそらくアップロードされる情報の種類によって適切な値があるので調整するしかないかなと思います。