Difyのチャンクとは?

目次

マーケター、エンジニアを月1時間からジョインできるプラットフォーム

airteamは月1時間からマーケターやエンジニアに相談できるプラットフォーム。 雇うのはハードル高いけどプロをチームに入れたい。そんな経営者のためのサービスです。 相談にのる方も募集しています。

タスクなしだから月一時間からジョイン可能

作業はなくオンライン相談メイン。 月1時間からさっと経験者に継続的に相談できます。

多様な経験者を雇用するより何倍も早くチームに

あらゆるジャンルの経験者がいるので あなたのチームのノウハウの選択肢が広がります。

NDAはすでに締結済み、契約もスムーズ

契約の煩雑なやりとりはなく、NDAはすでに締結済み、書面のやりとりはありません。

Difyのチャンクについて非エンジニア向けに解説していきます。

チャンクとは?

Difyに学習させる情報をアップロードした際に文章を分割して管理します。この分割したものをチャンクと言います。

https://docs.dify.ai/v/japanese/guides/knowledge-base/knowledge_and_documents_maintenance

上記のようにDifyのナレッジベースに保存されます。

なぜチャンクに分けるのか?

何かしらの情報をアップロードした際にそれをまとめて取り扱うよりも分けて管理したい方が精度がますためDifyではチャンクに分けて管理しています。

例えば本まるまる学習するよりも分割することで答えてほしい部分に関連するところだけに絞った情報で学習する方が無駄なノイズがないため正確に早く返答することができます。

また、token制限がある場合に分割して読み込むことで制限内で大量のデータを学習させることもできます。

チャンクの長さは?

Difyではチャンクの長さを設定できるのですが、どう適切な長さを見つければいいのか分からないと思います。

https://docs.dify.ai/v/japanese/guides/knowledge-base/knowledge_and_documents_maintenance

基本的には長ければノイズが多すぎて精度が下がりますが、短すぎるとそもそも情報がないので答えられない可能性があります。ここは個人的な推測ですが、おそらくアップロードされる情報の種類によって適切な値があるので調整するしかないかなと思います。