Lv3 ・ 120 分
Step 3 RAG 前処理(ビジネス向け)
複数ページを取得し、Dify ナレッジに入れて AI が参照しやすい状態に整える。
このハンズオンでは、複数の Web ページをまとめて取得し、Dify ナレッジに入れて AI が根拠つきで答えやすい状態を作ります。Chroma や埋め込み設定を自前で組む代わりに、Dify のナレッジ機能を使います。
向いている用途は次のとおりです。
- 競合サイトの FAQ や料金ページを AI に読ませる
- 自社と競合の公開情報を横断して調査させる
- サイト更新を追いかけて、社内リサーチを速くする

ゴールと所要時間
- ゴール: 複数 URL を取得し、Dify ナレッジへ登録して、チャットで参照できる状態にする
- 所要時間: 約 120 分
- 難易度: Lv3
前提
- Step 1 認証(ビジネス向け) が完了している
- Dify を使える
- ナレッジ化したい URL が 10 件から 30 件ほどある
全体の流れ
- 対象 URL 一覧を決める
- Bright Data でまとめて取得する
- Markdown か本文テキストとして保存する
- Dify ナレッジへアップロードする
- 出典つきで答えるチャットを作る
手順 1: 対象 URL を絞る
最初は「更新頻度が高く、業務でよく参照するページ」に絞るのがコツです。例:
- 競合 3 社の料金ページ
- 競合 3 社のニュース一覧
- 自社の FAQ
- 業界団体の公開レポートページ
手順 2: まとめて取得する
Bright Data に複数 URL をまとめて依頼します。ここでの考え方は「投げて待つ」処理です。すぐ全部返ってこなくても問題ありません。
画面操作の流れは次のイメージです。
- Dify か n8n から Bright Data へ URL 一覧を送る
- 完了まで待つ
- 結果ファイルを受け取る
入力例の考え方:
[
{ "url": "https://example.com/pricing" },
{ "url": "https://example.com/faq" },
{ "url": "https://example.com/news" }
]手順 3: Markdown 形式で受け取る
RAG 用途では、HTML より Markdown のほうが扱いやすいことが多いです。理由は次の 3 つです。
- 余計な装飾が減る
- 見出しや箇条書きが残りやすい
- Dify ナレッジへ入れたときに分割しやすい
手順 4: Dify ナレッジを作る
- Dify の
Knowledgeを開く - 新規ナレッジベースを作る
- 名前を
競合調査ナレッジなどにする - 取得した Markdown ファイル群をアップロードする
分割設定は、最初は Dify の標準設定で十分です。細かい調整は、回答が長すぎる、根拠が混ざる、と感じてからでかまいません。
手順 5: チャットアプリから参照させる
ナレッジを接続した Dify アプリを作り、次のように聞きます。
このナレッジだけを根拠に、競合 3 社の料金体系の違いを表で整理してください。
各行に出典 URL を付けてください。期待する出力は次のような形です。
- 会社名
- 主なプラン
- 初期費用の有無
- 月額帯
- 特徴
- 出典 URL
手順 6: 更新手順を決める
ナレッジは作って終わりではありません。更新ルールを決めます。
| ページ種類 | 更新頻度の目安 |
|---|---|
| ニュース一覧 | 毎日または週 2 回 |
| 料金ページ | 週 1 回 |
| FAQ | 月 1 回から週 1 回 |
| 会社概要 | 月 1 回 |
実務でのコツ
取得対象を広げすぎない
最初からサイト全体を入れるより、よく使うページだけで始めたほうが回答品質が安定します。
ナレッジ名に用途を書く
営業用_競合料金, 広報用_競合ニュース のように分けると、あとで混ざりにくくなります。
回答ルールを明示する
「推測で埋めない」「出典 URL を必ず付ける」と最初に指示しておくと、社内利用しやすくなります。
確認ポイント
- Dify ナレッジに文書が入ったか
- 出典 URL つきで答えるか
- ほしい比較項目が抜けていないか
- 古い内容が残っていないか
次の一歩
ナレッジ化ができたら、次は表として比較しやすい EC データ分析に進めます。