ビジネスユーザー向けモードで表示中プログラマー向けへ
Bright Data 学習ポータル

Lv3120

Step 3 RAG 前処理(ビジネス向け)

複数ページを取得し、Dify ナレッジに入れて AI が参照しやすい状態に整える。

このハンズオンでは、複数の Web ページをまとめて取得し、Dify ナレッジに入れて AI が根拠つきで答えやすい状態を作ります。Chroma や埋め込み設定を自前で組む代わりに、Dify のナレッジ機能を使います。

向いている用途は次のとおりです。

  • 競合サイトの FAQ や料金ページを AI に読ませる
  • 自社と競合の公開情報を横断して調査させる
  • サイト更新を追いかけて、社内リサーチを速くする

RAG 前処理パイプライン — Crawl API → Markdown → チャンク分割 → 埋め込み生成 → ベクトル DB

ゴールと所要時間

  • ゴール: 複数 URL を取得し、Dify ナレッジへ登録して、チャットで参照できる状態にする
  • 所要時間: 約 120 分
  • 難易度: Lv3

前提

全体の流れ

  1. 対象 URL 一覧を決める
  2. Bright Data でまとめて取得する
  3. Markdown か本文テキストとして保存する
  4. Dify ナレッジへアップロードする
  5. 出典つきで答えるチャットを作る

手順 1: 対象 URL を絞る

最初は「更新頻度が高く、業務でよく参照するページ」に絞るのがコツです。例:

  • 競合 3 社の料金ページ
  • 競合 3 社のニュース一覧
  • 自社の FAQ
  • 業界団体の公開レポートページ

手順 2: まとめて取得する

Bright Data に複数 URL をまとめて依頼します。ここでの考え方は「投げて待つ」処理です。すぐ全部返ってこなくても問題ありません。

画面操作の流れは次のイメージです。

  1. Dify か n8n から Bright Data へ URL 一覧を送る
  2. 完了まで待つ
  3. 結果ファイルを受け取る

入力例の考え方:

[
  { "url": "https://example.com/pricing" },
  { "url": "https://example.com/faq" },
  { "url": "https://example.com/news" }
]

手順 3: Markdown 形式で受け取る

RAG 用途では、HTML より Markdown のほうが扱いやすいことが多いです。理由は次の 3 つです。

  • 余計な装飾が減る
  • 見出しや箇条書きが残りやすい
  • Dify ナレッジへ入れたときに分割しやすい

手順 4: Dify ナレッジを作る

  1. Dify の Knowledge を開く
  2. 新規ナレッジベースを作る
  3. 名前を 競合調査ナレッジ などにする
  4. 取得した Markdown ファイル群をアップロードする

分割設定は、最初は Dify の標準設定で十分です。細かい調整は、回答が長すぎる、根拠が混ざる、と感じてからでかまいません。

手順 5: チャットアプリから参照させる

ナレッジを接続した Dify アプリを作り、次のように聞きます。

このナレッジだけを根拠に、競合 3 社の料金体系の違いを表で整理してください。
各行に出典 URL を付けてください。

期待する出力は次のような形です。

  • 会社名
  • 主なプラン
  • 初期費用の有無
  • 月額帯
  • 特徴
  • 出典 URL

手順 6: 更新手順を決める

ナレッジは作って終わりではありません。更新ルールを決めます。

ページ種類更新頻度の目安
ニュース一覧毎日または週 2 回
料金ページ週 1 回
FAQ月 1 回から週 1 回
会社概要月 1 回

実務でのコツ

取得対象を広げすぎない

最初からサイト全体を入れるより、よく使うページだけで始めたほうが回答品質が安定します。

ナレッジ名に用途を書く

営業用_競合料金, 広報用_競合ニュース のように分けると、あとで混ざりにくくなります。

回答ルールを明示する

「推測で埋めない」「出典 URL を必ず付ける」と最初に指示しておくと、社内利用しやすくなります。

確認ポイント

  • Dify ナレッジに文書が入ったか
  • 出典 URL つきで答えるか
  • ほしい比較項目が抜けていないか
  • 古い内容が残っていないか

次の一歩

ナレッジ化ができたら、次は表として比較しやすい EC データ分析に進めます。

プログラマー向けの詳細