プログラマー向けモードで表示中ビジネスユーザー向けへ
Bright Data 学習ポータル
Lv4

AI 実践

MCP や LangChain などを使い、検索・抽出・要約のエージェントを構築する。

目安 12–24 時間 / 前提: Lv3 修了、LLM API の利用経験

Lv4 は、Bright Data を AI ワークフローへ接続する段階です。ここで重要なのは、単に Web から取ることではありません。検索、抽出、ブラウザ操作、引用、評価を AI エージェントから呼べる形にすることです。MCP を入り口にすると、Claude や Cursor、社内エージェントから同じ取得基盤を使い回せます。

前提

達成基準

  • MCP の役割を説明できる
  • Agent Web Access と通常 API 呼び出しの違いを理解している
  • エージェントから検索と抽出を呼び出せる
  • 引用付き回答のために元データと回答を分離して扱える
  • RAG で Markdown 出力を活用できる
  • 取得品質と回答品質を別々に評価する観点を持てる
  • LangChain、Haystack、Weaviate などの外部基盤に接続する設計を説明できる

代表ユースケース

推奨ハンズオン

MCP で接続し、Crawl API で集めた Markdown を下流に渡す流れまで見えると、Lv4 の全体像がはっきりします。

MCP をどう位置づけるか

MCP は、Bright Data の各 API を AI クライアントから扱うための接続面です。SERP、Unlocker、Browser、Crawl を、エージェントが必要に応じて使い分けるための橋渡しと考えるとわかりやすいです。

MCP が向く場面

  • 人間が自然言語で調査を指示する
  • AI エージェントに Web 検索や引用付き回答をさせる
  • 取得ロジックをアプリ実装ではなくツール接続として持ちたい

MCP だけでは足りない場面

  • 取得結果を厳密に ETL したい
  • 大量ジョブをスケジュールで回したい
  • コスト制御や SLA を API レベルで細かく組みたい

実装パターン 1: MCP の接続設定

Lv4 の最小構成は、AI クライアントに Bright Data MCP を登録することです。

{
  "mcpServers": {
    "brightdata": {
      "command": "npx",
      "args": ["@brightdata/mcp"]
    }
  }
}

実際の設定値は利用クライアントや実行環境で変わりますが、Lv4 では「MCP サーバーを 1 つ登録し、AI から呼べるようにする」という考え方を押さえれば十分です。

実装パターン 2: RAG 前提のデータ整形

AI 実践では、取得そのものより「LLM が読みやすい形」に整えることが重要です。Crawl API の Markdown 出力は、そのまま RAG に流しやすい形式です。

documents = [
    {
        "source": "https://example.com/docs/start",
        "content": markdown_text,
    }
]
 
for doc in documents:
    print(doc["source"])
    print(doc["content"][:500])

Lv4 では、完全なベクトル検索基盤を作る必要はありません。まずは「URL と本文をセットで保持し、回答時に引用できる形にする」ことが重要です。

評価の観点

AI 系の実装では、取得品質と回答品質を分けて見ます。

観点見るもの
取得品質取得成功率、欠損率、鮮度
回答品質引用率、根拠の一貫性、回答遅延
エージェント品質不要なツール呼び出し、再試行回数、失敗時のフォールバック

取得が成功しても、回答が引用を失えば品質は下がります。逆に、回答が自然でも根拠 URL がなければ運用しにくくなります。

フレームワークとのつなぎ方

Lv4 では、Bright Data 単体で完結するより、AI フレームワークの入力源として使うことが増えます。公式 Blog でも LangChain、Haystack、Weaviate との連携例が案内されています。

代表的な接続先

  • LangChain: 検索と取得をツール化しやすい
  • Haystack: 検索、抽出、回答のパイプラインに載せやすい
  • Weaviate: Crawl で集めた文書をベクトル検索へ流しやすい

接続時の実務ルール

  • 取得レイヤーと生成レイヤーを分ける
  • 引用 URL を必ず保持する
  • 同じ問い合わせで無駄に再取得しない

Lv4 で使う外部一次情報

実装時は、次の一次情報を併読すると理解が速いです。

Docs では概念、Blog では実装の勘所を見る、という分担で読むと効率的です。

Lv4 でよくある落とし穴

すべてをエージェント任せにする

MCP は便利ですが、取得基盤そのものを不要にするわけではありません。再利用するデータ、非同期で回すジョブ、定期供給データは引き続き設計が必要です。

HTML をそのまま大量投入する

RAG や評価系では、Markdown や構造化 JSON のほうが扱いやすい場面が多いです。データ形式の選択も品質に影響します。

回答だけ見て裏側の取得を見ない

エージェントの挙動評価では、どの API を使い、何回呼び、どの URL を引用したかを追えるようにする必要があります。

Lv4 の到達イメージ

Lv4 を終える頃には、Bright Data は「スクレイピング API」ではなく、「AI が現実世界の最新情報へ触れるための接続面」として見えてきます。SERP、Unlocker、Browser、Crawl を個別に覚えるだけでなく、質問内容に応じてどの取得手段を選ぶかまで設計できる状態が目標です。

Lv4 を終える判断

次の状態なら Lv5 に進めます。

  • AI クライアントから Bright Data を呼べる
  • 検索、抽出、引用の流れを説明できる
  • 取得品質と回答品質を分けて評価できる
  • RAG や Deep Research の基礎構成を組める

次に学ぶこと

Lv5 では、ここまで作った仕組みを本番運用へ寄せます。権限分離、期限ローテーション、監査ログ、SLA、コスト監視を通じて、AI とデータ収集の両方を安全に回せる形へ仕上げます。