Dify抓取网站官网的联系邮箱和联系电话

在 Dify 中抓取网站官网的联系邮箱和联系电话，可以通过结合网页抓取工具（如 Firecrawl、Bright Data）+ 大模型信息提取的方式实现，全程无需写代码。以下是详细操作步骤：

✅ 一、准备工作

确保你已部署好 Dify 环境（如本地 Docker 部署或使用云服务）。
注册并获取 Firecrawl 或 Bright Data 的 API 密钥（推荐 Firecrawl，免费额度够用）。
在 Dify 中启用插件系统，并添加 Firecrawl 插件（或使用内置的“网页抓取”节点）。

✅ 二、构建工作流（以 Firecrawl + 大模型提取为例）
步骤 1：创建“开始”节点
添加一个输入字段，例如 target_url，用于填写你要抓取的官网地址（如 https://example.com/contact）。
步骤 2：添加 Firecrawl 单页抓取节点
在工具栏中选择 Firecrawl → 单页面抓取（Scrape URL）。
输入变量设为 {{target_url}}。
输出格式建议选 Markdown（结构清晰，便于后续提取）。
🔔 首次使用需在 Dify 中配置 Firecrawl 的 API Key（在「工具」→「Firecrawl」→「设置」中填入）。
步骤 3：添加大模型节点（用于信息提取）
使用 LLM 节点（如 DeepSeek、GPT-4o 等），提示词（Prompt）如下：

text
你是一个专业的信息提取助手。请从以下网页内容中提取出：
联系邮箱（contact email）
联系电话（phone number）

如果找不到，请返回“未找到”。

网页内容：
{{firecrawl_output}}
输出变量可命名为 extracted_info。
步骤 4（可选）：结构化输出或保存到知识库
可再加一个参数提取器节点，将邮箱和电话分别提取为独立变量（如 email, phone）。
或通过 HTTP 请求节点，将结果存入数据库/知识库/发送邮件等。

✅ 三、示例效果

输入：

target_url = https://example.com/contact

Firecrawl 抓取后得到网页 Markdown 内容，例如：
markdown
联系我们
邮箱：[email protected]
电话：+86 138 0013 8000

大模型提取后输出：
json
{
"email": "c[email protected]m",
"phone": "+86 138 0013 8000"
}

✅ 四、注意事项
某些网站会反爬，建议优先抓取 /contact、/about、/footer 等常见页面。
如果目标网站是动态加载（如 React/Vue），Firecrawl 支持渲染 JavaScript，但需开启 wait_until 参数（在高级选项中）。
提取准确率依赖大模型能力，可优化 Prompt 提高精度，例如要求“只输出 JSON 格式”。

📌 补充：批量抓取多个官网？

若需批量处理（如从 Excel 导入 100 个官网 URL）：

将 URL 列表作为字符串输入（每行一个）。
用 “文本分割”节点转为数组。
接入 “迭代”节点，对每个 URL 并行执行上述流程。
最后用 “结果汇总”节点合并所有邮箱和电话。