Dify抓取网站官网的联系邮箱和联系电话

Dify抓取网站官网的联系邮箱和联系电话

an
an
2025-12-22 / 0 评论 / 2 阅读 / 正在检测是否收录...

在 Dify 中抓取网站官网的联系邮箱和联系电话,可以通过 结合网页抓取工具(如 Firecrawl、Bright Data)+ 大模型信息提取 的方式实现,全程无需写代码。以下是详细操作步骤:

✅ 一、准备工作

  1. 确保你已部署好 Dify 环境(如本地 Docker 部署或使用云服务)。
  2. 注册并获取 Firecrawl 或 Bright Data 的 API 密钥(推荐 Firecrawl,免费额度够用)。
  3. 在 Dify 中启用插件系统,并添加 Firecrawl 插件(或使用内置的“网页抓取”节点)。

✅ 二、构建工作流(以 Firecrawl + 大模型提取为例)
步骤 1:创建“开始”节点
添加一个输入字段,例如 target_url,用于填写你要抓取的官网地址(如 https://example.com/contact)。
步骤 2:添加 Firecrawl 单页抓取节点
在工具栏中选择 Firecrawl → 单页面抓取(Scrape URL)。
输入变量设为 {{target_url}}。
输出格式建议选 Markdown(结构清晰,便于后续提取)。
🔔 首次使用需在 Dify 中配置 Firecrawl 的 API Key(在「工具」→「Firecrawl」→「设置」中填入)。
步骤 3:添加大模型节点(用于信息提取)
使用 LLM 节点(如 DeepSeek、GPT-4o 等),提示词(Prompt)如下:

text
你是一个专业的信息提取助手。请从以下网页内容中提取出:
联系邮箱(contact email)
联系电话(phone number)

如果找不到,请返回“未找到”。

网页内容:
{{firecrawl_output}}
输出变量可命名为 extracted_info。
步骤 4(可选):结构化输出或保存到知识库
可再加一个 参数提取器 节点,将邮箱和电话分别提取为独立变量(如 email, phone)。
或通过 HTTP 请求节点,将结果存入数据库/知识库/发送邮件等。

✅ 三、示例效果

输入:

target_url = https://example.com/contact

Firecrawl 抓取后得到网页 Markdown 内容,例如:
markdown
联系我们
邮箱:[email protected]
电话:+86 138 0013 8000

大模型提取后输出:
json
{
"email": "c[email protected]m",
"phone": "+86 138 0013 8000"
}

✅ 四、注意事项
某些网站会反爬,建议优先抓取 /contact、/about、/footer 等常见页面。
如果目标网站是动态加载(如 React/Vue),Firecrawl 支持渲染 JavaScript,但需开启 wait_until 参数(在高级选项中)。
提取准确率依赖大模型能力,可优化 Prompt 提高精度,例如要求“只输出 JSON 格式”。

📌 补充:批量抓取多个官网?

若需批量处理(如从 Excel 导入 100 个官网 URL):

  1. 将 URL 列表作为字符串输入(每行一个)。
  2. 用 “文本分割”节点 转为数组。
  3. 接入 “迭代”节点,对每个 URL 并行执行上述流程。
  4. 最后用 “结果汇总”节点 合并所有邮箱和电话。
0

评论

博主关闭了当前页面的评论