标签 Dify 下的文章

标签搜索

叶未

累计撰写 26 篇文章
累计收到 2 条评论

搜索到 1 篇与的结果

2025-12-22
Dify抓取网站官网的联系邮箱和联系电话在 Dify 中抓取网站官网的联系邮箱和联系电话，可以通过结合网页抓取工具（如 Firecrawl、Bright Data）+ 大模型信息提取的方式实现，全程无需写代码。以下是详细操作步骤：✅ 一、准备工作确保你已部署好 Dify 环境（如本地 Docker 部署或使用云服务）。注册并获取 Firecrawl 或 Bright Data 的 API 密钥（推荐 Firecrawl，免费额度够用）。在 Dify 中启用插件系统，并添加 Firecrawl 插件（或使用内置的“网页抓取”节点）。✅ 二、构建工作流（以 Firecrawl + 大模型提取为例）步骤 1：创建“开始”节点添加一个输入字段，例如 target_url，用于填写你要抓取的官网地址（如 https://example.com/contact）。步骤 2：添加 Firecrawl 单页抓取节点在工具栏中选择 Firecrawl → 单页面抓取（Scrape URL）。输入变量设为 {{target_url}}。输出格式建议选 Markdown（结构清晰，便于后续提取）。🔔 首次使用需在 Dify 中配置 Firecrawl 的 API Key（在「工具」→「Firecrawl」→「设置」中填入）。步骤 3：添加大模型节点（用于信息提取）使用 LLM 节点（如 DeepSeek、GPT-4o 等），提示词（Prompt）如下：text你是一个专业的信息提取助手。请从以下网页内容中提取出：联系邮箱（contact email）联系电话（phone number）如果找不到，请返回“未找到”。网页内容：{{firecrawl_output}}输出变量可命名为 extracted_info。步骤 4（可选）：结构化输出或保存到知识库可再加一个参数提取器节点，将邮箱和电话分别提取为独立变量（如 email, phone）。或通过 HTTP 请求节点，将结果存入数据库/知识库/发送邮件等。✅ 三、示例效果输入：target_url = https://example.com/contactFirecrawl 抓取后得到网页 Markdown 内容，例如：markdown联系我们邮箱：[email protected]电话：+86 138 0013 8000大模型提取后输出：json{"email": "[email protected]","phone": "+86 138 0013 8000"}✅ 四、注意事项某些网站会反爬，建议优先抓取 /contact、/about、/footer 等常见页面。如果目标网站是动态加载（如 React/Vue），Firecrawl 支持渲染 JavaScript，但需开启 wait_until 参数（在高级选项中）。提取准确率依赖大模型能力，可优化 Prompt 提高精度，例如要求“只输出 JSON 格式”。📌 补充：批量抓取多个官网？若需批量处理（如从 Excel 导入 100 个官网 URL）：将 URL 列表作为字符串输入（每行一个）。用 “文本分割”节点转为数组。接入 “迭代”节点，对每个 URL 并行执行上述流程。最后用 “结果汇总”节点合并所有邮箱和电话。
- 2025年12月22日
- 2 阅读
- 0 评论
- 0 点赞