Langflow 微教程 — 链接抓取器

欢迎回到我们的 Langflow 微教程系列!在本文中,我们将继续探索 Langflow 的简单示例和自定义…

Langflow Micro Tutorials — Links Scraper

欢迎回到我们的 Langflow 微教程系列!在本文中,我们将继续探索 Langflow 的简单示例和自定义组件设计。

您可以在此处下载我们将要讨论的流程,以便修改和理解正在使用的组件。

今天,我们将重点介绍一个基本的网络抓取流程,用于提取可能包含有价值信息的链接。希望您喜欢!

主要特性

HTML 加载器:HTML 加载器自定义组件使用 BeautifulSoup 库从给定 URL 中检索 soup 对象。这使得从 HTML 文档中轻松提取相关信息成为可能。

HTML 链接提取器:HTML 链接提取器从 HTML 内容中获取链接。通过利用 BeautifulSoup,该组件减少了信息在由 LLM 处理之前的文本量,从而节省了时间和 token 成本。

目标

此流程的目标是从 HTML 文档中提取相关链接,并以项目符号的形式呈现给语言模型。

该模型旨在识别可能包含公司电子邮件的链接(在本例中使用了“email”,但您可以想象使用不同查询的类似用例),例如“关于我们”和“联系我们”页面。

请注意,在将 HTML 信息传递给提示模板之前进行了一些预处理,这使得自定义组件和 LLM 管道更具吸引力。


下载流程(gist)