Mozilla Readability Parser Mcp Server

Mozilla Readability Parser Mcp Server

🚀 Mozilla 可读性解析器 MCP 服务器

Mozilla 可读性解析器 MCP 服务器是一个基于 Python 的项目,它依据 Model Context Protocol (MCP) 实现。该服务器的主要功能是提取网页内容,并将其转换为适合大语言模型(LLM)处理的干净 Markdown 格式,有效提升内容处理效率。

🚀 快速开始

启动服务器

fastmcp run server.py

示例请求

curl -X POST http://localhost:8000/tools/extract_content \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'

✨ 主要特性

  • 移除广告、导航栏、页脚和其他非必要内容,让网页内容更简洁。
  • 将干净的 HTML 转换为格式良好的 Markdown,方便处理。
  • 平滑处理错误,保障系统稳定运行。
  • 优化 LLM 处理流程,提高处理效率。
  • 轻量且快速,节省资源与时间。

🤔 为何不直接抓取?

与简单的抓取请求相比,此服务器具备以下优势:

  • 使用可读性算法提取相关内容,精准定位核心信息。
  • 消除噪声如广告、弹出窗口和导航菜单,使内容更纯净。
  • 通过移除不必要的 HTML/CSS 减少令牌使用,降低成本。
  • 提供一致的 Markdown 格式以改善 LLM 处理,提升处理效果。
  • 能处理包含动态内容的复杂网页,适应性更强。

📦 安装指南

克隆仓库

git clone https://github.com/jmh108/MCP-server-readability-python.git
cd MCP-server-readability-python

创建并激活虚拟环境

python -m venv venv
source venv/bin/activate  # 在 Windows 上使用:venv\Scripts\activate

安装依赖项

pip install -r requirements.txt

💻 使用示例

extract_content

该工具用于抓取并转换网页内容为干净的 Markdown。

参数

{
"url": {
"type": "string",
"description": "要解析的网站 URL",
"required": true
}
}

返回值

{
"content": "Markdown 内容..."
}

📚 详细文档

MCP 服务器配置

要在 MCP 设置文件中配置该服务器,请添加以下内容:

{
"mcpServers": {
"readability": {
"command": "fastmcp",
"args": ["run", "server.py"],
"env": {}
}
}
}

然后可以通过 parse 工具启动并访问该服务器。

🔧 技术细节

依赖项

📄 许可证

本项目使用 MIT 许可证。有关详细信息,请参阅 LICENSE 文件。

  • 0 关注
  • 0 收藏,19 浏览
  • system 提出于 2025-09-20 21:15

相似服务问题

相关AI产品