本项目是一个遵循 Model Context Protocol (MCP) 协议的 Python 实现,专注于提取网页内容,并将其转换为优化的 Markdown 格式,十分适合大型语言模型(LLM)进行处理。
fastmcp run server.py
curl -X POST http://localhost:8000/tools/extract_content \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'
git clone https://github.com/jmh108/MCP-server-readability-python.git
cd MCP-server-readability-python
python -m venv venv
source venv/bin/activate # 在 Windows 上使用:venv\Scripts\activate
pip install -r requirements.txt
extract_content抓取并转换网页内容为干净的 Markdown。
参数:
{
"url": {
"type": "string",
"description": "要解析的网站 URL",
"required": true
}
}
返回值:
{
"content": "Markdown 内容..."
}
与简单的抓取请求不同,此服务器:
要在 MCP 设置文件中配置服务器,请添加以下内容:
{
"mcpServers": {
"readability": {
"command": "fastmcp",
"args": ["run", "server.py"],
"env": {}
}
}
}
然后使用 MCP 协议启动服务器,并通过 parse 工具访问。
此项目基于原始 server-moz-readability 实现改编,由 emzimmer 开发。(有关原始 README 文档,请参见 原始 README.md。)
此 Python 实现有条理地将原始概念转换为基于 FastMCP 的 MCP 运行的 FastMCP。
此项目遵循 MIT 许可证。有关详细信息,请参见 LICENSE 文件。