Python Url地址截取方法

2025/3/11 23:51:41 来源：https://blog.csdn.net/webcai_3/article/details/146102889 浏览: 次关键词：Python Url地址截取方法

在Python中，如果想从HTTP地址（通常是一个URL）中提取信息，比如协议（http或https）、主机名（域名或IP地址）、路径等，你可以使用urllib.parse模块中的urlparse函数。下面是如何使用urlparse来截取HTTP地址中不同部分的示例：

导入模块

首先，需要导入urllib.parse模块：

from urllib.parse import urlparse

使用`urlparse`函数

然后，可以使用urlparse函数来解析URL：

url = "http://www.example.com/path/to/resource?key=value#fragment"
parsed_url = urlparse(url)

访问解析后的URL的各个部分

urlparse返回一个六元素的命名元组（或者在新版本的Python中是11元素的命名元组，包括查询参数和片段），可以通过属性名访问这些部分：

print("Scheme:", parsed_url.scheme)       # 协议（例如 http 或 https）
print("Netloc:", parsed_url.netloc)       # 网络位置（例如 www.example.com）
print("Path:", parsed_url.path)           # 路径（例如 /path/to/resource）
print("Params:", parsed_url.params)      # 参数（不常见，通常为空）
print("Query:", parsed_url.query)        # 查询参数（例如 key=value）
print("Fragment:", parsed_url.fragment)  # 片段标识符（例如 fragment）

完整代码如下：

from urllib.parse import urlparseurl = "http://www.example.com/path/to/resource?key=value#fragment"
parsed_url = urlparse(url)print("Scheme:", parsed_url.scheme)       # 输出: http
print("Netloc:", parsed_url.netloc)       # 输出: www.example.com
print("Path:", parsed_url.path)           # 输出: /path/to/resource
print("Query:", parsed_url.query)        # 输出: key=value
print("Fragment:", parsed_url.fragment)  # 输出: fragment