要從網頁上抓取圖片網址,可以使用以下步驟:
檢查網頁結構:首先,打開目標網頁並使用瀏覽器的開發者工具(通常是按F12或右鍵選擇「檢查」)來查看網頁的HTML結構。找到圖片所在的標籤,通常是<img>
標籤,並觀察其src
屬性的值。
使用Python抓取圖片網址:
requests
和BeautifulSoup
。requests
庫獲取網頁內容,然後用BeautifulSoup
解析HTML,提取圖片網址。以下是範例程式碼:
import requests
from bs4 import BeautifulSoup
# 目標網頁URL
url = "https://example.com"
# 發送HTTP請求
response = requests.get(url)
# 解析HTML內容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有圖片標籤
img_tags = soup.find_all('img')
# 提取圖片網址
img_urls = [img['src'] for img in img_tags]
# 輸出圖片網址
for img_url in img_urls:
print(img_url)
處理相對路徑:如果圖片網址是相對路徑(例如/images/example.jpg
),需要將其轉換為絕對路徑。可以使用urllib.parse.urljoin
來完成:
from urllib.parse import urljoin
base_url = "https://example.com"
absolute_urls = [urljoin(base_url, img_url) for img_url in img_urls]
保存圖片:如果需要將圖片下載到本地,可以使用requests
庫:
for i, img_url in enumerate(absolute_urls):
img_data = requests.get(img_url).content
with open(f'image_{i}.jpg', 'wb') as handler:
handler.write(img_data)
透過以上步驟,你可以輕鬆抓取網頁上的圖片網址並進行進一步處理。