Hướng dẫn thu thập dữ liệu web bằng Python: Mẹo và thủ thuật

Python , Thu thập dữ liệu ,31-12-20215 phút đọc

Bạn có thể tự động trích xuất một lượng lớn dữ liệu từ các trang web bằng cách sử dụng web scraping và lưu nó vào cơ sở dữ liệu hoặc tệp. Dữ liệu được trích xuất có thể được lưu trữ chủ yếu ở định dạng bảng tính hoặc dạng bảng. Web scraping cũng được gọi là web data extraction web harvest. Nó là cần thiết vì việc trích xuất thủ công là một công việc tẻ nhạt

Mục lục

Tại sao cần phải sử dụng Web Scraping?
Thu thập dữ liệu web bằng Python
Nhập thư viện
Thêm Tiêu đề và URL
Đối tượng BeautifulSoup
Lặp lại qua các hàng
Tạo một Dataframe
Proxy để thu thập dữ liệu web bằng Python
Nhập thư viện
Định nghĩa một hàm
Sử dụng vòng lặp For
Danh sách các Proxy đang hoạt động
Yêu cầu Phiên
Đưa ra yêu cầu
Tại sao Proxy lại quan trọng đối với việc thu thập dữ liệu web?
Kết luận về hướng dẫn Python dành cho Web Scraping này

Bạn có thể tự động trích xuất một lượng lớn dữ liệu từ các trang web bằng cách sử dụng web scraping và lưu vào cơ sở dữ liệu hoặc tệp. Dữ liệu đã trích xuất có thể được lưu trữ chủ yếu ở định dạng bảng tính hoặc dạng bảng. Web scraping cũng được gọi là web data extraction web harvest. Nó là cần thiết vì việc trích xuất thủ công là một công việc tẻ nhạt có thể mất hàng giờ hoặc thậm chí nhiều ngày để hoàn thành. Vì vậy, bạn cần tự động hóa quy trình và trích xuất dữ liệu từ các trang web trong một phần nhỏ thời gian.

Bạn có thể sử dụng phần mềm thu thập dữ liệu web để tự động tải, thu thập và trích xuất dữ liệu từ nhiều trang của một trang web dựa trên nhu cầu và yêu cầu của bạn. Tóm lại, bạn có thể lấy dữ liệu mong muốn từ các trang web chỉ bằng một cú nhấp chuột. Trong thế giới hiện đại, các doanh nghiệp cần phân tích dữ liệu và thực hiện các hành động thông minh. Nhưng đôi khi, việc lấy dữ liệu từ các trang web trở nên khó khăn khi chủ sở hữu trang web sử dụng các kỹ thuật như lệnh cấm IP và CAPTCHA. Bạn có thể sử dụng máy chủ proxy hoặc VPN để khắc phục vấn đề này vì chúng giúp bạn thu thập dữ liệu từ web một cách ẩn danh.

Tại sao cần phải sử dụng Web Scraping?

Các doanh nghiệp trên toàn thế giới thu thập dữ liệu từ web để có được thông tin chi tiết hữu ích bằng cách lưu trữ dữ liệu ở định dạng có thể sử dụng được. Một số ưu điểm của việc thu thập dữ liệu từ web trong nhiều ngành công nghiệp khác nhau được đưa ra dưới đây.

Thu thập dữ liệu web sẽ thu thập các tập dữ liệu đào tạo và thử nghiệm cho các dự án học máy.
Trong thương mại điện tử, công cụ thu thập dữ liệu web được sử dụng để theo dõi giá của đối thủ cạnh tranh.
Công nghệ thu thập dữ liệu web được sử dụng trong Bất động sản để lấy thông tin chi tiết về bất động sản và chủ sở hữu/đại lý.
Trong Tiếp thị, công cụ thu thập dữ liệu web được sử dụng để xây dựng danh sách điện thoại và email phục vụ mục đích tiếp cận khách hàng tiềm năng.

Dưới đây là những lý do chính để thu thập dữ liệu từ web.

Đạt được sự tự động hóa – Bạn có thể trích xuất dữ liệu từ các trang web bằng cách sử dụng trình thu thập dữ liệu web mạnh mẽ. Theo cách này, bạn có thể tiết kiệm thời gian từ các tác vụ thu thập dữ liệu thông thường. Bạn có thể thu thập dữ liệu với khối lượng lớn hơn so với một con người có thể hy vọng đạt được với trình thu thập dữ liệu web. Hơn nữa, bạn cũng có thể tạo các bot web tinh vi để tự động hóa các hoạt động trực tuyến bằng cách sử dụng ngôn ngữ lập trình như Python, Javascript hoặc sử dụng công cụ thu thập dữ liệu web.

Bộ dữ liệu phong phú và độc đáo – Bạn có thể lấy được một lượng lớn hình ảnh, video, văn bản và dữ liệu số từ Internet. Bạn cũng có thể tìm các trang web có liên quan và tạo bộ dữ liệu tùy chỉnh để phân tích, tùy thuộc vào mục tiêu của bạn. Ví dụ, bạn muốn hiểu sâu về thị trường thể thao Vương quốc Anh. Bạn có thể thiết lập trình thu thập dữ liệu web để thu thập nội dung video hoặc thông tin thống kê bóng đá cho bạn.

Quản lý dữ liệu hiệu quả – Bạn không cần phải sao chép và dán dữ liệu từ Internet vì bạn có thể thu thập chính xác dữ liệu từ nhiều trang web khác nhau bằng web scraping. Theo cách này, công ty và nhân viên của bạn có thể dành nhiều thời gian hơn cho công việc sáng tạo bằng cách lưu trữ dữ liệu hiệu quả bằng phần mềm và chương trình tự động.

Trí tuệ kinh doanh và thông tin chi tiết – Trích xuất dữ liệu web từ Internet cho phép bạn thực hiện những việc sau:

Theo dõi hoạt động tiếp thị của đối thủ cạnh tranh
Tìm kiếm giá của đối thủ cạnh tranh
Xây dựng bức tranh lớn hơn về thị trường của bạn

Hơn nữa, các doanh nghiệp có thể đưa ra quyết định tốt hơn bằng cách tải xuống, dọn dẹp và phân tích dữ liệu với khối lượng lớn.

Tốc độ – Web scraping trích xuất dữ liệu từ các trang web với tốc độ cao. Nó cho phép bạn thu thập dữ liệu trong vài giờ thay vì vài ngày. Nhưng một số dự án có thể mất thời gian tùy thuộc vào độ phức tạp của chúng và các nguồn lực và công cụ mà chúng tôi sử dụng để hoàn thành chúng.

Độ chính xác của dữ liệu – Trích xuất dữ liệu thủ công từ các trang web liên quan đến lỗi của con người, dẫn đến các vấn đề nghiêm trọng. Do đó, trích xuất dữ liệu chính xác là rất quan trọng đối với bất kỳ thông tin nào, có thể thực hiện được bằng cách trích xuất dữ liệu web.

Thu thập dữ liệu web bằng Python

Giả sử bạn phải trích xuất dữ liệu từ trang web này . Bạn sẽ phải cài đặt hai mô-đun Python là requests và BeautifulSoup.

Nhập thư viện

Bạn có thể cài đặt các mô-đun này bằng cách sử dụng lệnh sau.

!pip cài đặt yêu cầu !pip cài đặt BeautifulSoup

Bạn có thể nhập các mô-đun này dưới dạng:

từ bs4 nhập BeautifulSoup yêu cầu nhập

Bạn có thể nhấp vào nút Kiểm tra ở góc trên bên trái của trang web để làm nổi bật các thành phần bạn muốn trích xuất. Trong trường hợp của chúng tôi, chúng tôi muốn trích xuất dữ liệu bảng của trang web này như được hiển thị bên dưới.

Thêm Tiêu đề và URL

Bạn phải thêm tiêu đề và URL vào yêu cầu của mình. Tiêu đề có thể xóa yêu cầu của bạn để trông giống như nó đến từ một trình duyệt hợp lệ.

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}

url = "https://en.wikipedia.org/wiki/List_of_national_capitals"

Bạn có thể sử dụng hàm requests.get() để gửi yêu cầu GET đến URL đã chỉ định.

r = yêu cầu. lấy (url, tiêu đề = tiêu đề)

Đối tượng BeautifulSoup

Bạn phải khởi tạo đối tượng BeautifulSoup và đề cập đến các tham số của nó. Sau đó, bạn phải trích xuất tất cả các hàng của bảng. Bạn có thể lấy tất cả các phần tử của bảng bằng cách sử dụng phương thức find_all() như được hiển thị trong mã bên dưới.

soup = BeautifulSoup(r.content, "html.parser" ) bảng = soup.find_all( 'table' )[ 1 ] hàng = table.find_all( 'tr' ) danh sách hàng = danh sách()

Lặp lại qua các hàng

Bạn có thể sử dụng vòng lặp for để lặp qua tất cả các hàng trong bảng như được hiển thị trong đoạn mã bên dưới.

đối với tr trong các hàng: td = tr .find_all ( 'td' ) hàng = [i.text đối với i trong td] row_list .append (hàng)

Tạo một Dataframe

Bạn có thể hình dung dữ liệu được trích xuất rõ ràng nếu bạn tạo một khung dữ liệu Pandas và xuất dữ liệu của mình vào tệp .csv. Để tạo một khung dữ liệu, bạn phải nhập Pandas, như được hiển thị bên dưới.

nhập pandas dưới dạng pd

Bây giờ, bạn có thể chuyển đổi đối tượng soup của mình thành một khung dữ liệu chứa các hàng bảng sau.

Thành phố
Quốc gia
Ghi chú

Bạn có thể chuyển đổi khung dữ liệu của mình sang định dạng csv và in khung dữ liệu như hiển thị bên dưới.

df_bs = pd .DataFrame (row_list, columns =[ 'Thành phố' , 'Quốc gia' , 'Ghi chú' ]) df_bs .set_index ( 'Quốc gia' ,inplace=True) df_bs .to_csv ( 'beautifulsoup.csv' ) in (df_bs)

Bạn sẽ nhận được kết quả như bên dưới.

Proxy để thu thập dữ liệu web bằng Python

Proxy hoạt động như một trung gian hoặc người trung gian giữa máy khách và máy chủ. Nó ẩn địa chỉ IP thực của bạn và bỏ qua các bộ lọc và kiểm duyệt. Bạn có thể lấy danh sách proxy miễn phí chỉ bằng cách sử dụng một hàm trong Python, như được hiển thị trong các bước bên dưới.

Nhập thư viện

Bạn phải nhập các mô-đun bên dưới vào Python.

từ bs4 nhập BeautifulSoup nhập yêu cầu nhập ngẫu nhiên

Định nghĩa một hàm

Bạn có thể định nghĩa hàm get_free_proxies() trong đó bạn phải đề cập đến URL của danh sách proxy miễn phí. Sau đó, bạn phải tạo một đối tượng BeautifulSoup và nhận phản hồi HTTP bằng cách sử dụng hàm requests.get().

def get_free_proxies (): url = "https://free-proxy-list.net/" soup = bs (yêu cầu. get (url).content, "html.parser" ) proxy = []

Sử dụng vòng lặp For

Bạn có thể sử dụng phương thức find_all() trong vòng lặp for để lặp qua tất cả các hàng của bảng như được hiển thị bên dưới.

for row in soup.find("table", attrs={"id": "proxylisttable"}).find_all("tr")[1:]:
        tds = row.find_all("td")
        try:
            ip = tds[0].text.strip()
            port = tds[1].text.strip()
            host = f"{ip}:{port}"
            proxies.append(host)
        except IndexError:
            continue
    return proxies

Danh sách các Proxy đang hoạt động

Bạn có thể đề cập đến danh sách một số proxy đang hoạt động như proxy mà chúng tôi đề cập bên dưới.

proxy = [ '167.172.248.53: 3128 ', '194.226.34.132: 5555 ', '203.202.245.62:80', '141.0.70.211: 8080 ', '118.69.50.155:80', '201.55.164.177: 3128 ', '51.15.166.107: 3128 ', '91.205.218.64:80', '128.199.237.57: 8080 ', ]

Yêu cầu Phiên

Bạn phải tạo một hàm get_session() chấp nhận danh sách các proxy. Nó cũng tạo một phiên yêu cầu để chọn ngẫu nhiên bất kỳ proxy nào được truyền như trong mã bên dưới.

def get_session(proxies):
  session = requests.Session()
  proxy = random.choice(proxies)
  session.proxies = {"http": proxy, "https": proxy}
  return session

Đưa ra yêu cầu

Bạn có thể sử dụng vòng lặp for để gửi yêu cầu đến một trang web và nhận lại địa chỉ IP.

đối với i trong phạm vi ( 5 ): s = get_session (proxy) thử: in ( "Yêu cầu trang với IP:" , s .get ( "http://icanhazip.com" , thời gian chờ = 1,5 ) .text .strip ()) ngoại trừ Ngoại lệ là e: tiếp tục

Bạn có thể nhận được kết quả sau.

Tại sao Proxy lại quan trọng đối với việc thu thập dữ liệu web?

Các doanh nghiệp có thể trích xuất dữ liệu có giá trị để đưa ra quyết định dựa trên dữ liệu và cung cấp các dịch vụ dựa trên dữ liệu với web scraping. Proxy rất quan trọng đối với web scraping vì những lý do sau.

Với proxy, bạn có thể thực hiện yêu cầu từ một khu vực địa lý cụ thể và xem nội dung cụ thể mà trang web hiển thị cho vị trí đó. Tính năng này của proxy có lợi khi bạn đang thu thập dữ liệu sản phẩm từ các nhà bán lẻ trực tuyến.
Proxy cho phép bạn thực hiện nhiều yêu cầu hơn đến một trang web mục tiêu mà không bị chặn hoặc cấm.
Proxy cho phép bạn thu thập dữ liệu từ các trang web một cách đáng tin cậy và hiệu quả hơn.
Với proxy, bạn có thể tạo các phiên đồng thời không giới hạn đến cùng một trang web hoặc nhiều trang web khác nhau mà không sợ bị cấm.
Proxy ẩn địa chỉ IP của máy bạn khỏi trang web đích, do đó cung cấp thêm tính bảo mật cho thiết bị của bạn.
Các doanh nghiệp sử dụng proxy để theo dõi giá cả và tính năng sản phẩm của đối thủ cạnh tranh nhằm cải thiện dịch vụ và sản phẩm của họ.

Kết luận về hướng dẫn Python dành cho Web Scraping này

Cho đến nay, chúng ta đã thảo luận rằng web scraping giúp chúng ta trích xuất dữ liệu từ các trang web theo cách tự động. Bạn có thể chuyển đổi dữ liệu thành định dạng có thể sử dụng như tệp .csv. Các doanh nghiệp sử dụng web scraping để kiểm tra giá cả và tính năng sản phẩm của đối thủ cạnh tranh. Web scraping rất hữu ích nếu bạn sử dụng proxy vì chúng giữ danh tính của bạn ẩn danh bằng cách ẩn địa chỉ IP gốc của bạn khỏi trang web mục tiêu. Với proxy , bạn có thể gửi nhiều yêu cầu đến trang web mà không sợ bị chặn hoặc cấm.

Qua: ProxyScrape

Hướng dẫn thu thập dữ liệu web bằng Python: Mẹo và thủ thuật

Mục lục

Tại sao cần phải sử dụng Web Scraping?

Thu thập dữ liệu web bằng Python

Nhập thư viện

Thêm Tiêu đề và URL

Đối tượng BeautifulSoup

Lặp lại qua các hàng

Tạo một Dataframe

Proxy để thu thập dữ liệu web bằng Python

Nhập thư viện

Định nghĩa một hàm

Sử dụng vòng lặp For

Danh sách các Proxy đang hoạt động

Yêu cầu Phiên

Đưa ra yêu cầu

Tại sao Proxy lại quan trọng đối với việc thu thập dữ liệu web?

Kết luận về hướng dẫn Python dành cho Web Scraping này

Bài viết gần đây