tối proxyscrape logo

Cách sử dụng proxy với mô-đun yêu cầu trong Python

Hướng dẫn, làm thế nào để, proxy, Tháng 3-03-20225 phút đọc

Every computer gets a unique Internet Protocol (IP) address that identifies the computer and its geographic location when connected to the Internet. Your computer sends out a request whenever it needs any information from the Internet. The request is sent to a target computer that checks the type of information being asked for. The target

Mỗi máy tính nhận được một địa chỉ Giao thức Internet (IP) duy nhất xác định máy tính và vị trí địa lý của nó khi được kết nối với Internet. Máy tính của bạn sẽ gửi yêu cầu bất cứ khi nào nó cần bất kỳ thông tin nào từ Internet. Yêu cầu được gửi đến một máy tính mục tiêu để kiểm tra loại thông tin được yêu cầu. Máy tính mục tiêu sẽ gửi lại thông tin nếu được phép cung cấp cho địa chỉ IP của chúng tôi. Đôi khi, máy tính muốn lấy thông tin từ Internet mà không bị nhận dạng. Thông tin đó thường bị chặn, nhưng chúng ta có thể lấy nó bằng cách sử dụng proxy hoạt động như một trung gian giữa máy khách và máy chủ.

Mỗi máy chủ proxy có địa chỉ IP của nó, vì vậy khi người dùng yêu cầu thông qua proxy để truy cập một trang web, trang web sẽ gửi dữ liệu đến IP máy chủ proxy để chuyển tiếp nó cho người dùng.

  • Proxy ẩn danh tính của người quét web và làm cho lưu lượng truy cập của họ trông giống như lưu lượng truy cập người dùng thông thường.
  • Proxy cung cấp bảo mật bổ sung cho các trang web và cân bằng lưu lượng truy cập internet.
  • Proxy bảo vệ dữ liệu của người dùng web hoặc giúp truy cập các trang web bị chặn bởi cơ chế kiểm duyệt của một quốc gia.

Sử dụng proxy với mô-đun yêu cầu bằng Python

Để sử dụng proxy với các yêu cầu Python, bạn cần làm theo các bước dưới đây.

Yêu cầu nhập khẩu

Nhập gói yêu cầu là một thư viện HTTP đơn giản. Bạn có thể dễ dàng gửi yêu cầu thông qua gói này mà không cần thêm chuỗi truy vấn vào URL của mình theo cách thủ công. Bạn có thể nhập yêu cầu bằng lệnh bên dưới.

Yêu cầu nhập khẩu

Tạo từ điển

Bạn cần tạo một từ điển proxy xác định các kết nối HTTP và HTTPS. Bạn có thể đặt cho biến từ điển bất kỳ tên nào như "proxy" ánh xạ giao thức tới URL proxy. Hơn nữa, bạn phải đặt biến URL cho trang web mà bạn phải cạo.

proxies = {
  "http":'http://203.190.46.62:8080',
  "https":'https://111.68.26.237:8080'
}
url = 'https://httpbin.org/ip'

Ở đây từ điển xác định URL của proxy cho hai giao thức riêng biệt: i-e, HTTP và HTTPS.

Tạo một biến phản hồi

Bạn phải tạo một biến phản hồi sử dụng bất kỳ phương thức yêu cầu nào. Phương pháp này có hai đối số:

  • URL bạn đã tạo
  • Từ điển bạn đã định nghĩa
response = yêu cầu. get(url,proxy = proxy)
in(response.json())

Đầu ra là:

Bạn cũng có thể sử dụng mô-đun yêu cầu trong Python để xoay các địa chỉ IP như hình dưới đây.

Bạn phải nhập mô-đun yêu cầu bằng cách sử dụng lệnh bên dưới.

Yêu cầu nhập khẩu

Tạo hàm sending_request

Bạn phải tạo một hàm sending_request và thích sử dụng proxy http vì hầu hết các proxy miễn phí không sử dụng giao thức https. Chúng tôi đã sử dụng khối try-except vì hầu hết các proxy miễn phí không hoạt động.

def sending_request(session, proxy):
    try:
        response = session.get('http://httpbin.org/ip', proxies={'http': f"http://{proxy}"})
        print(response.json())
    except:
        pass

Đọc proxies_txt

Bạn phải đọc tệp list_proxies.txt có chứa danh sách proxy miễn phí và lưu nó vào biến có tên proxy.

Nếu __name__ == "__main__":
    với open('list_proxies.txt', 'r') dưới dạng tệp:
        proxy = file.readlines()

Tạo phiên

Bạn phải tạo một phiên từ mô-đun yêu cầu và làm theo các bước dưới đây.

  • Lặp qua proxy
  • Chuyển proxy và phiên đến hàm sending_request
với các yêu cầu. Session()  session:
    Đối với proxy trong proxy:
        sending_request(phiên, proxy)

Bạn sẽ nhận được danh sách các proxy như hình dưới đây.

Đây là một số proxy và danh sách tiếp tục với nhiều proxy hơn, nhưng tất cả chúng đều không hoạt động.

Cần proxy

Mọi doanh nghiệp cần biết năm lý do quan trọng của công ty để sử dụng proxy được đề cập dưới đây.

Ẩn danh thực hiện các nhiệm vụ nhạy cảm

Proxy nổi tiếng với khả năng ẩn danh lưu lượng truy cập web. Nhưng hầu hết mọi người không hiểu tầm quan trọng của họ trong ngành kinh doanh. Máy chủ proxy cho phép các nhân viên an ninh và phóng viên tự bảo vệ mình, công ty, nguồn, khách hàng và đối tác.

Bạn cũng có thể sử dụng proxy để bảo vệ sự phát triển và nghiên cứu hiện tại và các hoạt động khác của công ty. Giả sử công ty của bạn sử dụng proxy và gián điệp tiềm năng để theo dõi lưu lượng truy cập web để xác định doanh nghiệp của bạn đang phát triển gì. Trong trường hợp đó, nó sẽ không thể theo dõi nhân viên của bạn một cách dễ dàng.

Cải thiện an ninh doanh nghiệp và thể chế

Bạn biết rằng vi phạm dữ liệu rất tốn kém cả về hình ảnh công khai và tổn thất tiền bạc. Vì vậy, các công ty đang lo lắng về tin tặc. Nhưng proxy có thể giúp bạn vì chúng làm giảm nguy cơ vi phạm dữ liệu. Chúng thêm một lớp bảo mật bổ sung giữa máy chủ của bạn và lưu lượng truy cập bên ngoài. Các máy chủ proxy cũng hoạt động như một bộ đệm khi chúng đối mặt với internet và chuyển tiếp các yêu cầu từ các máy tính bên ngoài mạng.

Nếu tin tặc có quyền truy cập vào máy chủ proxy của bạn, chúng vẫn sẽ gặp khó khăn khi truy cập vào máy chủ chạy phần mềm web nơi dữ liệu được lưu trữ.

Kiểm soát việc sử dụng Internet của nhân viên

Bạn biết rằng vi phạm dữ liệu rất tốn kém cả về hình ảnh công khai và tổn thất tiền bạc. Vì vậy, các công ty đang lo lắng về tin tặc. Nhưng proxy có thể giúp bạn vì chúng làm giảm nguy cơ vi phạm dữ liệu. Chúng thêm một lớp bảo mật bổ sung giữa máy chủ của bạn và lưu lượng truy cập bên ngoài. Các máy chủ proxy cũng hoạt động như một bộ đệm khi chúng đối mặt với internet và chuyển tiếp các yêu cầu từ các máy tính bên ngoài mạng.

Nếu tin tặc có quyền truy cập vào máy chủ proxy của bạn, chúng vẫn sẽ gặp khó khăn khi truy cập vào máy chủ chạy phần mềm web nơi dữ liệu được lưu trữ.

Tiết kiệm băng thông và đạt được tốc độ nhanh hơn

Một số người cho rằng các máy chủ proxy làm chậm tốc độ internet do khối lượng lớn công việc họ thực hiện trong nền. Nhưng điều đó không phải lúc nào cũng đúng. Các máy chủ proxy có thể được sử dụng để tiết kiệm băng thông và tăng tốc độ bằng cách:

  • Bộ nhớ đệm các trang web và tệp được nhiều người dùng truy cập
  • Nén lưu lượng truy cập
  • Tước quảng cáo khỏi trang web

Sử dụng proxy nào?

Bạn có thể nghĩ rằng có loại proxy duy nhất cung cấp tất cả các lợi ích cho doanh nghiệp, chẳng hạn như:

  • Ngăn chặn vi phạm dữ liệu
  • Đặt giá cạnh tranh
  • Thu thập dữ liệu có giá trị trên phương tiện truyền thông xã hội
  • Xây dựng chiến lược SEO hiệu quả

Trong thực tế, có rất nhiều loại proxy có sẵn và loại proxy để sử dụng phụ thuộc vào yêu cầu hoặc trường hợp sử dụng của bạn.

Dưới đây là các loại proxy phổ biến nhất.

Proxy trung tâm dữ liệu

Proxy trung tâm dữ liệu là proxy phổ biến nhất được sử dụng bởi các doanh nghiệp trên toàn thế giới. Các trung tâm dữ liệu sản xuất và quản lý các proxy này. Bạn có thể sử dụng các proxy này nếu bạn phải cải thiện tính bảo mật của hệ thống vì chúng rẻ và dễ mua. Nhưng một số trang web cấm sử dụng chúng vì chúng liên kết chúng với hoạt động giống như bot.

Proxy dân cư

Các proxy dân cư được liên kết với nơi cư trú thực tế và sử dụng địa chỉ IP của những người thực tế được cung cấp bởi Nhà cung cấp dịch vụ Internet (ISP). Khi bạn sử dụng chúng để kết nối với một trang web, bạn trông giống như một người dùng hàng ngày. Do đó, bạn ít có khả năng bị phát hiện và cấm. Bạn có thể cạo một lượng lớn dữ liệu web bằng proxy dân dụng và đạt được tính ẩn danh và bảo mật được cải thiện.

Kết thúc

Cho đến nay, chúng tôi đã thảo luận rằng một proxy hoạt động như một chuyển tiếp giữa máy khách và máy chủ. Bất cứ khi nào bạn yêu cầu thông tin, máy tính của bạn sẽ gửi yêu cầu này đến proxy, sau đó gửi thông tin đến máy tính đích bằng địa chỉ IP khác. Do đó, địa chỉ IP của bạn vẫn được bảo mật. Hơn nữa, bạn có thể sử dụng proxy với mô-đun yêu cầu bằng Python và thực hiện các hành động khác nhau tùy thuộc vào nhu cầu của bạn. Nếu bạn cần một IP tĩnh với tốc độ của proxy trung tâm dữ liệu và tính ẩn danh cao của proxy dân cư , thì proxy tĩnh là cách để đi vì địa chỉ IP vẫn không thay đổi với mỗi yêu cầu mới. Ngược lại, các proxy xoay vòng mang lại lợi ích trong việc kiểm tra và cạo.