cURL là chữ viết tắt của URL máy khách và công cụ dòng lệnh để gửi và nhận dữ liệu từ máy chủ. Nó được phân phối cho các Hệ điều hành hiện đại, bao gồm các bản phân phối Windows 10 và Linux. Đây là một thư viện thuận tiện cho phép bạn gửi và nhận dữ liệu đến và đi từ các trang web và là một công cụ quan trọng cho nhu cầu quét web của bạn. Trước khi xem xét một ví dụ đơn giản, chúng ta hãy tìm hiểu những gì bạn cần biết để cài đặt nó.
sudo apt cài đặt curl.
Trong Windows, mở thiết bị đầu cuối hoặc dấu nhắc lệnh của bạn và gõ:
Trên bảng điều khiển, nó sẽ in HTML của trang.
cURL truyền dữ liệu đến và đi từ các trang web với sự trợ giúp của Giao thức Internet. Mặc dù ban đầu, cURL được phát triển để hoạt động với các giao thức HTTP, nhưng hiện tại nó hỗ trợ nhiều giao thức mạng như FTP, IMAP, IMAPS, SMTP, POP3, POP3S và các giao thức khác.
Nó cũng hỗ trợ POST, GET, PUT và một số phương thức khác khi gửi yêu cầu. Hãy xem xét một ví dụ về việc gửi một số dữ liệu với dữ liệu bài đăng.
Đoạn mã trên -d biểu thị rằng bạn đang sử dụng phương thức post để chuyển tên của bạn và một số giá trị đến trang bài đăng của examplewebsite.com.
Bây giờ bạn đã biết cURL là gì và hãy chuyển sang sử dụng nó với proxy.
Định cấu hình cURL với địa chỉ proxy sẽ giúp mọi người tăng cường giao tiếp dữ liệu của họ với tất cả các tính năng proxy đó.
Sử dụng cURL với proxy sẽ đảm bảo người dùng có thể ẩn danh tính của họ khỏi máy chủ. Nếu người dùng thích truy xuất thông tin mà không cho người khác biết danh tính thực của họ, họ có thể định cấu hình địa chỉ proxy với yêu cầu lệnh cURL của họ. Trong trường hợp này, proxy sẽ thay mặt họ chuyển tiếp yêu cầu của người dùng và ẩn danh tính thực tế. Proxyscrape cung cấp proxy của tất cả các loại giao thức như HTTP, Socks4và Socks5 Điều đó có thể duy trì ẩn danh cho tất cả các loại yêu cầu
Khi người dùng của một vị trí bị hạn chế thu thập nội dung từ các trang web có ranh giới địa lý khác, proxy sẽ giúp họ vượt qua những hạn chế đó. Proxyscrape đang cung cấp proxy của nhiều quốc gia để người dùng có thể chọn proxy cần thiết để vượt qua các chặn địa lý.
Bạn có thể sử dụng proxy để kết nối với một trang web bằng cURL. Ví dụ: proxy rất cần thiết trong các trường hợp khi bạn sử dụng cURL để thu thập dữ liệu. Sau đó, bạn vẫn ẩn danh với trang web mục tiêu mà bạn đang cạo.
Để kết nối với proxy, bạn sẽ cần địa chỉ máy chủ proxy, số cổng và loại giao thức và nếu cần xác thực, bạn sẽ cần nhập tên người dùng và mật khẩu. Hãy xem xét một ví dụ đơn giản: chúng tôi giả sử địa chỉ proxy là 127.0.0.1 và số cổng là 8920. Ví dụ được đề cập dưới đây là các nguyên tắc cơ bản của proxy kết nối với cURL, sẽ hoạt động cho bất kỳ dịch vụ proxy nào.
Cú pháp để kết nối với proxy sẽ là:
sẽ thay thế bằng:
Lệnh trên sẽ định tuyến kết nối của bạn thông qua proxy đến examplewebsite.com.
Bây giờ chúng ta sẽ xem xét một ví dụ yêu cầu xác thực trong đó tên người dùng là tên người dùng và mật khẩu là mật khẩu.
Bây giờ bạn có thể tìm ra lệnh nào sẽ sử dụng khi kết nối cURL với giao thức proxy, sử dụng:
Chắc chắn nó sẽ trả về một danh sách khổng lồ và chúng tôi sẽ tập trung vào lệnh cơ bản nhất được liệt kê bên dưới:
Trong lệnh này, x cùng với –proxy biểu thị các chi tiết proxy, nơi bạn có thể sử dụng một trong hai vì cả hai đều đúng. Tuy nhiên, hãy lưu ý rằng x phân biệt chữ hoa chữ thường.
Ngoài ra, để đảm bảo rằng bạn đang sử dụng proxy, bạn có thể sử dụng lệnh sau:
Lệnh này thường sẽ trả về địa chỉ IP của nguồn gốc. Vì vậy, nếu bạn đang sử dụng máy chủ proxy, nó sẽ trả về địa chỉ IP của máy chủ proxy thay vì của bạn.
Vì vậy, bây giờ, đặt tất cả lại với nhau, bạn có thể gửi yêu cầu như sau:
Ngoài ra, lệnh dưới đây sẽ giống như trên:
Một thực tế quan trọng cần ghi nhớ ở đây là bạn nên sử dụng dấu ngoặc kép cho cả URL proxy và URL mục tiêu làm phương pháp hay nhất. Đó là do sự hiện diện của các ký tự đặc biệt trong URL.
Ngoài ra, nếu bạn gặp bất kỳ lỗi chứng chỉ SSL nào, bạn cần thêm chữ thường -k vào cuối lệnh như hình dưới đây:
Điều này sẽ cho phép các kết nối không an toàn đi qua khi sử dụng kết nối SSL.
Khi sử dụng proxy, giao thức mặc định là HTTP trừ khi có quy định rõ ràng khác. Do đó, cả hai lệnh dưới đây đều đúng:
Nếu bạn muốn có proxy cho cURL, bạn có thể tạo tệp curl-config theo cách sau.
Nếu bạn đang sử dụng macOS hoặc Linux, trước hết, bạn phải mở thiết bị đầu cuối và chuyển đến thư mục chính của mình. Nếu có .curlrc, bạn cần mở nó và tạo một tệp trống mới. Bạn có thể sử dụng các lệnh dưới đây để điều hướng đến tệp:
Vì vậy, sau đó bạn cần thêm dòng này vào tệp:
Lưu tệp và bây giờ bạn có thể sử dụng cURL với proxy. Đơn giản chỉ cần bạn phải chạy cURL bình thường và nó sẽ đọc proxy từ tệp trên:
Vì vậy, lệnh trên sẽ trả về đường dẫn và bạn phải điều hướng đến nó. Sau đó, bạn cần tạo tệp _curlrc và đặt proxy giống như với macOS hoặc Linux.