Sử dụng cURL với proxy là một cách độc đáo để truy cập các trang web bị chặn bằng cách ẩn danh trong giao tiếp dữ liệu. Cuộc khảo sát gần đây của TechJury cho biết gần 1,14 nghìn tỷ MB dữ liệu được tạo ra mỗi ngày. Vì internet là nguồn dữ liệu khổng lồ dễ truy cập như vậy, mọi người thường thích nhiều cách để truy cập
Sử dụng cURL với proxy là một cách độc đáo để truy cập các trang web bị chặn bằng cách ẩn danh trong giao tiếp dữ liệu. Khảo sát gần đây của TechJury cho biết gần 1,14 nghìn tỷ MB dữ liệu được tạo ra mỗi ngày. Vì internet là nguồn dữ liệu khổng lồ dễ truy cập như vậy, mọi người thường thích nhiều cách để truy cập dữ liệu từ internet. Một trong số đó là truyền thông tin qua các lệnh cURL. Bài viết này sẽ cung cấp cho bạn tổng quan về cURL và giải thích lý do tại sao cần sử dụng cURL với proxy.
cURL là viết tắt của URL máy khách và là công cụ dòng lệnh để gửi và nhận dữ liệu từ máy chủ. Nó được phân phối cho các Hệ điều hành hiện đại, bao gồm các bản phân phối Windows 10 và Linux. Đây là một thư viện tiện lợi cho phép bạn gửi và nhận dữ liệu đến và đi từ các trang web và là một công cụ quan trọng cho nhu cầu thu thập dữ liệu web của bạn. Trước khi xem một ví dụ đơn giản, hãy cùng tìm hiểu những gì bạn cần biết để cài đặt nó.
Hướng dẫn cài đặt - nếu bạn đang sử dụng Hệ điều hành Windows trước phiên bản 10, vui lòng làm theo hướng dẫn trang cài đặt chính thức của hệ điều hành đó. Trong khi đó, nếu bạn đang sử dụng phiên bản Linux, ví dụ như Ubuntu, hãy mở terminal và bạn cần chạy lệnh bên dưới:
sudo apt cài đặt curl.
Chạy một yêu cầu đơn giản - Chúng tôi hy vọng bạn đã cài đặt cURL trong hệ điều hành của mình và sẵn sàng thử nghiệm. Hãy bắt đầu với một ví dụ đơn giản:
Trong Windows, hãy mở terminal hoặc dấu nhắc lệnh và nhập:
<em><strong>curl https://www.yahoo.com</strong></em>
Trên bảng điều khiển, nó sẽ in mã HTML của trang.
cURL truyền dữ liệu đến và đi từ các trang web với sự trợ giúp của Giao thức Internet. Mặc dù ban đầu, cURL được phát triển để hoạt động với các giao thức HTTP, nhưng hiện tại nó hỗ trợ nhiều giao thức mạng như FTP, IMAP, IMAPS, SMTP, POP3, POP3S và các giao thức khác.
Nó cũng hỗ trợ POST, GET, PUT và một số phương thức khác khi gửi yêu cầu. Hãy xem một ví dụ về việc gửi một số dữ liệu với dữ liệu post.
curl -d "tên=tên của bạn&giá trị=một số giá trị" https ://examplewebsite.com/ bài đăng "
Đoạn mã -d ở trên biểu thị rằng bạn đang sử dụng phương thức post để truyền tên và một số giá trị vào trang post của examplewebsite.com.
Bây giờ bạn đã biết cURL là gì và chúng ta hãy cùng tìm hiểu cách sử dụng nó với proxy.
Cấu hình cURL với địa chỉ proxy sẽ giúp mọi người nâng cao khả năng truyền dữ liệu bằng tất cả các tính năng proxy đó.
Sử dụng cURL với proxy sẽ đảm bảo người dùng có thể ẩn danh tính của họ khỏi máy chủ. Nếu người dùng thích truy xuất thông tin mà không cho người khác biết danh tính thực của họ, có thể cấu hình địa chỉ proxy bằng lệnh yêu cầu cURL của họ. Trong trường hợp này, proxy sẽ chuyển tiếp yêu cầu của người dùng thay mặt họ và danh tính thực được ẩn đi. Proxyscrape cung cấp proxy của tất cả các loại giao thức như HTTPs, Socks4 , Và Socks5 có thể duy trì tính ẩn danh cho tất cả các loại yêu cầu
Một số địa chỉ IP có thể đã bị chặn khỏi các trang web cụ thể do các vấn đề về ủy quyền hoặc các lý do bảo mật khác. Trong trường hợp này, sử dụng địa chỉ proxy có thể dễ dàng ẩn địa chỉ IP thực sự bị chặn của bạn và xuất hiện trong mạng như một địa chỉ mới. Proxyscrape Các proxy cao cấp của 'có thể giúp người dùng thu thập dữ liệu không giới hạn
Scraping là một cái gì đó nhiều hơn là chỉ thu thập thông tin. Trong quá trình scraping, người dùng sẽ phải thu thập dữ liệu từ nhiều nguồn khác nhau và với số lượng lớn. Trong trường hợp này, một proxy sẽ hỗ trợ người dùng với một quá trình thu thập dữ liệu nhanh chóng mà không dễ dàng thực hiện được nếu không có proxy. Proxyscrape Địa chỉ IP dân dụng của 'từ nhóm IP sẽ giúp người dùng sử dụng nhiều proxy và đảm bảo quá trình thu thập dữ liệu nhanh chóng.
Khi người dùng ở một vị trí bị hạn chế lấy nội dung từ các trang web ở ranh giới địa lý khác, proxy sẽ giúp họ vượt qua những hạn chế đó. Proxyscrape cung cấp proxy của nhiều quốc gia để người dùng có thể chọn quốc gia cần thiết để vượt qua các lệnh chặn địa lý.
Bạn có thể sử dụng proxy để kết nối với một trang web bằng cURL. Ví dụ, proxy rất cần thiết trong trường hợp bạn sử dụng cURL để thu thập dữ liệu. Sau đó, bạn vẫn ẩn danh với trang web mục tiêu mà bạn đang thu thập dữ liệu.
Để kết nối với proxy, bạn sẽ cần địa chỉ máy chủ proxy, số cổng và loại giao thức, và nếu cần xác thực, bạn sẽ cần nhập tên người dùng và mật khẩu. Hãy xem một ví dụ đơn giản: chúng ta giả sử địa chỉ proxy là 127.0.0.1 và số cổng là 8920. Ví dụ được đề cập bên dưới là những điều cơ bản về proxy kết nối với cURL, có thể hoạt động với bất kỳ dịch vụ proxy nào.
Cú pháp để kết nối với proxy sẽ là:
curl --proxy proxyaddress: cổng https: //examplewebsite.com
sẽ thay thế bằng:
curl --proxy 127.0.0.1 :8920 https: //examplewebsite.com
Lệnh trên sẽ định tuyến kết nối của bạn qua proxy đến examplewebsite.com.
Bây giờ chúng ta sẽ xem xét một ví dụ yêu cầu xác thực trong đó tên người dùng là tên người dùng và mật khẩu là mật khẩu.
curl --proxy 127.0.0.1 :8920 -U "tên người dùng:mật khẩu" https: //examplewebsite.com
Bạn có thể sử dụng cURL với nhiều giao thức proxy khác nhau như HTTP , HTTPS , SOCKS5 , Và SOCKS4 .
Bây giờ bạn có thể tìm hiểu lệnh nào cần sử dụng khi kết nối cURL với giao thức proxy bằng cách sử dụng:
curl --trợ giúp
Chắc chắn nó sẽ trả về một danh sách rất lớn và chúng ta sẽ tập trung vào lệnh cơ bản nhất được liệt kê dưới đây:
-x, --proxy [giao thức://] máy chủ [:cổng]
Trong lệnh này, x cùng với –proxy biểu thị chi tiết proxy, bạn có thể sử dụng bất kỳ cái nào vì cả hai đều đúng. Tuy nhiên, hãy lưu ý rằng x phân biệt chữ hoa chữ thường.
Ngoài ra, để chắc chắn rằng bạn đang sử dụng proxy, bạn có thể sử dụng lệnh sau:
cuộn http: //httpbin.org/ip
Lệnh này thường trả về địa chỉ IP của nguồn gốc. Vì vậy, nếu bạn đang sử dụng máy chủ proxy, nó sẽ trả về địa chỉ IP của máy chủ proxy thay vì địa chỉ IP của bạn.
Bây giờ, sau khi tổng hợp tất cả lại, bạn có thể gửi yêu cầu như sau:
curl --proxy "http://tên người dùng: [email protected] :8920" "http://httpbin.org/ip"
Ngoài ra, lệnh bên dưới cũng giống như lệnh trên:
curl --x "http://tên người dùng: [email protected] :8920" "http://httpbin.org/ip"
Một sự thật quan trọng cần ghi nhớ ở đây là bạn nên sử dụng dấu ngoặc kép cho cả URL proxy và URL mục tiêu như là cách thực hành tốt nhất. Điều này là do sự hiện diện của các ký tự đặc biệt trong URL.
Ngoài ra, nếu bạn gặp bất kỳ lỗi chứng chỉ SSL nào, bạn cần thêm chữ thường -k vào cuối lệnh như hiển thị bên dưới:
curl --proxy "http://tên người dùng: [email protected] :8920" "http://httpbin.org/ip" - k .
Điều này sẽ cho phép các kết nối không an toàn đi qua khi sử dụng kết nối SSL.
Khi sử dụng proxy, giao thức mặc định là HTTP trừ khi được chỉ định rõ ràng khác. Do đó, cả hai lệnh dưới đây đều đúng:
curl --proxy "http://tên người dùng: [email protected] :8920" "http://httpbin.org/ip" . curl --proxy "tên người dùng: [email protected] :8920" "http://httpbin.org/ip" .
Nếu bạn muốn có proxy cho cURL, bạn có thể tạo tệp curl-config theo cách sau.
Nếu bạn đang sử dụng macOS hoặc Linux, trước tiên, bạn phải mở terminal và vào thư mục home của mình. Nếu có .curlrc, bạn cần mở nó và tạo một tệp trống mới. Bạn có thể sử dụng các lệnh bên dưới để điều hướng đến tệp:
cd ~ nano .curlrc.
Vậy thì bạn cần thêm dòng này vào tệp:
proxy = "http://tên người dùng: [email protected] :8920"
Lưu tệp và bây giờ bạn có thể sử dụng cURL với proxy. Đơn giản là bạn phải chạy cURL bình thường và nó sẽ đọc proxy từ tệp trên:
cuộn tròn "http://httpbin.org/ip"
Trong Windows, tệp này sẽ là _curlc và được đặt trong thư mục %APPDATA%. Để tìm đường dẫn chính xác cho %APPDATA%, bạn sẽ cần nhập lệnh sau vào dấu nhắc lệnh:
tiếng vang %APPDATA%
Vì vậy, lệnh trên sẽ trả về đường dẫn và bạn phải điều hướng đến đó. Sau đó, bạn cần tạo tệp _curlrc và đặt proxy giống như với macOS hoặc Linux.
Hãy tham khảo bài viết này để hiểu các lệnh cURL khác để thêm proxy vào đó.
Nếu bạn là người dùng đang cố gắng thu thập dữ liệu thông qua các lệnh cURL mà không tiết lộ danh tính của mình, thì việc cấu hình cURL bằng proxy sẽ là lựa chọn tốt nhất. Bài viết này sẽ cung cấp cho bạn ý tưởng toàn diện về việc sử dụng cURL với proxy. Để sử dụng các proxy hoạt động tốt nhất với chi phí hợp lý, bạn có thể liên hệ với Proxyscrape .