Cách cạo Reddit bằng Python

Có năm cách để thu thập dữ liệu từ Reddit, đó là:

Thu thập thủ công – Đây là phương pháp dễ nhất nhưng kém hiệu quả nhất về mặt tốc độ và chi phí. Tuy nhiên, nó tạo ra dữ liệu có tính nhất quán cao.
Sử dụng Reddit API – Bạn cần có kỹ năng lập trình cơ bản để thu thập Reddit bằng Reddit API. Nó cung cấp dữ liệu nhưng giới hạn số bài đăng trong bất kỳ chủ đề Reddit nào ở mức 1000.
API của bên thứ ba được tô vẽ đẹp mắt – Đây là một phương pháp hiệu quả và có khả năng mở rộng, nhưng không tiết kiệm chi phí.
Công cụ thu thập dữ liệu web – Các công cụ này có khả năng mở rộng và chỉ yêu cầu biết cách sử dụng chuột cơ bản.
Các tập lệnh thu thập dữ liệu tùy chỉnh – Chúng có khả năng tùy chỉnh và mở rộng cao nhưng đòi hỏi trình độ lập trình cao.

Hãy cùng xem cách chúng ta có thể thu thập dữ liệu từ Reddit bằng Reddit API với sự trợ giúp của các bước sau.

Tạo tài khoản Reddit API

Bạn cần tạo tài khoản Reddit trước khi tiếp tục. Để sử dụng PRAW, bạn phải đăng ký Reddit API bằng cách theo liên kết này .

Nhập các gói và mô-đun

Đầu tiên, chúng ta sẽ nhập các mô-đun tích hợp của Pandas, tức là datetime và hai mô-đun của bên thứ ba, PRAW và Pandas, như được hiển thị bên dưới:

nhập praw nhập gấu trúc dưới dạng pd nhập datetime dưới dạng dt

Nhận các phiên bản Reddit và subreddit

Bạn có thể truy cập dữ liệu Reddit bằng Praw, viết tắt của Python Reddit API Wrapper. Trước tiên, bạn cần kết nối với Reddit bằng cách gọi hàm praw.Reddit và lưu trữ nó trong một biến. Sau đó, bạn phải truyền các đối số sau vào hàm.

reddit = praw.Reddit(client_id= 'PERSONAL_USE_SCRIPT_14_CHARS' , \ client_secret = 'SECRET_KEY_27_CHARS' , \ user_agent = 'TÊN_ỨNG_DỤNG_CỦA_BẠN' , \ username = 'TÊN_NGƯỜI_DÙNG_REDDIT_CỦA_BẠN' , \ password = 'MẬT_CẬP_TIN_ĐĂNG_KÝ_REDDIT_CỦA_BẠN' )

Bây giờ, bạn có thể lấy subreddit theo ý muốn. Vì vậy, hãy gọi phiên bản .subreddit từ reddit (biến) và truyền tên subreddit mà bạn muốn truy cập. Ví dụ, bạn có thể sử dụng subreddit r/Nootropics.

subreddit = reddit.subreddit( 'Thuốc bổ não' )

Truy cập các chủ đề

Mỗi subreddit có năm cách khác nhau để sắp xếp các chủ đề do người dùng Reddit tạo ra:

.mới
.nóng
.gây tranh cãi
.mạ vàng
.đứng đầu

Bạn có thể lấy các chủ đề được bình chọn nhiều nhất như:

top_subreddit = subreddit.top()

Bạn sẽ nhận được một đối tượng giống như danh sách có 100 bài gửi hàng đầu trong r/Nootropics. Tuy nhiên, giới hạn yêu cầu của Reddit là 1000, vì vậy bạn có thể kiểm soát kích thước mẫu bằng cách truyền giới hạn cho .top như sau:

top_subreddit = subreddit.top(giới hạn = 600 )

Phân tích và Tải xuống Dữ liệu

Bạn có thể thu thập bất kỳ dữ liệu nào bạn muốn. Tuy nhiên, chúng tôi sẽ thu thập thông tin dưới đây về các chủ đề:

nhận dạng
tiêu đề
điểm
ngày tạo ra
văn bản chính

Chúng ta sẽ thực hiện điều này bằng cách lưu trữ dữ liệu trong một từ điển và sau đó sử dụng vòng lặp for như minh họa bên dưới.

topics_dict = { "title":[], \
                "score":[], \
                "id":[], "url":[], \
                "created": [], \
                "body":[]}

Bây giờ, chúng ta có thể trích xuất dữ liệu từ Reddit API. Chúng ta sẽ thêm thông tin vào từ điển của mình bằng cách lặp qua đối tượng top_subreddit.

để gửi trong top_subreddit: topics_dict [ "id" ] .append (submission.id) topics_dict [ "title" ] .append (submission.title) topics_dict [ "score" ] .append (submission.score) topics_dict [ "created" ] .append (submission.created) topics_dict [ "body" ] .append (submission.selftext)

Bây giờ, chúng ta đưa dữ liệu vào Pandas Dataframes vì từ điển Python không dễ đọc.

chủ đề_dữ liệu = pd.DataFrame(chủ đề_dict)

Xuất CSV

Rất dễ để tạo các tệp dữ liệu ở nhiều định dạng khác nhau trong Pandas, vì vậy chúng tôi sử dụng các dòng mã sau để xuất dữ liệu sang tệp CSV.

topics_data.to_csv( 'FILENAME.csv' , index = False )

Proxy Reddit tốt nhất năm 2021

Bạn biết rằng Reddit không phải là một trang web nghiêm ngặt khi nói đến các hạn chế sử dụng proxy. Nhưng bạn có thể bị bắt và bị phạt nếu tự động hóa các hành động của mình trên Reddit mà không sử dụng proxy.

Vì vậy, hãy cùng xem xét một số proxy tốt nhất cho Reddit thuộc hai loại:

Proxy dân dụng – Đây là địa chỉ IP mà Nhà cung cấp dịch vụ Internet (ISP) gán cho một thiết bị ở một vị trí vật lý cụ thể. Các proxy này tiết lộ vị trí thực tế của thiết bị mà người dùng sử dụng để đăng nhập vào một trang web.

Proxy trung tâm dữ liệu – Đây là nhiều địa chỉ IP khác nhau không bắt nguồn từ bất kỳ Nhà cung cấp dịch vụ Internet nào. Chúng tôi lấy chúng từ nhà cung cấp dịch vụ đám mây.

Sau đây là một số proxy dân dụng và trung tâm dữ liệu hàng đầu dành cho Reddit.

Smartproxy

Smartproxy là một trong những nhà cung cấp proxy dân dụng cao cấp hàng đầu vì nó hiệu quả cho việc tự động hóa Reddit. Nó có một nhóm IP rộng lớn và cung cấp quyền truy cập vào tất cả các IP sau khi bạn đăng ký dịch vụ của nó.

Stormproxy

Giá cả và băng thông không giới hạn của Stormproxies khiến chúng trở thành lựa chọn tốt. Chúng có giá cả phải chăng và rẻ khi sử dụng. Chúng có proxy cho nhiều trường hợp sử dụng khác nhau và cung cấp proxy dân dụng tốt nhất cho tự động hóa Reddit.

ProxyScrape

ProxyScrape là một trong những nhà cung cấp dịch vụ proxy phổ biến tập trung vào việc cung cấp proxy để thu thập dữ liệu. Nó cũng cung cấp proxy trung tâm dữ liệu chuyên dụng cùng với proxy trung tâm dữ liệu dùng chung. Nó có hơn 40k proxy trung tâm dữ liệu mà bạn có thể sử dụng để thu thập dữ liệu từ các trang web trên Internet.

ProxyScrape cung cấp ba loại dịch vụ cho người dùng, cụ thể là:

Proxy trung tâm dữ liệu cao cấp

Proxy dân dụng

Proxy chuyên dụng

Cao cấp

Highproxies hoạt động với Reddit và có các loại proxy sau:

Proxy chia sẻ
Proxy riêng tư
Proxy trang web phân loại
Đại diện bán vé
Proxy phương tiện truyền thông

Instantproxies

Bạn cũng có thể sử dụng Instantproxies để tự động hóa Reddit vì chúng rất an toàn, đáng tin cậy, nhanh chóng và có thời gian hoạt động khoảng 99,9 phần trăm. Chúng là proxy trung tâm dữ liệu rẻ nhất.

Tại sao nên sử dụng Proxy Reddit?

Bạn cần proxy khi làm việc với một số công cụ tự động trên Reddit. Bởi vì Reddit là một trang web rất nhạy cảm, dễ dàng phát hiện các hành động tự động và chặn IP của bạn truy cập vào nền tảng. Vì vậy, nếu bạn đang tự động hóa một số tác vụ như bỏ phiếu, đăng bài, tham gia/hủy tham gia nhóm và quản lý nhiều tài khoản, bạn chắc chắn cần sử dụng proxy để tránh những kết quả xấu.

Giải pháp thay thế để thu thập Reddit

Bạn có thể sử dụng phương pháp scraping thủ công nếu nhu cầu scraping Reddit của bạn nhỏ. Nhưng nếu nhu cầu lớn, bạn phải tận dụng các phương pháp scraping tự động như công cụ scraping web và tập lệnh tùy chỉnh. Các trình scraping web tỏ ra hiệu quả về chi phí và tài nguyên khi nhu cầu scraping hàng ngày của bạn chỉ trong phạm vi vài triệu bài đăng.

Vì vậy, hãy cùng xem xét một số công cụ thu thập dữ liệu Reddit tốt nhất như giải pháp tốt nhất để thu thập lượng lớn dữ liệu Reddit.

Scrapestrom

Scrapestorm là một trong những công cụ thu thập dữ liệu tốt nhất hiện có trên thị trường vì nó hoạt động khá tốt khi thu thập dữ liệu Reddit. Nó sử dụng trí tuệ nhân tạo để tự động xác định các điểm dữ liệu chính trên trang web.

Trình thu thập dữ liệu Reddit của Apify

Trình thu thập Reddit của Apify giúp bạn dễ dàng trích xuất dữ liệu mà không cần sử dụng Reddit API. Điều đó có nghĩa là bạn không cần mã thông báo API của nhà phát triển và quyền hạn từ Reddit để tải xuống dữ liệu cho mục đích thương mại. Bạn cũng có thể tối ưu hóa việc thu thập dữ liệu của mình bằng cách sử dụng dịch vụ proxy tích hợp của nền tảng Apify.

Phần kết luận

Chúng tôi đã thảo luận năm cách để thu thập dữ liệu Reddit và cách dễ nhất là sử dụng Reddit API vì nó chỉ yêu cầu các kỹ năng lập trình cơ bản. PRAW là một trình bao bọc Python cho Reddit API cho phép bạn sử dụng Reddit API với giao diện Python sạch. Nhưng khi bạn có yêu cầu thu thập Reddit lớn, bạn có thể trích xuất dữ liệu có sẵn công khai từ trang web Reddit với sự trợ giúp của Reddit scraper. Để tự động hóa các hành động của bạn trên trang web Reddit, bạn cần sử dụng một trung tâm dữ liệu hoặc proxy dân dụng .

Qua: ProxyScrape

Cách cạo Reddit bằng Python

Mục lục

Tại sao bạn cần phải thu thập dữ liệu từ Reddit?

Những thách thức khi thu thập dữ liệu từ Reddit