Cách cạo Twitter bằng Python- Cách tiếp cận dễ dàng vào năm 2024

Làm thế nào để, Python, Mar-06-20245 phút đọc

Không có nhiều trang web có thể liên quan khi từ "dữ liệu lớn" được đề cập. Nhưng Twitter có thể vì hơn 500 triệu tweet được trao đổi trên nền tảng của mình hàng ngày, bao gồm một tỷ lệ lớn hình ảnh, văn bản và video. Một tweet duy nhất có thể cung cấp cho bạn thông tin về: Không giống như nhiều nền tảng truyền thông xã hội khác, Twitter có một rất thân thiện, đắt tiền

Không có nhiều trang web có thể liên quan khi từ "dữ liệu lớn" được đề cập. Nhưng Twitter có thể vì hơn 500 triệu tweet được trao đổi trên nền tảng của mình hàng ngày, bao gồm một tỷ lệ lớn hình ảnh, văn bản và video. Một tweet duy nhất có thể cung cấp cho bạn thông tin về:

  • Số người đã xem tweet
  • Nhân khẩu học của những người thích hoặc tweet lại tweet
  • Tổng số lần nhấp vào hồ sơ của bạn

Không giống như nhiều nền tảng truyền thông xã hội khác, Twitter có API công khai rất thân thiện, đắt tiền và miễn phí có thể được sử dụng để truy cập dữ liệu trên nền tảng của nó. Nó cũng cung cấp một API phát trực tuyến để truy cập dữ liệu Twitter trực tiếp. Tuy nhiên, các API có một số giới hạn về số lượng yêu cầu mà bạn có thể gửi trong một khoảng thời gian cửa sổ. Nhu cầu về Twitter Scraping xuất hiện khi bạn không thể truy cập dữ liệu mong muốn thông qua API. Scraping tự động hóa quá trình thu thập dữ liệu từ Twitter để bạn có thể sử dụng nó trong bảng tính, báo cáo, ứng dụng và cơ sở dữ liệu. 

Trước khi đi sâu vào mã python để thu thập dữ liệu Twitter, hãy xem lý do tại sao chúng ta cần cạo dữ liệu Twitter.

Hãy chuyển đến bất kỳ phần nào để tìm hiểu cách quét Twitter bằng python!

Mục lục

Tại sao bạn cần cạo Twitter?

Bạn biết rằng Twitter là một trang blog vi mô và một không gian lý tưởng chứa thông tin phong phú mà bạn có thể cạo. Nhưng bạn có biết tại sao bạn cần phải cạo thông tin này?

Dưới đây là một số lý do để thu thập dữ liệu Twitter giúp các nhà nghiên cứu:

  • Hiểu mạng Twitter của bạn và ảnh hưởng của các tweet của bạn
  • Biết ai được nhắc đến qua @usernames
  • Kiểm tra cách phổ biến thông tin
  • Khám phá cách các xu hướng phát triển và thay đổi theo thời gian
  • Kiểm tra mạng lưới và cộng đồng
  • Biết mức độ phổ biến / ảnh hưởng của tweet và mọi người
  • Thu thập dữ liệu về loa tweeter có thể bao gồm: Bạn bèNgười theo dõiYêu thíchẢnh hồ sơNgày đăng ký, v.v.
  • Bạn bè
  • Theo
  • Yêu thích
  • Ảnh hồ sơ
  • Ngày đăng ký, v.v.

Tương tự, Twitter scraping có thể giúp các nhà tiếp thị trong:

  • Giám sát hiệu quả đối thủ cạnh tranh của họ
  • Nhắm mục tiêu đối tượng tiếp thị với các tweet có liên quan
  • Thực hiện phân tích tình cảm
  • Giám sát thương hiệu thị trường
  • Kết nối với những người có ảnh hưởng lớn đến thị trường
  • Nghiên cứu hành vi khách hàng

Cách quét Twitter bằng Python

Có rất nhiều công cụ có sẵn để cạo dữ liệu Twitter ở định dạng có cấu trúc. Một số trong số đó là:

  • Súp đẹp - Đây là một gói Python phân tích cú pháp các tài liệu HTML và XML và rất hữu ích để quét Twitter.
  • Twitter API là một trình bao bọc Python thực hiện các yêu cầu API như tải xuống tweet, tìm kiếm người dùng và hơn thế nữa. Bạn có thể tạo một ứng dụng Twitter để nhận khóa OAuth và truy cập API Twitter.
  • Twitter Scraper - Bạn có thể sử dụng Twitter Scraper để cạo dữ liệu Twitter bằng từ khóa hoặc các thông số kỹ thuật khác. 

Hãy xem cách cạo tweet cho một chủ đề cụ thể bằng cách sử dụng thư viện twitterscraper của Python.

Cài đặt twitterscraper

Bạn có thể cài đặt thư viện twitterscraper bằng lệnh sau:

!pip cài đặt twitterscraper

Bạn có thể sử dụng lệnh dưới đây để cài đặt phiên bản mới nhất.

!pip cài đặt twitterscraper = = 1.6.1

HOẶC

!pip cài đặt twitterscraper --nâng cấp

Nhập thư viện

Bạn sẽ nhập ba thứ, tức là.;

get_tweetspandas

từ twitter_scraper nhập khẩu get_tweets
Nhập khẩu gấu trúc dưới dạng PD

Đề cập đến thông số kỹ thuật

Giả sử chúng ta quan tâm đến việc cạo danh sách các hashtag sau:

  • Máy học
  • Học sâu
  • NLP
  • Thị giác máy tính
  • AI
  • Tensorflow
  • Pytorch
  • Khoa học dữ liệu 
  • Phân tích dữ liệu, v.v.
keywords = ['máy học', 'ML', 'deeplearning', 
            '#artificialintelligence', '#NLP', 'thị giác máy tính', 'AI', 
            'tensorflow', 'pytorch', "sklearn", "gấu trúc", "cốt truyện", 
            "spacy", "fastai", "datascience", "dataanalysis"]

.

Tạo DataFrame

Chúng tôi chạy một lần lặp lại để hiểu cách triển khai get_tweets thư viện. Chúng tôi vượt qua đối số hoặc chủ đề đầu tiên của chúng tôi như một hashtag mà chúng tôi muốn thu thập tweet. 

tweet = get_tweets("#machinelearning", trang = 5)

Ở đây tweet là một đối tượng. Chúng ta phải tạo một Pandas DataFrame bằng cách sử dụng code bên dưới:

tweets_df = PD. DataFrame()

In các phím

Chúng tôi sử dụng chức năng dưới đây để in các khóa và các giá trị thu được.

Đối với Tweet trong Tweets:
  print('Keys:', list(tweet.phím()), '\n')
  phá vỡ

Các phím được hiển thị như sau:

Trích xuất dữ liệu liên quan

Bây giờ, chúng tôi chạy mã cho một từ khóa và trích xuất dữ liệu có liên quan. Giả sử chúng ta muốn trích xuất dữ liệu sau:

  • Nhắn tin
  • làRetweet
  • Trả lời
  • Tweet lại
  • Thích

Chúng ta có thể sử dụng vòng lặp for để trích xuất dữ liệu này, và sau đó chúng ta có thể sử dụng hàm head() để lấy năm hàng đầu tiên của dữ liệu.

for tweet in tweets:
  _ = pd.DataFrame({'text' : [tweet['text']],
                    'isRetweet' : tweet['isRetweet'],
                    'replies' : tweet['replies'],
                    'retweets' : tweet['retweets'],
                    'likes' : tweet['likes']
                    })
  tweets_df = tweets_df.append(_, ignore_index = True)
tweets_df.head()

Đây là khung dữ liệu chứa dữ liệu mong muốn của chúng tôi và bạn có thể dễ dàng hình dung tất cả các tweet được thu thập. 

Chúc mừng bạn đã loại bỏ tweet khỏi Twitter. Bây giờ, chúng ta chuyển sang hiểu sự cần thiết của proxy Twitter.

Tại sao nên sử dụng proxy Twitter?

Bạn đã bao giờ đăng một cái gì đó mà bạn không nên có? Proxy Twitter là giải pháp tốt nhất cho những người dùng không đủ khả năng để rời khỏi quân đoàn người theo dõi của họ mà không có nội dung mới trong một khoảng thời gian dài. Nếu không có họ, bạn sẽ không gặp may và có thể mất người theo dõi do thiếu hoạt động. Các proxy này hoạt động thay mặt cho máy tính của bạn và ẩn địa chỉ IP của bạn khỏi các máy chủ Twitter. Vì vậy, bạn có thể truy cập nền tảng mà không bị chặn tài khoản.

Bạn cũng cần một proxy thích hợp khi bạn sử dụng một công cụ cạo để thu thập dữ liệu Twitter. Ví dụ: các nhà tiếp thị trên toàn thế giới sử dụng proxy tự động hóa Twitter với các công cụ cạo để cạo Twitter để lấy thông tin thị trường có giá trị trong một phần nhỏ thời gian.

Proxy dân cư - Bạn có thể sử dụng proxy dân cư nhanh chóng, an toàn, đáng tin cậy và tiết kiệm chi phí. Chúng tạo ra trải nghiệm chất lượng đặc biệt cao vì chúng là IP của Nhà cung cấp dịch vụ Internet an toàn và hợp pháp.

Công cụ tự động hóa - Bạn cũng có thể sử dụng công cụ tự động hóa khi sử dụng proxy Twitter. Những công cụ này giúp quản lý nhiều tài khoản vì chúng có thể xử lý nhiều tác vụ cùng một lúc.

Ví dụ, TwitterAttackPro là một công cụ tuyệt vời có thể xử lý hầu hết tất cả các nhiệm vụ Twitter cho bạn, bao gồm:

  • Theo dõi/hủy theo dõi
  • Tweeting / Retweeting
  • Trả lời bình luận
  • Yêu thích

Để sử dụng các công cụ tự động hóa này, bạn phải sử dụng proxy Twitter. Nếu không, Twitter sẽ cấm tất cả các tài khoản của bạn.

Proxy nào tốt nhất để quét Twitter bằng Python?

ProxyScrape là một trong những nhà cung cấp proxy trực tuyến phổ biến và đáng tin cậy nhất. Ba dịch vụ proxy bao gồm máy chủ proxy trung tâm dữ liệu chuyên dụng, máy chủ proxy dân dụng và máy chủ proxy cao cấp. Vì vậy, proxy tốt nhất có thể để quét Twitter bằng python là gì? Trước khi trả lời câu hỏi đó, tốt nhất bạn nên xem các tính năng của từng máy chủ proxy.

Một proxy trung tâm dữ liệu chuyên dụng phù hợp nhất cho các tác vụ trực tuyến tốc độ cao, chẳng hạn như truyền một lượng lớn dữ liệu (về kích thước) từ các máy chủ khác nhau cho mục đích phân tích. Đó là một trong những lý do chính khiến các tổ chức chọn proxy chuyên dụng để truyền một lượng lớn dữ liệu trong một khoảng thời gian ngắn.

Một proxy trung tâm dữ liệu chuyên dụng có một số tính năng, chẳng hạn như băng thông không giới hạn và kết nối đồng thời, proxy HTTP chuyên dụng để giao tiếp dễ dàng và xác thực IP để bảo mật hơn. Với 99,9% thời gian hoạt động, bạn có thể yên tâm rằng trung tâm dữ liệu chuyên dụng sẽ luôn hoạt động trong bất kỳ phiên nào. Cuối cùng nhưng không kém phần quan trọng ProxyScrape Cung cấp dịch vụ khách hàng tuyệt vời và sẽ giúp bạn giải quyết vấn đề của mình trong vòng 24-48 giờ làm việc. 

Tiếp theo là proxy dân cư. Khu dân cư là một proxy đi đến cho mọi người tiêu dùng nói chung. Lý do chính là địa chỉ IP của proxy khu dân cư giống với địa chỉ IP do ISP cung cấp. Điều này có nghĩa là việc xin phép máy chủ mục tiêu để truy cập dữ liệu của nó sẽ dễ dàng hơn bình thường. 

Các tính năng khác của ProxyScrapeProxy khu dân cư của là một tính năng xoay. Proxy xoay vòng giúp bạn tránh bị cấm vĩnh viễn đối với tài khoản của mình vì proxy khu dân cư của bạn tự động thay đổi địa chỉ IP của bạn, khiến máy chủ đích khó kiểm tra xem bạn có đang sử dụng proxy hay không. 

Ngoài ra, các tính năng khác của proxy dân cư là: băng thông không giới hạn, cùng với kết nối đồng thời, proxy HTTP / s chuyên dụng, proxy bất cứ lúc nào vì 7 triệu cộng với proxy trong nhóm proxy, xác thực tên người dùng và mật khẩu để bảo mật hơn và cuối cùng nhưng không kém phần quan trọng, khả năng thay đổi máy chủ quốc gia. Bạn có thể chọn máy chủ mong muốn của mình bằng cách thêm mã quốc gia vào xác thực tên người dùng. 

Cái cuối cùng là proxy cao cấp. Proxy cao cấp cũng giống như proxy trung tâm dữ liệu chuyên dụng. Các chức năng vẫn giữ nguyên. Sự khác biệt chính là khả năng tiếp cận. Trong proxy cao cấp, danh sách proxy (danh sách chứa proxy) được cung cấp cho mọi người dùng trên ProxyScrape'mạng lưới. Đó là lý do tại sao các proxy cao cấp có chi phí thấp hơn so với proxy trung tâm dữ liệu chuyên dụng.

Vì vậy, proxy tốt nhất có thể để quét Twitter bằng python là gì? Câu trả lời sẽ là "proxy dân cư". Lý do rất đơn giản. Như đã nói ở trên, proxy khu dân cư là một proxy luân phiên, có nghĩa là địa chỉ IP của bạn sẽ được thay đổi động trong một khoảng thời gian, điều này có thể hữu ích để đánh lừa máy chủ bằng cách gửi nhiều yêu cầu trong một khung thời gian nhỏ mà không nhận được khối IP. 

Tiếp theo, điều tốt nhất sẽ là thay đổi máy chủ proxy dựa trên quốc gia. Bạn chỉ cần thêm quốc gia ISO_CODE vào cuối xác thực IP hoặc xác thực tên người dùng và mật khẩu. 

Câu hỏi thường gặp:

1. Làm thế nào để quét Twitter bằng python?
Bạn có thể quét Twitter bằng python với sự trợ giúp của thư viện python được gọi là "twitterscraper". Nó dễ sử dụng hơn nhiều so với các thư viện cạo khác. Với thư viện này, bạn có thể thu thập dữ liệu như retweets, trả lời, nhận xét và nhanh hơn nhiều.
2. Cạo Twitter có hợp pháp không?
Nó phụ thuộc. Bạn có thể cạo dữ liệu công khai từ Twitter mà không gặp bất kỳ sự cố nào. Nhưng Twitter có thể chặn bạn nếu bạn gửi một số lượng yêu cầu bất thường trong một khoảng thời gian ngắn. Tốt hơn là sử dụng proxy để ẩn địa chỉ IP của bạn.
3. Proxy tốt nhất để quét Twitter bằng python là gì?
Proxy dân cư là proxy tốt nhất để quét Twitter bằng python. Lý do rất đơn giản. Proxy khu dân cư là một proxy luân phiên, có nghĩa là địa chỉ IP của bạn sẽ được thay đổi động trong một khoảng thời gian, điều này có thể hữu ích để đánh lừa máy chủ bằng cách gửi nhiều yêu cầu trong một khung thời gian nhỏ mà không nhận được khối IP.

Kết thúc

Chúng tôi đã thảo luận rằng bạn có thể quét Twitter bằng cách sử dụng API và trình cạo Twitter. Bạn có thể sử dụng trình quét Twitter để quét Twitter bằng cách đề cập đến các từ khóa và các thông số kỹ thuật khác, giống như chúng tôi đã làm ở trên. Các nhà tiếp thị truyền thông xã hội muốn có nhiều hơn một tài khoản Twitter để tiếp cận rộng hơn phải sử dụng proxy Twitter để ngăn chặn việc cấm tài khoản. Các proxy tốt nhất là proxy dân cư siêu nhanh và không bao giờ bị chặn. 

Tôi hy vọng bạn có ý tưởng về cách cạo Twitter bằng Python.