Cách cạo các trang kết quả tìm kiếm của Google (SERPs)

làm thế nào để, cạo, Tháng Tám-02-20215 phút đọc

Không cần giới thiệu rằng Google là nền tảng được sử dụng rộng rãi cho các truy vấn liên quan đến tìm kiếm của mọi người trên toàn cầu. Theo trang web Statista, thị phần của Google trên thị trường tìm kiếm toàn cầu là 87,35%. Hơn nữa, số liệu thống kê đã chỉ ra rằng Google vượt quá 2 nghìn tỷ người dùng hàng năm, lập chỉ mục hơn 130 nghìn tỷ trang.  Những thống kê này chứng minh rằng Google

Không cần giới thiệu rằng Google là nền tảng được sử dụng rộng rãi cho các truy vấn liên quan đến tìm kiếm của mọi người trên toàn cầu. Theo trang web Statista, thị phần của Google trên thị trường tìm kiếm toàn cầu là 87,35%. Hơn nữa, số liệu thống kê đã chỉ ra rằng Google vượt quá 2 nghìn tỷ người dùng hàng năm, lập chỉ mục hơn 130 nghìn tỷ trang. 

Những thống kê này chứng minh rằng Google có dữ liệu công khai toàn diện về SERPs của họ, có giá trị đối với các nhà tiếp thị internet và những người khác. Vì vậy, việc cạo SERPs đã trở thành ưu tiên hàng đầu của các nhà tiếp thị Internet. Tuy nhiên, khi bạn vượt quá một số lượng yêu cầu nhất định, Google sẽ chặn địa chỉ IP của bạn.

Vì vậy, bài viết này sẽ đi sâu vào cách cạo SERPs mà không bị chặn. Trước đó, chúng tôi sẽ đề cập đến những điều cơ bản về quét web.

Web scraping là gì?

Giả sử rằng bạn cần sao chép một tập hợp lớn dữ liệu từ một số trang web. Lúc đầu, bạn có thể bị cám dỗ để sao chép và dán nội dung vào bảng tính. Tuy nhiên, vì nó là một tài liệu web lớn, việc trích xuất dữ liệu theo cách thủ công sẽ tốn thời gian. Do đó, bạn sẽ cần phải tự động hóa quá trình cạo, điều này sẽ giúp bạn tiết kiệm nhiều thời gian.

Quá trình tự động hóa cạo dữ liệu này được gọi là quét web. Với phương pháp này, bạn có thể tải xuống nguồn HTML mà không cần nhập URL trang web vào trình duyệt.

Bạn có thể đọc để tìm thêm thông tin về web scraping nhấn vào đây

Trang kết quả của công cụ tìm kiếm (SERP) scraping là gì?

Cũng giống như quét web, scraping SERP là quá trình trích xuất 10 kết quả hàng đầu hoặc xa hơn từ tìm kiếm của Google cho một loạt các từ khóa. Hầu hết các công ty Tối ưu hóa Công cụ Tìm kiếm (SEO) sử dụng kỹ thuật này để theo dõi thứ hạng của các trang web của khách hàng của họ cho các từ khóa được nhắm mục tiêu. 

Cũng có thể có các lý do khác để thực hiện cạo cho SERPS, chẳng hạn như xác minh quảng cáo, tạo khách hàng tiềm năngtổng hợp nội dung.

Thông thường, có các công cụ tự động hóa để thực hiện cạo cho SERPs, mà bạn sẽ tìm hiểu trong các phần sắp tới của bài viết này. Ngoài ra, bạn có thể tạo tập lệnh của riêng mình bằng các ngôn ngữ lập trình như Python. Tuy nhiên, bạn có thể làm như vậy nếu bạn chỉ tự tin về mã hóa và có chuyên môn kỹ thuật cao hơn. Ngoài ra, bạn cũng có thể sử dụng cURL để cạo Google SERPs.

Khi các công cụ này thu thập dữ liệu từ các trang web có liên quan, chúng sẽ lưu chúng cho Cơ sở dữ liệu, tệp CSV, tệp XML hoặc JSON. Sau đó, những dữ liệu này ở định dạng có cấu trúc, nơi bạn có thể xác định xem các nỗ lực SEO của bạn có hoạt động chính xác hay không. Điều này là do bạn có thể xem các vị trí trên trang của mình theo thời gian.

Ngoài ra, SERPs không chỉ bao gồm nội dung văn bản mà còn cả hình ảnh, video, đoạn trích nổi bật, bản đồ tìm kiếm địa phương và nhiều hơn nữa.

Trong phần tiếp theo, bạn sẽ khám phá ra một lợi ích đáng kể của việc cạo từ SERPs.

Làm thế nào cạo SERPs giúp bạn phục hồi thiệt hại do tin tặc gây ra?

Bị hack là điều luôn ảnh hưởng tiêu cực đến bạn. Trang web bị tấn công của bạn và thông tin đăng nhập của nó có thể kết thúc trên dark web. Tin tặc thậm chí có thể bán backlinks hoặc chạy phần mềm độc hại web tối trên trang web của bạn. Tương tự như vậy, hack cũng có tác động tiêu cực đến bối cảnh của SEO.

Một trong những lợi ích đáng kể của việc cạo SERPs trong Google là khả năng xác định các thiệt hại tiềm ẩn mà tin tặc sẽ gây ra. Khi bạn đã làm việc chăm chỉ để đạt được thứ hạng SEO của mình trên SERPs, tin tặc có thể dễ dàng xâm nhập vào cài đặt bảo mật của bạn và làm rối tung tất cả các nỗ lực SEO của bạn. 

Bạn có thể tìm thấy chi tiết toàn diện về cách tin tặc chiếm quyền điều khiển các nỗ lực SEO của bạn tại đây.

Theo một cuộc khảo sát, 48% các chuyên gia SEO nói rằng Google đã mất nhiều tháng để khôi phục trạng thái ban đầu của kết quả SERFs của họ. 

Theo dõi SERPs cho các trang web của bạn cung cấp sự nhạy bén hữu ích về những gì đang xảy ra với thứ hạng của bạn. Chúng cũng giúp bạn xác định kết quả tiềm năng của thứ hạng của bạn trong các nỗ lực bị hack. Do đó, bạn có thể nhanh chóng yêu cầu Google khôi phục thứ hạng trước đó của bạn. Do đó, thời gian chết của trang web của bạn và giảm thứ hạng công cụ tìm kiếm sẽ được giảm thiểu đáng kể.

Mặt khác, khi trang web của bạn bị nhiễm Phần mềm độc hại, nó sẽ làm giảm thứ hạng công cụ tìm kiếm của bạn. Trang web của bạn cũng sẽ có xác suất bị đưa vào danh sách đen cao hơn. Theo Godaddy, điều này còn hơn thế đối với các trang web doanh nghiệp nhỏ. 90% các trang web Godaddy không biết rằng Phần mềm độc hại đã lây nhiễm chúng.

Vì vậy, liên tục cạo tất cả SERPs của bạn cho phép bạn phát hiện trước các nỗ lực hack tiềm năng và chắc chắn giúp Google khôi phục kết quả của bạn.

Làm thế nào để cạo kết quả tìm kiếm của Google?

Như tôi đã đề cập trước đây, có một số cách mà bạn có thể cạo Google SERPs. Trong phần này, bạn sẽ khám phá một số cách mà nó có thể làm điều đó.

Trình quét web trực quan

Bát phân

Đây là một công cụ quét web chung mà bạn có thể sử dụng để quét Google SERPs. Nó không chỉ cạo SERPs mà còn rất tốt trong việc thu thập dữ liệu từ bản đồ Google.

Một trong những tính năng quan trọng của Octoparse là nó khéo léo tránh các biện pháp chống cạo được đưa ra bởi các trang web mục tiêu. Ngoài ra, nó không yêu cầu bạn phải là một lập trình viên để sử dụng công cụ cạo trực quan của nó. Nó khá thuận tiện để sử dụng và có sẵn như một giải pháp dựa trên đám mây cũng như phần mềm có thể cài đặt.

Bạn có thể tìm thêm thông tin về Octoparse tại đây.

Tiện ích mở rộng trình duyệt

Webscraper.io 

Webscraper.io là một tiện ích mở rộng miễn phí cho trình duyệt web Google Chrome. Nó có thể trích xuất dữ liệu từ các trang web của Google dưới dạng HTML và CSS. Sau đó, nó có thể xuất dữ liệu ở định dạng CSV. Phiên bản mở rộng trình duyệt hoàn toàn miễn phí và đủ để quản lý các hoạt động cạo của bạn. Nếu bạn sử dụng tùy chọn dựa trên đám mây, nó sẽ phải chịu chi phí.

Bạn cũng có thể trích xuất bản đồ Google với nó và chuyển đổi chúng thành Cơ sở dữ liệu. Bạn có thể tìm thêm thông tin về tiện ích mở rộng này nhấn vào đây.

API Tìm kiếm của Google

Bạn có biết rằng Google cung cấp một cách chính thức để trích xuất dữ liệu từ công cụ tìm kiếm của mình? Mặc dù nó có những hạn chế, như đã đề cập bên dưới, nó hiện có sẵn cho bất kỳ ai yêu cầu dữ liệu SERP. Dưới đây là những hạn chế của nó:

  • Nó cung cấp thông tin hạn chế so với trình quét web trực quan, tiện ích mở rộng trình duyệt hoặc các công cụ quét web khác.
  • Google đã phát triển nó với ý định tìm kiếm một trang web duy nhất hoặc ít trang web hơn. Tuy nhiên, bạn có thể cấu hình nó để tìm kiếm toàn bộ World Wide Web (WWW), đòi hỏi nhiều chuyên môn kỹ thuật.
  • Nó cực kỳ tốn kém vì bạn sẽ phải trả rất nhiều tiền để gửi hàng đống yêu cầu.

Vì vậy, với những hạn chế và chi phí của nó, API tìm kiếm của Google không phải là nền tảng lý tưởng để cạo kết quả SERPs. Luôn luôn tốt hơn để thực hiện các phương pháp thay thế được đề cập trong suốt bài viết này.

Sử dụng Python, requests và BeautifulSoup

Đối với những bạn là chuyên gia viết mã với Python, phương pháp này sẽ rất hữu ích. Nó chắc chắn sẽ làm giảm chi phí ngay từ đầu và bạn có nhiều quyền kiểm soát hơn.

Trong chương trình này, chúng tôi sẽ trích xuất SERPs cho truy vấn tìm kiếm, "Cách học Python". Để làm cho mọi thứ đơn giản hơn, chúng tôi sẽ mã hóa cứng truy vấn tìm kiếm. Sau đó, sau khi kéo bộ kết quả, chúng tôi sẽ in tiêu đề của kết quả. Hãy đi sâu vào.

import requests from bs4 import BeautifulSoup import random text = 'How to learn Python programming' url = 'https://google.com/search?q=' + text useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36" ) Agent = useragent[random.randrange(len(useragent))] headers = {'user-agent': Agent} req = requests.get(url, headers=headers) soup = BeautifulSoup(req.text, 'lxml') for info in soup.find_all('h3'): print(info.text) print('__________')

Ở đây mình sẽ giải thích rõ ràng từng dòng code:

Yêu cầu nhập khẩu

Chúng tôi sử dụng thư viện yêu cầu của Python để tải xuống SERP. Sau đó, mô-đun yêu cầu gửi yêu cầu get đến máy chủ Google. Điều này cho phép chương trình tải xuống nội dung HTML của SERP.

từ bs4 nhập khẩu BeautifulSoup

Sau đó, dòng sau đây là tự giải thích, tải thư viện BeautifulSoup. Thư viện này cho phép phân tích cú pháp các tài liệu HTML và XML.

text = 'Cách học lập trình Python' url = 'https://google.com/search?q=' + văn bản

Đoạn mã này đặt URL của công cụ tìm kiếm để lấy dữ liệu. Vì vậy, tôi đã đặt URL là google.com và đối với truy vấn tìm kiếm, tôi đã thêm văn bản vào biến văn bản 'Cách học lập trình Python' làm truy vấn tìm kiếm.

useragent = ("Mozilla/5.0 (Windows NT 10.0; Thắng64; x64) AppleWebKit / 537.36 (KHTML, như Gecko) Chrome / 92.0.4515.107 Safari / 537.36 ")

      

Sau đó, đoạn mã trên đặt chuỗi tác nhân người dùng.

req = requests.get(url, headers=headers)

Đoạn mã trên gửi yêu cầu đến máy chủ web để tải xuống nội dung HTML được yêu cầu của kết quả tìm kiếm.

súp = BeautifulSoup (req.text, 'lxml')

Tạo một instance của BeautifulSoup với dữ liệu mà đoạn code trên yêu cầu từ các tiêu đề phân tích cú pháp 'lxml'. Trước tiên, bạn phải cài đặt gói 'lxml' để mã trên hoạt động.

for info in soup.find_all('h3'): print(info.text) print('__________')

Sau đó, sử dụng vòng lặp for, tất cả các thẻ h3 được trích xuất để hiển thị các tiêu đề.

Sử dụng proxy dân dụng để quét Google SERPs

Như đã đề cập trước đó, các công cụ tìm kiếm như Google áp đặt các hạn chế bao gồm cấm địa chỉ IP của bạn khi bạn vượt quá giới hạn cạo. Đây là nơi proxy đóng một vai trò quan trọng trong việc che giấu địa chỉ IP của bạn. Trong số tất cả các proxy ngoài kia, proxy dân dụng là lựa chọn lý tưởng. Điều này là do IP của họ bắt nguồn từ các chủ sở hữu dân cư thực sự.

Tuy nhiên, khi bạn scrap một vài SERPs đầu tiên, Google sẽ nhận thấy rằng hành động của bạn là vô nhân đạo. Sau đó, nó sẽ chặn địa chỉ IP proxy của bạn và bạn sẽ phải xử lý captcha.

Đây là nơi mạng lưới proxy dân cư đóng vai trò là vị cứu tinh của bạn. Khi bạn sử dụng một mạng proxy dân cư, mỗi proxy sẽ có một địa chỉ IP duy nhất. Vì vậy, bạn sẽ có thể cạo từ SERPs bằng cách xoay các địa chỉ IP. Sau đó, hành động của bạn sẽ xuất hiện như con người đối với công cụ tìm kiếm.

Để được giải thích chi tiết về proxy dân dụng, vui lòng tham khảo bài viết này.

Ý nghĩa pháp lý khi sử dụng proxy dân dụng để quét Google SERPs

Bây giờ, bạn nên có một ý tưởng rõ ràng về proxy dân cư là gì và cách chúng có thể giúp bạn vượt qua các lệnh cấm IP. Bây giờ chúng ta sẽ xem xét một yếu tố quan trọng mà nhiều người dùng bỏ qua khi cạo từ SERPs của Google. Đó là ý nghĩa pháp lý của việc sử dụng proxy dân cư.

Trước hết, việc sử dụng proxy dân dụng để cạo Google SERPs là hợp pháp. Vì vậy, với ý nghĩ đó, bạn có thể bị cám dỗ để gửi yêu cầu không giới hạn đến các công cụ tìm kiếm như Google. Như vậy, nó sẽ làm quá tải các máy chủ của Google với một số lượng lớn các yêu cầu. Đây không phải là điều đúng đắn để làm, ngay cả theo thuật toán SERPs của Google.

Do đó, bạn cần đảm bảo rằng bạn luôn tôn trọng trang web mục tiêu hoặc công cụ tìm kiếm mà bạn sẽ thu thập dữ liệu. Bạn cũng sẽ phải sử dụng các phương pháp cạo tốt nhất có thể, bao gồm cả trình cạo của bạn tôn trọng công cụ tìm kiếm mục tiêu.

Bạn phải ngay lập tức giới hạn các yêu cầu hoặc dừng quá trình cạo nếu bạn hoặc nhà cung cấp proxy của bạn nhận được khiếu nại từ máy chủ web đích. Khiếu nại có thể là máy chủ web mục tiêu có thể đang gặp phải khối lượng công việc cao do yêu cầu không giới hạn của bạn. Do đó, bạn cần thận trọng với những sự thật như vậy.

Các câu hỏi thường gặp

Cạo từ Google có bất hợp pháp không?

Thông thường, Google không thích khi scraper cạo dữ liệu từ nó. Như tôi đã nêu nhiều lần trong bài viết này, nó có thể cấm địa chỉ IP của bạn. Ngoài ra, cho đến nay, Google đã không thực hiện bất kỳ hành động nào để thu thập dữ liệu. Rõ ràng, các công ty SEO sẽ không có lối thoát nếu Google thực hiện những hành động như vậy.

Kết thúc

Bây giờ chúng tôi hy vọng bạn đã có được kiến thức tổng thể về các phương pháp khác nhau mà web scrapers sử dụng để cạo dữ liệu từ SERPs.Các trường hợp khác nhau sử dụng các phương pháp khác nhau. Cuối cùng, bạn đã học được cách bạn có thể sử dụng proxy dân cư để cạo SERPs cùng với ý nghĩa pháp lý của chúng.

Chúng tôi hy vọng rằng bạn thấy bài viết này hữu ích và theo dõi để biết thêm bài viết.