Google là người chơi lớn nhất trong số tất cả các công cụ tìm kiếm khi nói đến tìm kiếm thông tin trên Internet. Theo ước tính, hơn 3,5 tỷ tìm kiếm được thực hiện trên Google Tìm kiếm mỗi ngày. Chúng tôi (người dùng Google) chỉ được cung cấp một lượng thông tin nhất định dựa trên Google Analytics và Google Ads. Google sử dụng API của mình
Google là người chơi lớn nhất trong số tất cả các công cụ tìm kiếm khi nói đến tìm kiếm thông tin trên Internet. Theo ước tính, hơn 3,5 tỷ tìm kiếm được thực hiện trên Google Tìm kiếm mỗi ngày. Chúng tôi (người dùng Google) chỉ được cung cấp một lượng thông tin nhất định dựa trên Google Analytics và Google Ads. Google sử dụng API (Giao diện lập trình ứng dụng) và về cơ bản chọn thông tin có giá trị nhất đối với chúng tôi dựa trên nghiên cứu và xếp hạng của nó. Nhưng nếu chúng ta muốn đào sâu hơn một chút vào thông tin nào thực sự có giá trị đối với bạn thì sao?
Ở đây có nhu cầu cạo. Bạn có thể nghĩ về một trình quét Google như một cách để làm nổi bật các chương quan trọng nhất của một cuốn sách. Khi bạn quét một cuốn sách giáo khoa để tìm thông tin, bạn có xu hướng chọn ra văn bản sẽ có giá trị nhất cho nghiên cứu hoặc kiểm tra của bạn. Nhưng World Wide Web lớn hơn một cuốn sách 1000 trang. Vì vậy, trong trường hợp của Internet, Google scraper có thể là con mắt tập trung vào laser của bạn, ngay lập tức lấy và thu thập các kết quả hàng đầu về chủ đề bạn thắc mắc. Bạn có thể trích xuất kết quả tìm kiếm của Google dựa trên các từ khóa cụ thể. Ví dụ: nếu bạn quét Google bằng từ khóa "sư tử", trình quét web của Google sẽ cung cấp cho bạn một số URL được xếp hạng hàng đầu nhất định dựa trên từ khóa đó. Bạn càng sử dụng nhiều từ khóa, Google sẽ cung cấp cho bạn các URL và dữ liệu cụ thể hơn. Dữ liệu càng cụ thể, nó sẽ càng được điều chỉnh theo yêu cầu của bạn. Nhưng trước tiên chúng ta hãy hiểu sự cần thiết phải cạo Google.
Bạn biết rằng Google là điểm truy cập chính vào Internet cho hàng tỷ người và hầu hết mọi doanh nghiệp đều muốn xuất hiện trong kết quả của Google Tìm kiếm. Xếp hạng và đánh giá của Google có tác động lớn đến hồ sơ trực tuyến của các doanh nghiệp địa phương. Các cơ quan tiếp thị có nhiều khách hàng từ các ngành công nghiệp khác nhau phụ thuộc rất nhiều vào việc có được các công cụ SEO (Tối ưu hóa Công cụ Tìm kiếm) đáng tin cậy. Chúng là một phương tiện để thực hiện các nhiệm vụ khác nhau một cách hiệu quả và là phương tiện để quản lý và phân tích kết quả thành công.
Sau đây là một số trường hợp sử dụng của việc cạo Google.
Các doanh nghiệp cần phải scrap Google vì những lý do sau.
Hãy xem cách chúng ta có thể cạo Google bằng python.
Trước tiên, bạn cần cài đặt một fake-useragent. Nó lấy useragent cập nhật với cơ sở dữ liệu trong thế giới thực.
pip cài đặt fake-useragent
Bạn phải nhập tất cả các thư viện cần thiết, như hình dưới đây.
Nhập khẩu gấu trúc dưới dạng PD
Nhập numpy dưới dạng NP
Nhập urllib
từ fake_useragent nhập UserAgent
Yêu cầu nhập khẩu
Nhập khẩu lại
từ urllib.request import request, urlopen
từ bs4 nhập khẩu BeautifulSoup
Bạn phải xây dựng URL Google bằng cách sử dụng từ khóa của bạn và số lượng kết quả. Để làm điều này, chúng tôi sẽ làm theo hai bước:
Mã hóa từ khóa thành HTML bằng urllibThêm id vào URL
Chúng tôi cho rằng từ khóa của chúng tôi là "trăn học máy".
keyword= "Python học máy"
html_keyword= urllib.parse.quote_plus(từ khóa)
in(html_keyword)
Khi chúng tôi in ra từ khóa, chúng tôi nhận được kết quả sau.
Sau khi mã hóa từ khóa thành HTML bằng urllib, chúng ta phải xây dựng URL Google như hình dưới đây.
number_of_result = 15
google_url = "https://www.google.com/search?q=" + html_keyword + "&num=" + str(number_of_result)
print(google_url)
Chúng tôi nhận được URL sau:
Bây giờ, chúng ta phải nhấn URL và nhận kết quả. Để đạt được điều này, Súp đẹp và Useragent giả sẽ giúp chúng tôi điều đó.
ua = UserAgent()
response = requests.get(google_url, {"User-Agent": ua.random})
soup = BeautifulSoup(response.text, "html.parser")
Chúng ta chỉ cần các biểu thức chính quy để trích xuất thông tin chúng ta muốn.
result = soup.find_all('div', attrs = {'class': 'ZINbbc'})
results=[re.search('\/url\?q\=(.*)\&sa',str(i.find('a', href = True)['href'])) for i in result if "url" in str(i)]
#this is because in rare cases we can't get the urls
links=[i.group(1) for i in results if i != None]
links
Đây là những gì chúng tôi nhận được.
Đây là cách bạn có thể quét Google bằng Python.
Chúng ta cũng có thể tổng hợp đoạn mã trên trong một hàm scraper duy nhất, như được hiển thị bên dưới.
def google_results(keyword, n_results):
query = keyword
query = urllib.parse.quote_plus(query) # Format into URL encoding
number_result = n_results
ua = UserAgent()
google_url = "https://www.google.com/search?q=" + query + "&num=" + str(number_result)
response = requests.get(google_url, {"User-Agent": ua.random})
soup = BeautifulSoup(response.text, "html.parser")
result = soup.find_all('div', attrs = {'class': 'ZINbbc'})
results=[re.search('\/url\?q\=(.*)\&sa',str(i.find('a', href = True)['href'])) for i in result if "url" in str(i)]
links=[i.group(1) for i in results if i != None]
return (links)
Ở đây google_results là chức năng scraper của chúng tôi, trong đó chúng tôi chuyển từ khóa và số lượng kết quả làm tham số và xây dựng URL của Google.
google_results('học máy bằng Python', 10)
Đây là những gì chúng tôi nhận được.
Nếu bạn muốn kết nối với API Google Ads thì sao? Bạn có thể thực hiện việc này thông qua proxy bằng cách đặt cấu hình http_proxy trong tệp google-ads.yaml như hình dưới đây.
http_proxy: INSERT_PROXY_HERE
Bạn có thể chỉ định http://user:pass@localhost:8082 làm proxy. Bạn cũng có thể định cấu hình cài đặt proxy theo lập trình với sự trợ giúp của các phương thức GoogleAdsClient như:
Chẳng hạn
config = {
...
"http_proxy": "INSERT_PROXY_HERE",
}
googleads_client = GoogleAdsClient.load_from_dict(config)
Bạn phải đặt biến môi trường GOOGLE_ADS_HTTP_PROXY để sử dụng proxy từ phương thức load_from_env.
Sau đây là những lý do để sử dụng proxy của Google.
Bạn có thể quét Google bằng Python cho:
Khi thu thập dữ liệu từ Google, proxy rất cần thiết vì chúng có thể giúp các công ty tăng thứ hạng trên các công cụ tìm kiếm và ngăn IP Internet của họ bị chặn. Bạn có thể sử dụng toàn bộ lô proxy chuyên dụng để quét Google và chúng giúp bạn lấy dữ liệu cực kỳ nhanh.
Hy vọng bạn đã hiểu về cách cạo Google bằng Python.