tối proxyscrape logo

Quét web để tạo khách hàng tiềm năng: Hàng nghìn khách hàng tiềm năng trong tầm tay bạn

Cạo, Tháng 3-05-20215 phút đọc

Why Lead Generation Matters Lead generation is an essential part of growing your business. If your sales team doesn’t have leads to approach, they can’t do their job. Cold-calling prospects is rarely effective, especially for brands that sell higher-value products where there’s some friction to the idea of making a purchase. Every Sale Started as

Mục lục

Tại sao việc tạo khách hàng tiềm năng lại quan trọng

Tạo khách hàng tiềm năng là một phần thiết yếu trong việc phát triển doanh nghiệp của bạn. Nếu đội ngũ bán hàng của bạn không có khách hàng tiềm năng để tiếp cận, họ không thể thực hiện công việc của mình. Triển vọng gọi điện lạnh hiếm khi hiệu quả, đặc biệt là đối với các thương hiệu bán các sản phẩm có giá trị cao hơn, nơi có một số ma sát với ý tưởng mua hàng.

Mọi giao dịch bán hàng đều bắt đầu với tư cách là khách hàng tiềm năng

Doanh số bán hàng đến từ khách hàng tiềm năng. Báo cáo Tiếp thị nội dung công nghệ: Điểm chuẩn, Ngân sách và Xu hướng do Viện Tiếp thị Nội dung và MarketingProfs sản xuất nhấn mạnh rằng 77% các nhà tiếp thị công nghệ sử dụng các khách hàng tiềm năng đủ điều kiện tiếp thị để thúc đẩy doanh số bán hàng (tăng từ 64% vào năm 2019).

Khách hàng tiềm năng đủ điều kiện dễ chuyển đổi hơn vì họ là những người (hoặc doanh nghiệp) đã bày tỏ sự quan tâm đến sản phẩm hoặc dịch vụ của bạn. Bằng cách xác định đối tượng mục tiêu của bạn và tập trung nỗ lực tiếp thị của bạn vào những người đó một cách cụ thể, bạn sẽ tiết kiệm thời gian và năng lượng của nhóm bán hàng để họ có thể tập trung vào các khách hàng tiềm năng chất lượng cao nhất.

Sức mạnh của web trong tầm tay bạn

Tạo khách hàng tiềm năng ngày nay dễ dàng hơn bao giờ hết. Giao tiếp tức thì, các tùy chọn tiếp thị truyền thông xã hội được nhắm mục tiêu cao và quyền truy cập vào cơ sở dữ liệu chứa hầu hết mọi thông tin có thể tưởng tượng được có nghĩa là các chủ doanh nghiệp nhỏ có khả năng đạt được bất cứ điều gì họ muốn đặt tâm trí.

Trước đây, nếu bạn muốn tiếp cận một đối tượng mục tiêu cụ thể, bạn sẽ phải trả một số tiền rất lớn cho một công ty tiếp thị để có thể gửi tờ rơi trong bài đăng đến các công ty trên cơ sở dữ liệu của họ.

Ngày nay, điều đó là không cần thiết. Nếu bạn muốn tìm danh sách các nhà hàng Mexico ở bờ biển phía đông hoặc các trường K-12 trong tiểu bang của bạn, bạn có thể tìm thấy trực tuyến. Các công ty hoạt động trong không gian B2B có thể xây dựng cơ sở dữ liệu về khách hàng tiềm năng một cách nhanh chóng và dễ dàng, sau đó lọc danh sách đó và gửi thông điệp tiếp thị phù hợp.

Đối với các thực thể B2B đang nhắm mục tiêu một khu vực địa lý tương đối nhỏ, một tìm kiếm web đơn giản có thể đủ để tìm danh sách các khách hàng tiềm năng. Tuy nhiên, nếu bạn đang tìm cách tiếp cận các doanh nghiệp trên toàn tiểu bang hoặc thậm chí trên toàn quốc, việc thu thập thủ công tất cả dữ liệu đó sẽ rất tốn thời gian.

Quét web có thể giúp bạn và nhóm tiếp thị của bạn tiết kiệm một lượng thời gian và tiền bạc đáng kể, thu thập dữ liệu bạn cần một cách tự động.

Web Scraping là gì?

Web Scraping là một kỹ thuật tự động để trích xuất dữ liệu từ một trang web hoặc nhiều trang web, vì vậy bạn có thể sử dụng dữ liệu trong các ứng dụng khác. Ví dụ: giả sử bạn muốn xây dựng danh sách tên và địa chỉ của các nhà hàng trong khu vực của mình, thay vì ghé thăm thủ công từng nhà hàng địa phương được liệt kê trên Yelp hoặc Tripadvisor. Trong trường hợp đó, bạn có thể sử dụng trình quét web để xem qua các trang đó và trích xuất các chi tiết đó, tạo danh sách bạn có thể sử dụng để gửi thư.

Web scraping có thể giúp các doanh nghiệp tiết kiệm rất nhiều thời gian và công sức khi xây dựng danh sách tiếp thị. Nó cũng dễ thực hiện một cách đáng ngạc nhiên nếu bạn có các công cụ hoặc bí quyết lập trình phù hợp.

Web Scrapers hoạt động như thế nào?

Web scraper hoạt động bằng cách tải lên các trang mà bạn muốn trích xuất dữ liệu từ đó, sau đó đọc trang để tìm loại thông tin bạn đang cố gắng tìm. Thông tin đó có thể là:

  • Tên công ty
  • Số điện thoại
  • Địa chỉ email
  • Địa chỉ bưu chính
  • Địa chỉ trang web

Khi một trình quét web tải xuống một trang, nó sẽ đọc mã nguồn để tìm kiếm các mẫu. Tùy thuộc vào trang web bạn đang lấy dữ liệu, nó có thể chỉ cần tìm kiếm thứ gì đó phù hợp với mẫu số điện thoại 123-456-78901 hoặc định dạng [email protected] của địa chỉ email.

Ngoài ra, nhà phát triển của scraper có thể biết rằng trên một trang web thư mục nhất định, chi tiết liên hệ được bao quanh bởi một bộ thẻ cụ thể trong HTML và làm cho scraper trích xuất thông tin từ giữa các thẻ đó.

Một số phần mềm scraper có thể được cấu hình bởi người dùng cuối, vì vậy nó có thể được dạy để hiểu hầu hết mọi trang web.

Những thách thức với việc sử dụng dụng dụng cụ cạo

Một vấn đề với việc sử dụng phần mềm scraper là các quy định như GDPR của EU có nghĩa là người dùng phải rất cẩn thận với dữ liệu họ thu thập và cách sử dụng dữ liệu. Theo GDPR, một tổ chức phải có sự cho phép của một người để giữ hoặc xử lý dữ liệu về một cá nhân.

Một số trang web cố gắng bảo vệ quyền riêng tư của người dùng và bảo vệ tài nguyên máy chủ của riêng họ bằng cách cố gắng chặn các trình quét web. Có một số tùy chọn để thực hiện việc này, bao gồm kiểm tra 'tác nhân người dùng' được trả về bởi phần mềm máy khách và giới hạn số lượng yêu cầu cho các trang đến từ một địa chỉ IP cụ thể.

Nếu bạn muốn sử dụng scraper một cách hiệu quả, bạn sẽ cần đảm bảo rằng bạn hiểu các quy tắc xung quanh tiếp thị ở quốc gia của bạn, xử lý bất kỳ dữ liệu nào bạn thu thập có trách nhiệm và biết cách thu thập dữ liệu từ các nguồn bạn đã chọn theo cách hiệu quả, không phá hủy sẽ không khiến bạn bị cấm khỏi trang web đó.

Ví dụ: tại ProxyScrape, chúng tôi cung cấp proxy dân dụng có thể được sử dụng cho mục đích thu thập dữ liệu. Chúng tôi khuyên rằng nếu bạn đang cân nhắc sử dụng các proxy đó, bạn hãy đảm bảo trình quét của bạn không đưa ra quá nhiều yêu cầu đến trang web mục tiêu trong một khoảng thời gian ngắn. Cạo có trách nhiệm để bạn không gây hại cho các trang web bạn đang làm việc.

Chọn nguồn dữ liệu cho khách hàng tiềm năng chất lượng cao

Việc thu thập nội dung cho phép chủ doanh nghiệp truy cập vào lượng thông tin khổng lồ mà nếu không sẽ khó thu thập, nhưng thông tin đó chỉ hữu ích khi nguồn gốc của nó.

Một trong những thách thức của việc thu thập dữ liệu từ việc thu thập dữ liệu là đảm bảo rằng thông tin được cập nhật. Có hàng ngàn thư mục trên web, và nhiều trong số chúng được quản lý kém và lỗi thời.

Nếu bạn thu thập dữ liệu từ một nguồn lỗi thời, chất lượng thấp, tốt nhất, bạn lãng phí thời gian vào các email sẽ không được đọc. Trong trường hợp xấu nhất, bạn có thể thấy mình phải đối mặt với những lời phàn nàn vì đã thực hiện các cuộc gọi điện thoại không mong muốn lặp đi lặp lại đến một số không còn thuộc về doanh nghiệp mà bạn nghĩ nó đã làm.

Vì vậy, làm thế nào bạn có thể tăng cơ hội dữ liệu bạn thu thập được hữu ích?

Chọn nguồn dữ liệu của bạn một cách cẩn thận

Trước khi bạn bắt đầu thu thập dữ liệu bằng công cụ cạo, hãy kiểm tra trang web bạn đang cân nhắc làm việc theo cách thủ công. Thu thập một vài khách hàng tiềm năng bằng tay và điều tra chúng.

Các doanh nghiệp vẫn hoạt động? Các chi tiết liên lạc vẫn chính xác? Có vẻ như chủ sở hữu thư mục đang kiểm tra thông tin trước khi nó được thêm vào?

Giả sử một nửa số khách hàng tiềm năng bạn thu thập theo cách thủ công là đã chết, lỗi thời hoặc có khả năng giả mạo. Trong trường hợp đó, có khả năng cao là bất kỳ cơ sở dữ liệu nào bạn xây dựng bằng cách cạo trang web đó sẽ có chất lượng thấp.

Các trang web thư mục lớn hơn như Tripadvisor, Yelp hoặc FourSquare có nhiều khả năng có dữ liệu chất lượng hơn các thư mục nhỏ hơn, ít được biết đến hơn vì các nền tảng này có cơ sở người dùng lớn hơn nhiều cập nhật chúng.

Các thư mục thích hợp có thể có giá trị nếu bạn đang tìm cách tiếp thị cho một nhóm lợi ích tối nghĩa hoặc một loại công ty chuyên môn cao, nhưng bạn nên mong đợi có nhiều việc làm sạch dữ liệu trước khi sử dụng thông tin bạn thu thập cho mục đích tiếp thị.

Xem xét các trang web yêu cầu đăng nhập

Trong nhiều trường hợp, bạn sẽ nhận được nhiều dữ liệu có giá trị hơn nếu bạn thu thập nó từ một trang web yêu cầu đăng nhập. LinkedIn và Twitter, ví dụ, có thể được loại bỏ nếu bạn sử dụng giới hạn tốc độ để giữ số lượng yêu cầu mà bot của bạn gửi đến mức hợp lý và đăng nhập vào trang web khi bạn thực hiện yêu cầu.

Một tùy chọn khác là sử dụng API thay vì trình quét HTTP đơn giản và thu thập thông tin chi tiết từ một trong những dịch vụ lập bản đồ phổ biến. Ví dụ: Google cung cấp API tìm kiếm doanh nghiệp có thể được sử dụng để thu thập thông tin về các tổ chức có trong Google Maps, nhưng bạn phải đồng ý tuân thủ các điều khoản và điều kiện của Google trước khi truy cập API.

Nói chung, nếu API có sẵn, tốt hơn là thu thập dữ liệu của bạn bằng API đó hơn là sử dụng quét web. Bạn sẽ ít gặp sự cố với chủ sở hữu trang web hơn và việc làm sạch dữ liệu được phân phối qua API sẽ dễ dàng hơn.

Xây dựng các truy vấn của bạn đúng cách

Có một câu nói trong lập trình máy tính về "rác vào, rác ra", và điều đó chắc chắn áp dụng cho việc thu thập dữ liệu. Hãy chắc chắn rằng bạn xây dựng bất kỳ tìm kiếm nào bạn thực hiện một cách cẩn thận.

Ví dụ: nếu bạn muốn tiếp thị cho các nhà xây dựng ở Newcastle, đừng quên rằng có nhiều hơn một Newcastle ở Anh và cũng có một Newcastle ở Úc. Nếu bạn đang tìm kiếm 'Newcastle' thông qua proxy, hầu hết các trang web sẽ cố gắng đoán ý bạn là Newcastle nào bằng cách xem vị trí địa lý nào gần nhất với vị trí địa lý của proxy.

Cố gắng thu hẹp tìm kiếm càng nhiều càng tốt, cung cấp thông tin thành phố, tiểu bang và thậm chí cả quốc gia nếu trang web mục tiêu cho phép. Điều này sẽ giúp bạn tránh kết thúc với một cơ sở dữ liệu đầy đủ các chi tiết liên lạc cho các tổ chức hàng trăm dặm từ khu vực mong muốn của bạn.

Tùy chọn phần mềm cạp: Công cụ phổ biến

Quét web có thể đơn giản hoặc phức tạp như bạn muốn. Nếu bạn chỉ thử cạo lần đầu tiên, không cần phải chi nhiều tiền cho phần mềm tinh vi.

Một số lựa chọn tốt bao gồm:

  • Scraper
  • ProWebScraper
  • Cạo râu

Scraper là một tiện ích mở rộng trình duyệt web cho phép người dùng trích xuất dữ liệu từ các trang web một cách nhanh chóng và dễ dàng. Nếu bạn muốn lấy thông tin từ một trang kết quả hoặc một số trang nhỏ, Scraper là một cách đơn giản và hiệu quả để làm như vậy và bạn có thể thấy rằng nó dễ sử dụng hơn nhiều so với trình thu thập dữ liệu web phức tạp hơn.

ProWebScraper là một công cụ tiên tiến hơn có các phiên bản miễn phí và cao cấp. Công cụ miễn phí có thể được sử dụng để cạo tối đa 100 trang, có nghĩa là nó đủ cho một doanh nghiệp nhỏ hơn, thích hợp. ProWebScraper tương đối dễ sử dụng cho phần mềm cạo, có giao diện trỏ và nhấp và các quy tắc được thiết kế sẵn cho phép bạn thiết lập cạo ngay cả khi bạn không tự tin về mặt kỹ thuật.

ProWebScraper có thể tải xuống hình ảnh và đóng thùng các kết xuất JSON, CSV hoặc XML. Nó thậm chí có thể được thiết lập để cạo các trang web theo lịch trình để bạn có thể thu thập dữ liệu và cập nhật hồ sơ tiếp thị của mình.

Scrapy là một khung công tác quét web là mã nguồn mở và miễn phí. Công cụ này đòi hỏi kiến thức kỹ thuật, nhưng nó nhanh, linh hoạt và có thể được sử dụng để cạo một lượng lớn dữ liệu. Scrapy có thể chạy trên máy tính Linux, OS X, Windows hoặc BSD của riêng bạn hoặc trên máy chủ web.

Có một cộng đồng Scrapy tích cực, bao gồm trò chuyện IRC, Reddit và StackOverflow. Bạn có thể tìm kiếm lời khuyên từ cộng đồng và có thể tận dụng các tiện ích mở rộng hoặc mô-đun do cộng đồng tạo ra, mở khóa sức mạnh của Scrapy ngay cả khi bản thân bạn không phải là một nhà phát triển tự tin.

Mã hóa Scraper của riêng bạn

Nếu bạn cần thu thập nhiều dữ liệu hoặc có kế hoạch thu thập thường xuyên, các công cụ miễn phí và công cụ dựa trên GUI có thể không đủ mạnh cho trường hợp sử dụng của bạn. Mã hóa scraper của riêng bạn, hoặc thuê một nhà phát triển để làm điều đó cho bạn, là một lựa chọn tốt.

Có một số khung công tác mã nguồn mở miễn phí có thể được sử dụng để mã hóa trình quét bằng các ngôn ngữ phổ biến như Python, Perl, Java, R hoặc PHP.

Một trong những thư viện phổ biến nhất để quét web là BeautifulSoup. Đây là một công cụ cạo Python có khả năng trích xuất dữ liệu ra khỏi các tệp HTML hoặc XML một cách nhanh chóng và dễ dàng. Bạn sẽ cần phải có một số kiến thức về lập trình để sử dụng nó, nhưng nó thực hiện rất nhiều công việc chi tiết để cạo cho bạn, giúp bạn tiết kiệm từ việc phát minh lại bánh xe.

Khi bạn đã trích xuất dữ liệu, bạn có thể xuất dữ liệu dưới dạng tệp CSV hoặc hiển thị ở nhiều định dạng khác nhau bằng cách sử dụng thư viện xử lý dữ liệu như Pandas.

Ưu và nhược điểm của việc mã hóa trình cạp của riêng bạn

Mã hóa scraper của riêng bạn là một ý tưởng tốt nếu bạn có một số kiến thức lập trình. Nó cũng có thể hữu ích để mã hóa scraper của riêng bạn nếu bạn cần trích xuất nhiều dữ liệu từ một trang web bất thường mà các công cụ scraping miễn phí không thể xử lý.

Mã hóa công cụ cạp của riêng bạn hoặc trả tiền cho ai đó để làm điều đó cho bạn có thể là một ý tưởng hay nếu bạn có nhu cầu cụ thể, phức tạp. Một scraper được mã hóa tùy chỉnh có thể được thiết kế xung quanh một trang đích hiệu quả hơn một công cụ tổng quát hơn, vì vậy bạn ít gặp phải lỗi hoặc sự cố xử lý dữ liệu.

Ngược lại, máy cạo được mã hóa tùy chỉnh cũng hữu ích cho các công việc nhỏ hơn, đơn giản hơn. Khi bạn đã viết một scraper một lần, bạn có thể tinh chỉnh thói quen phân tích cú pháp và sử dụng cùng một tập lệnh để trích xuất dữ liệu từ các trang khác.

Nhược điểm của việc sử dụng trình quét được mã hóa tùy chỉnh là phải mất thời gian để viết trình quét lần đầu tiên và nếu bạn không phải là nhà phát triển có kinh nghiệm, bạn có thể dành nhiều thời gian vật lộn với định dạng JSON hoặc cố gắng tìm hiểu một thư viện mới hơn là chỉ đọc hướng dẫn sử dụng cho ProWebScraper và định cấu hình nó.

Tùy thuộc vào nhiệm vụ, có thể tiết kiệm chi phí hơn khi trả tiền cho một công cụ hơn là viết một công cụ tùy chỉnh.

Ngoài ra, nếu bạn dự định viết scraper của riêng mình, bạn sẽ cần phải nhận thức được các phương pháp hay nhất và các vấn đề mã hóa, chẳng hạn như:

  • Sử dụng Tác nhân người dùng để xác định bot của bạn
  • Cách bạn xử lý xác thực cho các trang web yêu cầu đăng nhập
  • Tuân thủ bất kỳ điều khoản và điều kiện nào của trang web
  • Tỷ lệ hạn chế yêu cầu của bạn để tránh đặt tải quá mức trên trang web
  • Gửi các yêu cầu được hình thành đúng cách
  • Sử dụng (và thường xuyên luân phiên) proxy
  • Vệ sinh bất kỳ thông tin nào được trả về bởi máy chủ
  • Quy tắc bảo vệ dữ liệu về cách thức và nơi bạn lưu trữ thông tin được trả về
  • Giải CAPTCHA

Viết một cái cạp nhỏ để lấy thông tin về vài trăm hoặc vài nghìn công ty có rất nhiều ý nghĩa. Nếu bạn đang lấy lượng dữ liệu lớn hơn, bạn có thể muốn tìm lời khuyên hoặc làm việc với chuyên gia để đảm bảo bạn hoàn toàn tuân thủ các quy định về quyền riêng tư của địa phương.

Quy tắc vàng để quét web

Nếu bạn quyết định viết scraper của riêng bạn, hãy nhớ "hãy tử tế". Hãy cố gắng hết sức để cạo một cách chu đáo, gửi các yêu cầu được hình thành đúng, cạo chậm và sử dụng một loạt các địa chỉ IP khi bạn cạo.

Cố gắng làm cho cái cạp của bạn trông giống như một con người. Điều đó có nghĩa là yêu cầu các trang từ từ và cố gắng không tuân theo một mẫu cố định khi đi qua các trang. Ví dụ: hãy xem xét việc kéo danh sách kết quả tìm kiếm, lập danh sách các liên kết trên trang kết quả, sau đó truy cập các liên kết đó theo thứ tự ngẫu nhiên, vì vậy ít rõ ràng bạn là bot.

Không gửi nhiều yêu cầu từ cùng một IP cùng một lúc. Các công cụ chống cạo sẽ phát hiện ra rằng bạn đang đặt tải bất thường trên máy chủ.

Tôn trọng thông tin trong tệp Robots.txt của trang web. Nếu có trang, quản trị viên web không muốn được lập chỉ mục. Sẽ là phi đạo đức nếu bạn bỏ qua điều đó.

Cân nhắc sử dụng một thư viện như Selenium để làm cho bot của bạn trông giống người hơn bằng cách gửi nhấp chuột đến trang hoặc tương tác với nó. Một số công cụ ant-scraper tinh vi hơn tìm kiếm 'các mẫu tương tác giống như bot và sẽ chặn địa chỉ IP nếu chúng nhận thấy thiếu cuộn, nhấp và tương tác khác.

Có một cuộc chạy đua vũ trang công nghệ giữa các nhà phát triển scraper và những người cố gắng chặn scraper khỏi trang web của họ. Rất khó để tạo ra một công cụ cạo có thể thu thập khối lượng dữ liệu khổng lồ mà không bị phát hiện. Tuy nhiên, đối với các dự án vừa và nhỏ, nếu bạn tuân theo các quy tắc tử tế và không tham lam, bạn sẽ có thể nhận được dữ liệu bạn cần với một trình quét chậm, ổn định và một số proxy.

Hãy nhớ rằng, bot của bạn có thể làm việc 24 giờ một ngày, thu thập dữ liệu trong nền, vì vậy không cần phải tải xuống toàn bộ danh sách các doanh nghiệp nhỏ trên Yelp trong một lần.

Khắc phục sự cố Scraper

Có một số vấn đề tiềm ẩn bạn có thể gặp phải khi chạy một scraper. Chúng có thể bao gồm:

  • Có IP của bạn bị chặn bởi quản trị viên web
  • Có ứng dụng khách cạo của bạn bị quản trị viên web chặn
  • Trình cạo của bạn bị nhầm lẫn khi cố gắng điều hướng trang web
  • Dữ liệu rác được thu thập thông qua 'honeypots' ẩn trên các trang web
  • Giới hạn tỷ lệ ngăn chặn máy cạp của bạn hoạt động nhanh chóng
  • Thay đổi thiết kế trang web phá vỡ một scraper đã từng hoạt động

Tin tốt là tất cả những vấn đề này đều có thể được khắc phục nếu bạn hiểu cách thức hoạt động của phế liệu.

Các trình quét web đơn giản tuân theo một mẫu:

  1. Trình cạp gửi yêu cầu HTTP đến một trang web
  2. Trang web sẽ gửi phản hồi, như đối với trình duyệt web bình thường
  3. Trình cạp đọc phản hồi, tìm kiếm một mẫu trong HTML
  4. Mẫu được trích xuất và lưu trữ trong tệp JSON để xử lý sau này
  5. Sau đó, scraper có thể tiếp tục đọc phản hồi để tìm kiếm thêm các mẫu hoặc gửi yêu cầu tiếp theo của nó

Có một vài lĩnh vực mà mọi thứ có thể đi sai.

Trình cạp không thu thập bất kỳ dữ liệu nào

Nếu trình quét hoàn toàn không chọn bất kỳ dữ liệu nào, điều này có thể là do sự cố với cách bạn thiết lập trình phân tích cú pháp hoặc có thể là trình quét không nhìn thấy cùng một trang web như bạn làm khi bạn sử dụng trình duyệt web.

Để tìm hiểu điều gì đã xảy ra, hãy đặt trình quét của bạn để xuất HTML của trang và so sánh với đầu ra trình duyệt thông thường.

Nếu bạn thấy lỗi hoặc một trang khác, có thể khách hàng cạo của bạn đã bị cấm. Trang web có thể đã cấm địa chỉ IP của bạn hoặc phần mềm máy khách cạp.

Hãy thử thay đổi User-Agent mà scraper của bạn xác định thành một trình duyệt làm cho nó trông giống như một trình duyệt web hiện đại như Firefox hoặc Chrome. Điều này có thể giúp bạn vượt qua các hạn chế đơn giản trên một số trang web.

Nếu cách đó không hiệu quả, hãy cân nhắc đặt trình cạp của bạn sử dụng proxy để kết nối với trang web được đề cập. Proxy là một máy chủ thay mặt bạn gửi các yêu cầu web, vì vậy trang web không thể biết chúng đến từ kết nối internet của bạn.

Nếu bạn thấy một trang 'bình thường', thì vấn đề có nhiều khả năng xảy ra với cách bạn đã đặt trình quét để trích xuất dữ liệu. Mỗi chương trình cạo có cách riêng để kết hợp các mẫu, mặc dù hầu hết sử dụng một số biến thể của các biểu thức chính quy. Đảm bảo không có lỗi đánh máy trong việc khớp mẫu. Hãy nhớ rằng, chương trình đang làm chính xác những gì bạn yêu cầu, vì vậy ngay cả một lỗi nhỏ cũng sẽ phá vỡ hoàn toàn các quy tắc phù hợp!

Máy cạp hoạt động một lúc, sau đó dừng lại

Một vấn đề phổ biến khác là cho một cái cạp làm việc trong một thời gian ngắn, sau đó ngừng hoạt động. Điều này thường có nghĩa là trang web đã chặn địa chỉ IP của bạn, tạm thời hoặc vĩnh viễn, vì bạn đã gửi quá nhiều yêu cầu trong một thời gian ngắn.

Nếu điều này xảy ra, bạn có thể vượt qua lệnh cấm bằng cách sử dụng proxy. Proxyscrape Cung cấp cả proxy cao cấp và dân cư để mọi người sử dụng để thu thập dữ liệu. Proxy trung tâm dữ liệu cao cấp nhanh và cung cấp băng thông không giới hạn nhưng có địa chỉ IP mà quản trị viên web có thể nhận ra là từ trung tâm dữ liệu. Các proxy dân dụng trông giống như chúng là 'người dùng gia đình', nhưng thông lượng có sẵn trên các proxy này có thể thấp hơn.

Cân nhắc thay đổi proxy bạn sử dụng sau một vài yêu cầu để giảm nguy cơ địa chỉ IP của proxy bị cấm. Bạn cũng có thể giảm nguy cơ bị cấm IP bằng cách giảm tốc độ mà trình cạp của bạn gửi yêu cầu.

Hãy nhớ rằng một cái cạp có thể hoạt động trong nền, 24 giờ một ngày, không nghỉ ngơi. Ngay cả khi bạn giới hạn tốc độ của trình cạp để phân tích cú pháp một trang cứ sau 15-30 giây, nó sẽ hoạt động nhanh hơn con người.

Hãy nhớ rằng nhiều trang web, đặc biệt là các trang web nhỏ hơn, được lưu trữ trên các máy chủ có giới hạn về tốc độ và lượng dữ liệu chúng có thể truyền mỗi tháng. Bạn có thể cảm thấy bot của mình cạo một số dữ liệu không phải là không hợp lý, nhưng nếu nhiều người dùng khác đang làm điều tương tự hoặc bot của bạn bị 'lạc' và cố gắng tải xuống vô tận cùng một trang nhiều lần, bạn có thể làm giảm hiệu suất của trang web cho người dùng hoặc tốn tiền quản trị trang web bằng cách tiêu thụ quá nhiều tài nguyên.

Trình cạp bị nhầm lẫn và trải qua một vòng lặp vô tận của các trang

Một vấn đề phổ biến khác mà các nhà tiếp thị gặp phải khi cố gắng sử dụng trình quét web là trình quét bị nhầm lẫn và tải xuống các trang không nên.

Hãy tưởng tượng rằng kế hoạch của người cạp của bạn là tìm một danh sách các thợ xây trong thành phố của bạn và bạn gửi nó đến một thư mục nơi nó tìm kiếm điều đó. Người cạp nên:

  • Gửi yêu cầu HTTP chứa chuỗi tìm kiếm mong muốn
  • Tải xuống trang kết quả
  • Phân tích cú pháp trang kết quả để tìm liên kết đến kết quả đầu tiên
  • Mở liên kết đó
  • Trích xuất chi tiết liên hệ từ trang mới đó
  • Tiếp tục phân tích cú pháp trang kết quả để tìm kết quả thứ hai
  • Mở liên kết đó
  • Và vân vân...

Một số trang web được xây dựng để bao gồm 'honeypots' sẽ bẫy và gây nhầm lẫn cho bot. Những honeypot này là các đoạn HTML được đặt với thẻ hiển thị nói 'display: none', vì vậy chúng sẽ không hiển thị trong trình duyệt thông thường. Tuy nhiên, bot có thể nhìn thấy chúng và nếu chúng không được định cấu hình để bỏ qua chúng, chúng sẽ xử lý chúng giống như HTML thông thường.

Rất khó để lập trình một bot hoàn toàn bỏ qua tất cả HTML bẫy bot vì một số bẫy này cực kỳ tinh vi. Tuy nhiên, những gì bạn có thể làm là đặt giới hạn về số lượng liên kết mà bot của bạn sẽ theo dõi. Bạn cũng có thể tự xem nguồn của trang và tìm kiếm bất kỳ bẫy rõ ràng nào để bạn có thể đặt bot bỏ qua chúng.

Tiếp thị có đạo đức: Sử dụng khách hàng tiềm năng của bạn một cách khôn ngoan

Web scraping là điều mà nhiều trang web cau mày và chủ doanh nghiệp nên cẩn thận khi làm. Ví dụ, theo GDPR, việc thu thập thông tin của cư dân EU mà không có sự đồng ý của họ là bất hợp pháp.

Ngoài ra, nhiều trang web ẩn dữ liệu đằng sau màn hình đăng nhập rõ ràng cấm quét web trong các điều khoản và điều kiện của họ. Điều này có nghĩa là bạn có nguy cơ bị cấm khỏi trang web đó nếu bạn bị phát hiện đang sử dụng trình cạp.

Nếu bạn quyết định sử dụng cạo để thu thập khách hàng tiềm năng, hãy cố gắng làm như vậy một cách hợp lý. Hãy nghĩ về việc cạo như một cách tiết kiệm thời gian khi thu thập khách hàng tiềm năng mà bạn sẽ thu thập được, thay vì một cách để gắn kết một chiến dịch tiếp thị lớn.

Tránh đúc lưới quá rộng với cạo. Có thể rất hấp dẫn để thu thập chi tiết liên lạc của mọi doanh nghiệp hoặc cá nhân trong khu vực của bạn và các khu vực xung quanh, với hy vọng chuyển đổi một trong những doanh nghiệp đó thành khách hàng, nhưng một chiến dịch rộng, không tập trung như vậy rất có thể sẽ phản tác dụng.

Làm sạch và duy trì cơ sở dữ liệu của bạn

Trước khi bạn bắt đầu chiến dịch tiếp thị của mình, hãy chạy một số kiểm tra đối với dữ liệu bạn đã thu thập. Làm sạch cơ sở dữ liệu để loại bỏ bất kỳ dữ liệu rõ ràng không chính xác nào, chẳng hạn như các doanh nghiệp đã đóng cửa, sao chép bản ghi hoặc bản ghi cho những người không ở trong khu vực mục tiêu của bạn.

Khi bạn bắt đầu chiến dịch, hãy luôn cập nhật cơ sở dữ liệu. Nếu khách hàng tiềm năng yêu cầu được xóa khỏi cơ sở dữ liệu của bạn, hãy xóa họ. Nếu bạn có thể làm như vậy một cách hợp pháp trong phạm vi quyền hạn của mình, hãy giữ lại đủ dữ liệu về họ để thêm email hoặc số điện thoại của họ vào danh sách 'không liên hệ' để họ không thể được thêm lại vào cơ sở dữ liệu tiếp thị của bạn vào lần tiếp theo bạn đi cạo.

Một số điều khác cần nhớ khi quản lý các chiến dịch tiếp thị của bạn bao gồm:

  • Giới hạn số lượng email hoặc cuộc gọi bạn thực hiện cho khách hàng tiềm năng lạnh
  • Cung cấp thông tin chọn không tham gia trong bất kỳ liên hệ nào bạn gửi đi
  • Tôn trọng các yêu cầu chọn không tham gia và thực hiện chúng kịp thời
  • Nếu ai đó phản hồi hoạt động tiếp thị của bạn, hãy cập nhật thông tin chi tiết của họ

Có một ranh giới tốt giữa tiếp thị chủ động và spam tích cực. Liên hệ lặp đi lặp lại từ các nhà tiếp thị là một phần của hành trình khách hàng và điều quan trọng là phải giữ liên lạc với khách hàng tiềm năng, nhưng tiếp thị quá tích cực có thể xa lánh khách hàng tiềm năng và mang lại cho thương hiệu của bạn danh tiếng xấu.

Cân nhắc nhập dữ liệu bạn nhận được từ việc thu thập vào hệ thống CRM để bạn có thể theo dõi từng khách hàng, họ đang ở giai đoạn nào trong quá trình chuyển đổi và cách họ phản hồi các thông điệp tiếp thị.

Làm điều này sẽ không chỉ giúp bạn luôn cập nhật khách hàng cá nhân mà còn giúp bạn dễ dàng xem các chiến dịch tiếp thị của mình đang hoạt động như thế nào để bạn có thể tinh chỉnh thông điệp của mình.

Theo dõi nguồn khách hàng tiềm năng cũng có thể hữu ích vì nó sẽ cung cấp cho bạn ý tưởng về nguồn dữ liệu nào chứa thông tin chất lượng cao nhất.