Thu thập dữ liệu web để tạo khách hàng tiềm năng: Hàng ngàn khách hàng tiềm năng trong tầm tay bạn

Cạo ,26-03-20215 phút đọc

Tại sao tạo khách hàng tiềm năng lại quan trọng Tạo khách hàng tiềm năng là một phần thiết yếu trong quá trình phát triển doanh nghiệp của bạn. Nếu nhóm bán hàng của bạn không có khách hàng tiềm năng để tiếp cận, họ không thể làm tốt công việc của mình. Việc gọi điện chào hàng hiếm khi hiệu quả, đặc biệt là đối với các thương hiệu bán sản phẩm có giá trị cao hơn, nơi có một số rào cản đối với ý tưởng mua hàng. Mỗi lần bán hàng đều bắt đầu như

Mục lục

Tại sao việc tạo khách hàng tiềm năng lại quan trọng
Mỗi lần bán hàng đều bắt đầu như một khách hàng tiềm năng
Sức mạnh của Web trong tầm tay bạn
Web Scraping là gì?
Trình thu thập dữ liệu web hoạt động như thế nào?
Những thách thức khi sử dụng Scraper
Chọn nguồn dữ liệu cho khách hàng tiềm năng chất lượng cao
Chọn nguồn dữ liệu của bạn một cách cẩn thận
Hãy xem xét các trang web yêu cầu đăng nhập
Xây dựng các truy vấn của bạn một cách hợp lý
Tùy chọn phần mềm Scraper: Các công cụ phổ biến
Mã hóa Scraper của riêng bạn
Ưu và nhược điểm của việc tự viết mã Scraper
Quy tắc vàng cho Web Scraping
Xử lý sự cố Scraper
Trình thu thập dữ liệu không thu thập được bất kỳ dữ liệu nào
Máy cạo hoạt động một lúc rồi dừng lại
Scraper bị nhầm lẫn và đi qua một vòng lặp vô tận của các trang
Tiếp thị có đạo đức: Sử dụng khách hàng tiềm năng đã thu thập một cách khôn ngoan
Làm sạch và duy trì cơ sở dữ liệu của bạn

Tại sao việc tạo khách hàng tiềm năng lại quan trọng

Tạo khách hàng tiềm năng là một phần thiết yếu trong việc phát triển doanh nghiệp của bạn. Nếu nhóm bán hàng của bạn không có khách hàng tiềm năng để tiếp cận, họ không thể làm công việc của mình. Việc gọi điện thoại lạnh cho khách hàng tiềm năng hiếm khi hiệu quả, đặc biệt là đối với các thương hiệu bán sản phẩm có giá trị cao hơn, nơi có một số rào cản đối với ý tưởng mua hàng.

Mỗi lần bán hàng đều bắt đầu như một khách hàng tiềm năng

Doanh số đến từ khách hàng tiềm năng. Báo cáo Technology Content Marketing: Benchmarks, Budgets and Trends do Content Marketing Institute và MarketingProfs thực hiện nhấn mạnh rằng 77% các nhà tiếp thị công nghệ sử dụng khách hàng tiềm năng đủ tiêu chuẩn tiếp thị để thúc đẩy doanh số (tăng từ 64% vào năm 2019).

Khách hàng tiềm năng đủ điều kiện dễ chuyển đổi hơn vì họ là những người (hoặc doanh nghiệp) đã bày tỏ sự quan tâm đến sản phẩm hoặc dịch vụ của bạn. Bằng cách xác định đối tượng mục tiêu và tập trung nỗ lực tiếp thị vào những người cụ thể đó, bạn sẽ tiết kiệm thời gian và năng lượng cho nhóm bán hàng để họ có thể tập trung vào những khách hàng tiềm năng chất lượng cao nhất.

Sức mạnh của Web trong tầm tay bạn

Ngày nay, việc tạo khách hàng tiềm năng dễ dàng hơn bao giờ hết. Giao tiếp tức thời, các tùy chọn tiếp thị truyền thông xã hội có mục tiêu cao và quyền truy cập vào cơ sở dữ liệu chứa hầu như mọi thông tin có thể tưởng tượng được có nghĩa là chủ doanh nghiệp nhỏ có khả năng đạt được bất cứ điều gì họ muốn.

Trước đây, nếu bạn muốn tiếp cận một đối tượng mục tiêu cụ thể, bạn sẽ phải trả một khoản tiền lớn cho một công ty tiếp thị để có thể gửi tờ rơi qua đường bưu điện đến các công ty trong cơ sở dữ liệu của họ.

Ngày nay, điều đó không cần thiết. Nếu bạn muốn tìm danh sách các nhà hàng Mexico ở bờ biển phía đông hoặc các trường K-12 ở tiểu bang của mình, bạn có thể tìm thấy trực tuyến. Các công ty hoạt động trong không gian B2B có thể xây dựng cơ sở dữ liệu khách hàng tiềm năng một cách nhanh chóng và dễ dàng, sau đó lọc danh sách đó và gửi các thông điệp tiếp thị phù hợp.

Đối với các thực thể B2B đang nhắm mục tiêu đến một khu vực địa lý tương đối nhỏ, một tìm kiếm đơn giản trên web có thể đủ để tìm danh sách các khách hàng tiềm năng. Tuy nhiên, nếu bạn muốn tiếp cận các doanh nghiệp trên toàn tiểu bang hoặc thậm chí là toàn quốc, việc thu thập thủ công tất cả dữ liệu đó sẽ rất tốn thời gian.

Thu thập dữ liệu web có thể giúp bạn và nhóm tiếp thị của bạn tiết kiệm đáng kể thời gian và tiền bạc bằng cách tự động thu thập dữ liệu bạn cần.

Web Scraping là gì?

Web Scraping là một kỹ thuật tự động để trích xuất dữ liệu từ một trang web hoặc nhiều trang web, do đó bạn có thể sử dụng dữ liệu trong các ứng dụng khác. Ví dụ, giả sử bạn muốn xây dựng danh sách tên và địa chỉ của các nhà hàng trong khu vực của mình, thay vì phải tự tay truy cập từng nhà hàng địa phương được liệt kê trên Yelp hoặc Tripadvisor. Trong trường hợp đó, bạn có thể sử dụng trình trích xuất web để duyệt qua các trang đó và trích xuất các chi tiết đó, tạo danh sách mà bạn có thể sử dụng để gửi thư.

Web scraping có thể giúp các doanh nghiệp tiết kiệm rất nhiều thời gian và công sức khi xây dựng danh sách tiếp thị. Việc này cũng dễ thực hiện một cách đáng ngạc nhiên nếu bạn có đúng công cụ hoặc hiểu biết về lập trình.

Trình thu thập dữ liệu web hoạt động như thế nào?

Trình thu thập dữ liệu web hoạt động bằng cách tải các trang mà bạn muốn trích xuất dữ liệu, sau đó đọc trang đó để tìm loại thông tin bạn đang cố gắng tìm. Thông tin đó có thể là:

Tên công ty
Số điện thoại
Địa chỉ email
Địa chỉ bưu chính
Địa chỉ trang web

Khi trình thu thập dữ liệu web tải xuống một trang, nó sẽ đọc mã nguồn để tìm kiếm các mẫu. Tùy thuộc vào trang web bạn đang lấy dữ liệu, nó có thể chỉ tìm kiếm thứ gì đó khớp với mẫu 123-456-78901 của số điện thoại hoặc định dạng [email protected] của địa chỉ email.

Ngoài ra, nhà phát triển trình thu thập dữ liệu có thể biết rằng trên một trang web thư mục nhất định, thông tin liên hệ được bao quanh bởi một tập hợp thẻ cụ thể trong HTML và yêu cầu trình thu thập dữ liệu trích xuất thông tin giữa các thẻ đó.

Một số phần mềm thu thập dữ liệu có thể được cấu hình bởi người dùng cuối, do đó có thể dạy cho người dùng cách hiểu hầu hết mọi trang web.

Những thách thức khi sử dụng Scraper

Một vấn đề khi sử dụng phần mềm scraper là các quy định như GDPR của EU có nghĩa là người dùng phải rất cẩn thận với dữ liệu họ thu thập và cách sử dụng dữ liệu đó. Theo GDPR, một tổ chức phải có sự cho phép của một người để lưu giữ hoặc xử lý dữ liệu về một cá nhân.

Một số trang web cố gắng bảo vệ quyền riêng tư của người dùng và bảo vệ tài nguyên máy chủ của họ bằng cách cố gắng chặn trình thu thập dữ liệu web. Có một số tùy chọn để thực hiện việc này, bao gồm kiểm tra 'tác nhân người dùng' do phần mềm máy khách trả về và giới hạn số lượng yêu cầu đối với các trang đến từ một địa chỉ IP cụ thể.

Nếu bạn muốn sử dụng công cụ thu thập dữ liệu hiệu quả, bạn cần đảm bảo rằng mình hiểu các quy tắc liên quan đến tiếp thị tại quốc gia của mình, xử lý mọi dữ liệu bạn thu thập một cách có trách nhiệm và biết cách thu thập dữ liệu từ các nguồn đã chọn theo cách hiệu quả, không phá hoại để không bị cấm khỏi trang web đó.

Ví dụ, tại ProxyScrape , chúng tôi cung cấp proxy dân dụng có thể được sử dụng cho mục đích thu thập dữ liệu. Chúng tôi khuyên bạn rằng nếu bạn đang cân nhắc sử dụng các proxy đó, hãy đảm bảo trình thu thập dữ liệu của bạn không gửi quá nhiều yêu cầu đến một trang web mục tiêu trong thời gian ngắn. Thu thập dữ liệu một cách có trách nhiệm để bạn không gây hại cho các trang web bạn đang làm việc.

Chọn nguồn dữ liệu cho khách hàng tiềm năng chất lượng cao

Việc thu thập nội dung cho phép chủ doanh nghiệp tiếp cận lượng thông tin khổng lồ mà nếu không sẽ rất khó để thu thập, nhưng thông tin đó chỉ hữu ích khi nó có nguồn gốc chính xác.

Một trong những thách thức của việc thu thập dữ liệu từ quá trình thu thập là đảm bảo thông tin được cập nhật. Có hàng ngàn thư mục trên web và nhiều thư mục trong số đó được quản lý kém và lỗi thời.

Nếu bạn thu thập dữ liệu từ một nguồn lỗi thời, chất lượng thấp, tốt nhất là bạn lãng phí thời gian vào những email không được đọc. Trong trường hợp xấu nhất, bạn có thể thấy mình phải đối mặt với khiếu nại vì đã gọi điện thoại không mong muốn nhiều lần đến một số điện thoại không còn thuộc về doanh nghiệp mà bạn nghĩ là thuộc về.

Vậy, làm thế nào để tăng khả năng dữ liệu bạn thu thập được có ích?

Chọn nguồn dữ liệu của bạn một cách cẩn thận

Trước khi bắt đầu thu thập dữ liệu bằng công cụ thu thập dữ liệu, hãy kiểm tra trang web mà bạn đang cân nhắc làm việc thủ công. Thu thập một vài đầu mối bằng tay và điều tra chúng.

Các doanh nghiệp vẫn đang hoạt động chứ? Thông tin liên lạc vẫn chính xác chứ? Có vẻ như chủ sở hữu danh bạ đang kiểm tra thông tin trước khi thêm vào không?

Giả sử một nửa số khách hàng tiềm năng bạn thu thập thủ công đã chết, lỗi thời hoặc có khả năng là giả mạo. Trong trường hợp đó, có khả năng cao là bất kỳ cơ sở dữ liệu nào bạn xây dựng bằng cách thu thập thông tin từ trang web đó sẽ có chất lượng thấp.

Các trang web thư mục lớn hơn như Tripadvisor, Yelp hoặc FourSquare có nhiều khả năng có dữ liệu chất lượng hơn các thư mục nhỏ hơn, ít được biết đến hơn vì các nền tảng này có lượng người dùng cập nhật dữ liệu lớn hơn nhiều.

Các danh mục ngách có thể có giá trị nếu bạn muốn tiếp thị đến một nhóm sở thích ít người biết đến hoặc một loại công ty có tính chuyên môn cao, nhưng bạn nên chuẩn bị tinh thần là phải dọn dẹp dữ liệu rất nhiều trước khi sử dụng thông tin thu thập được cho mục đích tiếp thị.

Hãy xem xét các trang web yêu cầu đăng nhập

Trong nhiều trường hợp, bạn sẽ nhận được dữ liệu có giá trị hơn nhiều nếu bạn thu thập dữ liệu từ một trang web yêu cầu đăng nhập. Ví dụ, LinkedIn và Twitter có thể bị thu thập nếu bạn sử dụng bộ giới hạn tốc độ để giữ số lượng yêu cầu mà bot của bạn gửi ở mức hợp lý và được đăng nhập vào trang web khi bạn thực hiện yêu cầu.

Một lựa chọn khác là sử dụng API thay vì trình thu thập HTTP đơn giản và thu thập thông tin chi tiết từ một trong những dịch vụ lập bản đồ phổ biến. Ví dụ: Google cung cấp API tìm kiếm doanh nghiệp có thể được sử dụng để thu thập thông tin về các tổ chức có trong Google Maps, nhưng bạn phải đồng ý tuân thủ các điều khoản và điều kiện của Google trước khi truy cập API.

Nhìn chung, nếu có API, tốt hơn là bạn nên thu thập dữ liệu bằng API đó thay vì sử dụng web scraping. Bạn sẽ ít có khả năng gặp phải sự cố với chủ sở hữu trang web và sẽ dễ dàng hơn trong việc dọn dẹp dữ liệu được cung cấp qua API.

Xây dựng các truy vấn của bạn một cách hợp lý

Có một câu nói trong lập trình máy tính là "rác vào, rác ra" và điều đó chắc chắn đúng với việc thu thập dữ liệu. Hãy đảm bảo rằng bạn xây dựng mọi tìm kiếm mà bạn thực hiện một cách cẩn thận.

Ví dụ, nếu bạn muốn tiếp thị cho các nhà xây dựng ở Newcastle, đừng quên rằng có nhiều hơn một Newcastle ở Anh và cũng có một Newcastle ở Úc. Nếu bạn đang tìm kiếm 'Newcastle' thông qua proxy, hầu hết các trang web sẽ cố gắng đoán Newcastle nào bạn muốn nói đến bằng cách xem trang nào gần nhất với vị trí địa lý của proxy.

Cố gắng thu hẹp phạm vi tìm kiếm càng nhiều càng tốt, cung cấp thông tin về thành phố, tiểu bang và thậm chí là quốc gia nếu trang web mục tiêu cho phép. Điều này sẽ giúp bạn tránh kết thúc với một cơ sở dữ liệu đầy đủ thông tin liên lạc của các tổ chức cách xa hàng trăm dặm so với khu vực mong muốn của bạn.

Tùy chọn phần mềm Scraper: Các công cụ phổ biến

Việc trích xuất dữ liệu web có thể đơn giản hoặc phức tạp tùy theo ý muốn của bạn. Nếu bạn mới thử trích xuất dữ liệu lần đầu, bạn không cần phải tốn nhiều tiền cho phần mềm phức tạp.

Một số lựa chọn tốt bao gồm:

Cái nạo
ProWebScraper
Cặn bã

Scraper là tiện ích mở rộng của trình duyệt web cho phép người dùng trích xuất dữ liệu từ các trang web một cách nhanh chóng và dễ dàng. Nếu bạn muốn trích xuất thông tin từ một trang kết quả duy nhất hoặc một số ít trang, Scraper là một cách đơn giản và hiệu quả để thực hiện việc này và bạn có thể thấy rằng nó dễ sử dụng hơn nhiều so với trình thu thập dữ liệu web phức tạp hơn.

ProWebScraper là một công cụ tiên tiến hơn có cả phiên bản miễn phí và trả phí. Công cụ miễn phí có thể được sử dụng để thu thập dữ liệu lên đến 100 trang, nghĩa là đủ cho một doanh nghiệp nhỏ, chuyên biệt. ProWebScraper tương đối dễ sử dụng cho phần mềm thu thập dữ liệu, có giao diện trỏ và nhấp cùng các quy tắc được thiết kế sẵn cho phép bạn thiết lập thu thập dữ liệu ngay cả khi bạn không tự tin về mặt kỹ thuật.

ProWebScraper có thể tải xuống hình ảnh và tạo JSON, CSV hoặc XML dump. Nó thậm chí có thể được thiết lập để thu thập dữ liệu trang web theo lịch trình để bạn có thể thu thập dữ liệu và cập nhật hồ sơ tiếp thị của mình.

Scrapy là một khuôn khổ web scraping miễn phí và mã nguồn mở. Công cụ này yêu cầu kiến thức kỹ thuật, nhưng nó nhanh, linh hoạt và có thể được sử dụng để scraping lượng lớn dữ liệu. Scrapy có thể chạy trên máy tính Linux, OS X, Windows hoặc BSD của riêng bạn hoặc trên máy chủ web.

Có một cộng đồng Scrapy năng động, bao gồm trò chuyện IRC, Reddit và StackOverflow. Bạn có thể tìm kiếm lời khuyên từ cộng đồng và có thể tận dụng các tiện ích mở rộng hoặc mô-đun do cộng đồng tạo ra, mở khóa sức mạnh của Scrapy ngay cả khi bạn không phải là một nhà phát triển tự tin.

Mã hóa Scraper của riêng bạn

Nếu bạn cần thu thập nhiều dữ liệu hoặc có kế hoạch thu thập dữ liệu thường xuyên, các công cụ miễn phí và công cụ dựa trên GUI có thể không đủ mạnh cho trường hợp sử dụng của bạn. Tự viết mã cho trình thu thập dữ liệu hoặc thuê một nhà phát triển để thực hiện là một lựa chọn tốt.

Có một số khuôn khổ mã nguồn mở miễn phí có thể được sử dụng để mã hóa trình thu thập dữ liệu bằng các ngôn ngữ phổ biến như Python, Perl, Java, R hoặc PHP.

Một trong những thư viện phổ biến nhất để trích xuất dữ liệu web là BeautifulSoup . Đây là một công cụ trích xuất dữ liệu Python có khả năng trích xuất dữ liệu từ các tệp HTML hoặc XML một cách nhanh chóng và dễ dàng. Bạn sẽ cần có một số kiến thức về lập trình để sử dụng nó, nhưng nó thực hiện rất nhiều công việc trích xuất dữ liệu chi tiết cho bạn, giúp bạn không phải phát minh lại bánh xe.

Sau khi trích xuất dữ liệu, bạn có thể xuất dữ liệu dưới dạng tệp CSV hoặc hiển thị dữ liệu ở nhiều định dạng khác nhau bằng thư viện xử lý dữ liệu như Pandas .

Ưu và nhược điểm của việc tự viết mã Scraper

Việc tự mã hóa trình thu thập dữ liệu của riêng bạn là một ý tưởng hay nếu bạn có một số kiến thức về lập trình. Việc tự mã hóa trình thu thập dữ liệu của riêng bạn cũng có thể hữu ích nếu bạn cần trích xuất nhiều dữ liệu từ một trang web bất thường mà các công cụ thu thập dữ liệu miễn phí không thể xử lý được.

Việc tự mã hóa trình thu thập dữ liệu hoặc thuê người khác làm thay bạn có thể là một ý tưởng hay nếu bạn có nhu cầu cụ thể, phức tạp. Trình thu thập dữ liệu được mã hóa tùy chỉnh có thể được thiết kế xung quanh trang đích hiệu quả hơn so với một công cụ chung hơn, do đó, bạn ít có khả năng gặp phải lỗi hoặc sự cố khi xử lý dữ liệu.

Ngược lại, các trình thu thập dữ liệu được mã hóa tùy chỉnh cũng hữu ích cho các công việc nhỏ hơn, đơn giản hơn. Sau khi bạn đã viết một trình thu thập dữ liệu một lần, bạn có thể điều chỉnh quy trình phân tích cú pháp và sử dụng cùng một tập lệnh để trích xuất dữ liệu từ các trang khác.

Nhược điểm của việc sử dụng trình thu thập dữ liệu được mã hóa tùy chỉnh là mất thời gian để viết trình thu thập dữ liệu lần đầu tiên và nếu bạn không phải là nhà phát triển có kinh nghiệm, bạn có thể mất nhiều thời gian vật lộn với định dạng JSON hoặc cố gắng tìm hiểu thư viện mới hơn là chỉ đọc hướng dẫn sử dụng ProWebScraper và cấu hình nó.

Tùy thuộc vào nhiệm vụ, việc trả tiền mua một công cụ có thể tiết kiệm chi phí hơn là tự viết một công cụ tùy chỉnh.

Ngoài ra, nếu bạn đang có kế hoạch viết trình thu thập dữ liệu của riêng mình, bạn sẽ cần phải biết về các phương pháp thu thập dữ liệu tốt nhất và các vấn đề về mã hóa, chẳng hạn như:

Sử dụng User-Agent để xác định bot của bạn
Cách bạn xử lý xác thực cho các trang web yêu cầu đăng nhập
Tuân thủ mọi điều khoản và điều kiện của trang web
Giới hạn tốc độ yêu cầu của bạn để tránh gây quá tải cho trang web
Gửi yêu cầu được hình thành đúng cách
Sử dụng (và thay đổi thường xuyên) proxy
Vệ sinh mọi thông tin được máy chủ trả về
Quy tắc bảo vệ dữ liệu về cách thức và địa điểm bạn lưu trữ thông tin được trả về
Giải quyết CAPTCHA

Viết một trình thu thập dữ liệu nhỏ để lấy thông tin về vài trăm hoặc vài nghìn công ty là rất hợp lý. Nếu bạn đang lấy lượng dữ liệu lớn hơn, bạn có thể muốn tìm lời khuyên hoặc làm việc với chuyên gia để đảm bảo bạn tuân thủ đầy đủ các quy định về quyền riêng tư tại địa phương.

Quy tắc vàng cho Web Scraping

Nếu bạn quyết định viết trình thu thập dữ liệu của riêng mình, hãy nhớ "phải tử tế". Hãy cố gắng thu thập dữ liệu một cách chu đáo, gửi các yêu cầu được định dạng đúng, thu thập dữ liệu chậm rãi và sử dụng nhiều địa chỉ IP khi bạn thu thập dữ liệu.

Cố gắng làm cho trình thu thập dữ liệu của bạn trông giống như một con người. Điều đó có nghĩa là yêu cầu các trang chậm và cố gắng không tuân theo một khuôn mẫu cố định khi duyệt qua các trang. Ví dụ, hãy xem xét việc kéo một danh sách kết quả tìm kiếm , tạo một danh sách các liên kết trên trang kết quả, sau đó truy cập các liên kết đó theo thứ tự ngẫu nhiên, để ít bị phát hiện là bot.

Không gửi nhiều yêu cầu từ cùng một IP cùng một lúc. Các công cụ chống sao chép sẽ phát hiện ra rằng bạn đang đặt tải bất thường lên máy chủ.

Tôn trọng thông tin trong tệp Robots.txt của trang web. Nếu có các trang, quản trị viên web không muốn được lập chỉ mục. Sẽ là không có đạo đức nếu bạn bỏ qua điều đó.

Hãy cân nhắc sử dụng một thư viện như Selenium để làm cho bot của bạn trông giống con người hơn bằng cách gửi các cú nhấp chuột vào trang hoặc tương tác với nó theo cách khác. Một số công cụ ant-scraper tinh vi hơn sẽ tìm kiếm các 'mẫu tương tác giống bot' và sẽ chặn địa chỉ IP nếu chúng nhận thấy thiếu thao tác cuộn, nhấp chuột và tương tác khác.

Có một cuộc chạy đua vũ trang công nghệ giữa các nhà phát triển scraper và những người cố gắng chặn scraper khỏi trang web của họ. Rất khó để tạo ra một scraper có thể thu thập khối lượng dữ liệu khổng lồ mà không bị phát hiện. Tuy nhiên, đối với các dự án nhỏ hoặc vừa, nếu bạn tuân theo các quy tắc tử tế và không tham lam, bạn sẽ có thể lấy được dữ liệu mình cần với một scraper chậm, ổn định và một số proxy.

Hãy nhớ rằng bot của bạn có thể hoạt động 24 giờ một ngày, thu thập dữ liệu ở chế độ nền, do đó, bạn không cần phải tải xuống toàn bộ danh sách các doanh nghiệp nhỏ trên Yelp cùng một lúc.

Xử lý sự cố Scraper

Có một số vấn đề tiềm ẩn mà bạn có thể gặp phải khi chạy trình thu thập dữ liệu. Những vấn đề này có thể bao gồm:

Có IP của bạn bị chặn bởi quản trị viên trang web
Có máy khách thu thập dữ liệu của bạn bị chặn bởi quản trị viên trang web
Trình thu thập dữ liệu của bạn bị nhầm lẫn khi cố gắng điều hướng trang web
Dữ liệu rác được thu thập thông qua 'honeypots' ẩn trên các trang web
Giới hạn tốc độ ngăn chặn trình thu thập dữ liệu của bạn hoạt động nhanh chóng
Những thay đổi trong thiết kế trang web làm hỏng một trình thu thập thông tin từng hoạt động

Tin tốt là tất cả những vấn đề này đều có thể khắc phục được nếu bạn hiểu cách hoạt động của trình thu thập dữ liệu.

Các công cụ thu thập dữ liệu web đơn giản tuân theo một mô hình sau:

Công cụ thu thập dữ liệu gửi yêu cầu HTTP đến một trang web
Trang web gửi phản hồi giống như nó sẽ gửi đến một trình duyệt web thông thường
Công cụ thu thập dữ liệu đọc phản hồi, tìm kiếm mẫu trong HTML
Mẫu được trích xuất và lưu trữ trong tệp JSON để xử lý sau
Sau đó, trình thu thập dữ liệu có thể tiếp tục đọc phản hồi để tìm thêm các mẫu hoặc gửi yêu cầu tiếp theo

Có một số lĩnh vực mà mọi việc có thể diễn ra không như mong đợi.

Trình thu thập dữ liệu không thu thập được bất kỳ dữ liệu nào

Nếu trình thu thập dữ liệu không thu thập được bất kỳ dữ liệu nào, nguyên nhân có thể là do cách bạn thiết lập trình phân tích cú pháp có vấn đề hoặc do trình thu thập dữ liệu không nhìn thấy cùng một trang web mà bạn nhìn thấy khi sử dụng trình duyệt web.

Để tìm ra lỗi sai, hãy thiết lập trình thu thập dữ liệu để xuất mã HTML của trang và so sánh với đầu ra thông thường của trình duyệt.

Nếu bạn thấy lỗi hoặc trang khác, có thể là trình thu thập dữ liệu của bạn đã bị cấm. Trang web có thể đã cấm địa chỉ IP của bạn hoặc phần mềm trình thu thập dữ liệu.

Hãy thử thay đổi User-Agent mà trình thu thập dữ liệu của bạn xác định thành một User-Agent trông giống như trình duyệt web hiện đại như Firefox hoặc Chrome. Điều này có thể giúp bạn vượt qua các hạn chế đơn giản trên một số trang web.

Nếu cách đó không hiệu quả, hãy cân nhắc thiết lập trình thu thập dữ liệu của bạn để sử dụng proxy để kết nối đến trang web đang đề cập. Proxy là máy chủ gửi yêu cầu web thay mặt bạn, do đó trang web không thể biết chúng đến từ kết nối internet của bạn.

Nếu bạn thấy một trang 'bình thường', thì vấn đề có nhiều khả năng nằm ở cách bạn thiết lập trình thu thập dữ liệu để trích xuất dữ liệu. Mỗi chương trình thu thập dữ liệu có cách riêng để khớp mẫu, mặc dù hầu hết đều sử dụng một số biến thể của biểu thức chính quy. Đảm bảo không có lỗi đánh máy nào trong quá trình khớp mẫu. Hãy nhớ rằng, chương trình đang thực hiện chính xác những gì bạn yêu cầu, vì vậy ngay cả một lỗi nhỏ cũng sẽ phá vỡ hoàn toàn các quy tắc khớp!

Máy cạo hoạt động một lúc rồi dừng lại

Một vấn đề phổ biến khác là trình thu thập dữ liệu hoạt động trong thời gian ngắn, sau đó ngừng hoạt động. Điều này thường có nghĩa là trang web đã chặn địa chỉ IP của bạn, tạm thời hoặc vĩnh viễn, vì bạn đã gửi quá nhiều yêu cầu trong thời gian ngắn.

Nếu điều này xảy ra, bạn có thể vượt qua lệnh cấm bằng cách sử dụng proxy. Proxyscrape cung cấp cả proxy cao cấp và proxy dân dụng để mọi người sử dụng để thu thập dữ liệu. Proxy trung tâm dữ liệu cao cấp nhanh và cung cấp băng thông không giới hạn nhưng có địa chỉ IP mà quản trị viên web có thể nhận ra là từ một trung tâm dữ liệu. Proxy dân dụng trông giống như 'người dùng gia đình', nhưng thông lượng khả dụng trên những proxy này có thể thấp hơn.

Hãy cân nhắc thay đổi proxy bạn sử dụng sau một vài yêu cầu để giảm nguy cơ địa chỉ IP của proxy bị cấm. Bạn cũng có thể giảm nguy cơ bị cấm IP bằng cách giảm tốc độ trình thu thập dữ liệu của bạn gửi yêu cầu.

Hãy nhớ rằng một trình thu thập dữ liệu có thể hoạt động ở chế độ nền, 24 giờ một ngày, không nghỉ. Ngay cả khi bạn giới hạn tốc độ của trình thu thập dữ liệu ở mức phân tích một trang trong mỗi 15-30 giây, nó vẫn hoạt động nhanh hơn con người.

Hãy nhớ rằng nhiều trang web, đặc biệt là các trang web nhỏ hơn, được lưu trữ trên các máy chủ có giới hạn về tốc độ và lượng dữ liệu mà chúng có thể truyền tải mỗi tháng. Bạn có thể cảm thấy việc bot của mình thu thập một số dữ liệu là không vô lý, nhưng nếu nhiều người dùng khác cũng làm như vậy hoặc bot của bạn bị "lạc" và cố gắng tải xuống vô tận các trang giống nhau nhiều lần, bạn có thể làm giảm hiệu suất của trang web đối với người dùng hoặc khiến quản trị viên web tốn kém tiền bạc do tiêu tốn quá nhiều tài nguyên.

Scraper bị nhầm lẫn và đi qua một vòng lặp vô tận của các trang

Một vấn đề phổ biến khác mà các nhà tiếp thị gặp phải khi cố gắng sử dụng công cụ thu thập dữ liệu web là công cụ này dễ bị nhầm lẫn và tải xuống những trang không cần thiết.

Hãy tưởng tượng rằng kế hoạch của trình thu thập dữ liệu là tìm danh sách thợ nề trong thành phố của bạn và bạn gửi nó đến một thư mục để tìm kiếm danh sách đó. Trình thu thập dữ liệu sẽ:

Gửi yêu cầu HTTP có chứa chuỗi tìm kiếm mong muốn
Tải xuống trang kết quả
Phân tích trang kết quả để tìm liên kết đến kết quả đầu tiên
Mở liên kết đó
Trích xuất thông tin liên lạc từ trang mới đó
Tiếp tục phân tích trang kết quả để tìm kết quả thứ hai
Mở liên kết đó
Và cứ thế…

Một số trang web được xây dựng để bao gồm 'honeypots' sẽ bẫy và làm bot bối rối. Những honeypots này là các đoạn HTML được thiết lập với thẻ hiển thị có nội dung 'display:none', do đó chúng sẽ không hiển thị trong trình duyệt thông thường. Tuy nhiên, bot có thể nhìn thấy chúng và nếu chúng không được cấu hình để bỏ qua chúng, chúng sẽ xử lý chúng giống như HTML thông thường.

Rất khó để lập trình một con bot hoàn toàn bỏ qua tất cả các HTML bẫy bot vì một số bẫy này cực kỳ tinh vi. Tuy nhiên, điều bạn có thể làm là đặt giới hạn về số lượng liên kết mà con bot của bạn sẽ theo dõi. Bạn cũng có thể tự xem nguồn của trang và tìm kiếm bất kỳ bẫy nào rõ ràng để bạn có thể thiết lập con bot bỏ qua chúng.

Tiếp thị có đạo đức: Sử dụng khách hàng tiềm năng đã thu thập một cách khôn ngoan

Web scraping là một việc mà nhiều trang web không muốn làm và các chủ doanh nghiệp nên cẩn thận khi thực hiện. Theo GDPR, việc thu thập thông tin của cư dân EU mà không có sự đồng ý của họ là bất hợp pháp, ví dụ.

Ngoài ra, nhiều trang web ẩn dữ liệu sau màn hình đăng nhập rõ ràng cấm việc thu thập dữ liệu web trong các điều khoản và điều kiện của họ. Điều này có nghĩa là bạn có nguy cơ bị cấm khỏi trang web đó nếu bạn bị phát hiện sử dụng trình thu thập dữ liệu.

Nếu bạn quyết định sử dụng scraping để thu thập thông tin khách hàng tiềm năng, hãy cố gắng thực hiện một cách hợp lý. Hãy coi scraping như một cách tiết kiệm thời gian khi thu thập thông tin khách hàng tiềm năng mà bạn vẫn thu thập được, thay vì là một cách để thực hiện một chiến dịch tiếp thị lớn.

Tránh tung lưới quá rộng với việc cạo. Bạn có thể bị cám dỗ thu thập thông tin liên lạc của mọi doanh nghiệp hoặc cá nhân trong khu vực của bạn và các khu vực xung quanh, với hy vọng chuyển đổi một trong những doanh nghiệp đó thành khách hàng, nhưng một chiến dịch rộng và không tập trung như vậy rất có thể sẽ phản tác dụng.

Làm sạch và duy trì cơ sở dữ liệu của bạn

Trước khi bắt đầu chiến dịch tiếp thị, hãy chạy một số kiểm tra trên dữ liệu bạn đã thu thập. Làm sạch cơ sở dữ liệu để xóa bất kỳ dữ liệu nào rõ ràng là không chính xác, chẳng hạn như các doanh nghiệp đã đóng cửa, hồ sơ trùng lặp hoặc hồ sơ cho những người không ở trong khu vực mục tiêu của bạn.

Sau khi bạn bắt đầu chiến dịch, hãy cập nhật cơ sở dữ liệu. Nếu một khách hàng tiềm năng yêu cầu xóa khỏi cơ sở dữ liệu của bạn, hãy xóa họ. Nếu bạn có thể làm như vậy theo luật pháp tại khu vực pháp lý của mình, hãy giữ lại đủ dữ liệu về họ để thêm email hoặc số điện thoại của họ vào danh sách 'không liên hệ' để họ không thể được thêm lại vào cơ sở dữ liệu tiếp thị của bạn vào lần tiếp theo bạn thu thập dữ liệu.

Một số điều khác cần nhớ khi quản lý chiến dịch tiếp thị của bạn bao gồm:

Giới hạn số lượng email hoặc cuộc gọi bạn thực hiện cho khách hàng tiềm năng
Cung cấp thông tin từ chối trong bất kỳ danh bạ nào bạn gửi đi
Tôn trọng các yêu cầu từ chối và thực hiện chúng ngay lập tức
Nếu ai đó phản hồi về hoạt động tiếp thị của bạn, hãy cập nhật thông tin chi tiết của họ

Có một ranh giới mong manh giữa tiếp thị chủ động và thư rác hung hăng. Việc liên hệ nhiều lần từ các nhà tiếp thị là một phần của hành trình khách hàng và điều quan trọng là phải giữ liên lạc với khách hàng tiềm năng, nhưng tiếp thị quá hung hăng có thể khiến khách hàng tiềm năng xa lánh và gây tiếng xấu cho thương hiệu của bạn.

Hãy cân nhắc nhập dữ liệu bạn thu thập được vào hệ thống CRM để bạn có thể theo dõi từng khách hàng, giai đoạn họ đang ở trong quá trình chuyển đổi và cách họ phản hồi các thông điệp tiếp thị.

Làm như vậy không chỉ giúp bạn theo dõi từng khách hàng mà còn giúp bạn dễ dàng xem hiệu quả chung của các chiến dịch tiếp thị để có thể tinh chỉnh thông điệp của mình.

Việc theo dõi nguồn khách hàng tiềm năng cũng có thể hữu ích vì nó sẽ giúp bạn biết được nguồn dữ liệu nào chứa thông tin chất lượng cao nhất.

Qua: ProxyScrape