Nghiên cứu học thuật liên quan đến việc thu thập hàng đống dữ liệu từ nhiều nguồn khác nhau, bất kể nghiên cứu của bạn là định lượng hay định tính. Do tính chất toàn diện của những dữ liệu trực tuyến này, các nhà nghiên cứu học thuật sẽ phải phụ thuộc vào công nghệ để trích xuất chúng. Một kỹ thuật tự động như vậy mà chúng ta sẽ khám phá trong bài viết này là quét web. Tuy nhiên, web
Nghiên cứu học thuật liên quan đến việc thu thập hàng đống dữ liệu từ nhiều nguồn khác nhau, bất kể nghiên cứu của bạn là định lượng hay định tính. Do tính chất toàn diện của những dữ liệu trực tuyến này, các nhà nghiên cứu học thuật sẽ phải phụ thuộc vào công nghệ để trích xuất chúng.
Một kỹ thuật tự động như vậy mà chúng ta sẽ khám phá trong bài viết này là quét web. Tuy nhiên, việc quét web một mình sẽ không mang lại kết quả hiệu quả. Bạn sẽ phải phụ thuộc vào proxy cũng như với những cân nhắc về đạo đức.
Nhưng trước tiên, chúng ta sẽ khám phá bản chất của những dữ liệu này.
Đối với nghiên cứu học thuật, dữ liệu trên web bao gồm dữ liệu định lượng và định tính có cấu trúc, không có cấu trúc và bán cấu trúc. Chúng được phân tán trên web trong blog, tweet, email, cơ sở dữ liệu, trang web, bảng HTML, ảnh, video, v.v.
Khi trích xuất số lượng lớn dữ liệu như vậy từ web, bạn thường sẽ được yêu cầu giải quyết một số thách thức kỹ thuật. Những thách thức này là do khối lượng, sự đa dạng, tính xác thực và vận tốc của dữ liệu. Hãy xem xét từng biến này:
Khối lượng - Theo như khối lượng dữ liệu có liên quan, chúng được đo bằng Zettabyte (hàng tỷ gigabyte) vì chúng ở dạng số lượng lớn.
Thứ hai, các kho lưu trữ hoặc cơ sở dữ liệu trong đó các dữ liệu này được lưu trữ có nhiều định dạng khác nhau và dựa trên nhiều tiêu chuẩn công nghệ và quy định.
Vận tốc-Sau đó, thứ ba, dữ liệu hiện diện trên web là động vì chúng được tạo ra với tốc độ đáng kinh ngạc hơn.
Tính xác thực - Đặc điểm cuối cùng của dữ liệu có sẵn cho nghiên cứu là tính xác thực của dữ liệu. Vì dữ liệu tương tác ẩn danh trên web do tính chất tự do và mở của nó, không có nhà nghiên cứu nào có thể xác nhận liệu dữ liệu cần thiết có sẵn trên web có đủ hay không, khẳng định chất lượng của nó.
Do các biến trên, các nhà nghiên cứu học thuật sẽ không thực tế khi bắt đầu thu thập dữ liệu theo cách thủ công. Vì vậy, thực tiễn mới nổi nhất của việc thu thập dữ liệu cho nghiên cứu là thông qua web-scraping. Chúng ta sẽ khám phá điều này trong phần tiếp theo.
Vì vậy, web scraping là việc trích xuất tự động dữ liệu web từ các nguồn như tạp chí học thuật, diễn đàn nghiên cứu, tài liệu học thuật, cơ sở dữ liệu và các nguồn khác mà bạn yêu cầu cho nghiên cứu học thuật để phân tích thêm.
Web scraping bao gồm các giai đoạn sau:
Đây là quá trình điều tra cấu trúc cơ bản của một thực thể nơi dữ liệu được lưu trữ. Thực thể này có thể là một trang web hoặc kho lưu trữ như Cơ sở dữ liệu. Mục tiêu của cuộc điều tra này là để hiểu cách dữ liệu bạn cần được lưu trữ. Nó đòi hỏi phải hiểu các khối xây dựng tạo nên kiến trúc web; HTML, CSS, XML, v.v., cho các ngôn ngữ đánh dấu và MySQL cho cơ sở dữ liệu web.
Thu thập dữ liệu trang web là tạo các tập lệnh tự động bằng cách sử dụng các ngôn ngữ lập trình cấp cao như Python để duyệt các trang web để trích xuất dữ liệu bạn cần. Bạn có tùy chọn tạo tập lệnh từ đầu hoặc mua một tập lệnh đã được phát triển.
Python chứa các thư viện như Scrapy and Beautiful Soap Library để tự động thu thập dữ liệu và phân tích cú pháp dữ liệu. Tìm hiểu thêm về thu thập dữ liệu và cạo web trong bài viết này.
Sau khi công cụ thu thập dữ liệu thu thập dữ liệu cần thiết từ một trang web hoặc kho lưu trữ, bạn cần làm sạch, xử lý trước và sắp xếp nó để phân tích thêm. Do đó, một cách tiếp cận có lập trình có thể là cần thiết để tiết kiệm thời gian của bạn. Một lần nữa, các ngôn ngữ lập trình như Python chứa các thư viện Xử lý ngôn ngữ tự nhiên (NLP) giúp bạn tổ chức và làm sạch dữ liệu.
Đến bây giờ, bạn nên nhận ra rằng việc tự động hóa toàn bộ quá trình cạo là khá khó khăn. Nó đòi hỏi một số mức độ giám sát của con người.
Bây giờ bạn đã có được một cái nhìn tổng quan về toàn bộ quá trình quét web. Vì vậy, đã đến lúc xem xét một số khía cạnh đạo đức của việc quét web, vì bạn cần phải nhận thức được những gì bạn có thể và không thể làm trong khi cạo.
Chỉ vì bạn có các công cụ thu thập dữ liệu tự động, điều đó có nghĩa là bạn có thể cạo ở bất cứ đâu? Bao gồm dữ liệu nghiên cứu đằng sau một trang đăng nhập hoặc một diễn đàn riêng tư?
Mặc dù có những vùng xám trong luật liên quan đến việc quét web, bạn nên lưu ý rằng việc cạo dữ liệu mà người dùng thông thường không được phép truy cập là phi đạo đức, mà chúng ta sẽ thảo luận dưới đây.
Rốt cuộc, quét web có thể tạo ra tác hại ngoài ý muốn cho chủ sở hữu của một trang web, ví dụ. Những tác hại và nguy hiểm này rất khó dự đoán và xác định.
Dưới đây là một số hậu quả gây hại có thể xảy ra của việc quét web:
Một dự án nghiên cứu dựa trên việc thu thập dữ liệu từ một trang web có thể vô tình gây nguy hiểm cho quyền riêng tư của các cá nhân tham gia vào các hoạt động của trang web. Ví dụ: bằng cách so sánh dữ liệu bạn thu thập được từ một trang web với các tài nguyên trực tuyến và ngoại tuyến khác, một nhà nghiên cứu vô tình tiết lộ ai đã tạo ra dữ liệu.
Cũng giống như các cá nhân có quyền riêng tư, các tổ chức cũng có quyền giữ một số phần hoạt động của họ riêng tư và bí mật.
Mặt khác, tự động cạo có thể dễ dàng tiết lộ bí mật thương mại hoặc thông tin bí mật về tổ chức mà trang web thuộc về. Ví dụ: bằng cách đếm quảng cáo việc làm trên trang web tuyển dụng, người dùng thông minh sẽ xác định doanh thu của công ty xấp xỉ. Một kịch bản như vậy sẽ dẫn đến danh tiếng bị tổn hại của công ty và thậm chí có thể dẫn đến tổn thất tài chính.
Nếu bạn truy cập một trang web mà không truy cập vào giao diện người dùng hoặc giao diện của nó, bạn sẽ không tiếp xúc với các chiến dịch tiếp thị mà trang web sử dụng để tăng doanh thu. Tương tự như vậy, một dự án quét web có thể dẫn đến một sản phẩm mà khách hàng của nó không có khả năng mua từ chủ sở hữu sản phẩm thực tế. Điều này một lần nữa sẽ dẫn đến tổn thất tài chính cho tổ chức bằng cách giảm giá trị của nó.
Phương tiện truyền thông xã hội là một trong những nguồn nổi bật để trích xuất các dạng dữ liệu khác nhau cho nghiên cứu. Điều này là do thông tin khác nhau từ hành vi xã hội đến tin tức chính trị. Tuy nhiên, từ góc độ đạo đức, việc thu thập tất cả dữ liệu không đơn giản như âm thanh.
Một trong những lý do là phương tiện truyền thông xã hội bao gồm rất nhiều dữ liệu cá nhân. Một loạt các quy định pháp lý cũng bảo vệ dữ liệu này. Bên cạnh đó, các tiêu chuẩn đạo đức của cộng đồng khoa học chỉ đạo rằng bạn bảo vệ quyền riêng tư của người dùng. Điều này ngụ ý rằng bạn phải tránh mọi tác hại bằng mọi giá do kết nối những người thực tế mà nghiên cứu của bạn đề cập.
Trên thực tế, bạn không thể thấy bất kỳ đối tượng nào của bạn liên quan đến nghiên cứu của bạn trong môi trường riêng tư của họ. Điều này chắc chắn áp dụng cho việc truy cập hồ sơ Facebook, tường hoặc tin nhắn riêng tư của họ mà bạn không có quyền truy cập.
Rõ ràng, bạn sẽ không gây hại cho một cá nhân do rò rỉ dữ liệu khi tiến hành nghiên cứu định lượng. Vì vậy, khi thực hiện nghiên cứu định tính, hãy chú ý tiết lộ thông tin cá nhân bằng cách trích dẫn bài đăng của người dùng làm bằng chứng.
Giải pháp cuối cùng sẽ là sử dụng kỹ thuật Bút danh , cho phép bạn nghiên cứu dữ liệu và theo dõi các hoạt động của đối tượng mà không làm tổn hại đến quyền riêng tư của họ.
Proxy có thể đóng một vai trò rất lớn khi thu thập dữ liệu cho nghiên cứu học thuật. Có những nhóm dữ liệu khổng lồ từ nhiều nguồn khác nhau để lựa chọn và các hạn chế sẽ làm cho nghiên cứu trở nên phức tạp hơn. Proxy có thể giúp bạn vượt qua nhiều trở ngại này. Hãy cùng tìm hiểu làm thế nào.
Vượt qua các hạn chế địa lý theo vị trí- Một số tạp chí và bài báo học thuật hạn chế quyền truy cập của người dùng từ một số quốc gia nhất định. Bằng cách sử dụng proxy, bạn có thể vượt qua hạn chế này vì nó che giấu địa chỉ IP của bạn. Hơn nữa, bạn có thể chọn proxy dân cư từ nhiều địa điểm khác nhau trên toàn cầu để proxy không tiết lộ vị trí của bạn.
Tự động hóa quy trình thu thập dữ liệu- Như bạn đã khám phá trong phần trước, trình quét web có thể cạo rất nhiều dữ liệu. Tuy nhiên, họ sẽ không thể vượt qua các hạn chế do các trang web như captcha áp đặt. Proxy có thể giúp bạn vượt qua những hạn chế như vậy và giúp người cạo hầu hết dữ liệu.
Giúp bạn an toàn và ẩn danh- Khi bạn đang thực hiện các dự án nghiên cứu cho các tổ chức, bạn có thể là nạn nhân của tin tặc. Điều này là do tin tặc có thể chặn kết nối của bạn và đánh cắp dữ liệu bí mật. Tuy nhiên, bạn sẽ ẩn danh khi bạn đứng sau một máy chủ proxy vì địa chỉ IP của bạn bị ẩn. Do đó, nó sẽ ngăn chặn tin tặc đánh cắp dữ liệu của bạn.
Bạn có thể sử dụng trung tâm dữ liệu và proxy dân dụng để che giấu địa chỉ IP của mình khỏi các proxy có sẵn.
Với proxy Khu dân cư, bạn sẽ có thể sử dụng một nhóm địa chỉ IP từ nhiều quốc gia, mà chúng ta đã thảo luận ở trên.
Hơn nữa, khi bạn sử dụng một nhóm proxy, bạn có thể xoay chúng để xuất hiện với trang web mục tiêu dưới dạng các nguồn khác nhau truy cập vào nó. Vì vậy, bạn ít có khả năng nhận được một khối IP.
Ngoài ra, một số trang web nghiên cứu nhất định hiển thị thông tin khác nhau cho người dùng từ các quốc gia khác nhau. Vì vậy, một lợi thế khác của proxy xoay là bạn có thể thay đổi vị trí của mình và xác minh xem dữ liệu có thay đổi với các proxy khác nhau này hay không. Làm như vậy đảm bảo rằng nghiên cứu của bạn là toàn diện và hiệu quả từ nhiều nguồn từ các quốc gia khác nhau.
Khi các nhà báo dữ liệu thu thập dữ liệu tạp chí, hầu hết các nhà báo đều quan tâm đến việc xác định danh tính của họ. Một số nhà báo tin rằng điều cần thiết là phải xác định chính họ khi thu thập dữ liệu từ các trang web cụ thể. Điều này tương tự như giới thiệu bản thân với ai đó trước khi tiến hành một cuộc phỏng vấn.
Vì vậy, nếu bạn là một nhà báo thích xác định danh tính của mình, bạn phải viết một ghi chú trong tiêu đề HTTP có chứa tên của bạn và bạn là một nhà báo. Bạn cũng có thể để lại số điện thoại của mình nếu trong trường hợp quản trị viên web muốn liên hệ với bạn.
Ngược lại, nếu bạn là một nhà báo không muốn tiết lộ bản thân khi thu thập dữ liệu cho các câu chuyện, bạn có thể thu thập dữ liệu ẩn danh với sự hỗ trợ của proxy. Tuy nhiên, bạn sẽ phải tuân thủ các thực hành đạo đức tốt nhất và tuân theo các quy tắc của trang web, như chúng tôi đã nêu ở trên. Đây là một kịch bản tương tự như thực hiện một cuộc phỏng vấn bí mật khi đối tượng không biết rằng bạn đang phỏng vấn họ.
Chúng tôi hy vọng bạn có hiểu biết về quá trình thu thập dữ liệu cho nghiên cứu học thuật. Khi bạn cạo dữ liệu, có những nguyên tắc đạo đức mà bạn sẽ phải tuân theo mà không gây ra bất kỳ thiệt hại không chủ ý nào cho chủ sở hữu trang web.
Proxy có thể là vị cứu tinh của bạn trong những trường hợp như vậy, cũng như khắc phục các hạn chế được đề cập trong bài viết này.
Chúng tôi hy vọng bạn thích đọc điều này và bạn sẽ thực hiện các phương pháp được đề cập trong bài viết này để thu thập dữ liệu nghiên cứu cho nghiên cứu của bạn.