Nghiên cứu học thuật liên quan đến việc thu thập nhiều dữ liệu từ nhiều nguồn khác nhau, bất kể nghiên cứu của bạn là định lượng hay định tính. Do bản chất toàn diện của dữ liệu trực tuyến này, các nhà nghiên cứu học thuật sẽ phải phụ thuộc vào công nghệ để trích xuất chúng. Một kỹ thuật tự động như vậy mà chúng tôi sẽ khám phá trong bài viết này là web scraping. Tuy nhiên, web
Nghiên cứu học thuật liên quan đến việc thu thập dữ liệu từ nhiều nguồn khác nhau, bất kể nghiên cứu của bạn là định lượng hay định tính. Do bản chất toàn diện của dữ liệu trực tuyến này, các nhà nghiên cứu học thuật sẽ phải phụ thuộc vào công nghệ để trích xuất chúng.
Một kỹ thuật tự động như vậy mà chúng ta sẽ khám phá trong bài viết này là web scraping. Tuy nhiên, chỉ riêng web scraping sẽ không mang lại kết quả khả quan. Bạn cũng sẽ phải phụ thuộc vào proxy với những cân nhắc về mặt đạo đức.
Nhưng trước tiên, chúng ta sẽ khám phá bản chất của những dữ liệu này.
Đối với nghiên cứu học thuật, dữ liệu trên web bao gồm dữ liệu định lượng và định tính có cấu trúc, không có cấu trúc và bán cấu trúc. Chúng được phân tán trên web trong các blog, tweet, email, cơ sở dữ liệu, trang web, bảng HTML, ảnh, video, v.v.
Khi trích xuất một lượng lớn dữ liệu như vậy từ web, bạn thường phải giải quyết một số thách thức kỹ thuật. Những thách thức này là do khối lượng, tính đa dạng, tính xác thực và tốc độ của dữ liệu. Hãy cùng xem xét từng biến sau:
Khối lượng - Về khối lượng dữ liệu, chúng được đo bằng Zettabyte (tỷ gigabyte) vì chúng ở dạng số lượng lớn.
Sự đa dạng - Thứ hai, các kho lưu trữ hoặc cơ sở dữ liệu lưu trữ dữ liệu này có nhiều định dạng khác nhau và dựa trên nhiều tiêu chuẩn công nghệ và quy định.
Tốc độ- Thứ ba, dữ liệu hiện có trên web có tính động vì chúng được tạo ra với tốc độ cực nhanh.
Độ tin cậy - Đặc điểm cuối cùng của dữ liệu có sẵn cho nghiên cứu là độ tin cậy của dữ liệu. Vì dữ liệu tương tác ẩn danh trên web do bản chất miễn phí và mở của nó, nên không nhà nghiên cứu nào có thể xác nhận liệu dữ liệu cần thiết có sẵn trên web có đủ hay không, khẳng định chất lượng của nó.
Do các biến số trên, các nhà nghiên cứu học thuật sẽ không thực tế khi bắt đầu thu thập dữ liệu theo cách thủ công. Vì vậy, phương pháp thu thập dữ liệu mới nổi nhất cho mục đích nghiên cứu là thông qua web-scraping. Chúng ta sẽ khám phá điều này trong phần tiếp theo.
Vì vậy, thu thập dữ liệu web là việc tự động trích xuất dữ liệu web từ các nguồn như tạp chí học thuật, diễn đàn nghiên cứu, bài báo học thuật, cơ sở dữ liệu và các nguồn khác mà bạn cần cho nghiên cứu học thuật để phân tích thêm.
Quá trình trích xuất dữ liệu web bao gồm các giai đoạn sau:
Đây là quá trình điều tra cấu trúc cơ bản của một thực thể nơi dữ liệu được lưu trữ. Thực thể này có thể là một trang web hoặc kho lưu trữ như Cơ sở dữ liệu. Mục tiêu của quá trình điều tra này là để hiểu cách dữ liệu bạn cần được lưu trữ. Nó đòi hỏi phải hiểu các khối xây dựng tạo nên kiến trúc web; HTML, CSS, XML, v.v., đối với ngôn ngữ đánh dấu và MySQL đối với cơ sở dữ liệu web.
Thu thập dữ liệu trang web là tạo các tập lệnh tự động bằng các ngôn ngữ lập trình cấp cao như Python để duyệt các trang web nhằm trích xuất dữ liệu bạn cần. Bạn có tùy chọn tạo tập lệnh từ đầu hoặc mua tập lệnh đã được phát triển.
Python chứa các thư viện như Scrapy và Beautiful Soap Library để tự động thu thập và phân tích dữ liệu. Tìm hiểu thêm về thu thập và thu thập dữ liệu web trong bài viết này.
Sau khi công cụ thu thập dữ liệu thu thập dữ liệu cần thiết từ một trang web hoặc kho lưu trữ, bạn cần dọn dẹp, xử lý trước và sắp xếp dữ liệu để phân tích thêm. Do đó, có thể cần một phương pháp tiếp cận theo chương trình để tiết kiệm thời gian của bạn. Một lần nữa, các ngôn ngữ lập trình như Python chứa các thư viện Xử lý ngôn ngữ tự nhiên (NLP) giúp bạn sắp xếp và dọn dẹp dữ liệu.
Đến giờ, bạn hẳn đã nhận ra rằng việc tự động hóa toàn bộ quá trình thu thập dữ liệu là khá khó khăn. Nó đòi hỏi một mức độ giám sát nhất định của con người.
Bây giờ bạn đã có cái nhìn tổng quan về toàn bộ quá trình thu thập dữ liệu web. Vì vậy, đã đến lúc xem xét một số khía cạnh đạo đức của việc thu thập dữ liệu web, vì bạn cần phải biết những gì bạn có thể và không thể làm trong khi thu thập dữ liệu.
Chỉ vì bạn có công cụ thu thập dữ liệu tự động, điều đó có nghĩa là bạn có thể thu thập ở bất kỳ đâu? Bao gồm cả dữ liệu nghiên cứu nằm sau trang đăng nhập hoặc diễn đàn riêng tư?
Mặc dù có những vùng xám trong luật liên quan đến việc thu thập dữ liệu web, bạn nên lưu ý rằng việc thu thập dữ liệu mà người dùng thông thường không được phép truy cập là không có đạo đức, chúng tôi sẽ thảo luận về vấn đề này bên dưới.
Rốt cuộc, việc trích xuất dữ liệu web có thể gây ra tác hại không mong muốn cho chủ sở hữu trang web, ví dụ. Những tác hại và nguy hiểm này rất khó dự đoán và định nghĩa.
Sau đây là một số hậu quả có thể gây hại của việc thu thập dữ liệu web:
Một dự án nghiên cứu dựa trên việc thu thập dữ liệu từ một trang web có thể vô tình gây nguy hiểm cho quyền riêng tư của những cá nhân tham gia vào các hoạt động của trang web. Ví dụ, bằng cách so sánh dữ liệu bạn thu thập được từ một trang web với các nguồn trực tuyến và ngoại tuyến khác, một nhà nghiên cứu vô tình tiết lộ người đã tạo ra dữ liệu.
Cũng giống như cá nhân có quyền riêng tư, các tổ chức cũng có quyền giữ bí mật và riêng tư một số hoạt động của mình.
Mặt khác, việc tự động thu thập dữ liệu có thể dễ dàng tiết lộ bí mật thương mại hoặc thông tin mật về tổ chức mà trang web đó thuộc về. Ví dụ, bằng cách đếm các quảng cáo việc làm trên trang web tuyển dụng, người dùng thông minh sẽ xác định được doanh thu của công ty một cách gần đúng. Một kịch bản như vậy sẽ dẫn đến danh tiếng của công ty bị tổn hại và thậm chí có thể dẫn đến tổn thất tài chính.
Nếu bạn truy cập một trang web mà không truy cập vào frontend hoặc giao diện của trang web đó, bạn sẽ không tiếp xúc với các chiến dịch tiếp thị mà trang web đó sử dụng để thúc đẩy doanh thu. Tương tự như vậy, một dự án thu thập dữ liệu web có thể dẫn đến một sản phẩm mà khách hàng của nó không có khả năng mua từ chủ sở hữu sản phẩm thực tế. Điều này một lần nữa sẽ dẫn đến tổn thất tài chính cho tổ chức bằng cách làm giảm giá trị của nó.
Phương tiện truyền thông xã hội là một trong những nguồn nổi bật để trích xuất nhiều dạng dữ liệu khác nhau cho mục đích nghiên cứu. Điều này là do thông tin khác nhau từ hành vi xã hội đến tin tức chính trị. Tuy nhiên, xét về mặt đạo đức, việc thu thập tất cả dữ liệu không hề đơn giản như bạn nghĩ.
Một trong những lý do là phương tiện truyền thông xã hội bao gồm rất nhiều dữ liệu cá nhân. Nhiều quy định pháp lý cũng bảo vệ dữ liệu này. Bên cạnh đó, các tiêu chuẩn đạo đức của cộng đồng khoa học chỉ đạo rằng bạn phải bảo vệ quyền riêng tư của người dùng. Điều này ngụ ý rằng bạn phải tránh mọi tổn hại bằng mọi giá do kết nối những người thực tế mà nghiên cứu của bạn đề cập đến.
Trên thực tế, bạn không thể thấy bất kỳ chủ đề nào liên quan đến nghiên cứu của mình trong môi trường riêng tư của họ. Điều này chắc chắn áp dụng cho việc truy cập vào hồ sơ Facebook, tường hoặc tin nhắn riêng tư của họ mà bạn không có quyền truy cập.
Rõ ràng là bạn sẽ không gây hại cho cá nhân nào đó do rò rỉ dữ liệu khi tiến hành nghiên cứu định lượng. Vì vậy, khi thực hiện nghiên cứu định tính, hãy lưu ý tiết lộ thông tin cá nhân bằng cách trích dẫn bài đăng của người dùng làm bằng chứng.
Giải pháp cuối cùng là sử dụng kỹ thuật Pseudonymization , cho phép bạn nghiên cứu dữ liệu và theo dõi hoạt động của đối tượng mà không xâm phạm quyền riêng tư của họ.
Proxy có thể đóng vai trò to lớn khi thu thập dữ liệu cho nghiên cứu học thuật. Có rất nhiều nhóm dữ liệu khổng lồ từ nhiều nguồn khác nhau để lựa chọn và các hạn chế sẽ khiến nghiên cứu trở nên phức tạp hơn. Proxy có thể giúp bạn vượt qua nhiều trở ngại này. Hãy cùng tìm hiểu cách thực hiện.
Bỏ qua các hạn chế về mặt địa lý theo vị trí - Một số tạp chí và bài báo học thuật hạn chế quyền truy cập đối với người dùng từ một số quốc gia nhất định. Bằng cách sử dụng proxy, bạn có thể vượt qua hạn chế này vì nó che giấu địa chỉ IP của bạn. Hơn nữa, bạn có thể chọn proxy dân dụng từ nhiều vị trí khác nhau trên toàn cầu để proxy không tiết lộ vị trí của bạn.
Tự động hóa quy trình thu thập dữ liệu - Như bạn đã khám phá ở phần trước, trình thu thập dữ liệu web có thể thu thập rất nhiều dữ liệu. Tuy nhiên, chúng sẽ không thể vượt qua các hạn chế do các trang web áp đặt như captcha. Proxy có thể giúp bạn vượt qua các hạn chế đó và giúp trình thu thập dữ liệu thu thập hầu hết dữ liệu.
Giúp bạn an toàn và ẩn danh - Khi bạn đang thực hiện các dự án nghiên cứu cho các tổ chức, bạn có thể là nạn nhân của tin tặc. Điều này là do tin tặc có thể chặn kết nối của bạn và đánh cắp dữ liệu bí mật. Tuy nhiên, bạn sẽ ẩn danh khi bạn ở sau máy chủ proxy vì địa chỉ IP của bạn được ẩn. Do đó, nó sẽ ngăn chặn tin tặc đánh cắp dữ liệu của bạn.
Bạn có thể sử dụng proxy của trung tâm dữ liệu hoặc proxy dân dụng để che giấu địa chỉ IP của mình khỏi các proxy khả dụng.
Với Proxy dân dụng, bạn có thể sử dụng một nhóm địa chỉ IP từ nhiều quốc gia, điều mà chúng tôi đã thảo luận ở trên.
Hơn nữa, khi bạn sử dụng một nhóm proxy, bạn có thể xoay vòng chúng để xuất hiện trên trang web mục tiêu như các nguồn khác nhau truy cập vào trang web đó. Vì vậy, bạn ít có khả năng bị chặn IP nhất.
Ngoài ra, một số trang web nghiên cứu hiển thị thông tin khác nhau cho người dùng từ các quốc gia khác nhau. Vì vậy, một lợi thế khác của việc luân phiên proxy là bạn có thể thay đổi vị trí của mình và xác minh xem dữ liệu có thay đổi với các proxy khác nhau này hay không. Làm như vậy đảm bảo rằng nghiên cứu của bạn toàn diện và hiệu quả từ nhiều nguồn từ nhiều quốc gia khác nhau.
Khi các nhà báo dữ liệu thu thập dữ liệu tạp chí, hầu hết các nhà báo đều quan tâm đến việc xác định danh tính của mình. Một số nhà báo tin rằng việc xác định danh tính của mình là điều cần thiết khi thu thập dữ liệu từ các trang web cụ thể. Điều này tương tự như việc giới thiệu bản thân với ai đó trước khi tiến hành phỏng vấn.
Vì vậy, nếu bạn là một nhà báo muốn tự nhận dạng, bạn phải viết một ghi chú trong tiêu đề HTTP có chứa tên của bạn và bạn là một nhà báo. Bạn cũng có thể để lại số điện thoại của mình trong trường hợp quản trị viên trang web muốn liên hệ với bạn.
Ngược lại, nếu bạn là một nhà báo không muốn tiết lộ bản thân khi thu thập dữ liệu cho các bài viết, bạn có thể thu thập dữ liệu ẩn danh với sự hỗ trợ của proxy. Tuy nhiên, bạn sẽ phải tuân thủ các thông lệ đạo đức tốt nhất và tuân thủ các quy tắc của trang web, như chúng tôi đã nêu ở trên. Đây là một kịch bản tương tự như thực hiện một cuộc phỏng vấn bí mật khi đối tượng không biết rằng bạn đang phỏng vấn họ.
Chúng tôi hy vọng bạn hiểu được quy trình thu thập dữ liệu cho nghiên cứu học thuật. Khi bạn thu thập dữ liệu, có những nguyên tắc đạo đức mà bạn phải tuân theo mà không gây ra bất kỳ thiệt hại vô ý nào cho chủ sở hữu trang web.
Proxy có thể là vị cứu tinh của bạn trong những trường hợp như vậy, cũng như khắc phục những hạn chế được đề cập trong bài viết này.
Chúng tôi hy vọng bạn thích bài viết này và sẽ áp dụng các phương pháp được đề cập trong bài viết này để thu thập dữ liệu nghiên cứu cho mục đích nghiên cứu của mình.