5 dự án phân tích dữ liệu cho người mới bắt đầu

tự học data analysis

5 dự án phân tích dữ liệu cho người mới bắt đầu xây dựng portfolio công việc cho vị trí Data Analyst.

Nếu bạn đã sẵn sàng bắt đầu sự nghiệp mới với phân tích dữ liệu, rất có thể bạn đã và đang gặp phải nhiều tình huống nan giải. Điển hình, danh sách việc làm yêu cầu kinh nghiệm, nhưng làm thế nào để bạn có được kinh nghiệm khi mới bắt đầu tìm kiếm công việc về phân tích dữ liệu?

Dưới đây là các danh mục dự án đầy triển vọng cho bạn. 

Mẹo: Khi bạn mới bắt đầu, hãy nghĩ về “các dự án nhỏ”. Có nghĩa bạn không cần tham gia toàn bộ dự án từ đầu đến cuối. Thay vào đó, hãy hoàn thành các dự án nhỏ dựa trên các kỹ năng phân tích dữ liệu cá nhân hoặc các bước trong quy trình phân tích dữ liệu.

1. Web scraping

Mặc dù không thiếu bộ dữ liệu công khai miễn phí trên internet, nhưng bạn có thể muốn cho các nhà tuyển dụng tiềm năng thấy rằng bạn cũng có thể tìm và thu thập dữ liệu của riêng mình. Ngoài ra, biết cách thu thập dữ liệu web có nghĩa là bạn có thể tìm và sử dụng các tập dữ liệu phù hợp với sở thích của mình, bất kể chúng đã được làm sạch hay chưa.

Nếu bạn biết về Python, bạn có thể sử dụng các công cụ như BeautifulSoup hoặc Scrapy để thu thập dữ liệu trên web. Nếu bạn không biết cách viết code, đừng lo lắng. Bạn cũng sẽ tìm thấy một số công cụ tự động hóa quy trình (nhiều công cụ cung cấp bản dùng thử miễn phí), như Octoparse hoặc ParseHub.

Nếu bạn không chắc nên bắt đầu từ đâu, đây là một số trang web để truyền cảm hứng cho dự án của bạn:

  • Reddit
  • Wikipedia
  • Job portals

Mẹo: Bất cứ khi nào bạn tìm kiếm dữ liệu từ internet, hãy nhớ tôn trọng và tuân thủ các điều khoản dịch vụ của từng trang web. Hạn chế các hoạt động sao chép của bạn để không làm quá tải các máy chủ của công ty và luôn trích dẫn các nguồn của bạn khi bạn trình bày các phát hiện dữ liệu.

Ví dụ về dự án thu thập dữ liệu từ web: Todd W. Schneider của Wedding Crunchers đã thu thập khoảng 60.000 thông báo về đám cưới của Thời báo New York được xuất bản từ năm 1981 đến năm 2016 để đo tần suất đám cưới của các giai đoạn cụ thể.

2. Làm sạch dữ liệu

Một phần quan trọng trong vai trò nhà phân tích dữ liệu là làm sạch dữ liệu để sẵn sàng cho việc phân tích. Làm sạch dữ liệu (còn gọi là quét dữ liệu-data scrubbing) là quá trình loại bỏ dữ liệu không chính xác và trùng lặp, quản lý bất kỳ lỗ hổng nào trên dữ liệu và đảm bảo định dạng của dữ liệu là nhất quán.

Khi bạn tìm kiếm một tập dữ liệu để thực hành, hãy tìm một tập hợp bao gồm nhiều tập dữ liệu được thu thập từ nhiều nguồn mà không kiểm duyệt nhiều. Một số trang web mà bạn có thể tìm thấy các tập dữ liệu “không sạch” bao gồm:

  • CDC Wonder
  • Data.gov
  • World Bank
  • Data.World
  • /r/datasets

Ví dụ về làm sạch dữ liệu: Bài báo Medium đưa ra cách nhà phân tích dữ liệu Raahim Khan làm sạch một bộ dữ liệu thống kê được cập nhật hàng ngày về các video thịnh hành trên YouTube.

3. Phân tích dữ liệu thăm dò (EDA)

Phân tích dữ liệu là hoạt động trả lời tất cả các câu hỏi với dữ liệu. Phân tích dữ liệu thăm dò, gọi tắt là EDA-Exploratory data analysis, giúp bạn khám phá những câu hỏi cần cho riêng mình. Điều này có thể được thực hiện riêng biệt hoặc kết hợp với làm sạch dữ liệu. Bất kể bằng cách nào, bạn cũng phải đạt được những điều sau đây khi thực hiện dự án này.

1) Đặt nhiều câu hỏi về dữ liệu.

2) Khám phá cấu trúc cơ bản của dữ liệu.

3) Tìm kiếm các xu hướng, kiểu mẫu và sự bất thường trong dữ liệu.

4) Kiểm tra các giả thuyết và xác nhận các giả định về dữ liệu.

5) Suy nghĩ về những vấn đề bạn có thể giải quyết với dữ liệu.

Ví dụ về phân tích dữ liệu thăm dò: Nhà phân tích dữ liệu đã lấy bộ dữ liệu hiện có về các trường đại học Mỹ vào năm 2013 từ Kaggle và sử dụng nó để trả lời câu hỏi “Điều gì khiến sinh viên thích trường đại học này hơn trường đại học khác?”.

10 bộ dữ liệu miễn phí cho dự án EDA

Dưới đây là 10 bộ dữ liệu thú vị và miễn phí để giúp bạn bắt đầu khám phá.

  1. National Centers for Environmental Information: Tìm hiểu về nhà cung cấp dữ liệu thời tiết và khí hậu lớn nhất thế giới.
  2. World Happiness Report 2021: Điều gì giúp các quốc gia đứng đầu thế giới về sự hạnh phúc?
  3. NASA: Nếu bạn quan tâm đến không gian và khoa học trái đất, hãy xem những gì bạn có thể tìm thấy trong vô số bộ dữ liệu công khai do NASA cung cấp.
  4. US Census: Tìm hiểu thêm về con người và nền kinh tế của Hoa Kỳ với dữ liệu điều tra dân số mới nhất từ năm 2020.
  5. FBI Crime Data Explorer (CDE): Khám phá dữ liệu tội phạm được thu thập bởi hơn 18.000 cơ quan thực thi pháp luật .
  6. World Health Organization COVID-19 Dashboard: Theo dõi số lượng coronavirus mới nhất theo quốc gia hoặc khu vực của WHO.
  7. Latest Netflix Data: Tập dữ liệu Kaggle (cập nhật vào tháng 4 năm 2021) bao gồm dữ liệu phim được chia thành 26 thuộc tính khác nhau.
  8. Google Books Ngram: Tải dữ liệu thô từ Google Books để khám phá các xu hướng ngôn từ được sử dụng trong các cuốn sách xuất bản từ 1960 đến 2015.
  9. NYC Open Data: Khám phá thành phố New York qua các tập dữ liệu như Dân số Central Park hay các cuộc va chạm xe motor trong thành phố.
  10. Yelp Open Dataset: Xem những gì bạn có thể tìm thấy khi khám phá bộ sưu tập các bài đánh giá, thông tin đăng ký và doanh nghiệp.

4. Phân tích cảm xúc (Sentiment analysis)

Phân tích cảm xúc, thường được thực hiện trên dữ liệu text, là một kỹ thuật trong xử lý ngôn ngữ tự nhiên (NLP) để xác định xem dữ liệu là trung tính, tích cực hay tiêu cực. Nó cũng có thể được sử dụng để phát hiện một cảm xúc cụ thể dựa trên danh sách các từ và cảm xúc tương ứng của chúng (được gọi là từ vựng).

Loại phân tích này hoạt động tốt với các trang web đánh giá công khai và các nền tảng truyền thông xã hội, nơi mọi người có khả năng đưa ra ý kiến công khai về các chủ đề khác nhau.

Để bắt đầu khám phá cảm nhận của mọi người về một chủ đề nhất định, bạn có thể bắt đầu với các trang web như:

  • Amazon (đánh giá sản phẩm)
  • Rotten Tomato (đánh giá phim)
  • Facebook
  • Twitter
  • Trang tin tức

Ví dụ về phân tích cảm xúc: Bài viết này được đăng trang Towards Data Science để khám phá việc sử dụng các dấu hiệu trong ngôn ngữ trên Tweets, giúp chẩn đoán bệnh trầm cảm.

5. Trực quan hóa dữ liệu

Con người là sinh vật trực quan. Điều này làm cho trực quan hóa dữ liệu trở thành một công cụ mạnh mẽ để chuyển đổi dữ liệu thành một câu chuyện hấp dẫn. Những hình ảnh tưởng tượng không chỉ thú vị mà còn có sức mạnh để làm cho hồ sơ dự án của bạn trông đẹp mắt. Ví dụ về dự án trực quan hóa dữ liệu: Nhà phân tích dữ liệu Hannah Yan Han trực quan hóa mức độ kỹ năng cần thiết theo 60 môn thể thao khác nhau để tìm ra môn nào khó nhất.

05 công cụ trực quan hóa dữ liệu miễn phí

Bạn không cần phải trả tiền cho phần mềm hình ảnh hóa nâng cao để tạo ra những hình ảnh xuất sắc. Đây chỉ là một số công cụ trực quan miễn phí mà bạn có thể sử dụng để kể một câu chuyện bằng dữ liệu:

  1. Tableau Public: Tableau được xếp hạng trong số các công cụ trực quan hóa phổ biến nhất. Sử dụng phiên bản miễn phí để chuyển đổi bảng tính hoặc tệp thành hình ảnh trực quan tương tác.
  2. Google Charts: Thư viện các biểu đồ tương tác và công cụ trực quan hóa dữ liệu này giúp bạn dễ dàng nhúng các hình ảnh trực quan vào portfolio của mình bằng cách sử dụng mã HTML và JavaScript.
  3. Datawrapper: Sao chép và dán dữ liệu của bạn từ bảng tính hoặc tải lên tệp CSV để tạo biểu đồ, bản đồ hoặc bảng — không cần mã hóa. Phiên bản miễn phí cho phép bạn tạo hình ảnh trực quan không giới hạn để xuất dưới dạng tệp PNG.
  4. D3 (Tài liệu theo hướng dữ liệu): Với một chút bí quyết kỹ thuật, bạn có thể làm được rất nhiều điều với thư viện JavaScript này.
  5. Biểu đồ RAW: Ứng dụng web mã nguồn mở này giúp bạn dễ dàng biến các bảng tính hoặc tệp CSV thành một loạt các loại biểu đồ. Ứng dụng thậm chí còn cung cấp các tập dữ liệu mẫu để bạn thử nghiệm.

Bổ sung: Kết thúc dự án

Không có gì sai khi tạo hồ sơ của bạn với các dự án nhỏ nêu bật các kỹ năng cá nhân. Nhưng nếu bạn đã tìm kiếm dữ liệu của riêng mình trên web, bạn cũng có thể cân nhắc sử dụng chính dữ liệu đó để hoàn thành một dự án từ đầu đến cuối. Để làm điều này, hãy lấy dữ liệu bạn đã thu thập và áp dụng các bước chính của phân tích dữ liệu cho dữ liệu đó là làm sạch, phân tích và diễn giải.

Điều này có thể cho nhà tuyển dụng tiềm năng thấy rằng bạn không chỉ có các kỹ năng cần thiết của một nhà phân tích dữ liệu mà bạn còn hiểu thêm về thông tin mà dữ liệu truyền tải.

Tác giả: Coursera 

Bài viết gốc: 5 Data Analytics Projects for Beginners

Link bài viết: https://www.coursera.org/articles/data-analytics-projects-for-beginners

Biên dịch: Thành Trung

Biên tập: Mary

Bài viết có hữu ích không?

Các bài viết liên quan

flirt4free sito di incontri

Un arnese da dungeon di abile botta fetish

how to see who likes you on tinder review

ten. Allow her to generate have confidence in you

love ru sign in

18 Wedding Class Games Your guests Would like

militarycupid-recenze Seznamka

six. Sign-up online dating sites and you can qualities one to target rich website subscribers

Escort escort orlando

Do not get myself wrong; I'm an individual guy who's towards the matchmaking

adventure-dating-nl MOBIELE SITE

There is no better method to finish your day instead of sharing that it meme gif with your loved ones?

fastflirting Zaloguj si?

The working platform are right for small hookups

puerto-rico-chat-rooms dating

Ways to get an effective screenwriting broker and you can manager action six: choose wisely

sites-de-rencontre-mexicains avis

Paree list acquisition habitation 2021 — au Top 10+ demande a placer quand d’achat d’une logement

quickflirt kosten

Lass mich daruber erzahlen ruhen Eltern, entsprechend Die leser man sagt, sie seien, Jedoch befinden Die Kunden, entsprechend Eltern schuften

writers-dating dating

Amid all this, Ghanaian ladies are nonetheless thought to be beautiful and you will classic

Bình luận của bạn

MiEdu - AI Your Career

Bài viết mới nhất

Theo dõi trên Facebook

Chia sẻ bài viết cho bạn bè

Share on facebook
Share on linkedin

© Copyright 2021 - Công ty Đào tạo và Hướng nghiệp thông minh Miedu

Sign Up and Start Learning

Hạn sử dụng đến 20/01/2022

TÌM HIỂU khóa
Full Stack data Science
-30%

Bảo hành học tập trọn đời cho người chuyển đổi công việc!