Machine learning những năm gần đây được nổi lên và phổ biến như một minh chứng cho cách mạng công nghiệp lần thứ 4. Chúng như một tập con của AI mà những người nghiên cứu về lĩnh vực này chắc hẳn đã không còn xạ. Cùng tìm hiểu về chúng qua bài viết này nhé.
Khái niệm về Machine learning
1. Machine learning là gì?
Machine learning ( ML) được hiểu theo nghĩa là học máy là một phần của trí tuệ nhân tạo AI. Đây là một lĩnh vực nghiên cứu cho phép máy tính có khả năng cải thiện bản thân dựa trên những dữ liệu mẫu gọi là training data hoặc dựa trên những kinh nghiệm đã được học. Machine learning có khả năng dự đoán và đưa ra quyết định mà không cần dựa vào những lập trình cụ thể.
Những bài toán của machine learning được chia thành 2 loại là dự đoán và phân loại:
- Các bài toán dự đoán: dự đoán giá nhà, căn hộ, giá xe,…
- Các bài toán phân loại: nhận diện chữ viết tay, nhận diện hình dáng, nhận diện đồ vật,…
2. Quy trình làm việc Machine Learning
Quy trình làm việc của Machine Learning sẽ được thực hiện 5 bước theo đúng với trình tự như sau:
- Data collection – thu thập dữ liệu: các dữ liệu sẽ được thu thập từ những nguồn chính thống để ưu tiên độ chính xác, đây là kiến thực để máy tính có thể học.
- Preprocessing – tiền xử lý: bước này dùng để chuẩn bị dữ liệu qua các bước chuẩn hóa dữ liệu, loại bỏ những dữ liệu sai và các thuộc tính không cần thiết, gán nhãn dữ liệu, mã hóa và trích xuất các đặc trưng, rút gọn dữ liệu,… Bước 1 và bước 2 là hai bước quan trọng tốn nhiều thời gian nhất trong cả quá trình.
- Training model – huấn luyện mô hình: Bước này là bước huấn luyện do hình cho chúng tự học trên những dữ liệu của bước 1 và bước 2.
- Evaluating model – đánh giá mô hình: đánh giá mô hình bằng các độ đo, các mô hình đạt trên 80% thì là những mô hình tốt.
- Improve – cải thiện: Sau khi đánh giá mô hình sẽ tìm ra được những điểm chưa đạt sau đó train lại đến khi độ chính xác đạt như mong muốn.
Phân loại Machine Learning
Có hai cách phổ biến dùng để phân biệt Machine Learning là phân nhóm dựa trên phương thức học và phân nhóm dựa trên chức năng
1. Phân nhóm dựa trên phương thức học
Bao gồm 4 nhóm nhỏ: Supervised learning, Unsupervised learning, Semi – Supervised learning, Reinforcement learning.
- Supervised learning – học có giám sát là thuật toán dự đoán đầu ra ( outcome ) của một dữ liệu mới dựa trên cặp input và outcome được biết từ trước. Đây là nhóm phổ biến nhất trong Machine Learning. Chúng còn được chia nhỏ thành 2 nhóm là Phân loại ( Classification ) và Hồi quy ( Regression ).
- Unsupervised learning – học không giám sát là thuật toán không được biết trước trước đầu ra ( out come ) hay nhãn mà chỉ có duy nhất dữ liệu đầu vào. Thuật toán Unsupervised learning cũng chia thành 2 loại là Phân nhóm ( Clustering và Association.
- Semi – Supervised learning – học bán giám sát là những bài thuật toán dựa trên lượng lớn dữ liệu XX và một phần trong đó được gắn nhãn.
- Reinforcement learning – học củng cố là những bài toán giúp cho hệ thống tự động xác định các hành vi dựa trên hoàn cảnh để đạt lợi ích cao nhất.
2. Phân nhóm dựa trên chức năng
- Regression Algorithms: Linear Regression, Logistic Regression, Stepwise Regression.
- Classification Algorithms: Linear Classifier, Support Vector Machine, Kernel SVM, Sparse Representation – based classification.
- Instance – based Algorithms: k – Nearest Neighbor , Learning Vector Quantization.
- Regularization Algorithms: Ridge Regression, Least Absolute Shrinkage and Selection Operator, Least – Angle Regression.
- Bayesian Algorithms: Naive Bayes, Gaussian Naive Bayes.
- Clustering Algorithms: k – Means clustering, k – medians, expectation maximization.
- …
Vai trò của Machine learning trong thực tiễn
Ngày nay, hầu hết các ngành nghề khi phải làm việc với lượng dữ liệu lớn đang dần nhận thấy sự quan trọng của machine learning. Nhiều ngành nghề đã áp dụng chúng vào trong thực tiễn.
Dịch vụ tài chính: Có thể thấy ngành nghề này liên quan đến những con số và dữ liệu rất cao, chúng được sử dụng để xác định những thông tin quan trọng về dữ liệu và ngăn chặn gian lận. Phân tích được các cơ hội đầu tư tránh những rủi ro.
Chính phủ: Các cơ quan an ninh cộng đồng và các đơn vị công ích đã sử dụng cho các ứng dụng như phân tích dữ liệu cảm biến, phát hiện gian lận và hành vi trộm cắp danh tính.
Chăm sóc sức khỏe: Các thiết bị đeo trên người là ứng dụng dựa trên machine learning, chúng có thể phân tích cảm biến để đánh giá sức khỏe của bệnh nhân theo thời gian thực và đưa ra cảnh báo kịp thời.
Dầu khí: ngành dầu khí sử dụng để tìm kiếm những nguồn năng lượng mới. Phân tích được các chất khoáng phía dưới lòng đất và dự đoán lỗi cảm biến của những máy lọc dầu.
Giao thông vận tải: Phân tích mô hình và xu hướng cho các địa hình cho ngành vận tải. Đưa ra những tuyến đường hiệu quả hơn và dự đoán những vấn đề tiềm ẩn về lợi nhuận.