Dữ liệu: Hệ thống trụ cột của ứng dụng trí tuệ nhân tạo
Hiện nay, trí tuệ nhân tạo (AI) là công nghệ đột phá, là ngành khoa học đang định hình, phát triển trong xã hội. Đồng thời trí tuệ nhân tạo có tác động sâu sắc đến nhiều ngành, lĩnh vực khác nhau đó là ứng dụng trong nhận dạng tội phạm, an toàn trật tự giao thông, dự đoán bệnh trong y khoa, giáo dục, kinh doanh, tài chính,….Có nhiều khái niệm về trí tuệ nhân tạo - AI, đó là “trí thông minh”, “hay khả năng tư duy theo lập trình của một khối máy móc. Nó được mô phỏng theo mô hình tư duy của con người hay động vật nói chung. Trí tuệ nhân tạo biến các thuật toán thành chuỗi hành động trong môi trường thực tế do máy móc thao tác. Những thao tác có chủ đích được máy móc lập đi lập lại chuẩn xác và tỷ lệ thành công cao”.
Khi nói đến AI thì không thể không nói đến dữ liệu hay đặc biệt hơn Big Data (dữ liệu lớn). Đây là thuật ngữ chỉ các tập dữ liệu có khối lượng khổng lồ và phức tạp đến mức các phần mềm xử lý dữ liệu truyền thống khó có thể thu thập, quản lý và phân tích đủ nhanh và chính xác.
Khi nói đến AI thì không thể không nói đến dữ liệu hay đặc biệt hơn Big Data (dữ liệu lớn). Đây là thuật ngữ chỉ các tập dữ liệu có khối lượng khổng lồ và phức tạp đến mức các phần mềm xử lý dữ liệu truyền thống khó có thể thu thập, quản lý và phân tích đủ nhanh và chính xác.
Dữ liệu thông thường được thu thập từ nhiều nguồn từ: từ thông tin giấy, từ các file dữ liệu phân tán, từ các CSDL đã có trên nhiều nền tảng lưu trữ khác nhau Sql, MySql, Oracle, DB,….
Dữ liệu lớn thu thập từ nhiều nguồn khác nhau: từ các website, mạng xã hội, thông tin người dùng do sử dụng ứng dụng máy tính hoặc smartphone, từ các nguồn báo chí, các loại hình báo cáo thống kê, các hệ thống thu thập dữ liệu tự động từ thiết bị cảm biến sensor, hệ thống Internet vạn vật IoT,….
Các dữ liệu thông thường hay dữ liệu lớn dùng hệ thống trí tuệ nhân tạo-AI phân tích nhằm giúp các nhà quản lý thu thập đưa ra các dự đoán, hay các phương án để lựa chọn, vì nếu dùng phương pháp thủ công, tự chắc lọc thông tin từ khối lượng dữ liệu đầu vào khổng lồ mất rất nhiều thời gian, công sức. Điều này không chỉ tiết kiệm thời gian và tài nguyên đáng kể mà còn tăng hiệu suất và khả năng phản ứng của người quản lý, vận hành dữ liệu.
Bên cạnh đó, AI cũng có thể tìm kiếm các điểm tương quan, các điểm phân biệt khác nhau của một bức ảnh trong nhận dạng tội phạm, từ đó so sánh với CSDL an ninh hiện có của cơ quan an ninh để xác nhận ảnh của đối tượng đó có thể là tội phạm hay không.
Trong lĩnh vực y học, trí tuệ nhân tạo đang được đầu tư, nghiên cứu phát triển có những tín hiệu tích cực: để có thể xác định các loại bệnh tiềm ẩn trong các xét nghiệm sàng lọc, chẳng hạn như chụp cộng hưởng từ (MRI) hoặc dự đoán vị trí và chuyển động của các vật thể, tế bào mang mầm bệnh. Trí tuệ nhân tạo dùng dự đoán, phát hiện các tương tác về sử dụng thuốc, xác định các tác dụng không mong muốn khi dùng kết hợp giữa các loại thuốc với nhau khi điều trị một bệnh nào đó. Và trí tuệ nhân tạo cũng có thể được dùng dưới dạng trợ lý ảo tích hợp vào hệ thống hỗ trợ trực tuyến của bệnh viện để trả lời các câu hỏi, sắp xếp các cuộc hẹn khám, tái khám hoặc trợ giúp bệnh nhân cung cấp những phản hồi y tế cơ bản.
Tuy nhiên, đặc điểm của hệ thống AI là dữ liệu càng nhiều, liên tục, thông tin càng chính xác thì các dự đoán, hỗ trợ từ AI càng có tính chính xác cao, đưa ra các phương án tối ưu để người dùng lựa chọn.
Qua đó, cho thấy tầm quan trọng của dữ liệu, hay dữ liệu lớn trong sự thành công của một ứng dụng trí tuệ nhân tạo. Việc thiếu dữ liệu đầu vào ảnh hưởng khá nhiều đến các kết quả dự đoán của AI. Cho nên, hiện nay các ngành hay lĩnh vực muốn áp dụng hiệu quả AI thì điều cần thiết xem xét là mình có những dữ liệu gì, khối lượng dữ liệu đó ra sao, tính chính xác, sự liên tục của khối dữ liệu đó. Trong một số ngành lĩnh vực AI đang phát huy đặc tính của mình như quản lý giao thông, y tế. Điển hình, tại Tp Hồ Chí Minh, đó là dữ liệu được thu thập từ các camera giao thông, camera an ninh được đầu tư tại các tuyến đường trọng điểm, dữ liệu được thu thập liên tục, theo thời gian thực là nguồn dữ liệu phong phú giúp hệ thống AI phân tích, đưa ra các dự đoán về an ninh giao thông, dữ liệu cập nhật liên tục theo thời gian thực và khối lượng dữ liệu rất lớn, giúp AI dự đoán hiệu quả, chính xác góp phần trong việc xây dựng thành phố thông minh có thể tham khảo tại http://giaothong.hochiminhcity.gov.vn/map.aspx.
Về y tế, hiện nay dịch bệnh viêm đường hô hấp cấp Covid 19 làm nhiều người nhiễm bệnh và tử vong tại nhiều nơi trên thế giới. Việc dùng AI trong phân tích đã phát huy hiệu quả, là kênh thông tin giúp người dùng theo dõi về tình hình dịch bệnh. Một trong đó, ứng dụng https://corona.kompa.ai/ sử dụng nhiều nguồn dữ liệu chính thống từ Bộ Y tế, WHO, CDC đã cung cấp nhiều thông tin tham khảo hữu ích cho người dùng, dữ liệu được thu thập, phân tích, dự đoán theo thời gian thực, cập nhật liên tục, đây là lượng dữ liệu khổng lồ.
Như vậy, để hệ thống AI phát huy tốt, cho kết quả dự đoán chính xác thì vai trò của dữ liệu là trụ cột, có ý nghĩa quyết định là AI có thể đưa vào áp dụng cho ngành, lĩnh vực đó liệu có khả thi, hiệu quả hay không. Có thể nói không có dữ liệu, dữ liệu ít, không liên tục thì không nên dùng AI. Bên cạnh đó, yếu tố bảo mật, an ninh, an toàn dữ liệu cũng ưu tiên hàng đầu khi hình thành, triển khai một dự án về trí tuệ nhân tạo./.
Dữ liệu lớn thu thập từ nhiều nguồn khác nhau: từ các website, mạng xã hội, thông tin người dùng do sử dụng ứng dụng máy tính hoặc smartphone, từ các nguồn báo chí, các loại hình báo cáo thống kê, các hệ thống thu thập dữ liệu tự động từ thiết bị cảm biến sensor, hệ thống Internet vạn vật IoT,….
Các dữ liệu thông thường hay dữ liệu lớn dùng hệ thống trí tuệ nhân tạo-AI phân tích nhằm giúp các nhà quản lý thu thập đưa ra các dự đoán, hay các phương án để lựa chọn, vì nếu dùng phương pháp thủ công, tự chắc lọc thông tin từ khối lượng dữ liệu đầu vào khổng lồ mất rất nhiều thời gian, công sức. Điều này không chỉ tiết kiệm thời gian và tài nguyên đáng kể mà còn tăng hiệu suất và khả năng phản ứng của người quản lý, vận hành dữ liệu.
Bên cạnh đó, AI cũng có thể tìm kiếm các điểm tương quan, các điểm phân biệt khác nhau của một bức ảnh trong nhận dạng tội phạm, từ đó so sánh với CSDL an ninh hiện có của cơ quan an ninh để xác nhận ảnh của đối tượng đó có thể là tội phạm hay không.
Trong lĩnh vực y học, trí tuệ nhân tạo đang được đầu tư, nghiên cứu phát triển có những tín hiệu tích cực: để có thể xác định các loại bệnh tiềm ẩn trong các xét nghiệm sàng lọc, chẳng hạn như chụp cộng hưởng từ (MRI) hoặc dự đoán vị trí và chuyển động của các vật thể, tế bào mang mầm bệnh. Trí tuệ nhân tạo dùng dự đoán, phát hiện các tương tác về sử dụng thuốc, xác định các tác dụng không mong muốn khi dùng kết hợp giữa các loại thuốc với nhau khi điều trị một bệnh nào đó. Và trí tuệ nhân tạo cũng có thể được dùng dưới dạng trợ lý ảo tích hợp vào hệ thống hỗ trợ trực tuyến của bệnh viện để trả lời các câu hỏi, sắp xếp các cuộc hẹn khám, tái khám hoặc trợ giúp bệnh nhân cung cấp những phản hồi y tế cơ bản.
Tuy nhiên, đặc điểm của hệ thống AI là dữ liệu càng nhiều, liên tục, thông tin càng chính xác thì các dự đoán, hỗ trợ từ AI càng có tính chính xác cao, đưa ra các phương án tối ưu để người dùng lựa chọn.
Qua đó, cho thấy tầm quan trọng của dữ liệu, hay dữ liệu lớn trong sự thành công của một ứng dụng trí tuệ nhân tạo. Việc thiếu dữ liệu đầu vào ảnh hưởng khá nhiều đến các kết quả dự đoán của AI. Cho nên, hiện nay các ngành hay lĩnh vực muốn áp dụng hiệu quả AI thì điều cần thiết xem xét là mình có những dữ liệu gì, khối lượng dữ liệu đó ra sao, tính chính xác, sự liên tục của khối dữ liệu đó. Trong một số ngành lĩnh vực AI đang phát huy đặc tính của mình như quản lý giao thông, y tế. Điển hình, tại Tp Hồ Chí Minh, đó là dữ liệu được thu thập từ các camera giao thông, camera an ninh được đầu tư tại các tuyến đường trọng điểm, dữ liệu được thu thập liên tục, theo thời gian thực là nguồn dữ liệu phong phú giúp hệ thống AI phân tích, đưa ra các dự đoán về an ninh giao thông, dữ liệu cập nhật liên tục theo thời gian thực và khối lượng dữ liệu rất lớn, giúp AI dự đoán hiệu quả, chính xác góp phần trong việc xây dựng thành phố thông minh có thể tham khảo tại http://giaothong.hochiminhcity.gov.vn/map.aspx.
Màn hình hệ thống Camera giám sát thời gian thực tại 1 tuyến đường
Về y tế, hiện nay dịch bệnh viêm đường hô hấp cấp Covid 19 làm nhiều người nhiễm bệnh và tử vong tại nhiều nơi trên thế giới. Việc dùng AI trong phân tích đã phát huy hiệu quả, là kênh thông tin giúp người dùng theo dõi về tình hình dịch bệnh. Một trong đó, ứng dụng https://corona.kompa.ai/ sử dụng nhiều nguồn dữ liệu chính thống từ Bộ Y tế, WHO, CDC đã cung cấp nhiều thông tin tham khảo hữu ích cho người dùng, dữ liệu được thu thập, phân tích, dự đoán theo thời gian thực, cập nhật liên tục, đây là lượng dữ liệu khổng lồ.
Màn hình tổng hợp về tình hình dịch bệnh Covid 19 do Kompa.AI phân tích
Như vậy, để hệ thống AI phát huy tốt, cho kết quả dự đoán chính xác thì vai trò của dữ liệu là trụ cột, có ý nghĩa quyết định là AI có thể đưa vào áp dụng cho ngành, lĩnh vực đó liệu có khả thi, hiệu quả hay không. Có thể nói không có dữ liệu, dữ liệu ít, không liên tục thì không nên dùng AI. Bên cạnh đó, yếu tố bảo mật, an ninh, an toàn dữ liệu cũng ưu tiên hàng đầu khi hình thành, triển khai một dự án về trí tuệ nhân tạo./.