Từ xa xưa, loài người cổ đại đã phải trang bị rất nhiều kĩ năng để phục vụ cho việc sinh tồn: Săn bắn, hái lượm, leo trèo,… Mà trong đó, tìm kiếm là một trong những kĩ năng sống còn của con người. Theo dòng thời gian, với sự xuất hiện của chữ viết và sách, việc lưu trữ và tìm kiếm lại trở thành một nhu cầu thiết yếu.
Bạn đang xem: Retrieval là gì
Vào những năm 90, một nghiên cứu chỉ ra rằng phần lớn mọi người sẽ thích tra cứu thông tin từ người khác hơn là sử dụng các hệ thống tìm kiếm CNTT. Tất nhiên, trong thời gian đó, để đặt vé máy bay, người ta vẫn phải tìm gặp các công ty dịch vụ. Mặc dù vậy, khi bước sang thế kỉ 21, với những cải tiến đột phá từ các hệ thống tìm kiếm để cải thiện kết quả tìm kiếm và trải nghiệm người dùng, Web Search đã trở thành một tiêu chuẩn và là một nguồn đáng tin cậy cho việc tìm kiếm thông tin.
Information Retrieval là gì?
Thuật ngữ Information Retrieval có thể mang nghĩa rất rộng. Khi di mua hàng, bạn lấy thẻ tín dụng từ trong ví ra để có thể nhập mã thẻ thanh toán, đó cũng là một dạng của Information Retrieval. Tuy nhiên, ở khía cạnh học thuật, Information Retrieval được định nghĩa là:
Information Retrieval là hoạt động tìm kiếm tài liệu có bản chất phi cấu trúc (unstructured) như văn bản, hình ảnh, video,.. sao cho phù hợp (relevant) với một nhu cầu thông tin (information need) nào đó, từ một tập hợp dữ liệu lớn (large collections).
Trong một bài toán IR điển hình, đầu vào là:
Một bộ ngữ liệu (corpus) các tài liệu văn bảnMột câu truy vấn (query) của người dùng dưới dạng văn bản
Đầu ra:
Một tập xếp hạng (ranked list) các văn bản mà được cho là phù hợp (relevant) với câu truy vấn (query).
Thế nào là phù hợp (relevant)?
Tính phù hợp là một đánh giá mang tính chủ quan (subjective) và (có thể) bao gồm:
Đúng chủ đề (proper subject)Đúng thời điểm (timely, recent information)Đáng tin cậy (authoritative)Thỏa mãn mục tiêu và ý định của người dùng về nhu cầu thông tin (information need)
Động lực của IR
Quả tải thông tin
Với sự phát triển vũ bão của dữ liệu, Information Retrieval được sinh ra để giải quyết vấn đề quá tải thông tin (information overload).
Theo wikipedia , quá tải thông tin là sự khó khăn trong việc tiếp thu và đưa ra quyết định hiệu quả với một vấn đề khi tồn tại quá nhiều thông tin về vấn đề đó.
Làm việc với dữ liệu phi cấu trúc
Mục tiêu của IR còn để quản lí/làm việc với dữ liệu phi cấu trúc (handling unstructured data).
Dữ liệu có cấu trúc: cơ sở dữ liệu (database) là một sự lựa chọn tốtDữ liệu phi cấu trúc:Tồn tại ở nhiều dạng khác nhau: email, hình ảnh, video, âm thanh,..85% dữ liệu của một doanh nghiệp tồn tại ở dạng phi cấu trúc, theo Merril LynchNgữ nghĩa không rõ ràng (unknown semantic meaning)Cách thức thực hiện truy vấn trong IR
Khi máy tính chưa ra đời, hoạt động truy vấn thông tin đã được diễn ra
Trong các ngăn chứa tài liệu
Ngăn chứa tài liệu Mỗi ngăn chứa tài liệu các tài liệu liên quan tới cùng một lĩnh vực.
Trên từ điển
Đánh chỉ mục (indexing) trên từ điểnTừ điển được sắp xếp các từ (đánh chỉ mục) theo chiều tăng dần của các chữ cái alphabet.
Xem thêm: Công Ty Cổ Phần Tiếng Anh Là Gì, Hỏi Về Tên Tiếng Anh Và Tên Viết Tắt
IR hiện đại
Mô hình IR tiêu biểu
Trong một hệ thống IR điển hình:
Biểu diễn bộ tài liệu mà ta cần tìm kiếm trên đó (offline)Biểu diễn câu query từ người dùng (online)So khớp sự tương đồng giữa câu query của người và các bộ tài liệu và đưa ra một bảng xếp hạng các kết quả được cho là relevantKết quả này sẽ được đánh giá bằng một phương pháp cụ thểTừ kết quả đánh giá này ta có thể tìm ra hướng cải thiện hệ thống tìm kiếm.Ứng dụng của IR
Tìm kiếm trên web (Web Search) là một trong những ứng dụng quan trọng của Information Retrieval. Tuy nhiên IR không chỉ có web search.
Hệ thống hỏi đáp tự động
Google Assistant – Trợ lý ảo của GoogleHệ thống hỏi đáp tự động (question answering) là một hế thông tự động trả lời một câu hỏi của người dùng dưới dạng văn bản.
Hệ khuyến nghị
Hệ khuyến nghị hỗ trợ mua sách của Tiki
Hệ khuyến nghị (recommender system) sẽ gợi ý người dùng những sản phẩm mà họ có thể sẽ thích.
Khai thác dữ liệu văn bản
Minh họa khai thác dữ liệu văn bản Mục tiêu của khai thác dữ liệu văn bản (Text mining) là rút trích được những thông tin, mẫu xu hướng hữu ích từ trong văn bản.
Quảng cáo trực tuyến
Minh họa quảng cáo trực tuyến Nhờ vào hành vi của người dùng trên internet, các nhà bán quảng cáo sẽ đưa ra những quảng cáo phù hợp, cá nhân hóa (personalized) với từng người.Các “gap” trong IR
IR vẫn tốn tại rất nhiều các rào cản/thách thức lớn:
Sensory Gap: Khoảng cách giữa thông tin vật thể thực tế và thể hiện của chúng trên máy tính, vấn đề này có thể liên quan tới thiếu bị thu nhận (camera, lidar, máy ghi âm,..).Semantic Gap: là khoảng cách giữa thông tin của con người hiểu/tiếp thu với những biểu diễn cấp thấp (low-level representation) của dữ liệu được lưu trên máy tính.Ví dụ: Một bức ảnh hoàng hôn trên biển có thể hiểu theo nhiều cáchMột bức ảnh hoàng hôn lãng mạnMột buổi chiều buồn hiu hắtBầu trời rực lửa khi chiều tàn
IR là một lĩnh vực có giao thoa và kế thừa từ những lĩnh vực khác.
Các lĩnh vực liên quan tới IR So sánh IR với Database
Ta có thể kể tên những nét tương đồng giữa IR và Database, tuy nhiên chúng có nhiều khác biệt đáng lưu ý.
Xem thêm: In Favor Of Là Gì – định Nghĩa, Ví Dụ, Giải Thích
– Dữ liệu phi cấu trúc – Ngữ nghĩa (semantics) của các đối tượng mang tính chủ quan (subjective)- Câu query đơn giản- Quan tâm tới tính phù hợp (relevance) đối người tham gia truy vấn- Tính hiệu quả (effectiveness) là yếu tố cốt lõi, tuy nhiên tốc độ cũng rất quan trọng. | – Dữ liệu có cấu trúc- Ngữ nghĩa (semantics) được định nghĩa rõ ràng (well-defined)- Sử dụng ngôn ngữ truy vấn có cấu trúc (Ví dụ: SQL,..)- Tìm kiếm chính xác- Quan trọng về tốc độ truy vấn |
Tham khảo
Christopher D Manning, Prabhakar Raghavan, Hinrich Schutze – Introduction to Information Retrieval (book)
Chuyên mục: Hỏi Đáp