UIT-VISTek: Nền Tảng Hỗ Trợ Cho Các Ứng Dụng Tìm Kiếm Thông Tin Dựa Trên Hình Ảnh

1. Giới thiệu

Sự phát triển vượt bậc của công nghệ thông tin và truyền thông đã làm cho xu hướng tìm kiếm thông tin dựa trên hình ảnh trở nên thông dụng.

Các ứng dụng di động được phát triển trên các nền tảng tìm kiếm thông tin bằng hình ảnh (visual search platform) như Google Goggles, Amazon FireFly, CamFind, ShopGate, và Slyce, đang được sử dụng rất đa dạng trong các lĩnh vực như học tập, thương mại, giải trí, và du lịch.

Công nghệ nhận dạng hình ảnh là công nghệ cốt lõi của các nền tảng trên. Thách thức được đặt ra là làm thế nào để có thể nhận dạng được các thông tin của hình ảnh chính xác như con người.

Mục tiêu lâu dài của chúng tôi là phát triển một nền tảng tìm kiếm thông tin bằng hình ảnh với độ chính xác tương đương với các công nghệ tiên tiến của thế giới, đồng thời mềm dẻo trong việc ứng dụng cho các cơ sở dữ liệu Việt trong các lĩnh vực như an ninh, thương mại, và du lịch.

Trong giai đoạn 2009 - 2014, chúng tôi tập trung vào việc nắm vững các công nghệ tiên tiến và triển khai cho hai dạng chính đó là tìm kiếm nhân vật (people search) và tìm kiếm thực thể (instance search).

Các kết quả đã được công bố trong các hội nghị và tạp chí khoa học trong nước và quốc tế. Đặc biệt, trong cuộc thi TRECVID Instance Search Task 2014, do Viện Công Nghệ Tiêu Chuẩn Quốc Gia Mỹ (NIST) tổ chức, kết quả của nhóm chúng tôi cộng tác với Viện Tin Học Quốc Gia Nhật Bản (NII) đã đạt kết quả cao nhất trong số 22 nhóm dự thi bao gồm các nhóm nghiên cứu của Trường ĐH như Univ. of Amsterdam, Univ. of Nagoy, Tokyo Inst. of Technology, Tsinghua Univ., Peking Univ., và các viện công nghệ như INRIA, Orange Lab Beijing, ATT Labs, NTT CSL.

2. Các tính năng nổi bật

2.1. Tìm kiếm nhân vật (People Search)

2.2. Tìm kiếm thực thể (Instance Search)

3. Demo

3.1. Tìm kiếm nhân vật

Người dùng có thể gõ tên nhân vật cần tìm kiếm (ví dụ Koizumi) hoặc có thể tải lên ảnh của nhân vật cần tìm kiếm. Hệ thống sẽ tự động phát hiện khuôn mặt trong ảnh, và tìm trong cơ sở dữ liệu để trả về các đoạn video mà nhân vật đó xuất hiện.

Link 1: Đây là demo cho phép người dùng hoặc gõ tên nhân vật cần tìm kiếm hoặc tải ảnh của nhân vật cần tìm kiếm và hệ thống sẽ trả về các kết quả liên quan từ cơ sở dữ liệu là các chương trình tin tức của đài truyền hình NHK Nhật phát trong thời gian 2001 - 2013. Khi gõ tên nhân vật, hệ thống sẽ gửi tên đó cho Google Image Search và lấy về các ảnh do Google Image Search trả về để làm câu truy vấn. Khi dùng link này trên smartphone, người dùng có thể chụp ảnh và chọn làm câu truy vấn.

Ví dụ dưới đây là kết quả trả về với câu truy vấn là Ông Junichiro Koizumi, cựu thủ tướng Nhật Bản


Hình DP1: Kết quả trả về với câu truy vấn là Junichiro Koizumi.

Lưu ý rằng, do cơ sở dữ liệu là các chương trình tin tức phát bằng tiếng Nhật của đài truyền hình NHK, Nhật Bản, nên các nhân vật trong cơ sở dữ liệu chủ yếu là các chính trị gia, các nhân vật giải trí nổi tiếng. Chính vì vậy mà với các câu truy vấn là ảnh/tên của các chính trị gia, ví dụ Koizumi Junichiro, Shinzo Abe, Naoto Kan, etc sẽ cho kết quả chính xác hơn so với ảnh/tên của các nhân vật khác.

Điều này cũng xảy ra tương tự như ứng dụng mà nhóm nghiên cứu VGG của Trường ĐH Oxford phát triển cho BBC News (http://www.robots.ox.ac.uk/~vgg/research/on-the-fly/). Tức là nếu câu truy vấn là tên của các chính trị gia Anh như Tony Blair thì sẽ cho kết quả chính xác hơn so với câu truy vấn là Koizumi.

3.2. Tìm kiếm thực thể

Người dùng có thể tải lên vùng ảnh của thực thể cần tìm kiếm. Hệ thống sẽ tự động trả về các ảnh có chứa thực thể đó.

Link 1: Đây là kết quả của hệ thống tốt nhất (F_D_NII_2) mà nhóm chúng tôi (hợp tác với Viện Tin Học Quốc Gia Nhật Bản - NII) trong cuộc thi TRECVID INS 2014 vừa qua. 


Hình DI1: Kết quả trả về với câu truy vấn là Mercedes logo.

Link 2: Đây là demo cho phép người dùng tải ảnh có chứa đối tượng cần tìm kiếm và hệ thống sẽ trả về kết quả tương ứng. Cơ sở dữ liệu được dùng trong demo này là Oxford Building 105K - một cơ sở dữ liệu chuẩn, truy cập công khai, được dùng trong hầu hết các nghiên cứu tiên tiến nhất về lĩnh vực tìm kiếm thông tin dựa vào hình ảnh.

4. Mô hình hệ thống


Hình S1: Mô hình của hệ thống tìm kiếm nhân vật (people search)


Hình S2: Mô hình của hệ thống tìm kiếm thực thể (instance search)

5. Các kết quả thử nghiệm

5.1. Tìm kiếm nhân vật (People Search)

Chúng tôi thử nghiệm với bộ dữ liệu các chương trình tin tức của đài truyền hình NHK phát sóng trong giai đoạn từ 2001 - 2013, với gần 1,800 giờ videos (vẫn đang tiếp tục cập nhật). Gần 30 triệu ảnh khuôn mặt đã được rút trích từ bộ dữ liệu này và được đánh chỉ mục để phục vụ cho nhu cầu tìm kiếm.

5.2. Tìm kiếm thực thể (Instance Search)

Trong cuộc thi TRECVID Instance Search Task 2014, dữ liệu bao gồm 400 giờ video của bộ phim BBC East Enders (được phân chia thành xấp xỉ 500,000 shots). Có tổng cộng 30 câu truy vấn (query). Với mỗi câu truy vấn, mỗi nhóm tham gia sẽ trả về top1000 shots có chứa thực thể trong câu truy vấn đó. Kết quả được tính trên độ chính xác trung bình (MAP) của 30 câu truy vấn. Hình dưới là kết quả của các nhóm, trong đó nhóm chúng tôi hợp tác với NII, cho kết quả cao nhất.

Kết quả cuộc thi TRECVID Instance Search Task - 2014

Hình K1: Kết quả tổng hợp của các nhóm nghiên cứu tham gia cuộc thi TRECVID INS 2014 do NIST, USA tổ chức. Run F_D_NII_2 của nhóm chúng tôi (hợp tác với Viện Tin Học Quốc Gia Nhật Bản - NII) đạt kết quả cao nhất so với các run của 22 nhóm dự thi.


Hình K2: Kết quả chi tiết của run F_D_NII_2. Với hầu hết các câu truy vấn, độ chính xác của run (dấu đen tròn) này đạt kết quả gần như tối ưu (dấu chữ nhật rỗng) so với các run khác.

6. Các công bố khoa học

[J1]. Thanh Duc Ngo, Duy-Dinh Le, Shin'ichi Satoh, Scalable Approaches for Content based Video Retrieval, Progress in Informatics, (11), Mar 2014.

[J2]. Bor-Chun Chen, Yan-Ying Chen, Yin-Hsi Kuo, Thanh Duc Ngo, Duy-Dinh Le, Shin’ichi Satoh, Winston H. Hsu, Scalable Face Track Retrieval in Video Archives using Bag-of-Faces Sparse Representation, IEEE Transactions on Circuits and Systems for Video Technology (Accepted).

[J3]. Thanh Duc Ngo, Hung Thanh Vu, Duy-Dinh Le, Shin'ichi Satoh, Face Retrieval in Large-scale News Video Datasets, IEICE Trans. on Information and Systems, Aug, 2013.

[B1]. Duy-Dinh Le, Xiao-meng Wu, Shin'ichi Satoh, Face Detection, Tracking, and Recognition for Broadcast Video, Encyclopedia of Multimedia, 2nd Edition, (Book Chapter).

[C1]. Bien-Van Nguyen, Duy Pham, Thanh Duc Ngo, Duy-Dinh Le, Duc Anh Duong, Integrating Spatial Information into Inverted Index for Large-Scale Image Retrieval, IEEE International Symposium on Multimedia (ISM), Dec 2014.

[C2]. Thanh Duc Ngo, Sang Phan, Duy-Dinh Le, and Shin'ichi Satoh, Recommend-Me: Recommending Query Regions for Image Search, Symposium On Applied Computing (SAC), IAR - Information Access and Retrieval Track, Mar 2014.

[C3]. Chi Nhan Duong, Pham Dinh Thang Cap, Thanh Duc Ngo, Duy-Dinh Le, Hoai Bac Le, Duc Anh Duong, Shin'ichi Satoh, Robust Eye Localization in Video By Combining Eye Detector and Eye Tracker, International Conference on Pattern Recognition (ICPR 2012), Nov 2012

[C4]. Duy-Dinh Le, Shin'ichi Satoh, Auto Face Re-Ranking By Mining the Web and Video Archives, IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), 2012.

[C5]. Duy-Dinh Le, Shin'ichi Satoh, Indexing Faces in Broadcast News Video Archives, International Workshop on Mining Multiple Information Sources (MMIS), ICDM Workshops, 519-526, 2011.

[C6]. Hung Thanh Vu, Thanh Duc Ngo, Thao Ngoc Nguyen, Duy-Dinh Le, Shin'ichi Satoh, Bac Le Hoai, Duc Anh Duong, Fast Face Sequence Matching in Large-scale Video Databases, IEEE International Conference on Image Processing (ICIP), 2549-2552, 2011.

[C7]. Duy-Dinh Le, Thanh Duc Ngo,Shin'ichi Satoh, NII-KAORI-PERSON-SEARCH: A General Framework for Indexing and Retrieving People's Appearance in Large Video Archives, International Conference on Semantic Computing (ICSC), 211-212, Sep 2011.

[C8]. Thao Ngoc Nguyen, Thanh Duc Ngo, Duy-Dinh Le, Shin'ichi Satoh, Bac Hoai Le, Duc Anh Duong, An Efficient Method for Face Retrieval from Large Video Datasets, ACM International Conference on Image and Video Retrieval (CIVR),382-389, 2010.

[C9]. Duy-Dinh Le, Shin'ichi Satoh, Unsupervised Face Annotation by Mining the Web, IEEE International Conference on Data Mining (ICDM), 383-382, 2008.

7. Thành viên

- PGS. TS. Dương Anh Đức (ĐH. CNTT)

- PGS. TS. Lê Đình Duy (ĐH. CNTT)

- TS. Ngô Đức Thành (ĐH. CNTT)

- TS. Trần Minh Triết (ĐH. KHTN)

- Ths. Nguyễn Vinh Tiệp (ĐH. KHTN)

- Ths. Lâm Quang Vũ (ĐH. KHTN)

- Ths. Cáp Phạm Đình Thăng (ĐH. CNTT)

- Ths. Nguyễn Minh Huấn (ĐH. CNTT)

- CN. Đỗ Văn Tiến (ĐH. CNTT)

Cùng với sự hợp tác của Video Processing Lab - National Institute of Informatics, Japan (http://www.satoh-lab.nii.ac.jp/)
Comments