Big Data and Data Mining
巨量資料與資料探勘
近年資訊科學領域已自傳統計算機科學與工程以及網路通訊發展出巨量資料領域。網際網路,電子商務,社群網站,乃至於物聯網,世界上所有物件可以像神經連在以起,也產生巨量的資料。現在大家面臨的問題是如何消化這些資料以產生有用的資訊。
目前巨量資料整理多起始於與應用相關,以領域知識為根據先清理資料。之後應用統計,最佳化,機器學習,資料探勘等技術從已有的資料中過濾出有用的資訊。我們應用的領域在電子商務及社群網站的推薦系統;在網路以及安全的系統,以及生物資訊病毒分類系統。巨量資料領域也將與物聯網技術結合,兩個結合領域將深入生活之中。
除了在應用領域,我們也探討巨量資料的理論部分。與巨量資料最相關的領域是統計以及高維度幾何。因為高維度幾何也使得計算成為問題;許多原本可以使用數位計算機藉覺得問題因為資料量過大而變得無法解。另外高維度已造成視覺化的問題。這些問題都有待理論以及系統實作有所突破。
在物聯網的時代,巨量資料成為資料流 (stream) 的問題,我們也將從理論以及系統實作探討資料流的取捨分析方法。