Dự báo (forecast) là một nhu cầu vô cùng lớn trong các lĩnh vực đời sống. Study group này sẽ tập trung vào chủ đề Learning to Forecast: áp dụng các mô hình & giải thuật Machine Learning mới nhất vào các bài toán forecast. Các bạn yêu thích topic Learn2Forecast và có background phù hợp xin gửi profile link về ngo@intelligence.edu.vn hoặc nhắn qua fb.com/CuriousAI để đăng ký.

Prerequisites

  1. Có nền tảng Toán (ví dụ MathAIR), XSTK, ML + kỹ năng coding cho các giải thuật & models. Chúng tôi có GPU servers 8xTesla V100 ráp bởi Lambda Labs và CPU cluster mạnh đang được setup.
  2. Nghiêm túc tham gia (đăng ký reading assignments, dự các discussion sessions online hoặc onsite ở Phú Nhuận HCMC, và contribute to coding repos).
Organizing staff

Hưng Ngô (CoTAI & AINovation), Dr. Mẫn Ngô (JVN), Dr. Trung Nguyễn (HCMUS & AINovation), Dr. Thanh Bùi (HCMUS & AINovation), Jacob Tuấn Trần (Sentifi). Rất mong có thêm các bạn nghiên cứu sâu về chủ đề này tham gia hướng dẫn tự nguyện cho nhóm. Update Mar. 4: Dr. Tan Le (Wollongong & MienTrung Uni), Hanh Tran (Tima & USTH), Dr. Vinh Đặng (TrustingSocial) vừa tham gia. Lưu ý: Moodle liệt kê danh sách này là "teachers" nhưng thực sự đây là 1 self-organized study group: mọi người cùng nhau tự học và trao đổi, sẽ không có giảng viên.

Schedule

Kick-off date: 8 tháng 3, 2019 từ 17:30 đến 19:00 (Vietnam timezone). Chúng ta sẽ bắt đầu với bài review trên PLOS ONE [1]. Có 1 câu chuyện thú vị về submission history [2]. Đi kèm là các benchmark methods + datasets open-sourced trên cuộc thi M4 (2018) [3]. Winning solutions trên cuộc thi này là hybrid models of ML (LSTM) combined with statistical methods (e.g., exponential smoothing). Xem blog trên Uber [4] và bài tổng kết cuộc thi [5].

Đặc biệt trong winning solutions có dùng attention mechanisms, 1 chủ đề đang rất hot [6–16]. Chúng ta sẽ tìm hiểu từ abstract vector spaces đến embeddings, RNNs, neural Turing machines, differentiable neural computers & attention mechanisms. Các bạn có hứng thú nên tìm hiểu trước về Turing machines [17].

Chúng ta cũng sẽ tham gia các forecast competitions [18]. Đặc biệt relevant: Rossmann sales forecast [26] using store, promotion, and competitor data (Kaggle'15); dự báo ô nhiễm không khí ở Bắc Kinh [19] trên KDD’18; và Google Analytics customer revenue prediction [20] trên Kaggle (một nhóm các bạn Việt Nam vừa thắng giải nhì [21]). Ngoài ra chúng ta sẽ hướng đến tổ chức các cuộc thi, benchmark & open datasets của Việt Nam, ví dụ trên platform AI-vì-VN [22].

Misc

Spatio-temporal DS program [23]. Có thời gian chúng ta sẽ discuss bài tutorial khá hot & controversial về deep learning arsenals for time series forecast [24] với những concerns về các pitfalls trong time-series forecast [25], overfit, evaluation metrics, reproducibility chưa đc giải đáp & validate. Các bạn biết excellent resources khác xin email để chúng tôi tổng hợp lại và chia sẻ cho cộng đồng.


Updates: Buổi kickoff meeting đã diễn ra tốt đẹp mặc dù là ngày 8 tháng 3 :-D


Tài liệu tham khảo

[1] Makridakis S, Spiliotis E, Assimakopoulos V. Statistical and Machine Learning forecasting methods: Concerns and ways forward. PLoS ONE 13(3), 2018.

[2] https://twitter.com/spyrosmakrid/status/1041657820523978753?lang=en

[3] https://github.com/M4Competition

[4] https://eng.uber.com/m4-forecasting-competition/

[5] Makridakis S, Spiliotis E, Assimakopoulos V. The M4 Competition: Results, findings, conclusion and way forward. International Journal of Forecasting. International Journal of Forecasting2018.

[6] Riemer M. Correcting forecasts with multifactor neural attention. Proceedings of the 33rd International Conference on International Conference on Machine Learning, 2016.

[7] Hollis T., Viscardi A., Yi S.E. A Comparison of LSTMs and Attention Mechanisms for Forecasting Financial Time Series. 2018.

[8] Gangopadhyay T., Tan S.Y., Huang G., Sarkar S. Temporal Attention and Stacked LSTMs for Multivariate Time Series Prediction. NIPS 2018

[9] Song H., Rajan D., Thiagarajan J.J., Spanias A. Attend and Diagnose: Clinical Time Series Analysis using Attention Models. 2017

[10] Yagmur G. Cinar, Hamid Mirisaee, Parantapa Goswami, Eric Gaussier, Ali Ait-Bachir, Vadim Strijov. Position-based Content Attention for Time Series Forecasting with Sequence-to-sequence RNNs. 2017

[11] https://github.com/gantheory/TPA-LSTM

[12] Yao Qin et. al. A dual-stage attention-based recurrent neural network for time series prediction. Proceedings of the 26th International Joint Conference on Artificial Intelligence, 2017.

[13] Gábor Petneházi. Recurrent Neural Networks for Time Series Forecasting. 2019.

[14] Shengnan YU. Financial Time Series Analysis of Stock Data, 2018.

[15] Time Series Forecasting : Temporal Convolutional Networks vs. AutoML’s XGBoost Regression.

[16] Cinar Yagmur et. al. Time Series Forecasting using RNNs: an Extended Attention Mechanism to Model Periods and Handle Missing Values. 2017.

[17] https://www.facebook.com/curiousAI/posts/1582431645234432

[18] https://robjhyndman.com/hyndsight/forecasting-competitions/

[19] https://biendata.com/competition/kdd_2018/

[20] https://www.kaggle.com/c/ga-customer-revenue-prediction

[21] https://www.facebook.com/groups/machinelearningcoban/permalink/642967252827352/

[22] https://www.aivivn.com

[23] https://www.ima.umn.edu/2017-2018.6

[24] https://towardsdatascience.com/aifortrading-2edd6fac689d

[25] https://towardsdatascience.com/how-not-to-use-machine-learning-for-time-series-forecasting-avoiding-the-pitfalls-19f9d7adf424

[26] https://www.kaggle.com/c/rossmann-store-sales