Reddit Temporal N-gram Corpus and its Applications on Paraphrase and Semantic Similarity in Social Media using a Topic-based Latent Semantic Analysis

Reddit Temporal N-gram Corpus and its Applications on Paraphrase and Semantic Similarity in Social Media using a Topic-based Latent Semantic Analysis

Citation

Dang, A., Moh’d, A., Islam, A., Minghim, R., Smit, M., & Milios, E., Reddit Temporal N-gram Corpus and its Applications on Paraphrase and Semantic Similarity in Social Media using a Topic-based Latent Semantic Analysis, in Proceedings COLING ’16 Osaka Japan (to be appeared)

Abstract

This paper introduces a new large-scale n-gram corpus that is created specifically from social media
text. Two distinguishing characteristics of this corpus are its monthly temporal attribute and that it is
created from 1.65 billion comments of user-generated text in Reddit. The usefulness of this corpus is
exemplified and evaluated by a novel Topic-based Latent Semantic Analysis (TLSA) algorithm. The
experimental results show that unsupervised TLSA outperforms all the state-of-the-art unsupervised
and semi-supervised methods in SEMEVAL 2015: paraphrase and semantic similarity in Twitter tasks.

Demo

Link

Reddit temporal n-gram corpus

2007:
Unigram: Oct_1 NOV_1 DEC_1

Bigram: Oct_2 NOV_2 DEC_2

Trigram: Oct_3 NOV_3 DEC_3

4-gram: Oct_4 NOV_4 DEC_4

5-gram: Oct_5 NOV_5 DEC_5

2008:

Unigram: JAN_1 FEB_1 MAR_1 APR_1 MAY_1 JUN_1 JUL_1 AUG_1 SEP_1 OCT_1 NOV_1 DEC_1

Bigram: JAN_2 FEB_2 MAR_2 APR_2 MAY_2 JUN_2 JUL_2 AUG_2 SEP_2 OCT_2 NOV_2 DEC_2

Trigram: JAN_3 FEB_3 MAR_3 APR_3 MAY_3 JUN_3 JUL_3 AUG_3 SEP_3 OCT_3 NOV_3 DEC_3

4-gram: JAN_4 FEB_4 MAR_4 APR_4 MAY_4 JUN_4 JUL_4 AUG_4 SEP_4 OCT_4 NOV_4 DEC_4

5-gram: JAN_5 FEB_5 MAR_5 APR_5 MAY_5 JUN_5 JUL_5 AUG_5 SEP_5 OCT_5 NOV_5 DEC_5

2009:

Unigram: JAN_1 FEB_1 MAR_1 APR_1 MAY_1 JUN_1 JUL_1 AUG_1 SEP_1 OCT_1 NOV_1 DEC_1

Bigram: JAN_2 FEB_2 MAR_2 APR_2 MAY_2 JUN_2 JUL_2 AUG_2 SEP_2 OCT_2 NOV_2 DEC_2

Trigram: JAN_3 FEB_3 MAR_3 APR_3 MAY_3 JUN_3 JUL_3 AUG_3 SEP_3 OCT_3 NOV_3 DEC_3

4-gram: JAN_4 FEB_4 MAR_4 APR_4 MAY_4 JUN_4 JUL_4 AUG_4 SEP_4 OCT_4 NOV_4 DEC_4

5-gram: JAN_5 FEB_5 MAR_5 APR_5 MAY_5 JUN_5 JUL_5 AUG_5 SEP_5 OCT_5 NOV_5 DEC_5

2010:

Unigram: JAN_1 FEB_1 MAR_1 APR_1 MAY_1 JUN_1 JUL_1 AUG_1 SEP_1 OCT_1 NOV_1 DEC_1

Bigram: JAN_2 FEB_2 MAR_2 APR_2 MAY_2 JUN_2 JUL_2 AUG_2 SEP_2 OCT_2 NOV_2 DEC_2

Trigram: JAN_3 FEB_3 MAR_3 APR_3 MAY_3 JUN_3 JUL_3 AUG_3 SEP_3 OCT_3 NOV_3 DEC_3

4-gram: JAN_4 FEB_4 MAR_4 APR_4 MAY_4 JUN_4 JUL_4 AUG_4 SEP_4 OCT_4 NOV_4 DEC_4

5-gram: JAN_5 FEB_5 MAR_5 APR_5 MAY_5 JUN_5 JUL_5 AUG_5 SEP_5 OCT_5 NOV_5 DEC_5

2011:

Unigram: JAN_1 FEB_1 MAR_1 APR_1 MAY_1 JUN_1 JUL_1 AUG_1 SEP_1 OCT_1 NOV_1 DEC_1

Bigram: JAN_2 FEB_2 MAR_2 APR_2 MAY_2 JUN_2 JUL_2 AUG_2 SEP_2 OCT_2 NOV_2 DEC_2

Trigram: JAN_3 FEB_3 MAR_3 APR_3 MAY_3 JUN_3 JUL_3 AUG_3 SEP_3 OCT_3 NOV_3 DEC_3

4-gram: JAN_4 FEB_4 MAR_4 APR_4 MAY_4 JUN_4 JUL_4 AUG_4 SEP_4 OCT_4 NOV_4 DEC_4

5-gram: JAN_5 FEB_5 MAR_5 APR_5 MAY_5 JUN_5 JUL_5 AUG_5 SEP_5 OCT_5 NOV_5 DEC_5

2012:

Unigram: JAN_1 FEB_1 MAR_1 APR_1 MAY_1 JUN_1 JUL_1 AUG_1 SEP_1 OCT_1 NOV_1 DEC_1

Bigram: JAN_2 FEB_2 MAR_2 APR_2 MAY_2 JUN_2 JUL_2 AUG_2 SEP_2 OCT_2 NOV_2 DEC_2

Trigram: JAN_3 FEB_3 MAR_3 APR_3 MAY_3 JUN_3 JUL_3 AUG_3 SEP_3 OCT_3 NOV_3 DEC_3

4-gram: JAN_4 FEB_4 MAR_4 APR_4 MAY_4 JUN_4 JUL_4 AUG_4 SEP_4 OCT_4 NOV_4 DEC_4

5-gram: JAN_5 FEB_5 MAR_5 APR_5 MAY_5 JUN_5 JUL_5 AUG_5 SEP_5 OCT_5 NOV_5 DEC_5

2013:

Unigram: JAN_1 FEB_1 MAR_1 APR_1 MAY_1 JUN_1 JUL_1 AUG_1 SEP_1 OCT_1 NOV_1 DEC_1

Bigram: JAN_2 FEB_2 MAR_2 APR_2 MAY_2 JUN_2 JUL_2 AUG_2 SEP_2 OCT_2 NOV_2 DEC_2

Trigram: JAN_3 FEB_3 MAR_3 APR_3 MAY_3 JUN_3 JUL_3 AUG_3 SEP_3 OCT_3 NOV_3 DEC_3

4-gram: JAN_4 FEB_4 MAR_4 APR_4 MAY_4 JUN_4 JUL_4 AUG_4 SEP_4 OCT_4 NOV_4 DEC_4

5-gram: JAN_5 FEB_5 MAR_5 APR_5 MAY_5 JUN_5 JUL_5 AUG_5 SEP_5 OCT_5 NOV_5 DEC_5

2014:

Unigram: JAN_1 FEB_1 MAR_1 APR_1 MAY_1 JUN_1 JUL_1 AUG_1 SEP_1 OCT_1 NOV_1 DEC_1

Bigram: JAN_2 FEB_2 MAR_2 APR_2 MAY_2 JUN_2 JUL_2 AUG_2 SEP_2 OCT_2 NOV_2 DEC_2

Trigram: JAN_3 FEB_3 MAR_3 APR_3 MAY_3 JUN_3 JUL_3 AUG_3 SEP_3 OCT_3 NOV_3 DEC_3

4-gram: JAN_4 FEB_4 MAR_4 APR_4 MAY_4 JUN_4 JUL_4 AUG_4 SEP_4 OCT_4 NOV_4 DEC_4

5-gram: JAN_5 FEB_5 MAR_5 APR_5 MAY_5 JUN_5 JUL_5 AUG_5 SEP_5 OCT_5 NOV_5 DEC_5

2015:

Unigram: JAN_1 FEB_1 MAR_1 APR_1 MAY_1 JUN_1 JUL_1 AUG_1 SEP_1 OCT_1 NOV_1 DEC_1

Bigram: JAN_2 FEB_2 MAR_2 APR_2 MAY_2 JUN_2 JUL_2 AUG_2 SEP_2 OCT_2 NOV_2 DEC_2

Trigram: JAN_3 FEB_3 MAR_3 APR_3 MAY_3 JUN_3 JUL_3 AUG_3 SEP_3 OCT_3 NOV_3 DEC_3

4-gram: JAN_4 FEB_4 MAR_4 APR_4 MAY_4 JUN_4 JUL_4 AUG_4 SEP_4 OCT_4 NOV_4 DEC_4

5-gram: JAN_5 FEB_5 MAR_5 APR_5 MAY_5 JUN_5 JUL_5 AUG_5 SEP_5 OCT_5 NOV_5 DEC_5

2016:

Unigram: JAN_1 FEB_1 MAR_1 APR_1 MAY_1 JUN_1 JUL_1 AUG_1

Bigram: JAN_2 FEB_2 MAR_2 APR_2 MAY_2 JUN_2 JUL_2 AUG_2

Trigram: JAN_3 FEB_3 MAR_3 APR_3 MAY_3 JUN_3 JUL_3 AUG_3

4-gram: JAN_4 FEB_4 MAR_4 APR_4 MAY_4 JUN_4 JUL_4 AUG_4

5-gram: JAN_5 FEB_5 MAR_5 APR_5 MAY_5 JUN_5 JUL_5 AUG_5

Visualization

As the corpus is very big, we are applying for Compute Canada resources to provide a reasonable returned result. We will provide a link when it is ready.

 Codes

Reddit Comment Extraction: Github

Reddit N-gram Tokenizer: Github

Reddit Big Query Upload: Github

Topic-based LSA (TLSA): Github