Task1 赛题理解

ryluo 2020-07-21 16:23:45

数据

赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。

赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,我们将比赛数据的文本按照字符级别进行了匿名处理

由于数据做了匿名处理,所以无法观察到数据中是否存在一些特殊的字符或者标点符号,或者乱码等不正常的情况,很难对数据进行清洗。

指标

评价标准为类别f1_score的均值,选手提交结果与实际测试集的类别进行对比,结果越大越好。

f1_score: 可以看成是模型精确率和召回率的一种加权平均,其最大值为1,最小值为0

sklearn包中的f1_score调用

from sklearn.metrics import f1_score
y_true = [0, 1, 1, 0, 1, 0]
y_pred = [1, 1, 1, 0, 0, 1]
f1 = f1_score(y_pred, y_true)
print(f1)

特征:

  1. TF-IDF特征
  2. LDA特征
  3. LSI特征+Word2Vec特征
  4. Word2Vec + Glove

模型:

  1. TF-IDF + 机器学习分类器:直接使用TF-IDF对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用SVM、LR、或者XGBoost。

  2. FastText:FastText是入门款的词向量,利用Facebook提供的FastText工具,可以快速构建出分类器。

  3. WordVec + 深度学习分类器: WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或者BiLSTM。

  4. BERT、GPT2

相关资料总结:

https://github.com/ShawnyXiao/2018-DC-DataGrand-TextIntelProcess

https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification