大数据赛(参赛科目101) 当今社会,房屋租金由装修情况、位置地段、户型格局、交通便利程度、市场供需量等多方面因素综合决定,对于租房这个相对传统的行业来说,信息严重不对称一直存在。一方面,房东不了解租房的市场真实价格,只能忍痛空置高租金的房屋;另一方面,租客也找不到满足自己需求高性价比房屋,这造成了租房资源的极大浪费。
本次计算机技能大赛中的大数据赛题将基于租房市场的痛点,提供脱敏处理后的真实租房市场数据。选手需要利用有月租金标签的历史数据建立模型,实现基于房屋基本信息的住房月租金预测,为该城市租房市场提供客观衡量标准。
  • 大赛的参赛对象是高校所有专业的在校生(含高职、大专、本科及研究生)、在职人员、自由职业者等;
  • 学生自行组队参加,每支参赛队为3名学生(包括1名组长)。每支参赛队限1名指导教师,每名学生限参加1支参赛队。
  • 各高校参赛队数不限,允许跨校组队。
  •    报名阶段:2018年8月28日-2018 年11月15日
  •    提交阶段:2018年11月01日 10:00--2018年11月27日10:00
  •    评审阶段:2018年11月27日-11月30日
  •    获奖公示:2018年12月1日-2018年12月3日 (比赛获奖公示,并接受异议、申诉和违规举报)
奖项设置
一等奖:不超过报名队数的5% 荣誉证书
二等奖:不超过报名队数的10% 荣誉证书
三等奖:不超过报名队数的20% 荣誉证书
优秀奖:若干
优秀协办单位:若干
优秀志愿者:若干
其他:三等奖以上获奖学生除获得相应证书外,并可获得免试申请专业技术证书的名额
  • 参赛者需缴纳报名、考试及评审费用共150元/队。费用用于大赛系统开发、场地、交通、设备、专家评委、交通餐补、获 奖证书采购、寄送等。
  • 大数据赛每天可提交最多5次作品,12月1日公布获奖名单;
  • 参赛选手可在多个专项赛内任选其一或多个科目参赛,每个科目将独立排名和评奖,但务必注意比赛时间节点,以免错过参赛时间;
  • 培训课程:报名参赛的队伍均可免费获得《数据挖掘竞赛入门——房价预测》课程上课码。本课程将带你从零开始上手数据挖掘竞赛,解锁一项新的技能,完成数据挖掘/机器学习的入门训练。你将利用美国King County的房屋销售价格以及房屋的基本信息,通过分析和预测影响消费者购买房屋的主要因素,准确预测房屋的价格。并以此熟悉探索性分析、特征工程、模型训练及优化等流程,能够独立解决数据挖掘竞赛甚至实际业务中的预测问题。课程核心知识点如下:
    1. 问题分析:掌握数据类型基本情况,分析实验目的及可能用到方法、对目标的实现有一个整体的思路
    2. Python数据准备:将训练数据转化成Python语言可以处理和分析的数据
    3. 描述性统计分析:通过对数据分布及数据不同统计指标的分析,得出数据本身的统计特性
    4. 数据挖掘和数据预处理:了解数据类型和变量关系,进行变量的编码处理
    5. 特征工程:变量编码、特征选择、训练集和数据集的划分
    6. 模型训练与参数调整:通过对比不同模型对相同数据的预测结果分析得到最好的训练模型
  • 参赛组队: 参赛者可自行组队参加,每支参赛队为1-3名成员(包括1名组长)。每支参赛队限1名指导教师。每名学生限参加1支参赛队。各高校参赛队数不限,允许跨校组队
  • 参赛流程: 团队人数上限3人。在第一阶段的最后3天无法新建队伍,但是可以加入其它队伍。在最后一个阶段最后3天无法新建队伍,无法加入队伍。竞赛进入历史阶段后可以新建队伍,但是已参赛队伍不可新增队员、不可解散队伍,注意:答辩队伍成员仅限活跃期间加入的成员。
  • 评分标准: 算法通过计算预测值和真实房租月租金的均方根误差来衡量回归模型的优劣。均方根误差越小,说明回归模型越好。均方根误差计算公式如下:

    其中,是参赛者提交的房屋月租金的预测值,是对应房屋的真实月租金。