{{item.name}}
竞赛主题

为全面贯彻落实党的二十大精神,提高职工在数据治理、分析方面的专业技能,推动数据治理实践,以更好挖掘数据价值,推动高质量数字化发展,北京中科院软件中心有限公司工会举办第二届“国科杯”暨软件中心职工技能大赛活动。本次比赛以“数据治理及数据分析”为主题,内容涵盖DAMA数据管理知识体系的数据治理、数据架构、数据建模与设计、文件存储与操作等。

比赛时间
初赛: 2023年9月25日-11月15日
决赛: 2023年11月24日
组织机构
主办单位: 中国科学院京区企业工会联合会
承办单位: 北京中科院软件中心有限公司工会
参赛对象
中国科学院京区各持股企业在职员工
竞赛办法

参加者可以个人参赛(单独成队),也可组队参赛(2-5人)。竞赛分为初赛和决赛两个阶段。其中初赛包含线上、线下两个环节,决赛为现场答辩。

初  赛
{{item.title}}
{{item.p1}}
{{item.p2}}
决  赛
{{item.title}}
{{item.p1}}
联系方式
联系人:付治群

咨询电话:010-62649248

工作组邮箱:zqfu@sec.ac.cn
奖项奖励
本次大赛设置一、二、三等奖,并将根据相关文件规定给予适当奖励
线上初赛
本部分占初赛权重为20%
1. 线上初赛时间:
2023年9月25日9:00-10:00
2. 考核形式:
理论笔试(线上答题)
3. 答题分值:
满分100分,40道单选题(每题2分),10道判断题(每题2分)
4. 考察内容:
《DAMA-DMBOK2 DAMA数据管理知识体系指南》中的数据治理、数据架构、数据建模和设计、文件存储和操作等多方面的基础知识内容
5. 考试链接:
线下初赛
本部分占初赛权重为80%
1. 线下初赛时间:
2023年9月25日9:00-11月15日24:00
2. 考核形式:
实战题,从四个选题中任选其一完成
3. 提交作品方式:
2023年11月15日24:00前提交参赛作品至百度网盘(参赛作品名称:题目+单位+姓名/队名)
{{item.name}}
题目1:专利领域分析与挖掘
1. 任务描述
基于提供的专利数据集,利用自然语言处理、深度学习等技术,设计一套语义理解模型,完成基于专利摘要的所属领域的提取模型设计与实验,针对专利摘要,生成较为准确的领域信息,促进专利转化应用、赋能产业发展。
2. 数据集
提供专利相关数据集。(附网盘下载链接)
3. 成果要求

(1)提供专利领域提取模型及代码一套;

(2)提供专利领域分析可视化大屏展示系统一套;

(3)提供系统演示视频。

4. 提交要求
要求选手提交.zip格式的模型、源代码、视频等打包文件。
5. 评价规则
评分维度 主要内容和要求 分值 评分标准
可行性 所使用的模型、算法和技术是否合理且充分考虑了专利数据的特点,是否能够深入控掘数据中的关联性和规律。 30 1) 技术选型是否合理
2) 运行时间评估分析
3) 核心需求及关键要素理解是否精准
创新性 模型设计是否具备创新性,是否针对数据特点对现有模型进行优化创新。 25 1) 算法的创新性
2) 模型优化方案
可靠性 对于数据处理、模型选择、结果分析等,能够准确把握问题的关键点和要求,具有较高的准确度和可靠性。 30 1) 数据分析与处理过程
2) 算法模型选择依据
3) 算法模型框架设计
4) 模型结果的准确性
可视化展示 对专利领域的结果进行数据可视化展示。 25 1) 展示结果是否清晰、直观、易于理解
2) 可视化维度是否全面、丰富
3) 可视化分析是否能挖掘专利领域发展趋势
题目2:企业评价算法实现与评估
1. 任务描述
基于提供的企业数据,选取层次分析法、优劣解距离法、“积木式”多层次加权综合评价模型、熵权法、德尔菲法中的两种以上算法,构建企业综合评价指标体系及评价模型,对企业综合能力进行评价。同时对比分析不同评价算法的优缺点。
2. 数据集
提供企业相关数据集。(附网盘下载链接)
3. 成果要求

(1)提供选定算法代码一套及算法性能分析;

(2)提供可视化的企业画像一套;

(3)提供系统演示视频。

4. 提交要求
要求选手提交.zip格式的模型、源代码、视频等打包文件。
5. 评价规则
评分维度 主要内容和要求 分值 评分标准
评价指标体系 企业评价指标体系是否客观、全面、科学、可比较,是否能够反映企业的综合实力和发展潜力。 35 1) 评价指标体系是否合理、客观
2) 评价指标体系是否具有可操作性、实用性
3) 指标权重是否合理、客观
评价算法 所选用的评价算法、技术是否合理,能够准确的实现企业综合能力评价。 30 1) 算法是否能准确地解决问题,具有较高的准确率和精度
2) 算法是否具有较高的效率和速度
3) 算法是否具有较高的稳定性
可视化展示 企业画像可视化展示。 25 1) 展示结果是否清晰、直观、易于理解
2) 界面设计是否美观、信息呈现是否清晰
3) 操作是否简便,功能是否合理
创新性 评价指标及算法设计是否具备创新性,是否针对数据特点对现有模型进行优化创新。 10 1) 算法的创新性
2) 模型优化方案
题目3:基于足球数据的分析与挖掘
1. 任务描述

基于提供的足球相关数据集,从中挖掘出有趣、有实际意义的信息,设计基于深度学习及预训练模型的智能模型与方法,建立准确可靠的模型,进行数据分析与挖掘。以下2个任务任选其一:

比赛结果预测:基于历史比赛数据、球队球员特征,建立预测模型,预测比赛结果,如胜负、平局、进球数等。

球员能力评估:基于球员的数据,根据球员的技术特点、比赛表现等信息,建立评估模型,评估球员的能力水平。

2. 数据集
提供足球相关数据集。(附网盘下载链接)
3. 成果要求

(1)提供模型一套;

(2)提供结果可视化展示系统一套;

(3)提供系统演示视频。

4. 提交要求
要求选手提交.zip格式的模型、源代码、视频等打包文件。
5. 评价规则
评分维度 主要内容和要求 分值 评分标准
可行性 参赛作品所使用的模型、算法和技术是否合理且充分考虑了足球数据的特点,是否能够深入挖掘数据中的关联性和规律。 30 1) 技术选型是否合理
2) 运行时间评估分析
3) 分析到核心需求及关键要素
创新性 模型设计是否具备创新性,是否针对数据特点对现有模型进行优化创新。 25 1) 算法的创新性
2) 模型优化方案
可靠性 对于赛题的数据处理、模型选择、结果展示等,能够准确把握问题的关键点和要求,具有较高的准确度和可靠性。 30 1) 数据分析与处理过程
2) 算法模型选择依据
3) 算法模型框架设计
4) 模型结果的准确性
5) 成果的落地方案及推广价值
可视化展示 对预测模型或评估模型的结果进行数据可视化展示。 15 1) 展示结果是否清晰、直观、易于理解
2) 是否能够通过可视化手段,将复杂的分析结果以简洁明了的方式表达出来
题目4:恶意域名检测识别机制研究及实现
1. 任务描述

使用但不限于深度学习算法或已有的可行机制,对目标恶意域名及query样本中的正常域名进行识别判断,能够做到:对于正常域名进行放行,对于已知DGA恶意域名进行拦截并通过日志输出,需要构建压力测试平台验证识别结果。

2. 数据集
常态化域名query日志,DGA恶意域名集。(附网盘下载链接)
3. 成果要求

包含全部源代码、训练样本(可选),源代码需要清晰可读,带有注释。提供简要的设计思路及成果展示(视频或者截图)。

4. 提交方式
要求选手以.zip,.rar,.tar包的压缩包形式将模型、源代码及结果展示(文字描述或录屏)打包发送到主办方邮箱,大小控制在20MB以内。
5. 评价规则
评分项目 评分标准
能够提出算法或机制,并通过简要描述论述可行性,需要阐述技术路线。 满分10分,缺少酌情扣分。
清洗算法或识别机制系统实现,产出代码或工具包。 满分10分,代码若发现重复、抄袭或不合理,酌情扣分。
构建压力测试平台,并对数据集进行数据处理形成样本集/测试集。 满分10分,若缺失酌情扣分。
能够通过压测对目标测试集域名进行识别,并对识别结果进行验证,输出log。 满分50分,
Acc>85%,Rc>80%为满分。
Acc∈ (60%,85%) ,Rc∈ (55%,80%)   50分,
Acc∈ (40%,60%) ,Rc∈ (35%,55%)   30分,
Acc<40%,Rc<35%   不得分。
建立数据看板,数据看板可以实时分析显示流量、OPS、拦截流量、拦截QPS、攻击IP归属区域、攻击域名实时排名。 满分20分,
建立相关可视化图表,若缺失功能,按照缺失功能比例进行扣分。
考察数据实时性,若压测过程中出现数据丢失、数据查询等待超过3s以上、数据统计错误或有疑似假数据情况,该项不得分。
决   赛
1. 决赛时间:
2023年11月24日,具体情况另行通知
2. 考核形式:
入围团队现场讲解、演示参赛成果
3. 比赛地点:
北京市海淀区中关村南四街四号4号楼南楼
4. 参赛对象:
进入决赛的队伍
5. 胜出条件:
专家组进行打分评审,评比最终名次
比赛日程
时间 事项安排 相关内容
2023年9月20日前 报名 参赛人员需按要求填写下方报名表,经单位盖章确认后,于2023年9月20日前发至竞赛工作组邮箱。
2023年9月25日9:00-10:00 初赛线上竞赛 理论题在线答题
2023年9月25日9:00 初赛线下竞赛 公布线下竞赛具体试题
2023年11月15日24:00 初赛线下竞赛 线下竞赛成果提交截止
2023年11月24日 决赛 北京市海淀区中关村南四街四号4号楼南楼
风采展示
{{item.desc}}