 岗位职责: 1. 构建知识引擎采集、预处理平台 2. 对相关算法进行优化,提高抓取与处理的准确性 3. 维护已有知识引擎服务器集群 任职资格: 1. 211重点高校计算机、软件工程等相关专业硕士在读学生 2. 具有良好计算机素养与编程习惯,对算法设计与数据结构有深刻理解,精通网络编程与多线编程 3. 熟练应用Python或Java开源爬虫框架,如:Scrapy 、Nutch、Heritrix等 4. 具备有网络爬虫、网页去重、网页信息抽取、中文分词、网页分类的基本方法,具有相关任一种程序开发经验 5. 具有创新精神、团队协作精神,工作踏实勤恳,责任心强 1. 须获得导师批准实习函,实习学生/访问学生实验室可安排指导毕业设计,并指导发表小论文,毕业后优先考虑入所,并解决户口 时间要求: 实习时间 6个月以上 , 每周工作4天 |