您的当前位置:首页正文

蒋均-毕业设计开题报告

2020-08-06 来源:步旅网


南阳理工学院

毕业设计(论文)开题报告

计算机科学与技术 系 计算机科学与技术 专业

课题名称: 远程搜索引擎的调用与实现

学生姓名: 蒋均 学 号: 64104038 指导教师: 张芳(讲师)

报告日期: 2008年2月25日

1.本课题所涉及的问题研究现状综述 国外搜索引擎发展较早,有著名的Yahoo、Altavista、Google 等。Yahoo 是最具代表性的目录导航式系统,它为用户提供分类导航和关键词检索两类查询方式。国内搜索引擎随着中文信息处理技术特别是中文分词技术的发展,出现了一些优秀的中文搜索引擎,如百度、慧聪。百度是国内最大的中文搜索引擎,索引页面达到1亿3千万以上,并且还在以每天几十万个页面的速度增长。百度与Google都采用相同的链接分析排名技术(PageRank),但是Google 的排名技术做得更好,相比之下百度最大的优势就是提供了搜索帮助,能根据用户提供的搜索关键词提出“相关搜索”,进一步协助用户提高查询的准确率。目常使用的搜索引擎一般采用的是集中方式, 它们利用一种称为网络机器人(Robot) 的自动化程序来遍历互联网, 对能搜索到的文档生成全文索引, 供用户检索。这种方式最大的弊端是覆盖度不高, 据分析, 任何一个搜索引擎索引的Web页面实际上都不到页面总数的三分之一, 而且由于检索机制、范围、算法等的不同, 导致同样一个检索请求在不同搜索引擎中的查询结果的重复率不足34 % 。因此, 要想获得一个比较全面、准确的结果, 就必须反复调用多个搜索引擎, 这无疑增加了用户操作复杂度。元搜索引擎(Meta Query Engine)可以综合多个搜索引擎的结果,筛选和整理后返回给用户,以期望提高搜索引擎查询的准确程度和覆盖面。 2.本人对课题任务书提出的任务要求及实现预期目标的可行性分析 搜索引擎的实现依赖于几个关键模块的协同工作,包括爬行,本地网页存储,索引,搜索结果排序。对搜索引擎的体系结构及实现原理进行了相关研究,介绍了每个组件的设计及实现技术。元搜索引擎提供多个搜索引擎的集成环境,具有比传统引擎覆盖面大,可扩展性好以及结果相关性高等优点。系统实现了一个小型元搜索引擎的原型系统,执行性能效果好,对结果进行排序。在此基础上,给出了一种由C#实现的元搜索引擎的系统框架,以及系统所采用的合成排序算法。 3.本课题需要重点研究的、关键的问题及解决的思路 使用PageRank 技术、中文分词技术以及Crawler 技术。PageRank 是一种对检索结果进行排序的技术,它在一定程度上提高了检索质量。中文分词技术目的在于提高检索的准确性,减少无意义的检索结果。网络爬虫(Crawler)是搜索引擎的核心组件,用于下载页面进行处理。 搜索引擎的设计要点主要是搜索引擎的类型,搜索引擎的选择和搜索的方式。要进行元搜索需要解决下面几个问题:收集搜索引擎的接口,搜索引擎返回结果网页特征分析,搜索时间限制,编程实现搜索请求的发送、搜索结果的提取、去重、排序、格式化处理和分页显示。 4.完成本课题所必须的工作条件(如工具书、实验设备或实验环境条件、某类市场调研、计算机辅助设计条件等等)及解决的办法 完成本论文的课题: 《ASP.NET基础教程》 《数据库系统原理与应用》 《元搜索引擎原理》、 及大量的网上资源。 实验环境: 个人电脑一台 Windows XP系统 ASP.NET运行环境 SQL Server服务器 5.完成本课题的工作方案及进度计划 2008年3月5日--------2008年3月21日 系统分析 2008年3月22日--------2008年4月12日 系统设计说明书 2008年4月13日--------2008年4月23日 数据库设计 2008年4月24日--------2008年5月25日 页面设计,程序设计 2008年5月26日--------2008年6月25日 完成毕业论文及答辩 进行论文的编写,修改,最后彻底完成论文。 6.指导教师审阅意见 指导教师(签字): 年 月 日 7.系毕业设计(论文)工作领导小组评审意见 领导小组组长(签字): 系(签章) 年 月 日 说明: 1. 本报告必须由承担毕业设计(论文)课题任务的学生在接到“毕业设计(论文)任务书”、正式开始做毕业设计(论文)的第2周或第3周末之前独立撰写完成,并交指导教师审阅。

2. 每个毕业设计(论文)课题撰写本报告一份,作为指导教师、毕业设计(论文)指导小组审查学生能否承担该毕业设计(论文)课题任务的依据,并接受学校的抽查。

因篇幅问题不能全部显示,请点此查看更多更全内容