網(wǎng)站支付界面怎么做免費(fèi)推廣網(wǎng)站2024
學(xué)院(全稱):????????????????????????專業(yè)(全稱):???????
姓名 | 學(xué)號 | 年級 | 班級 | |||||
設(shè)計(論文) 題目 | 基于Spark的高考志愿推薦系統(tǒng)設(shè)計與實(shí)現(xiàn) | |||||||
指導(dǎo)教師姓名 | 職稱 | |||||||
擬完成時間 | 2023年10 月 15??日 | |||||||
設(shè)計(論文)類別 | t項(xiàng)目設(shè)計制作類 ?¨項(xiàng)目設(shè)計策劃類 ???¨實(shí)踐操作類 ¨課堂教學(xué)與設(shè)計類 ¨學(xué)位論文類 | |||||||
命題來源 | t教師命題 ???????????¨學(xué)生自擬 ?????????¨教師科研課題 | |||||||
是否在實(shí)驗(yàn)實(shí)訓(xùn)、實(shí)習(xí)、工程實(shí)踐和社會調(diào)查等社會實(shí)踐中完成 | t是 ??¨否 | |||||||
一、選題依據(jù)及意義 1.選題依據(jù): 高考是中國的大學(xué)招生的學(xué)術(shù)資格考試,在目前看來,高考的考試類型有兩種,一種是文理分科,另一種是新高考模式[1]。傳統(tǒng)的文理分科是將學(xué)生分成兩個類型,一種是文科,除了語數(shù)外三門課以外需要學(xué)習(xí)政史地,理科相對應(yīng)的就需要學(xué)習(xí)物化生。根據(jù)學(xué)生的高考成績和每個大學(xué)在所對應(yīng)省份的總體招生計劃來分梯度劃線,也就是我們常說的重本線,二本線和專科線。 高考填報志愿對每個考生都非常重要,每年全國有數(shù)百萬家庭使用網(wǎng)絡(luò)了解高考支援志愿信息并推薦填報志愿。對于很大一部分考生和家長來說,短時間了解全國數(shù)千所高等院校的招生標(biāo)準(zhǔn)、歷史錄取分?jǐn)?shù)、專業(yè)要求等信息非常困難。往往由于信息的缺失或錯誤造成高考志愿與考生成績之間的較大差異,對考生造成不可挽回的損失。
目前高考志愿填報,涌現(xiàn)很多沒有結(jié)合自身實(shí)際、盲目跟風(fēng)的不良現(xiàn)象,最常見的跟風(fēng)是過度依賴智能系統(tǒng),很多家長、考生缺乏高考志愿相關(guān)專業(yè)知識,又沒有太多時間去研究,面對浩如煙海的數(shù)據(jù)產(chǎn)生焦慮情緒,希望找到一種性價比高的方式,解決填報志愿時遇到的各種難題,最好能省心省事直接生成填報方案[2]。在龐大用戶需求量和高額利潤誘惑下,高考志愿智能輔助系統(tǒng)軟件的市場近年來變得非?;鸨?#xff0c;有些商家抓住客戶著急心理和對行情信息不了解的情況,做出虛假、過分夸大宣傳。大部分家長不能從專業(yè)角度去甄別智能系統(tǒng),盲目跟風(fēng)繳費(fèi)升級會員,過分迷信權(quán)威金牌專家、內(nèi)部來源數(shù)據(jù)、人工智能一鍵生成方案等,很多考生三年備考、三分鐘報考,錄取去向滿意度不高。 在當(dāng)今時代,互聯(lián)網(wǎng)的高度普及以及信息技術(shù)的飛速發(fā)展都使得數(shù)據(jù)呈現(xiàn)爆炸式增長,海量的數(shù)據(jù)然已成為一種“藏”。與此同時,社會出現(xiàn)了大量的“據(jù)金者”在數(shù)據(jù)的海洋里挖掘、采集、提煉、分析,想要發(fā)掘有價值的信息。據(jù)了解,大數(shù)據(jù)目前主要應(yīng)用于互聯(lián)網(wǎng)、電商、視頻門戶網(wǎng)站等企業(yè)領(lǐng)域,對于教育領(lǐng)域則運(yùn)用的較少高考是教育領(lǐng)域中最引人注目的大事件,中國作為高考大國,在高考招生的信息化建設(shè)中,積累了非常豐富的高考信息數(shù)據(jù)資源,包括歷年的報名庫、志愿庫、錄取庫、成績庫等等,且數(shù)據(jù)大多為原始數(shù)據(jù)未經(jīng)過處理。面對這些數(shù)據(jù),考生在填報志愿時往往無所適從,導(dǎo)致高考數(shù)據(jù)沒能充分體現(xiàn)其價值,面對大數(shù)據(jù)時代所帶來的數(shù)據(jù)過載等問題,推薦系統(tǒng)列和搜索引應(yīng)運(yùn)而生,相比于后者的信息被動選擇模式,推薦系統(tǒng)是基于用戶的相關(guān)行為數(shù)據(jù)自動的幫助用戶過濾掉一些無用或不喜歡的內(nèi)容,直接替用戶完成了自我篩選的過程。其極大的縮短了用戶在信息選擇上的時間,同時也提高了用戶相關(guān)行為數(shù)據(jù)的利用率[3]。 | ||||||||
二、研究目的與主要內(nèi)容 1.研究目的: 高考志愿填報,是人生中的一大抉擇,直接關(guān)系考生的終身發(fā)展每年都會有這樣一個現(xiàn)象,有的考生分?jǐn)?shù)很高,本可以錄取到 985、211 高校的,但是因?yàn)橹驹柑顖蟮恼`差,被激烈的競爭擠出來,或者由于不合適的專業(yè)選擇直接導(dǎo)致了不理想的錄取結(jié)果,更有甚者導(dǎo)致不得不復(fù)讀[4]。為了讓廣大考生報考到一個相對適合自己的專業(yè),我打算利用歷年高考志愿填報數(shù)據(jù),結(jié)合學(xué)生個人信息,采用大數(shù)據(jù)技術(shù),設(shè)計一個基于Spark的高考志愿填報推薦系統(tǒng),在學(xué)生填報高考志愿時給學(xué)生推薦適合自己的學(xué)校和專業(yè),幫助廣大考生報考理想學(xué)校,提高錄取的機(jī)率。 2.主要內(nèi)容: 1、SparkML推薦系統(tǒng):包含協(xié)同過濾算法的兩種實(shí)現(xiàn)(基于用戶、基于物品)、基礎(chǔ)業(yè)務(wù)功能; 2、后臺管理系統(tǒng):數(shù)據(jù)管理; 3、爬蟲:爬取歷年省控線、專業(yè)線、高考院校信息等作為數(shù)據(jù)集,并可以實(shí)時更新; 4、數(shù)據(jù)大屏駕駛艙:使用SparkSQL計算框架完成數(shù)據(jù)統(tǒng)計,以echarts形式進(jìn)行可視化顯示; 提綱: 摘要 英文摘要 1 ?引言?
1.3 ?國內(nèi)外研究現(xiàn)狀 1.4 ?研究主要內(nèi)容與技術(shù) 1.4.1研究內(nèi)容 1.4.2研究技術(shù) 2 ?基于python爬蟲的數(shù)據(jù)爬取和數(shù)據(jù)庫的建立 2.1 ?高考信息表 2.5 ?數(shù)據(jù)庫的建立 3??數(shù)據(jù)進(jìn)行展示、科學(xué)分析和預(yù)測 3.1 ?基于spark+echarts進(jìn)行可視化展示 3.2??推薦算法 3.4??情感分析 4??系統(tǒng)的建立和展示 4.1??基于springboot+mybatis后端開發(fā) 4.2??基于html、echarts、vue前端開發(fā) 4.3??系統(tǒng)的最終調(diào)試 5??結(jié)束語 參考文獻(xiàn) 致謝 附錄 | ||||||||
三、研究方法和手段 研究方法: 參閱相關(guān)資料、書籍,在網(wǎng)上調(diào)閱資料、學(xué)習(xí)相關(guān)教程、咨詢指導(dǎo)老師。在網(wǎng)上收集相關(guān)的數(shù)據(jù)、查閱相關(guān)內(nèi)容掌握數(shù)據(jù)含義,通過清洗、分析、建模、可視等步驟完成本項(xiàng)目。 手段: 1、按照設(shè)計題目要求設(shè)計畢業(yè)設(shè)計方案,配合指導(dǎo)教師進(jìn)行設(shè)計; 2、明確數(shù)據(jù)的來源,查找數(shù)據(jù)的途徑,確保數(shù)據(jù)的穩(wěn)定性; 3、接受指導(dǎo)教師指導(dǎo),定時匯報工作內(nèi)容,并就相關(guān)問題進(jìn)行討論; 4、理論聯(lián)系實(shí)際,培養(yǎng)正確的工作方法和嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度; 5、按照進(jìn)度計劃完成畢業(yè)設(shè)計并書寫畢業(yè)論文。 | ||||||||
四、文獻(xiàn)綜述 ?1、傳統(tǒng)填報方法效率低、效果差。 目前,全國大部分省(自治區(qū)、直轄市)都是高考成績公布后開始填報志愿,大部分家長和考生僅僅利用招生考試機(jī)構(gòu)公布志愿填報日程幾天時間,從近2700所高校和500多個專業(yè)中做出選擇,對很多毫無經(jīng)驗(yàn)的家長和考生來說“難于上青天”[5]。因?yàn)橛绊懜呖贾驹敢蛩靥?#xff0c;如考生職業(yè)生涯規(guī)劃、個人和家庭情況、分?jǐn)?shù)、院校、專業(yè)、城市、高考志愿政策規(guī)則、填報策略技巧、近3到5年錄取數(shù)據(jù)、錄取概率測算、就業(yè)情況等,如果僅在幾天內(nèi)通過傳統(tǒng)手段,以手工查閱書籍材料,往往會因?yàn)橘Y料難找、耗時長、易疲勞出錯等原因,填報志愿和最終錄取去向往往不盡如人意[6]。 2、填報方案不科學(xué),錄取不滿意案例多。 《中國青年報》社會調(diào)查中心發(fā)起的一項(xiàng)10萬人參加的抽樣調(diào)查,超過71.2%的人后悔當(dāng)年的高考志愿。我們可以在新聞媒體或網(wǎng)絡(luò)上看到很多志愿填報不科學(xué)的典型案例,其中很多是高材生。 2008年周某以青海省第三名的成績被北京大學(xué)生命科學(xué)學(xué)院錄取,兩年后周某選擇轉(zhuǎn)學(xué)到了北京工業(yè)技師學(xué)院。2017年李某從中國科學(xué)技術(shù)大學(xué)退學(xué)補(bǔ)習(xí),2018年高考以云南省理科第8名的好成績拒絕清華大學(xué)和北京大學(xué)發(fā)出的邀請,選擇了四川大學(xué)口腔專業(yè)。2017年廣西理科高考第3名考生,填錯高考志愿批次,最后通過征集獲得錄取。2017年浙江省646高分考生竟報考獨(dú)立學(xué)院,全省被獨(dú)立學(xué)院錄取的600分以上考生多達(dá)9人[7]。 現(xiàn)實(shí)中,還有很多高考過來人默默承受著高考志愿填報失誤帶來的痛,比如對專業(yè)不滿意、對院校不滿意、填錯批次、錯過填報時間、被退檔、畢業(yè)后從事與自己所學(xué)專業(yè)毫無關(guān)聯(lián)的工作等。 在本項(xiàng)目中主要研究的是傳統(tǒng)文理分科的高考模式,因?yàn)檫@種模式有著大量的數(shù)據(jù)支撐,提供訓(xùn)練,能夠高精度地做出預(yù)測[8]。而新考高模式剛剛施行,其數(shù)據(jù)是不足以支撐訓(xùn)練,從而做出預(yù)測。高考錄取填報推薦志愿方式,梯度志愿和混合錄取,經(jīng)過不斷優(yōu)化,平行志愿已成為了高考錄取的主流,大部分省份都采取平行志愿,所以本次項(xiàng)目也就平行志愿的錄取方式來進(jìn)行研究。即分?jǐn)?shù)優(yōu)先,滿足偏好的方式,所以本項(xiàng)目著重對學(xué)生位次進(jìn)行研究。針對高考這一熱門話題,國內(nèi)外都有著不少的專家學(xué)者對其進(jìn)行研究,在過去的實(shí)踐中,人們往往選用經(jīng)典的時間序列方法來解決預(yù)測高校錄取問題,即利用近5年高校錄取的分?jǐn)?shù)線,名次求平均值來預(yù)測當(dāng)年的分?jǐn)?shù)線,但是利用時間序列預(yù)測,就必須保證時間序列的過去值、當(dāng)前值、和未來值之間存在著某種確定的函數(shù)關(guān)系[9]。所以這養(yǎng)的預(yù)測是不夠精確,不夠完善的。除了基于時間序列的預(yù)測以外,還有人通過錄取線差法來對高考錄取進(jìn)行研究,所謂錄取線差是指考生意向院校當(dāng)年平均錄取分?jǐn)?shù)與其所在招生批次錄取控制分?jǐn)?shù)線的差值。但是,每年高考試卷難度有別,造成了各個院校各年度的錄取分?jǐn)?shù)可能發(fā)生較大的變化。 | ||||||||
五、參考文獻(xiàn) [1]孫浩然,武雪明,吉雪蕓.高考志愿智能推薦系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J].電腦知識與技術(shù),2023,19(09):41-45.DOI:10.14004/j.cnki.ckt.2023.0427. [2]白俊杰. 基于混合推薦的高考志愿推薦系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué),2022.DOI:10.27224/XXXXX.2022.001490. [3]孟真. 基于Spark的高考推薦系統(tǒng)設(shè)計與實(shí)現(xiàn)[D].山東師范大學(xué),2017. [4]銀虹宇. 基于大數(shù)據(jù)的高考志愿推薦系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D].電子科技大學(xué),2018. [5]謝雷,唐旭,鐘立國. 基于Spark的高考志愿填報系統(tǒng)設(shè)計與實(shí)現(xiàn)[J]. 計算機(jī)工程與設(shè)計, 2017, 38(9): 2461-2465. [6]唐旭,鐘立國,謝雷. 基于Spark的高考志愿填報系統(tǒng)設(shè)計與實(shí)現(xiàn)[J]. 現(xiàn)代計算機(jī), 2019, 40(8): 129-132. [7]李坤,田田. 基于Spark的高考志愿填報系統(tǒng)設(shè)計與實(shí)現(xiàn)[J]. 電腦知識與技術(shù), 2019, 15(3): 80-81. [8]陳娟,黃林偉. 基于Spark的高考志愿填報系統(tǒng)設(shè)計與實(shí)現(xiàn)[J]. 現(xiàn)代電子技術(shù), 2020, 43(4): 181-184. [9]基于Spark的高考志愿填報系統(tǒng)設(shè)計與實(shí)現(xiàn) 作者:謝雷,唐旭,鐘立國 出處:《計算機(jī)工程與設(shè)計》,2017年,第38卷,第9期 [10]Guo, M., Zhang, J., Zhang, J., & Li, J. (2020). Research on Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Spark. In 2020 International Conference on Artificial Intelligence and Big Data (ICAIBD) (pp. 104-107). [11]Wang, Y., Liu, W., Zhu, M., Li, H., & Li, J. (2019). Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Big Data Analysis. In 2019 2nd International Conference on Mathematics, Modeling, Simulation and Education Application (MMSEA) (pp. 1-4). [12]Wang, Z., & Guo, C. (2018). Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Big Data Analysis. In 2018 IEEE International Conference on Big Data (Big Data) (pp. 4494-4496). [13]Zhang, Y., & Li, S. (2018). Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Spark. In 2018 International Conference on Data Science and Advanced Analytics (DSAA) (pp. 535-539). | ||||||||
六、工作進(jìn)度安排 2023.7.10-2023.8.1選題,查閱資料,擬定大綱,填寫開題報告 2023.8.2-2023.8.20撰寫論文初稿并以班級為單位上交學(xué)院 2023.8.21-2023.9.20在指導(dǎo)老師指導(dǎo)下修改論文 2023.9.21-2023.10.15繼續(xù)修改論文,并定稿打印,送交論文,等待答辯 | ||||||||
七、預(yù)期成果 順利完成畢業(yè)論文和畢業(yè)設(shè)計,設(shè)計出一個基于Spark的高考志愿推薦系統(tǒng),可以實(shí)現(xiàn)根據(jù)考生的個人情況提供個性化志愿服務(wù)的推薦系統(tǒng),幫助考生最大化挑選自己喜歡的院校及專業(yè),提高高考志愿填報的成功率。 | ||||||||
(以上內(nèi)容在教師指導(dǎo)下由學(xué)生填寫) 學(xué)生簽名: ????????年 月 日 | ||||||||
八、指導(dǎo)教師審核意見: ???指導(dǎo)教師簽名:???????????????年 月 日 ? | ||||||||
九、學(xué)院畢業(yè)設(shè)計(論文)領(lǐng)導(dǎo)小組審核意見: 領(lǐng)導(dǎo)小組簽名:?????????????年 月 日???????????????????????????? |
說明:本表由學(xué)生填寫,指導(dǎo)教師和學(xué)院簽署意見,一式三份,分別存于教務(wù)處、學(xué)院、學(xué)生個人檔案。
核心代碼分享如下:
大數(shù)據(jù)項(xiàng)目專用腳本
## 啟動hadoop
cd /data/hadoop/sbin
start-all.sh## 啟動hive cd /data/hivenohup hive --service metastore &nohup hive --service hiveserver2 &--先將mysql中的高考數(shù)據(jù)集導(dǎo)出csv文件
原因:1.如果Python爬取直接生成csv的話需要電腦開機(jī)連續(xù)爬取5-7天,不現(xiàn)實(shí)2.Python爬取存mysql然后轉(zhuǎn)csv可以保證我們可以在任意時間開機(jī)爬取(數(shù)據(jù)庫濾重)
--測試mysqldump -h localhost -u root -p gaokao school > D:\hadoop_spark_hive_gaokao_fenxi_vmvare2024\export_csv\school.csv----需要導(dǎo)入hive的表列舉
school √
school_province_score √ 省控線
special √
school_special_score √
ruanke_rank 軟科中國大學(xué)排名 √
qs_world √
province √