當(dāng)今做那些網(wǎng)站致富seo交流論壇
1. 簡介
jieba 是python中一個(gè)非常好用的 中文分詞組件,但它并不是只有分詞這一個(gè)功能,還提供了很多在分詞之上的算法,如關(guān)鍵詞提取、詞性標(biāo)注等。
安裝方式:
pip install jieba
2. 分詞
支持 3 種分詞模式:精確模式、全模式、搜索引擎模式。
1)精確模式:試圖將句子最精確地切開,詞語間沒有重疊。代碼中通過cut_all=False
選項(xiàng)來指定。
import jieba
seglist = jieba.lcut("故事發(fā)生在二十一世紀(jì)末的日本。", cut_all=False)
seglist
['故事', '發(fā)生', '在', '二十一', '世紀(jì)末', '的', '日本', '。']
2)全模式:把句子中所有可以成詞的詞語都掃描出來,詞語間可能有重疊。代碼中通過cut_all=True
指定。
seglist2 = jieba.lcut("故事發(fā)生在二十一世紀(jì)末的日本。", cut_all=True)
seglist2
['故事', '事發(fā)', '發(fā)生', '生在', '二十', '二十一', '十一', '一世', '世紀(jì)', '世紀(jì)末', '的', '日本', '。']
3) 搜索模式: 在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。
seglist = jieba.lcut_for_search("故事發(fā)生在二十一世紀(jì)末的日本。")
seglist
['故事', '發(fā)生', '在', '二十', '十一', '二十一', '世紀(jì)', '世紀(jì)末', '的', '日本', '。']
3. 關(guān)鍵詞提取
jieba 提供了兩種關(guān)鍵詞提取方法,分別基于 TF-IDF 算法和 TextRank 算法。
3.1 TF-IDF 算法
TF-IDF(Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率)是一種統(tǒng)計(jì)方法,用以評估一個(gè)詞語對于整個(gè)語料文檔的重要程度,其原理可概括為:
一個(gè)詞語在一篇文章中出現(xiàn)次數(shù)越多,同時(shí)在所有文檔中出現(xiàn)次數(shù)越少,越能夠代表該文章
通過 jieba.analyse.extract_tags 方法可以基于 TF-IDF 算法進(jìn)行關(guān)鍵詞提取,該方法共有 4 個(gè)參數(shù):
- sentence:為待提取的文本
- topK:為返回幾個(gè) TF/IDF 權(quán)重最大的關(guān)鍵詞,默認(rèn)值為 20
- withWeight:是否一并返回關(guān)鍵詞權(quán)重值,默認(rèn)值為 False
- allowPOS:僅包括指定詞性的詞,默認(rèn)值為空
代碼調(diào)用示例如下:
import jieba.analyse as anlss = """孔子世家譜\n《孔子世家譜》:隨著新版《孔子世家譜》補(bǔ)遺卷在2008年12月31日停止收集孔子后裔資料,歷時(shí)10年的《孔子世家譜》第五次大修后裔資料收集工作全面完成。編修補(bǔ)遺卷是《孔子世家譜》第五次大修的最后一步,因?yàn)椴簧俸笠嶙迦说玫叫拮V消息較晚或身份考證過程較長,未能及時(shí)錄入總譜,為避免這部分孔子后裔資料失傳,孔子世家譜續(xù)修工作協(xié)會決定編修一部補(bǔ)遺卷。從2008年10月決定編修補(bǔ)遺卷到目前,最終有1.1萬多人填報(bào)了后裔資料登記表。\n編修 民國十七年,孔族中人倡修合族大譜,幾經(jīng)籌備,于民國十九年在孔廟開館,正式進(jìn)行。全譜成于民國二十六年十一月,由孔德成任總裁,參加工作人員60余人,歷時(shí)7年而成。開始時(shí)在孔廟舉行儀式,陳奉告文牲醴,恭行祭告,并由族長宣讀誓詞。譜成,再次舉行了告祭儀式。 根據(jù)這部家譜,凡屬孔裔不論散居何地,只要能查考的,一律載明屬于何戶何支,編排得有條不紊,清晰明確。所以凡今存60歲以上的孔裔,都能在譜中查到自己的名字,并可依序上溯到每一位祖先,直至孔子。 內(nèi)容 序言 孔子后人取名,正式訂出行輩是在明朝:明初朱元璋賜孔氏八個(gè)輩字:公、彥、承、弘、聞、貞、尚、胤,供起名用。后因洪武元年(1368年)孔子的第55代孫孔希學(xué)及洪武十七年(1384年)孔子的第56代孫孔訥先后襲封衍圣公。這樣就把“?!焙汀把浴迸约由先槭畟€(gè)字,即:希、言、公、彥、承,弘、聞、貞、尚、胤(后清代為避帝諱,將弘改為宏,胤改為衍)。明天啟(1621年—1627年)年間,這十個(gè)字已不夠用,由第64代衍圣公孔胤植(孔衍植)奏準(zhǔn)。后續(xù)二十個(gè)字即:“興毓傳繼廣,昭憲慶繁祥,令德維垂佑,欽紹念顯揚(yáng) ”,民國八年(1919年)由七十五代衍圣公孔令貽又立二十個(gè)字咨請當(dāng)時(shí)的北洋政府核準(zhǔn)公布。亦即第八十六代至一百零五代。即“建道敦安定,懋修肈彝常,裕文煥景瑞,永錫世緒昌”。到現(xiàn)在為止已知最小輩是“欽”字輩。因此,不少孔孟后人從名字上就能看出來輩分大小。這并非是孔孟傳人一直必須使用的,而是在清乾隆九年(1744年),由禮部調(diào)查整理,報(bào)皇帝欽定其作為孔孟后裔行輩的順序的。在此之前,孔子家譜非常繁蕪,而這個(gè)政府下達(dá)的規(guī)定使得起名比先前更加規(guī)范,又由于是經(jīng)皇帝提倡,使得中國其他大家族譜系的也開始效仿這種規(guī)范的方法。 全譜共分四集,108卷,總計(jì)154冊,其主要內(nèi)容如下: 首卷 另列有序、又序、舊序、職名、卷次、目錄、事宜、凡例,60戶及各支派捐輸總數(shù),頒譜部數(shù),姓源,宗派總論,圣祖至四十二代圖,中興祖至今二十派圖,二十派至分60戶圖,嫡裔考,嫡宗圖又南宗圖,偽孔辨,內(nèi)院至孔圖與外院偽孔圖等。 初集 以始祖孔子為卷一,中興祖孔仁玉為卷二,卷三至卷六十二為自大宗戶次第分為60戶,每戶一卷,共62卷。 二集 為中興祖后支派,包括南宗在內(nèi)共三十四支派,分布全國各省縣,以始遷地為支派名,共34卷。 三集 為中興祖前支派,共十派、10卷。 四集 為上代失敘各支,分布范圍更廣,多達(dá)77處,共2卷。 除總譜外,還有各戶支譜,不再評敘。 入譜標(biāo)準(zhǔn) 雖然凡屬孔裔均可入譜,但也有不準(zhǔn)入譜的限制,主要是必須按照規(guī)定行輩因字取名,如有亂用不遵者,必須改正,否則不準(zhǔn)入譜。 此外,還有以下若干不準(zhǔn)入譜的條件,如:養(yǎng)異姓為子者、贅婿冒姓者、子隨母嫁者、流入僧道者、下賤者、不孝不悌干犯名義者等。 世系 50世祖燧人氏(配華胥氏) 49世祖伏羲(配女媧) 48世祖少典 47世祖黃帝(姬軒轅) 46世祖少昊(又名玄囂) 45世祖蟜極 44世祖帝嚳(姬夋/姬夒/姬夔) 43世祖契(一作卨,商部族首任首領(lǐng)) 42世祖昭明(商部族首領(lǐng)) 41世祖相土(商部族首領(lǐng)) 40世祖昌若(商部族首領(lǐng)) 39世祖曹圉(商部族首領(lǐng)) 38世祖冥(商部族首領(lǐng)) 37世祖王亥(又名振,王恒之兄,商部族首領(lǐng)) 36世祖上甲微(簡稱微,商部族首領(lǐng)) 35世祖報(bào)乙(商部族首領(lǐng)) 34世祖報(bào)丙(商部族首領(lǐng)) 33世祖報(bào)丁(商部族首領(lǐng)) 32世祖主壬(一作示壬,商部族首領(lǐng)) 31世祖主癸(一作示癸,商部族首領(lǐng)) 30世祖商王成湯(子天乙,又名子履,商朝開國君主,原為商部族首領(lǐng)) 29世祖商太子太丁(子丁,又名子以跌) 28世祖商王太甲(子至) 27世祖商王太庚(子辯) 26世祖商王太戊(子伷) 25世祖商王仲丁(子莊) 24世祖商王祖乙(子滕) 23世祖商王祖辛(子旦) 22世祖商王祖丁(子新) 21世祖商王小乙(子斂) 20世祖商王武丁(子昭) 19世祖商王祖甲(子載) 18世祖商王康丁(子囂) 17世祖商王武乙(子瞿) 16世祖商王文丁(子托) 15世祖商王帝乙(子羨) 14世祖微仲(又稱宋微仲,本名子衍,商王帝乙之子,周朝時(shí)期宋國開國君主微子啟之弟,宋國第二任君主) 13世祖宋公稽(子稽) 12世祖宋丁公(子申) 11世祖宋前湣公(子共) 10世祖弗父何(子何) 9世祖宋父周(子周) 8世祖世子勝(子勝) 7世祖正考父(子正) 6世祖孔父嘉(子嘉) 5世祖木金父(子木) 4世祖(高祖)祁父(子祁) 3世祖(曾祖)防叔(子防,孔姓族人稱他為“孔防叔”,畏華氏之逼而奔魯國,故孔氏為魯人也) 2世祖(祖父)伯夏(子夏) 1世祖(父親)叔梁紇(子紇,孔姓族人稱之為“孔紇”) 孔子(前551年—前479年):漢族,名丘,字仲尼,春秋末期魯國陬邑昌平鄉(xiāng)(今山東省曲阜市南辛鎮(zhèn))人,中國古代偉大的思想家、教育家,儒家學(xué)派創(chuàng)始人,尊稱“至圣”、“文圣”;編撰了中國第一部編年體史書《春秋》;卒年73歲,葬于曲阜城北泗水之上(即今日孔林所在地);孔子的言行、思想主要載于語錄體散文集《論語》及《史記·孔子世家》;他首改“子姓”為“孔姓”,是真正的孔姓始祖 1世孫(兒子)孔鯉 2世孫(孫子)孔伋 3世孫(曾孫)孔白 4世孫(玄孫)孔求 5世孫孔箕 6世孫孔穿 7世孫孔謙(又名孔慎、孔順) 8世孫孔騰(漢高祖劉邦封孔騰為奉祀君,孔子后代始有封號)、孔鮒、孔樹 9世孫孔忠(孔騰子) 10世孫孔武(孔忠長子)、孔安國(孔忠次子) 11世孫孔延年(孔武子) 12世孫孔霸(孔延年子,被漢元帝封為褒成侯,孔子后裔再獲封號) 13世孫孔福(孔霸長子,被漢成帝封為殷紹嘉侯)、孔捷(孔霸子)、孔喜(孔霸子)、孔光(孔霸子) 14世孫孔房(孔福子,褒成侯)、孔永(孔捷子)、孔放(孔光子) 15世孫孔均(原名孔莽,孔房子,褒成侯) 16世孫孔志,褒成侯 17世孫孔損,褒亭侯 18世孫孔曜,奉圣亭侯 19世孫孔完(孔曜長子,褒成侯,無子)、孔贊(孔曜次子) 20世孫孔羨(孔贊子),宗圣侯 21世孫孔震,奉圣亭侯 22世孫孔嶷,奉圣亭侯 23世孫孔撫,奉圣亭侯 24世孫孔懿,奉圣亭侯 25世孫孔鮮,奉圣亭侯 26世孫孔乘,崇圣大夫 27世孫孔靈珍,崇圣侯 28世孫孔文泰,崇圣侯 29世孫孔渠,崇圣侯 30世孫孔長孫,恭圣侯 31世孫孔嗣悊(孔長孫次子、孔英悊之弟,紹圣侯) 32世孫孔德倫,褒圣侯 33世孫孔崇基,褒圣侯 34世孫孔璲之,初封褒圣侯,后改封文宣公(為歷史上的首任文宣公)兼兗州長史 35世孫孔萱,文宣公 36世孫孔齊卿,文宣公 37世孫孔惟晊,文宣公 38世孫孔策,文宣公 39世孫孔振,文宣公 40世孫孔昭儉,文宣公 41世孫孔光嗣,泗水主簿 42世孫孔仁玉(中興祖),文宣公兼曲阜縣令 43世孫孔宜,文宣公兼曲阜主簿、贊善大夫 44世孫孔延世(孔宜長子,孔延澤之兄,文宣公兼曲阜縣令)、孔延澤(孔宜次子) 45世孫孔圣祐(孔延世子,文宣公兼知曲阜縣事,無子) 【注】以下文字中姓名加黑者為受封衍圣公等世襲職位者 45世孫衍圣公孔宗愿(孔延澤子、孔圣祐從弟,宋仁宗寶元二年(1039年),孔圣祐三十五歲卒,無子,孔宗愿襲爵文宣公,授國子監(jiān)主簿,知仙源縣事(宋代曲阜縣曾改為仙源縣,今屬山東省)。仁宗至和二年(1055年)直集賢院,曾上書申明歷代對孔子及其嫡裔封號的混亂狀況,建議革唐代之失誤,法漢代之舊制,改至圣文宣王四十五代孫孔宗愿為衍圣公。獲準(zhǔn),成為歷史上第一位衍圣公。孔子嫡長孫衍圣公之封號,從此相沿至民國二十四年(1935年),持續(xù)880年(公元1055年—1935年)) 46世孫奉圣公孔若蒙(孔宗愿長子,宋神宗熙寧元年(公元1068年)襲封衍圣公,兼曲阜縣主簿。宋哲宗元祐元年(公元1086年)將爵號改為“奉圣公”,專主祀事)、孔若虛(孔宗愿次子,宋哲宗元符元年(公元1098年),廢掉孔若蒙的爵位,由其弟孔若虛(字公實(shí))襲封奉圣公)、孔若愚(孔宗愿第三子) 47世孫衍圣公孔端友(孔若蒙長子,1104年(崇寧三年),被授為朝奉郎、直秘閣、襲封奉圣公,勾管祀事。宋徽宗大觀年間(公元1107年—1110年)復(fù)改封孔端友為衍圣公。1128年(建炎二年)十一月,金兵大舉南下,因宋朝的濟(jì)南知州長劉豫叛宋,形勢急轉(zhuǎn)直下,孔端友在從父孔傳的支持下,除留胞弟孔端操留守闕里林廟外,遂恭負(fù)傳家寶“孔子及亓官夫人楷木像”、“唐吳道子繪孔子佩劍圖”和“至圣文宣王廟祀朱印”等,率近支族人端木、瓚等南渡,成為南宗的開創(chuàng)者)、孔端操(孔若蒙次子)、孔端立(孔若愚子) 48世孫衍圣公孔璠(孔端操次子,1128年(宋朝建炎二年)十一月,金兵大舉南下,宋朝的濟(jì)南知州長劉豫叛宋,金國天會八年(1130年)七月二十七日金太宗下詔,立扶持宋朝降臣、原濟(jì)南知府劉豫為皇帝,建立“偽齊”政權(quán),管轄黃河故道以南的今山東、河南、陜西等地區(qū)。九月九日正式成立劉豫偽齊政權(quán)。十一月,廢用天會年號,改用阜昌年號,并以天會八年(即1130年)十一月十三日后為阜昌元年。偽齊阜昌三年(1132年),補(bǔ)迪功郎,襲封衍圣公,主管祀事,成為北宗衍圣公的繼承人。金國天會十五年(1137年),金熙宗廢偽齊。金國天眷三年(1140年),金熙宗詔求孔子后,加孔璠承奉郎,襲封衍圣公,主奉祀事)、孔玠(孔端操長子,南宗。1132年(紹興二年)夏隨宋室南渡浙江衢州的衍圣公孔端友逝世,孔端友無子,同年,以孔端友胞弟孔端操長子孔玠襲封為衍圣公)、孔琥(孔端立子) 49世孫衍圣公孔拯(孔璠長子)、孔摠(又名孔詌,孔璠次子)、孔搢(孔玠子,南宗)、孔拂(孔琥子) 50世孫衍圣公孔元措(孔摠長子)、孔元用(孔拂次子)、孔文遠(yuǎn)(孔搢子,南宗)、孔元紘(一作孔元綋,孔摠次子)、孔元孝(孔拂長子) 51世孫衍圣公孔之全(孔元用子)、孔萬春(孔文遠(yuǎn)子,南宗)、孔之厚(孔元孝子)、孔之固(孔元紘子) 52世孫衍圣公孔湞(孔之固子,元憲宗元年(1251年)襲封衍圣公,后(1252年)被人告稱乃驅(qū)口賤民李姓所生,因而被奪爵,此后衍圣公之爵中斷達(dá)43年之久,直到元貞元年(1295年)孔治被元成宗封衍圣公為止)、孔治(孔之全子??诇澅粡U爵后,曲阜沒有衍圣公,孔治代管祭祀事三十余年。元貞元年(1295年),元成宗詔令孔治為中議大夫,襲封衍圣公)、孔洙(孔萬春子,南宗。1241年(宋淳祐元年),授承奉郎、襲封衍圣公。1276年(宋德祐二年,元至元十三年),宋恭帝降元。1282年(至元十九年)秋,元世祖詔命衢州第六代衍圣公(孔子53世嫡長孫)孔洙赴京,令他載爵去曲阜奉祀??卒ㄒ韵茸鎻]墓在衢州,且衢州已建家廟,不忍舉家北上為由,愿意讓爵給曲阜族弟孔治。元世祖同意了孔洙的請求,稱贊他“寧違榮而不違道,真圣人后也”,便改封他為國子監(jiān)祭酒,提舉浙東道學(xué)校事。從此,南宗不再有衍圣公的封爵,此封爵僅北宗所有,孔洙為南宗末代衍圣公)、孔浣(孔之厚子) 53世孫衍圣公孔思誠(孔治子)、孔思晦(孔浣子)、孔思許(孔津子,孔之言孫,孔仁玉的第11世孫,南宗) 54世孫衍圣公孔克堅(jiān)(孔思晦子)、孔克忠(孔思俊子,孔洙孫,南宗) 55世孫衍圣公孔希學(xué)(孔克堅(jiān)子)、孔希路(孔克忠子,南宗) 56世孫衍圣公孔訥(孔希學(xué)子)、孔議(孔希路子,南宗) 57世孫衍圣公孔公鑒(孔訥子)、孔公誠(孔議子,南宗) 58世孫衍圣公孔彥縉(孔公鑒子)、孔彥繩(孔公誠子,南宗。1505年(弘治十八年),衢州知府沈杰向明孝宗朱祐樘上疏,稱:“衢州圣廟,自孔洙讓爵之后,衣冠禮儀,猥同氓庶。今訪得洙六世孫孔彥繩(孔子第58世嫡長孫),請授于官,俾主祭事?!鄙蚪苓€奏請孝宗下詔減輕孔家祭田稅賦,孝宗準(zhǔn)奏。次年,即1506年(正德元年)接位的武宗朱厚照秉承先皇旨意,封孔彥繩為世襲翰林院五經(jīng)博士,欽定子孫世襲。這樣,衢州孔子后裔在失去爵位224年之后,又得到了封號。從此,“世襲翰林院五經(jīng)博士”的爵位,由孔彥繩的子孫世襲下去) 59世孫衍圣公孔承慶(孔彥縉子)、孔承美(孔彥繩子,南宗,世襲翰林院五經(jīng)博士) 60世孫衍圣公孔宏緒(原名孔弘緒,孔承慶長子)、孔宏泰(原名孔弘泰,孔承慶次子)、孔宏章(原名孔弘章,孔承美子,南宗,世襲翰林院五經(jīng)博士) 61世孫衍圣公孔聞韶(孔宏緒子)、孔聞音(孔宏章子,南宗,世襲翰林院五經(jīng)博士) 62世孫衍圣公孔貞干(孔聞韶長子)、孔貞寧(孔聞韶次子、孔尚坦之父)、孔貞運(yùn)(孔聞音子,南宗,世襲翰林院五經(jīng)博士) 63世孫衍圣公孔尚賢(孔貞干子,生有二子:孔胤椿、孔胤桂,皆無子而早夭)、孔尚乾(孔貞運(yùn)子,南宗,世襲翰林院五經(jīng)博士) 64世孫衍圣公孔衍植(原名孔胤植,孔尚坦子)、孔衍楨(原名孔胤楨,孔尚乾子,南宗,世襲翰林院五經(jīng)博士) 65世孫衍圣公孔興燮(孔衍植子)、孔興燫(孔衍楨子,南宗,世襲翰林院五經(jīng)博士) 66世孫衍圣公孔毓圻(孔興燮子)、孔毓垣(孔興燫子,南宗,世襲翰林院五經(jīng)博士) 67世孫衍圣公孔傳鐸(孔毓圻子)、孔傳錦(孔毓垣子,南宗,世襲翰林院五經(jīng)博士) 68世孫衍圣公孔繼濩(孔傳鐸子)、孔繼濤(孔傳錦子,南宗,世襲翰林院五經(jīng)博士) 69世孫衍圣公孔廣棨(孔繼濩子)、孔廣杓(孔繼濤子,南宗,世襲翰林院五經(jīng)博士) 70世孫衍圣公孔昭煥(孔廣棨子)、孔昭烜(孔廣杓子,南宗,世襲翰林院五經(jīng)博士) 71世孫衍圣公孔憲培(孔昭煥長子,孔憲增之兄,無子)、孔憲坤(孔昭烜子,南宗,世襲翰林院五經(jīng)博士) 72世孫衍圣公孔慶镕(孔憲增子,過繼給孔憲培,1794年襲爵)、孔慶儀(孔憲型子,孔傳錦的第5世孫,南宗。同治三年(1864年)承襲世襲翰林院五經(jīng)博士,民國二年(1913年),中華民國北洋政府頒布《崇圣典例》,改南宗五經(jīng)博士孔慶儀為大成至圣先師南宗奉祀官,世襲) 73世孫衍圣公孔繁灝(孔慶镕子)、孔繁豪(孔慶儀子,孔繁英之兄,無子,南宗。1923年冬,孔慶儀去世,其子孔繁豪襲任大成至圣先師南宗奉祀官。中華民國國民政府北伐后,孔繁豪仍任大成至圣先師南宗奉祀官,享簡任官的職位及待遇,約比照司長級,視特任官官階為低,與孟子“亞圣”、顏?zhàn)印皬?fù)圣”、曾子“宗圣”、子思“述圣”奉祀官同等級) 74世孫衍圣公孔祥珂(孔繁灝子)、孔祥楷(孔繁英子,過繼給孔繁豪,南宗。1944年10月,孔繁豪去世,無子,民國三十六年(1947年)乃以其二弟孔繁英長子孔祥楷受封大成至圣先師南宗奉祀官。民國三十八年(1949年)5月6日,國民政府失去對衢州的統(tǒng)治,孔祥楷未隨國民政府遷臺,南宗奉祀官世職遂廢??紫榭壳敖≡?#xff0c;現(xiàn)為中國大陸浙江省政協(xié)委員、衢州孔氏南宗家廟管理委員會主任) 75世孫衍圣公孔令貽(孔祥珂子,清光緒三年(1877年)承襲衍圣公,民國二年(1913年),中華民國北洋政府頒布《崇圣典例》,保留衍圣公爵位,仍由北宗的前清衍圣公孔令貽襲爵,1919年11月8日病逝于北京太仆寺街衍圣公府) 76世孫衍圣公孔德成(孔令貽子,母王氏夫人,1920年2月23日出生,出生百日后,奉中華民國北洋政府徐世昌大總統(tǒng)令,承襲衍圣公爵位;中華民國國民政府北伐后,孔德成有感于世襲衍圣公爵位不宜存于民國,遂于1935年主動請求政府撤銷爵號,中華民國國民政府以為道統(tǒng)不可廢,乃改衍圣公作大成至圣先師奉祀官,享特任官的職位及待遇,相當(dāng)于部長,故而孔德成為歷史上的末代衍圣公,首任大成至圣先師奉祀官;1936年,娶前清名宦孫家鼐的孫女孫琪芳為妻;1949年國民政府退守臺灣,孔德成隨遷往臺灣,復(fù)建臺北孔廟,歷任大成至圣先師奉祀官、考試院院長、總統(tǒng)府資政,兼任臺灣大學(xué)中文系教授,開設(shè)商周青銅彝器、三禮、金文的綜合研究等課程;2008年10月28日上午10點(diǎn)50分在臺灣佛教慈濟(jì)綜合醫(yī)院臺北分院因心肺功能衰竭,安詳辭世,享年八十九歲,安葬在臺灣的新北市三峽區(qū)龍泉公墓) 77世孫孔維益(孔德成子,早卒,未襲封) 78世孫大成至圣先師奉祀官孔垂長(孔維益子,2009年9月25日正式襲封大成至圣先師奉祀官,享特任官待遇) 79世孫孔佑仁(孔垂長子,2006年元旦生于臺灣) 79世之后的輩分字:欽,紹,念,顯,揚(yáng),建,道,敦,安,定,懋,修,肈,彝,常,裕,文,煥,景,瑞,永,錫,世,緒,昌 版本 1937版 前言 孔氏之有譜自宋元豐始也。其后六十年一大修著為例,比清乾隆甲子重修,距今百數(shù)十年矣。支派之繁衍,人事之遞(shi)嬗(shan),年湮(yin)世遠(yuǎn),散漫無稽,斯可憾已。 歲戊辰廼承先母陶太夫人命集族耆彥公議重修,體例率舊而所錄加擴(kuò)焉。蓋舊譜以博采難周,僅志魯籍六十戶,時(shí)為之也。今則交通便而聲氣易達(dá),爰舉流寓外省者并錄之,因而兼以創(chuàng)矣。惟創(chuàng)也,而征集考徼以至編纂其繁跡有倍蓰(xǐ)于前者。故七歷寒暑而始告成,嗚呼難已。事既蕆(chǎn)將以付梓,余忝屬主鬯(chǎng,祭祀用的一種酒器。又同‘暢’),乃薰沐告廟,更為族人申以言曰:譜所以昭宗法也??资现冗h(yuǎn)出殷商,至我祖圣祖孔子而道集大成,單傳七世厥后漸繁,五季逆末構(gòu)變,孔祚幾盡。魯之宗親僅四十二代祖溫如公以藐孤存焉,是為孔氏中興祖。后五傳而至端友公,以從宋南渡家于衢,是謂南宗,元至元間洙公北遜。由元迄今幾六百年,承襲罔替,是謂北宗,有六十戶。南宗則衢州一支之外,凡宋時(shí)南渡、與晉唐代南徙者,沿有十余支。然派分南北流出一源。故合散為聚匯一譜,詳本支序昭穆,粲乎秩然,莫之或紊。俾(bì)覽斯譜者,咸曉然于積之厚者,流自光則尊祖敬宗之心庶乎油然而生矣。雖然猶未盡也,有世統(tǒng)焉,有道統(tǒng)焉。世統(tǒng)吾所私也,道統(tǒng)吾雖不得而私然,亦不得而諉也。 自我圣祖作師垂教,三世祖闡而述之道之行,如日月經(jīng)天矣。厥后代有聞人,或以學(xué)顯或以行著,悉附傳于譜,后之人履其庭讀其書其可不懔懔弗荷弗構(gòu)之,戒而思善其繼述乎?矧(shěn)道之隆污,天下興亡系焉。自世運(yùn)陵夷邪說紛起,宗法失而倫常斁(dù),社會風(fēng)俗江河日下,君子憂之則纘緒翼教導(dǎo)民正,謂求其所以為譜者,歸氏學(xué)圣人之道者也。言深且旨而況圣人之后哉!吾族人其宜有以知所勉矣。 中華民國二十六年歲在丁丑春二月,七十六代孫特任大成至圣奉祀官孔德成謹(jǐn)序。 序 披閱譜牒歷三甲子遷延而未續(xù)纂缺典也,全國族人支繁,派別散居而無聯(lián),屬憾事也。惟然則合修大譜之議亟亟矣。民國戊辰秋余與族人憲瀅、繁樸倡修合族大譜。請于宗子,宗子韙之。于是敦請族彥,推定臨時(shí)職員相于從事籌備焉。其于各地族人披露以報(bào)章,號召以廣告,不數(shù)月而聲氣通矣?;I備二載端倪粗具,乃告廟開館,時(shí)庚午年十月十日也,閱七年譜事蕆。從此缺典補(bǔ)遺憾釋矣! 嗟乎,我孔氏自圣祖至今繁衍生息于神州大陸已二千四百八十八年矣。其間歷蒙帝王名臣大儒優(yōu)遇,爭稱為神明世胄者,皆由我圣祖集群圣之大成而為儒道宗師也。即其間經(jīng)暴秦焚坑之摧殘,五季廝養(yǎng)之戕害,終能瀕危得安將絕復(fù)續(xù)者,抑以大圣之澤百世不遷者也??嘉壹页怂我郧办缶邇詫?#xff0c;自四十六代宗翰祖始創(chuàng)為刊印。至明弘治二年首次重修,并定為六十年一大修,三十年一小修;大修以甲子為期,小修以甲午為期。清順治十年未及甲子又重修,迨后康熙、乾隆兩甲子均重修勿替,可謂極重視譜牒矣。惟四次重修皆于六十戶編纂加詳,而流寓各支弗與焉。推其故,蓋因當(dāng)時(shí)交通未便,調(diào)查維難,又鑒于逆末之變,兢兢于杜奸冒防偽人,寧從其缺毋任其濫也。此次合修雖曰紹述究同創(chuàng)舉,而風(fēng)聲所樹全國景從者則以交通便利,既異疇昔民族團(tuán)結(jié)復(fù)應(yīng)時(shí)勢之需要而咸具同情,故用力省成功易,殆運(yùn)會使然。與從此合遠(yuǎn)為近,萬派歸納于一本,大宗領(lǐng)小宗昭穆不紊。吾族人各本敬宗睦族之化,除畛域聯(lián)為一體,謂非極美極盛之事乎?國之人有讀是譜者,察其體制辨其倫次,則宗法可資而考鏡矣,而洙泗流澤之綿延,人文之孳息亦得其大凡,足補(bǔ)國史所未及或亦關(guān)心采擇者之所樂聞也。然則此譜之成又豈獨(dú)孔氏一族之幸哉!是役歷十年之久余始終佐其事,既竣而謹(jǐn)為之序。 民國丁丑年仲春之吉,六十七代孫、家庭族長孔傳堉謹(jǐn)撰。 2009版 目錄 K0 總譜 K1 卷首 K2 大宗戶 K3 臨沂戶 孟村戶 K4 道溝戶 K5 滕陽戶 K6 舊縣戶 K7 鐘吉戶 K8 菜莊戶 戴莊戶 栗園戶 K9 時(shí)莊戶 泗莊戶 K10 店北戶 西郭戶 K11 仙源戶 泉南戶 齊王戶 盛果戶 K12 苗孔戶 文獻(xiàn)戶 沂北戶 K13 石村戶 魯賢戶 沂陽戶 孔村戶 王堂戶 小莊戶 宮端戶 黌門戶 K14 華店戶 K15 古城戶 崗山戶 K16 魯城戶 K17 孔屯戶 西城戶 舊城戶 K18 呂官戶 K19 林前戶 防西戶 林門戶 K20 管莊戶 大薛戶 K21 廣文戶 K22 小薛戶 陶樂戶 北公戶 K23 紙坊戶 董莊戶 防上戶 高莊戶 南宮戶 K24 星村戶 古柳戶 吳孫戶 東村戶 磨莊戶 K25 張曲戶 息陬戶 K26 西林戶 林西戶 K27 南宗派 K28 江西新建支 四川閬中支 浙江溫嶺支 浙江錢塘支 K29 清平孔莊支 廣東南海大瀝支 河南太康支 K30 江蘇吳縣與范縣支 河南新鄉(xiāng)花園村支 河南新鄉(xiāng)八里營支 廣東番禹支 定陶支 K31 廣西灌陽支 成武孔樓支 江蘇豐縣支 成武孔莊支 平陰孔家集支 壽光支 K32 牟平派 K33 浙江慈溪派 福建閩縣支 安徽徽州支 安徽舒城支 K34 浙江衢州派 K35 壽光濰縣支 肥城孔莊支 寇縣支 河北棗強(qiáng)與恩縣支 K36 鄆城支 四川大邑支 四川邛崍支 河北晉縣支 河南考城支 K37 江蘇武進(jìn)支 長清支 河南??h支 德平南孔家莊支 德平西孔家莊支 K38 江蘇鎮(zhèn)江支 河南武安支 湖北新洲支 桓臺孔家莊支 河南光山支 K39 山西陽城濟(jì)源支 浙江寧海支 安徽桐城支 K40 浙江婺州支 夏津支 浙江諸暨支 河北南宮冀縣支 K41 浙江平陽派 K42 河南郟縣派 K43 河南寧陵派 K44 河北獻(xiàn)縣派 K45 江蘇丹陽派 K46 嶺南派 K47 廣東南雄派 河南洛陽派 K48 江西臨江派 K49 湖南平江瀏陽派 K50 河南魯山派 K51 河南河洛派 K52待考 山東支 河北北京天津支 山西支 遼寧支 內(nèi)蒙古支 吉林支 黑龍江支 江蘇上海支 浙江支 福建支 江西支 河南支 湖北支 湖南支 廣東支 廣西支 四川重慶支 貴州支 云南支 K53待考 安徽支 陜西支 甘肅支 青海支 寧夏支 新疆支 臺港澳支 K54 韓國高麗支 特點(diǎn) 一是女性族人、少數(shù)民族、外籍孔子后裔首次錄入世家譜,不僅有因通婚或生活所迫變更為回族、苗族、水族、哈尼族、景頗族、土族、東鄉(xiāng)族、藏族等少數(shù)民族的后裔, 還有旅居韓國、美國、新加坡等國家地區(qū)的外籍后裔近四萬人; 二是信息量增加,以往只收入姓名,這次增加了性別、配偶、學(xué)歷等個(gè)人信息; 三是實(shí)現(xiàn)數(shù)字化,建立數(shù)據(jù)庫,并被賦予分類統(tǒng)計(jì)功能,對研究儒家學(xué)說及人口學(xué)、社會學(xué)、教育學(xué)等方面都將具有重要的史料價(jià)值。 另外,在續(xù)修家譜過程中,尋得了失去聯(lián)系的分布在臺灣屏東、龍?zhí)丁⑻覉@等地二百多年的九百多名孔子后裔,以及失散在山西昔陽和河南洛寧超過千年的兩支族人,此次全部被錄入新譜。 編修進(jìn)展 據(jù)臺灣“中央社”報(bào)道,世界孔子后裔聯(lián)誼會總會長孔德墉說,在臺灣的孔子后裔約有4000人,而在第5次“孔子世家譜”續(xù)修過程中,粗估約有900名臺灣人錄入世家譜。報(bào)道說,新版“孔子世家譜”補(bǔ)遺卷在2008年12月31日停止收集孔子后裔資料,歷時(shí)10年的孔子世家譜第5次大修后裔資料收集工作全面完成。 “中央社”引述當(dāng)時(shí)媒體報(bào)道說,來自臺灣的900多名孔子后裔在第5次“孔子世家譜”續(xù)修過程中,首次被錄入世家譜,這些后裔主要來自臺灣的屏東、龍?zhí)?、桃園等地,分屬20多個(gè)支派。 [1] 成就 世界最長家譜,涵蓋孔子家族整個(gè)傳承史的《孔子世家譜》以其延時(shí)之長、族系之明,纂輯之廣、核查之實(shí),體例之備、保存之全,2005年被吉尼斯世界紀(jì)錄列為“世界最長家譜”。 孔氏全族之正式有譜,始于宋朝元豐甲子年間(公元1089年),迄今已歷九百余年。在此以前也有族譜,不過只收長支,不及旁系。自康熙甲子年(公元1684年)后規(guī)定:每逢甲子大修一次,每逢甲午小修一次。所謂小修,即將三十年內(nèi)孔裔的生死變遷分別填造成冊作為大修的底冊,亦即為大修做準(zhǔn)備。清代康熙、乾隆的甲子年(即公元1684年、1744年)都曾大修。自此以后,孔氏族譜命名為《孔子世家譜》。它最后一次大修是民國十七年(公元1928年),在曲阜孔府組成了以七十六代衍圣公孔德成任總裁的修譜籌備處,著手全國孔氏家族的合修家譜工作,歷時(shí)七年,完成了現(xiàn)存的從孔子至七十六代近兩千五百年的108卷家譜檔案。家族譜是古代譜牒的一種,它記述了家族始祖源起,受姓情況,對于研究家族,特別是人物、禮俗等均有重要意義。如《孔子世家譜》中的孔子年譜、孔子姓源考等對于研究孔子的學(xué)術(shù)思想和生平事跡就具有重要的學(xué)術(shù)價(jià)值。"""
for x, w in anls.extract_tags(s, topK=20, withWeight=True):print('%s %s' % (x, w))
提取的關(guān)鍵詞如下:
Building prefix dict from the default dictionary ...Loading model from cache /var/folders/cp/7qks5zmd671fgcm7y5_8ym700000gn/T/jieba.cacheLoading model cost 0.851 seconds.Prefix dict has been built successfully.世孫 0.255753474149837世祖 0.15846281312724453南宗 0.1318381328213793孔子 0.11387221533041378衍圣公孔 0.08994182447322883衍圣公 0.06370879233520375世襲 0.05272404459032916五經(jīng) 0.04932817391790282奉祀 0.04864575042554859圣公 0.04497091223661442世家 0.04424399585600627后裔 0.0428113896246395翰林院 0.04166001892097806文宣公 0.04122333621689655長子 0.03982280783623825博士 0.03913676740719122部族 0.03529731127425079衢州 0.03512795029413793商王 0.0350448552886206910 0.03372818417746081
3.2 TextRank
TextRank 是另一種關(guān)鍵詞提取算法,通過 jieba.analyse.textrank 方法來調(diào)用,參數(shù)和前面的jieba.analyse.extract_tags
一樣。
for x, w in anls.textrank(s, withWeight=True):print('%s %s' % (x, w))
世孫 1.0
世祖 0.6719509576291326
后裔 0.5319892265474224
河南 0.4775548828767209
奉祀 0.40576361913234127
博士 0.37608524857056325
公孔 0.34816060085851963
大成 0.3233759671893447
浙江 0.31787213051647356
臺灣 0.3178186393530006
世襲 0.31384707525444683
族人 0.29686308926538085
首領(lǐng) 0.2876554622635292
衢州 0.27408399749839835
部族 0.264654649590796
五經(jīng) 0.26101372653755744
曲阜 0.22279350390849875
莊戶 0.22248153712213276
河北 0.20637976286954174
四川 0.20503363953745188
4. 詞性標(biāo)注
使用jieba.posseg可以標(biāo)注句子分詞后每個(gè)詞的詞性,例如:動詞v。
import jieba.posseg as psegwords = pseg.cut("富蘭克林·羅斯福是怎么患?xì)埣驳?#xff1f;")
for word, flag in words:print("{0} {1}".format(word, flag))
富蘭克林 nz
· x
羅斯福 nr
是 v
怎么 r
患 zg
殘疾 n
的 uj
? x
詞性標(biāo)注對應(yīng)下表:
標(biāo)簽 | 含義 | 標(biāo)簽 | 含義 | 標(biāo)簽 | 含義 | 標(biāo)簽 | 含義 |
---|---|---|---|---|---|---|---|
n | 普通名詞 | f | 方位名詞 | s | 處所名詞 | t | 時(shí)間 |
nr | 人名 | ns | 地名 | nt | 機(jī)構(gòu)名 | nw | 作品名 |
nz | 其他專名 | v | 普通動詞 | vd | 動副詞 | vn | 名動詞 |
a | 形容詞 | ad | 副形詞 | an | 名形詞 | d | 副詞 |
m | 數(shù)量詞 | q | 量詞 | r | 代詞 | p | 介詞 |
c | 連詞 | u | 助詞 | xc | 其他虛詞 | w | 標(biāo)點(diǎn)符號 |
PER | 人名 | LOC | 地名 | ORG | 機(jī)構(gòu)名 | TIME | 時(shí)間 |
5. 詞語起始位置
使用 jieba.tokenize 方法可以返回詞語在原文的起止位置。
result = jieba.tokenize(u'富蘭克林·羅斯福是怎么患?xì)埣驳?#xff1f;')
for tk in result:print("word: {0} \t\t start: {1} \t\t end: {2}".format(tk[0],tk[1],tk[2]))
word: 富蘭克林 start: 0 end: 4
word: · start: 4 end: 5
word: 羅斯福 start: 5 end: 8
word: 是 start: 8 end: 9
word: 怎么 start: 9 end: 11
word: 患 start: 11 end: 12
word: 殘疾 start: 12 end: 14
word: 的 start: 14 end: 15
word: ? start: 15 end: 16
參考資料
- jieba簡明教程:https://blog.csdn.net/lty_sky/article/details/105567080
- 官方教程:https://github.com/fxsjy/jieba