php 網(wǎng)站 開源支持用戶詞典擴展定義針對全文檢索優(yōu)化的查詢(作者吐血推薦)php開源網(wǎng)站系統(tǒng)
2022-11-01
1、
是一個基于java語言開發(fā)的開源輕量級中文分詞工具包。自 2006 年 12 月發(fā)布 1.0 版以來,已經(jīng)發(fā)布了三個主要版本。最初,它是一個基于開源項目的中文分詞組件,結(jié)合了字典分詞和語法分析算法。新版本 .0 是作為 Java 的通用分詞組件開發(fā)的,它獨立于項目,并提供了對的默認(rèn)優(yōu)化實現(xiàn)。
.0 特點:
它采用獨特的“前向迭代細粒度切分算法”,具有每秒60萬字的高速處理能力。
采用多子處理器分析模式,支持:英文字母(IP地址、URL)、數(shù)字(日期、常用中文量詞、羅馬數(shù)字、科學(xué)記數(shù)法)、中文詞匯(人名、地名處理)等分詞加工。
優(yōu)化的字典存儲,更小的內(nèi)存占用。支持用戶詞典擴展定義
針對全文檢索優(yōu)化的查詢分析器(作者推薦);使用歧義分析算法優(yōu)化查詢關(guān)鍵詞的搜索排列和組合,可以大大提高檢索的命中率。
許可協(xié)議:LGPL
開發(fā)語言:Java
操作系統(tǒng):跨平臺
錄制時間:2008年12月3日(國產(chǎn)軟件)
下載:或
2.盤古分詞
盤古分詞是基于.net的中英文分詞組件,提供(.net版)和接口。
高效:Core Duo 1.8 GHz 單線程分詞速度 390K 字符/秒
準(zhǔn)確:盤古分詞采用字典和統(tǒng)計相結(jié)合的分詞算法,分詞準(zhǔn)確率高。
功能:盤古分詞提供中文姓名識別、簡繁混合分詞、多分詞、英文生根、強制一元分詞、詞頻優(yōu)先分詞、停用詞過濾、英文專有名稱提取等一系列功能。
許可協(xié)議:
開發(fā)語言:C#.NET
操作系統(tǒng):
征集時間:2010年12月29日
下載:或:
3.
中文分詞庫是Java開發(fā)的中文分詞組件,可以集成到互聯(lián)網(wǎng)和企業(yè)內(nèi)網(wǎng)的應(yīng)用程序中。填補了國內(nèi)中文分詞開源組件的空白,并致力于此網(wǎng)站開發(fā),希望成為互聯(lián)網(wǎng)網(wǎng)站中文分詞開源組件的首選。中文分詞追求分詞效率高,用戶體驗好。
的中文分詞具有極高的效率和高擴展性。引入隱喻,完全面向?qū)ο蟮脑O(shè)計,先進的概念。
效率高:在PIII 1G內(nèi)存的個人電腦上,1秒就能準(zhǔn)確切分100萬個漢字。
文章基于無限數(shù)量的詞典文件進行有效分割,實現(xiàn)詞匯的分類和定義。
能夠合理地解析未知詞匯
許可協(xié)議:
開發(fā)語言:Java
操作系統(tǒng):跨平臺
錄制時間:2008年9月7日(國產(chǎn)軟件)
下載:或
4.
中科院最新免費開源代碼,包含中文分詞算法,大家可以一起學(xué)習(xí)研究,對搜索引擎的中文分詞很有用。
許可協(xié)議:未知
開發(fā)語言:C/C++
操作系統(tǒng):
錄制時間:2010年10月20日(國產(chǎn)軟件)
下載:
5.
是專為全文搜索引擎設(shè)計的中文分詞軟件包。其根據(jù) GPL 協(xié)議發(fā)布的中文分詞方法采用 Chih-Hao Tsai 算法。
您可以在 Chih-Hao Tsai 的頁面上找到算法的原文。
采用C++開發(fā),支持平臺和平臺,分割速度約300K/s(PM-1.2G)。目前版本(0.7.1)還沒有對速度進行仔細的優(yōu)化,分割速度應(yīng)該還有進一步提升的空間。.
許可協(xié)議:未知
開發(fā)語言:C/C++
操作系統(tǒng):跨平臺
錄制時間:2009年5月31日(國產(chǎn)軟件)
下載:0.7.3
6.
是一個開源的PHP中文分詞擴展,目前只支持/Unix系統(tǒng),項目現(xiàn)已更名,本項目不再維護。
首先使用“3.0共享中文分詞算法”的API進行初始分詞處理php 網(wǎng)站 開源,然后使用自己編寫的“反向最大匹配算法”進行分詞和分詞處理,并添加標(biāo)點過濾功能得到分詞結(jié)果。
( , ) 是中國科學(xué)院計算技術(shù)研究所在多年研究工作的基礎(chǔ)上,基于多層隱馬模型開發(fā)的中文詞法分析系統(tǒng)。其主要功能包括中文分詞;詞性標(biāo)注;命名實體識別;生詞識別;還支持用戶詞典。經(jīng)過五年的精心建設(shè),內(nèi)核升級了6次php 網(wǎng)站 開源,現(xiàn)在已經(jīng)升級到.0,分詞準(zhǔn)確率為98.45%seo優(yōu)化,各種詞典數(shù)據(jù)壓縮小于3M。該活動在國內(nèi)973專家組組織的評審中獲得第一名,在首個國際華人加工研究組織組織的評審中獲得多項第一名。
許可協(xié)議:BSD
開發(fā)語言:PHP
操作系統(tǒng):跨平臺
錄制時間:2009年3月19日(國產(chǎn)軟件)
下載: