MySQL 全文索引使用指南
全文索引需要特殊的查詢(xún)語(yǔ)法。有沒(méi)有索引都可以進(jìn)行全文檢索,但是存在索引時(shí)會(huì)提高匹配的速度。全文索引的索引通過(guò)特殊的結(jié)構(gòu)存儲(chǔ)以便于找到文檔中包含搜索關(guān)鍵字對(duì)應(yīng)的內(nèi)容。在我們?nèi)粘I钪校畛R?jiàn)的全文檢索就是網(wǎng)絡(luò)搜索引擎。雖然,網(wǎng)絡(luò)搜索引擎的數(shù)據(jù)里十分龐大,并且通常也不會(huì)使用關(guān)系型數(shù)據(jù)庫(kù),但是原理是相似的。
全文索引支持通過(guò)基于字符(CHAR、VARCHAR 和 TEXT 類(lèi)型的列)的檢索,也可以支持自然語(yǔ)言模式(Natural Language Mode, 默認(rèn))和布爾模式 (Boolean Mode)。例如我們搜索“數(shù)據(jù)庫(kù)引擎”的時(shí)候,內(nèi)容中包括“數(shù)據(jù)庫(kù)”、“引擎”和“數(shù)據(jù)庫(kù)引擎”的內(nèi)容都會(huì)檢索出來(lái)。全文索引的實(shí)現(xiàn)有大量的限制,而且十分復(fù)雜。但是由于內(nèi)置在MySQL服務(wù)端,而且對(duì)很多應(yīng)用都能夠滿足要求,因此被廣泛使用。
在MySQL5.6之前的版本中,只有 MyISAM 存儲(chǔ)引擎支持全文索引。創(chuàng)建全文索引需要指定列標(biāo)記為全文索引,如下面的 content 列。
CREATE TABLE t_news (id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,content TEXT,author VARCHAR(32),title VARCHAR(128), FULLTEXT (content)) ENGINE=InnoDB;
MySQL 5.6以前對(duì)中文搜索支持不是太好,需要自己進(jìn)行分詞后將段落預(yù)處理拆分成單詞在入庫(kù)。MySQL5.7.6后才有了內(nèi)置的分詞器 ngram。ngram 支持設(shè)置設(shè)置分詞的長(zhǎng)度,可以將中文按長(zhǎng)度拆分為不同的單詞(雖然不太智能,但滿足大部分場(chǎng)景)。可以通過(guò) MySQL 的全局變量ngram_token_size設(shè)置分詞長(zhǎng)度,默認(rèn)是2,支持1-10可選。對(duì)于上面的例子,需要指定分詞器構(gòu)建全文索引。
CREATE TABLE t_news ( id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,content TEXT,author VARCHAR(32),title VARCHAR(128), FULLTEXT KEY idx(content) WITH PARSER ngram) ENGINE=InnoDB;
插入一條數(shù)據(jù)測(cè)試。
INSERT INTO `t_news` (`id`, `content`, `author`, `title`) VALUES (’1’, ’我有一個(gè)數(shù)據(jù)庫(kù)和引擎’, ’島上碼農(nóng)’, ’數(shù)據(jù)庫(kù)引擎’);
在簡(jiǎn)單的模糊搜索中可以使用 LIKE 來(lái)完成,而對(duì)于全文檢索需要使用如下方式的語(yǔ)句:
SELECT * FROM t_news WHERE MATCH (content) AGAINST (’數(shù)據(jù) 引擎’ IN NATURAL LANGUAGE MODE)
通過(guò)這種方式可以檢索出剛剛插入的內(nèi)容,而如果使用 LIKE 是沒(méi)法完成的。也支持使用相關(guān)性排序,再插入一條數(shù)據(jù):
INSERT INTO `t_news`(`id`, `content`, `author`, `title`) VALUES (2,’我有一個(gè)數(shù)據(jù)庫(kù)’,’島上碼農(nóng)’,’數(shù)據(jù)庫(kù)’)
然后執(zhí)行排序查詢(xún):
SELECT *, MATCH (content) AGAINST (’數(shù)據(jù) 引擎’ ) AS relevanceFROM t_news WHERE MATCH (content) AGAINST (’數(shù)據(jù) 引擎’ ) ORDER BY relevance ASC
這里將匹配值作為一列查詢(xún),以便使用其別名進(jìn)行排序。相關(guān)性越高,對(duì)應(yīng)的 relevance 值越大,因此可以用作排序。入股不相關(guān),那么 relevance 的值為0。
布爾模式可以做更多的控制,例如包括使用+號(hào)保留匹配結(jié)果和使用-號(hào)排除匹配結(jié)果,下面的就匹配了數(shù)據(jù),而排除了包含引擎的數(shù)據(jù)。更多操作符可以參考 MySQL 的官方文檔:全文索引操作符。
SELECT * FROM t_news WHERE MATCH (content) AGAINST (’+數(shù)據(jù)* -引擎’ IN BOOLEAN MODE);
以上就是MySQL 全文索引使用指南的詳細(xì)內(nèi)容,更多關(guān)于MySQL 全文索引的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章!
相關(guān)文章:
1. Mybatis查詢(xún)方法如何實(shí)現(xiàn)沒(méi)有返回值2. 快速解決mysql導(dǎo)出scv文件亂碼、躥行的問(wèn)題3. centos 7安裝mysql5.5和安裝 mariadb使用的命令4. 數(shù)據(jù)庫(kù)人員手冊(cè)之ORACLE應(yīng)用源碼5. mssql鎖基礎(chǔ)教程6. debian10 mariadb安裝過(guò)程詳解7. MySQL 千萬(wàn)級(jí)數(shù)據(jù)量如何快速分頁(yè)8. Microsoft Office Access修改代碼字體大小的方法9. DB2 XML 全文搜索之為文本搜索做準(zhǔn)備10. MySQL基礎(chǔ)教程9 —— 函數(shù)之日期和時(shí)間函數(shù)
