文章詳情頁

MySQL 全文檢索的使用示例

瀏覽：100日期：2023-10-02 07:51:14

目錄1. 環境準備2. 數據準備3. 開始表演4. 分詞引擎總結參考資料1. 環境準備

MySQL 5.7.6之前，全文索引只支持英文全文索引，不支持中文全文索引，需要利用分詞器把中文段落預處理拆分成單詞，然后存入數據庫。 MySQL 5.7.6開始，MySQL內置了ngram全文解析器，用來支持中文、日文、韓文分詞。本文使用的MySQL 版本是5.7.22，InnoDB數據庫引擎。

所以這里需要MySQL的版本大于5.7.6

-- 查看mysql的版本mysql> select version();+-----------+| version() |+-----------+| 5.7.33 |+-----------+1 row in set (0.02 sec)

在 mysql 配置文件中添加分詞以及最小詞語長度（如果已經配置可以忽略）

ft_min_word_len 最小字符長度默認為 4，在英文條件下確實比較合理中文情況下需要修改；

ngram_token_size 分詞的最小長度舉個例子不同長度對你好世界的分詞

n=1: ’你’, ’好’, ’世’, ’界’ n=2: ’你好’, ’好世’, ’世界’ n=3: ’你好世’, ’好世界’ n=4: ’你好世界’

# /etc/mysql/mysql.conf.d/mysqld.cnfft_min_word_len = 2ngram_token_size = 2# 如果沒有則新增配置echo ’ft_min_word_len = 2ngram_token_size = 2’ >> mysqld.cnf# 重啟服務/etc/init.d/mysql restart

-- mysql 于全文檢索的demomysql> CREATE TABLE `articles` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `title` varchar(50) DEFAULT NULL COMMENT ’主題’, `content` longtext NOT NULL COMMENT ’內容’, PRIMARY KEY (`id`), FULLTEXT KEY `title_content_index` (`content`,`title`) /*!50100 WITH PARSER `ngram` */ ) ENGINE=InnoDB AUTO_INCREMENT=7 DEFAULT CHARSET=utf8;Query OK, 0 rows affected (0.20 sec) mysql> INSERT INTO articles (`title`, `content`) VALUES(’如果’,’今生今世永不再將你想起除了除了在有些個因落淚而濕潤的夜里如果如果你愿意’),(’愛情’,’有一天路標遷了希望你能從容有一天橋墩斷了希望你能渡越有一天棟梁倒了希望你能堅強有一天期待蔫了希望你能理解’),(’遠和近’,’你一會看我一會看云我覺得你看我時很遠你看云時很近’),(’斷章’,’你站在橋上看風景，看風景人在樓上看你。明月裝飾了你的窗子，你裝飾了別人的夢?！?,(’獨語’,’我向你傾吐思念你如石像沉默不應如果沉默是你的悲抑你知道這悲抑最傷我心’);Query OK, 5 rows affected (0.08 sec)Records: 5 Duplicates: 0 Warnings: 0 mysql> SELECT * from articles where match(content, title) against(’風景’ in NATURAL LANGUAGE MODE) LIMIT 10;+----+--------+--------------------------------------------------------------------------------------------------------------------------+| id | title | content |+----+--------+--------------------------------------------------------------------------------------------------------------------------+| 10 | 斷章 | 你站在橋上看風景，看風景人在樓上看你。明月裝飾了你的窗子，你裝飾了別人的夢。 |+----+--------+--------------------------------------------------------------------------------------------------------------------------+1 row in set (0.02 sec)3. 開始表演自然語言模式(NATURAL LANGUAGE MODE)

自然語言模式是MySQL 默認的全文檢索模式。自然語言模式不能使用操作符，不能指定關鍵詞必須出現或者必須不能出現等復雜查詢。

布隆模式(BOOLEAN MODE)

BOOLEAN模式可以使用操作符，可以支持指定關鍵詞必須出現或者必須不能出現或者關鍵詞的權重高還是低等復雜查詢。

查詢擴展(QUERY EXPANSION)

查詢的結果不僅匹配出結果同時可以聯想出其他你需要的結果。（類似關聯查詢，但是官網推薦僅支持短語查詢否則會出現很多臟數據）

-- 自然語言模式（NATURAL LANGUAGE MODE）查詢并得到評分mysql> SELECT id, title, MATCH ( content, title ) against ( ’風景’ IN NATURAL LANGUAGE MODE ) AS score FROM articles;+----+-----------+--------------------+| id | title | score |+----+-----------+--------------------+| 7 | 如果 | 0 || 8 | 愛情 | 0 || 9 | 遠和近 | 0 || 10 | 斷章 | 0.9771181344985962 || 11 | 獨語 | 0 |+----+-----------+--------------------+5 rows in set (0.02 sec)-- 布隆模式(BOOLEAN MODE) 可以組合查詢mysql> SELECT id, title FROM articles where MATCH ( content, title ) against ( ’+風景 -愛情’ IN BOOLEAN MODE );+----+--------+| id | title |+----+--------+| 10 | 斷章 |+----+--------+1 row in set (0.01 sec)-- 查詢擴展(QUERY EXPANSION) 可以聯想出其他結果 mysql> SELECT id, title FROM articles where MATCH ( content, title ) against ( ’風景’ WITH QUERY EXPANSION );+----+--------+| id | title |+----+--------+| 10 | 斷章 || 11 | 獨語 |+----+--------+2 rows in set (0.02 sec) 4. 分詞引擎

目前官網 MeCab Full-Text Parser 有支持日語的分詞插件（可以更好的理解語義）

內置的 full-text parser 因為英文中單詞的邊界默認是空格，所以在處理英文文本時可以簡單的使用空格作為分隔符。但是在處理中文時需要理解語義的基礎上進行有效的分詞，所以在處理中文、日文、韓文MySQL 提供了 ngram full-text （本文的配置就是基于ngram的中文分詞）

總結

優點

對比 like 查詢效率有提升（具體提升的測試沒有做）全文搜索可以同時對多個字段做索引，like只能對單一字段搜索

對于中文的分詞可能需要在理解語義的基礎上才能有效的分詞；比如上文中的你好世界（hello world）對于英文按空格切分就可以，中文則需要理解語義的基礎才能分成你好/世界。

這里分享一下python中jieba分詞，有助于理解中文分詞的魅力

結巴分詞利用一個中文詞庫，通過詞庫計算漢字之間構成詞語的關聯概率，所以通過計算漢字之間的概率，就可以形成分詞的結果。

In [1]: import jiebaIn [2]: jieba.lcut('你好世界')Building prefix dict from the default dictionary ...Dumping model to file cache /var/folders/st/b16fyn3s57x_5vszjl599njw0000gn/T/jieba.cacheLoading model cost 0.937 seconds.Prefix dict has been built successfully.Out[2]: [’你好’, ’世界’]In [3]: jieba.lcut('hello world')Out[3]: [’hello’, ’ ’, ’world’]

對于一般的項目mysql的全文索引可以解決80%的需求，它可以較為完美的支持中文的檢索、自動分詞、結果排序、組合查詢等功能；但性能應該是瓶頸，Elastissearch可以友好的實現全文檢索。

全文索引不能達到like的效果，連著的語句會因為分詞形成多個詞語。

參考資料

Mysql fulltext

以上就是MySQL 全文檢索的使用示例的詳細內容，更多關于MySQL 全文檢索的使用的資料請關注好吧啦網其它相關文章！

上一條：MySQL 百萬級數據的4種查詢優化方式下一條：MySQL 常見的數據表設計誤區匯總

相關文章：

1. SQL語句中的ON DUPLICATE KEY UPDATE使用2. Access創建一個簡單MIS管理系統3. 提高商業智能環境中DB2查詢的性能（2）4. 傳甲骨文將增加對MySQL投資與微軟競爭5. Microsoft Office Access凍結字段的方法6. 關于SQL server中字段值為null的查詢7. How to access eclipse workspace?8. SQL Server數據庫連接查詢和子查詢實戰案例9. 關于Sql server數據庫日志滿的快速解決辦法10. Oracle災難防護的關鍵技術

国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

MySQL 全文檢索的使用示例