Biểu thức chính quy (tiếng Anh: regular expression, viết tắt: regexpregex hay regxp) là một chuỗi miêu tả một bộ các chuỗi khác, theo những quy tắc cú pháp nhất định. Chúng cho phép chúng ta tìm kiếm, so khớp và xử lý các chuỗi ký tự dựa trên các quy tắc cụ thể. Trong bài viết này, một số biểu thức chính quy được dùng trong tiếng Nhật sẽ được liệt kê.

Một số lưu ý

Bài viết có sử dụng hai khái niệm là “chữ khổ rộng” và “chữ khổ hẹp“. Trong đó, “chữ khổ rộng” là để chỉ đến 全角 (Rōmaji: zenkaku, Hán-Việt: toàn giác, tiếng Anh:  full-width), “chữ khổ hẹp” chỉ đến 半角 (Rōmaji: hankaku, Hán-Việt: bán giác, tiếng Anh: half-width).

Một số biểu thức chính quy

Hiragana

Biểu thức chính quy:

  • [\x3041-\x3096]
  • \p{Hiragana}

Khớp với:

ぁ あ ぃ い ぅ う ぇ え ぉ お か が き ぎ く ぐ け げ こ ご さ ざ し じ す ず せ ぜ そ ぞ た だ ち ぢ っ つ づ て で と ど な に ぬ ね の は ば ぱ ひ び ぴ ふ ぶ ぷ へ べ ぺ ほ ぼ ぽ ま み む め も ゃ や ゅ ゆ ょ よ ら り る れ ろ ゎ わ ゐ ゑ を ん ゔ ゕ ゖ ゙ ゚ ゛ ゜ ゝ ゞ ゟ

Katakana (chữ khổ rộng)

Biểu thức chính quy:

  • [\x30A0-\x30FF]
  • \p{Katakana}

Khớp với:

゠ ァ ア ィ イ ゥ ウ ェ エ ォ オ カ ガ キ ギ ク グ ケ ゲ コ ゴ サ ザ シ ジ ス ズ セ ゼ ソ ゾ タ ダ チ ヂ ッ ツ ヅ テ デ ト ド ナ ニ ヌ ネ ノ ハ バ パ ヒ ビ ピ フ ブ プ ヘ ベ ペ ホ ボ ポ マ ミ ム メ モ ャ ヤ ュ ユ ョ ヨ ラ リ ル レ ロ ヮ ワ ヰ ヱ ヲ ン ヴ ヵ ヶ ヷ ヸ ヹ ヺ ・ ー ヽ ヾ ヿ

Bộ thủ

Biểu thức chính quy:

  • [\x2E80-\x2FD5]

Khớp với:

⺀ ⺁ ⺂ ⺃ ⺄ ⺅ ⺆ ⺇ ⺈ ⺉ ⺊ ⺋ ⺌ ⺍ ⺎ ⺏ ⺐ ⺑ ⺒ ⺓ ⺔ ⺕ ⺖ ⺗ ⺘ ⺙ ⺚ ⺛ ⺜ ⺝ ⺞ ⺟ ⺠ ⺡ ⺢ ⺣ ⺤ ⺥ ⺦ ⺧ ⺨ ⺩ ⺪ ⺫ ⺬ ⺭ ⺮ ⺯ ⺰ ⺱ ⺲ ⺳ ⺴ ⺵ ⺶ ⺷ ⺸ ⺹ ⺺ ⺻ ⺼ ⺽ ⺾ ⺿ ⻀ ⻁ ⻂ ⻃ ⻄ ⻅ ⻆ ⻇ ⻈ ⻉ ⻊ ⻋ ⻌ ⻍ ⻎ ⻏ ⻐ ⻑ ⻒ ⻓ ⻔ ⻕ ⻖ ⻗ ⻘ ⻙ ⻚ ⻛ ⻜ ⻝ ⻞ ⻟ ⻠ ⻡ ⻢ ⻣ ⻤ ⻥ ⻦ ⻧ ⻨ ⻩ ⻪ ⻫ ⻬ ⻭ ⻮ ⻯ ⻰ ⻱ ⻲ ⻳

⼀ ⼁ ⼂ ⼃ ⼄ ⼅ ⼆ ⼇ ⼈ ⼉ ⼊ ⼋ ⼌ ⼍ ⼎ ⼏ ⼐ ⼑ ⼒ ⼓ ⼔ ⼕ ⼖ ⼗ ⼘ ⼙ ⼚ ⼛ ⼜ ⼝ ⼞ ⼟ ⼠ ⼡ ⼢ ⼣ ⼤ ⼥ ⼦ ⼧ ⼨ ⼩ ⼪ ⼫ ⼬ ⼭ ⼮ ⼯ ⼰ ⼱ ⼲ ⼳ ⼴ ⼵ ⼶ ⼷ ⼸ ⼹ ⼺ ⼻ ⼼ ⼽ ⼾ ⼿ ⽀ ⽁ ⽂ ⽃ ⽄ ⽅ ⽆ ⽇ ⽈ ⽉ ⽊ ⽋ ⽌ ⽍ ⽎ ⽏ ⽐ ⽑ ⽒ ⽓ ⽔ ⽕ ⽖ ⽗ ⽘ ⽙ ⽚ ⽛ ⽜ ⽝ ⽞ ⽟ ⽠ ⽡ ⽢ ⽣ ⽤ ⽥ ⽦ ⽧ ⽨ ⽩ ⽪ ⽫ ⽬ ⽭ ⽮ ⽯ ⽰ ⽱ ⽲ ⽳ ⽴ ⽵ ⽶ ⽷ ⽸ ⽹ ⽺ ⽻ ⽼ ⽽ ⽾ ⽿ ⾀ ⾁ ⾂ ⾃ ⾄ ⾅ ⾆ ⾇ ⾈ ⾉ ⾊ ⾋ ⾌ ⾍ ⾎ ⾏ ⾐ ⾑ ⾒ ⾓ ⾔ ⾕ ⾖ ⾗ ⾘ ⾙ ⾚ ⾛ ⾜ ⾝ ⾞ ⾟ ⾠ ⾡ ⾢ ⾣ ⾤ ⾥ ⾦ ⾧ ⾨ ⾩ ⾪ ⾫ ⾬ ⾭ ⾮ ⾯ ⾰ ⾱ ⾲ ⾳ ⾴ ⾵ ⾶ ⾷ ⾸ ⾹ ⾺ ⾻ ⾼ ⾽ ⾾ ⾿ ⿀ ⿁ ⿂ ⿃ ⿄ ⿅ ⿆ ⿇ ⿈ ⿉ ⿊ ⿋ ⿌ ⿍ ⿎ ⿏ ⿐ ⿑ ⿒ ⿓ ⿔ ⿕

Kanji (Hán tự)

Biểu thức chính quy:

  • [\x3400-\x4DB5\x4E00-\x9FCB\xF900-\xFA6A]
  • \p{Han}

Khớp với:

一 七 三 上 下 中 九 二 五 人 休 先 入 八 六 円 出 力 十 千 口 右 名 四 土 夕 大 天 女 子 字 学 小 山 川 左 年 手 文 日 早 月 木 本 村 林 校 森 正 気 水 火 犬 玉 王 生 田 男 町 白 百 目 石 空 立 竹 糸 耳 花 草 虫 見 貝 赤 足 車 金 雨 青 … 鬥 鬧 鬨 鬩 鬪 鬮 鬯 鬲 鬻 魃 魄 魍 魎 魏 魑 魘 魴 鮃 鮑 鮓 鮖 鮗 鮟 鮠 鮨 鮴 鮹 鯀 鯆 鯊 鯏 鯑 鯒 鯔 鯡 鯢 鯣 鯤 鯰 鯱 鯲 鯵 鰄 鰆 鰈 鰉 鰊 鰌 鰒 鰓 鰔 鰕 鰛 鰡 鰤 鰥 鰮 鰰 鰲 鰾 鱆 鱇 鱚 鱠 鱧 鱶 鱸 鳧 鳫 鳬 鳰 鴃 鴆 鴈 鴉 鴒 鴕 鴟 鴣 鴪 鴬 鴾 鴿 鵁 鵄 鵆 鵈 鵐 鵑 鵙 鵝 鵞 鵤 鵯 鵲 鵺 鶇 鶉 鶚 鶤 鶩 鶫 鶲 鶸 鶺 鶻 鷁 鷂 鷄 鷆 鷏 鷓 鷙 鷦 鷭 鷯 鷸 鷽 鸛 鸞 鹵 鹹 鹽 麁 麈 麋 麌 麑 麕 麝 麥 麩 麪 麭 麸 麼 麾 黌 黎 黏 黐 黔 默 黜 黝 點 黠 黥 黨 黯 黴 黶 黷 黹 黻 黼 黽 鼇 鼈 鼕 鼡 鼬 鼾 齊 齋 齎 齏 齒 齔 齟 齠 齡 齣 齦 齧 齪 齬 齲 齶 齷 龕 龜 龠 …

Khớp với tất cả chữ Hán, bao gồm cả những chữ được sử dụng trong tiếng Trung Quốc.

Katakana và dấu câu (chữ khổ hẹp)

Biểu thức chính quy:

  • [\xFF5F-\xFF9F]

Khớp với:

⦅ ⦆ 。 「 」 、 ・ ヲ ァ ィ ゥ ェ ォ ャ ュ ョ ッ ー ア イ ウ エ オ カ キ ク ケ コ サ シ ス セ ソ タ チ ツ テ ト ナ ニ ヌ ネ ノ ハ ヒ フ ヘ ホ マ ミ ム メ モ ヤ ユ ヨ ラ リ ル レ ロ ワ ン ゙

Ký hiệu và dấu câu tiếng Nhật

Biểu thức chính quy:

  • [\x3000-\x303F]

Khớp với:

、 。 〃 〄 々 〆 〇 〈 〉 《 》 「 」 『 』 【 】 〒 〓 〔 〕 〖 〗 〘 〙 〚 〛 〜 〝 〞 〟 〠 〡 〢 〣 〤 〥 〦 〧 〨 〩 〪 〫 〬 〭 〮 〯 〰 〱 〲 〳 〴 〵 〶 〷 〸 〹 〺 〻 〼 〽 〾 〿

Các ký hiệu và ký tự tiếng Nhật khác

Biểu thức chính quy:

  • [\x31F0-\x31FF\x3220-\x3243\x3280-\x337F]

Khớp với:

ㇰ ㇱ ㇲ ㇳ ㇴ ㇵ ㇶ ㇷ ㇸ ㇹ ㇺ ㇻ ㇼ ㇽ ㇾ ㇿ

㈠ ㈡ ㈢ ㈣ ㈤ ㈥ ㈦ ㈧ ㈨ ㈩ ㈪ ㈫ ㈬ ㈭ ㈮ ㈯ ㈰ ㈱ ㈲ ㈳ ㈴ ㈵ ㈶ ㈷ ㈸ ㈹ ㈺ ㈻ ㈼ ㈽ ㈾ ㈿ ㉀ ㉁ ㉂ ㉃

㊀ ㊁ ㊂ ㊃ ㊄ ㊅ ㊆ ㊇ ㊈ ㊉ ㊊ ㊋ ㊌ ㊍ ㊎ ㊏ ㊐ ㊑ ㊒ ㊓ ㊔ ㊕ ㊖ ㊗ ㊘ ㊙ ㊚ ㊛ ㊜ ㊝ ㊞ ㊟ ㊠ ㊡ ㊢ ㊣ ㊤ ㊥ ㊦ ㊧ ㊨ ㊩ ㊪ ㊫ ㊬ ㊭ ㊮ ㊯ ㊰ ㊱ ㊲ ㊳ ㊴ ㊵ ㊶ ㊷ ㊸ ㊹ ㊺ ㊻ ㊼ ㊽ ㊾ ㊿

㋀ ㋁ ㋂ ㋃ ㋄ ㋅ ㋆ ㋇ ㋈ ㋉ ㋊ ㋋

㋐ ㋑ ㋒ ㋓ ㋔ ㋕ ㋖ ㋗ ㋘ ㋙ ㋚ ㋛ ㋜ ㋝ ㋞ ㋟ ㋠ ㋡ ㋢ ㋣ ㋤ ㋥ ㋦ ㋧ ㋨ ㋩ ㋪ ㋫ ㋬ ㋭ ㋮ ㋯ ㋰ ㋱ ㋲ ㋳ ㋴ ㋵ ㋶ ㋷ ㋸ ㋹ ㋺ ㋻ ㋼ ㋽ ㋾

㌀ ㌁ ㌂ ㌃ ㌄ ㌅ ㌆ ㌇ ㌈ ㌉ ㌊ ㌋ ㌌ ㌍ ㌎ ㌏ ㌐ ㌑ ㌒ ㌓ ㌔ ㌕ ㌖ ㌗ ㌘ ㌙ ㌚ ㌛ ㌜ ㌝ ㌞ ㌟ ㌠ ㌡ ㌢ ㌣ ㌤ ㌥ ㌦ ㌧ ㌨ ㌩ ㌪ ㌫ ㌬ ㌭ ㌮ ㌯ ㌰ ㌱ ㌲ ㌳ ㌴ ㌵ ㌶ ㌷ ㌸ ㌹ ㌺ ㌻ ㌼ ㌽ ㌾ ㌿ ㍀ ㍁ ㍂ ㍃ ㍄ ㍅ ㍆ ㍇ ㍈ ㍉ ㍊ ㍋ ㍌ ㍍ ㍎ ㍏ ㍐ ㍑ ㍒ ㍓ ㍔ ㍕ ㍖ ㍗

㍘ ㍙ ㍚ ㍛ ㍜ ㍝ ㍞ ㍟ ㍠ ㍡ ㍢ ㍣ ㍤ ㍥ ㍦ ㍧ ㍨ ㍩ ㍪ ㍫ ㍬ ㍭ ㍮ ㍯ ㍰

㍱ ㍲ ㍳ ㍴ ㍵ ㍶ ㍻ ㍼ ㍽ ㍾ ㍿

Chữ-số và dấu câu (chữ khổ rộng)

Biểu thức chính quy:

  • [\xFF01-\xFF5E]

Khớp với:

! " # $ % & ' ( ) * + , - . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ?@ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~

Lời kết

Trên đây là những biểu thức chính quy dùng để tìm kiếm, so khớp và xử lý chuỗi ký tự trong tiếng Nhật. Hi vọng rằng, những kiến thức được chia sẻ trong bài viết này có thể giúp ích cho bạn.

Được phân loại:

Được gắn thẻ: