summaryrefslogtreecommitdiffstats
path: root/third_party/rust/icu_segmenter/tests/testdata/test_text_codepoints.json
diff options
context:
space:
mode:
Diffstat (limited to 'third_party/rust/icu_segmenter/tests/testdata/test_text_codepoints.json')
-rw-r--r--third_party/rust/icu_segmenter/tests/testdata/test_text_codepoints.json32
1 files changed, 32 insertions, 0 deletions
diff --git a/third_party/rust/icu_segmenter/tests/testdata/test_text_codepoints.json b/third_party/rust/icu_segmenter/tests/testdata/test_text_codepoints.json
new file mode 100644
index 0000000000..2c343e369b
--- /dev/null
+++ b/third_party/rust/icu_segmenter/tests/testdata/test_text_codepoints.json
@@ -0,0 +1,32 @@
+{
+ "testcases": [{"unseg": "กระทำการในรูปแบบขบวนการ", "expected_bies": "biiieiiebebiiiiebiiiiie", "true_bies": "biiiebiebebiiiiebiiiiie"},
+ {"unseg": "สำหรับผู้ต้องหาอีก", "expected_bies": "biiiiebiebiiibebie", "true_bies": "biiiiebiebiiebebie"},
+ {"unseg": "หากลุ่มผู้ต้องหาทำการสำเร็จจะก่อให้เกิดความเสียหายอย่างร้ายแรง", "expected_bies": "iebbiiebiebiiebebebiebiiiiebebiebiebiiebiiebiiiiiebiiiebiiebie", "true_bies": "bebiiiebiebiiebebebiebiiiiebebiebiebiiebiiebiiiiiebiiiebiiiiie"},
+ {"unseg": "ทั้งนี้", "expected_bies": "biiebie", "true_bies": "biiiiie"},
+ {"unseg": "แต่ยังไม่ระบุวันเวลาที่แน่นอน", "expected_bies": "biebiebiebiiebiebiiebiebiiiie", "true_bies": "biebiebiebiiebiebiiebiebiiiie"},
+ {"unseg": "แกว่งตัวเบาๆ", "expected_bies": "bebiebiebies", "true_bies": "biiiebiebies"},
+ {"unseg": "หรือเขาจะทิ้งให้อยู่ที่โรงเรียนเหมือนอย่างลูกคนขับรถที่ได้แต่งเครื่องแบบสะสวยเดินออกจากบ้านทุก", "expected_bies": "biiebiebebiiebiebiiebiebiebiiiebiiiiebiiiebiebebiebebiebiebiiebiiiiiebiebiiiebiiebiebiebiiebie", "true_bies": "biiebiebebiiebiebiiebiebiebiiiebiiiiebiiiebiebebiebebiebiebiiebiiiiiiiiebiiiebiiebiebiebiiebie"},
+ {"unseg": "ฝังมุกแพรวพราว", "expected_bies": "biebiiiiiiebii", "true_bies": "biebiebiiiiiie"},
+ {"unseg": "กราบลงที่ตักอย่างที่แม่สอน", "expected_bies": "iiiebebiebiebiiiebiebieiie", "true_bies": "biiebebiebiebiiiebiebiebie"},
+ {"unseg": "เพียงแค่สะกิดเตือนให้ก้มลงกราบลาอีกครั้งก่อนที่จะถอยนำออกมาจาก", "expected_bies": "biiiebiebiiiebiiiebiebiebiiiiiiebiebiiiebiiebiebebiebebiebebie", "true_bies": "biiiebiebiiiebiiiebiebiebebiiebebiebiiiebiiebiebebiebebiebebie"},
+ {"unseg": "ค่ะ", "expected_bies": "bie", "true_bies": "bie"},
+ {"unseg": "แม่ตอบอย่างมี", "expected_bies": "biebiebiiiebe", "true_bies": "biebiebiiiebe"},
+ {"unseg": "หนังสือที่พิมพ์ออกมาทุกวันจะมีชื่อหนังสือชื่อเดียวกันตลอด", "expected_bies": "biiiiiebiebiiiebiebebiebiebebebiiebiiiiiebiiebiiiebiebiii", "true_bies": "biiiiiebiebiiiebiebebiebiebebebiiebiiiiiebiiebiiiebiebiie"},
+ {"unseg": "หรือหนังสือที่พิมพ์ออกมาทุกสัปดาห์", "expected_bies": "biiebiiiiiebiebiiiebiebebiebiiiiie", "true_bies": "biiebiiiiiebiebiiiebiebebiebiiiiie"},
+ {"unseg": "ทุกสองสัปดาห์", "expected_bies": "biebiebiiiiie", "true_bies": "biebiebiiiiie"},
+ {"unseg": "พับเป็นเล่มโดยไม่เย็บเล่มและไม่มีปก", "expected_bies": "biebiiebiiebiebiebiiebiiebiebiebebi", "true_bies": "biebiiebiiebiebiebiiebiiebiebiebebe"},
+ {"unseg": "เป็นสำคัญ", "expected_bies": "biiebiiie", "true_bies": "biiebiiie"},
+ {"unseg": "การเรียงพิมพ์จะเรียงเป็นคอลัมน์เพราะสะดวกในการนำมาจัดหน้า", "expected_bies": "biebiiieiiiiebebiiiebiiebiiiiiebiiiebiiiebebiebebebiebiii", "true_bies": "biebiiiebiiiebebiiiebiiebiiiiiebiiiebiiiebebiebebebiebiie"},
+ {"unseg": "จึงควรเลือกข่าวสำคัญๆหลายข่าวลงพิมพ์รวมไว้ในหน้าแรก", "expected_bies": "biebiebiiiebiiebiiiesbiiebiiebebiiiebiebiebebiiebie", "true_bies": "biebiebiiiebiiebiiiesbiiebiiebebiiiebiebiebebiiebie"},
+ {"unseg": "ทุกสถานที่", "expected_bies": "biebiiiiie", "true_bies": "biebiiiiie"},
+ {"unseg": "ไม่ว่าจะกำลังดื่มกาแฟ", "expected_bies": "bieiiebebiiiebiiebiie", "true_bies": "biiiiebebiiiebiiebiie"},
+ {"unseg": "โดยสารรถหรือเรือ", "expected_bies": "biebiebebiiebiie", "true_bies": "biiiiebebiiebiie"},
+ {"unseg": "แม้มีเวลาอ่านเพียงเล็กน้อยถ้ามีข่าวที่ตนสนใจก็จะอ่านก่อน", "expected_bies": "iiebebiiebiiebiiiebiiiiiiebiebebiiebiebebiiebebebiiebiie", "true_bies": "biebebiiebiiebiiiebiiiiiiebiebebiiebiebebiiebebebiiebiie"},
+ {"unseg": "ประกอบด้วยข่าวหลายข่าว", "expected_bies": "biiiiebiiebiiebiiebiie", "true_bies": "biiiiebiiebiiebiiebiie"},
+ {"unseg": "จึงมีราคาอยู่เพียงวันเดียวเมื่อพ้นวันไปแล้วก็หมดราคา", "expected_bies": "biebebiiebiiebiiiebiebiiiebiiiebiebiebebiiebebiebiii", "true_bies": "biebebiiebiiebiiiebiebiiiebiiiebiebiebebiiebebiebiie"},
+ {"unseg": "นิตยสาร", "expected_bies": "biiebii", "true_bies": "biiiiie"},
+ {"unseg": "ทางด้านความคิด", "expected_bies": "biebiiebiiebii", "true_bies": "biebiiebiiebie"},
+ {"unseg": "ละภาพจะมีบุคคลที่ทำหน้าที่ศึกษาค้นคว้าและออกความเห็นว่าควรมีภาพอะไรและมีลักษณะรายละเอียดอย่างใด", "expected_bies": "iiiiebebebiiiebiebebiiiiiebiiiebiiiiiebiebiebiiebiiebiebiebebiebiiebiebebiiiiebiiiiiiiiebiiiebe", "true_bies": "bebiebebebiiiebiebebiiiiiebiiiebiiiiiebiebiebiiebiiebiebiebebiebiiebiebebiiiiebiiiiiiiiebiiiebe"},
+ {"unseg": "การนำเอาภาพและตัวหนังสือมารวมกันเป็นหน้า", "expected_bies": "biebebiiiiebiebiebiiiiiebebiebiebiiebiii", "true_bies": "biebebiebiebiebiebiiiiiebebiebiebiiebiie"},
+ {"unseg": "เรียกว่า", "expected_bies": "biiiebie", "true_bies": "biiiebie"}]
+} \ No newline at end of file