Vua Tên Miền: Chuyên gia Tư vấn và Mua bán tên miền đẹp, đảm bảo uy tín và giá trị! Hãy liên hệ: Mr. Nguyễn Đình Chiến (.com), Mobi-Zalo: 0912 191 357 để được tư vấn, hổ trợ miễn phí! Trân trọng cảm ơn quý khách đã ủng hộ VuaTenMien.Com trong thời gian qua!
kinh doanh, bán hàng, tư vấn, bảo hiểm Những cá nhân, tổ chức, đại lý,muốn bán, hợp đồng bảo hiểm
7.8.10


Tên miền là một phần quan trọng cấu thành thương hiệu số của doanh nghiệp. Nó đặc biệt quan trọng đối với những doanh nghiệp kinh doanh trên môi trường mạng toàn cầu.

Có hay không phương thức tự động tìm kiếm các tên miền thương hiệu cho doanh nghiệp? Bài toán đặt ra là làm thế nào để có thể nhận dạng được những tên miền có ý nghĩa (tiếng Việt) trong danh sách các tên miền quốc tế với hơn 160 quốc gia trên toàn thế giới. Đây là vấn đề không đơn giản.


1. Sơ lược về cấu trúc tiếng Việt
Đã có nhiều bài viết về cấu trúc tiếng Việt, do đó bài viết này chỉ nếu lên một số cách tiếp cận ứng dụng công nghệ tri thức để giải bài toán: "tự động nhận dạng các tên miền tiếng Việt".

1.1 Danh sách âm tiết tiếng Việt
Đơn âm:

• a ă â b c d đ e ê g h i k l m n o ô ơ p q r s t u ư v x y
• a á à ả ã ạ
• e é è ẻ ẽ ẹ
• ê ế ề ể ễ ệ
• i í ì ỉ ĩ ị
• ó ò ỏ õ ọ
• ô ố ồ ổ ỗ ộ
• ơ ớ ờ ở ỡ ợ
• u ú ù ủ ũ ụ
• ư ứ ừ ử ữ ự
• y ý ỳ ỷ ỹ ỵ

Phụ âm đầu:

• tr ch ng ngh nh gh gi qu ph kh th
• b c d g h k l m n p q r s t v x

Phụ âm cuối:
• ác ạc ách ạch ai ái ài ải ãi ại am ám àm ảm ãm ạm an án àn ản ãn ạn ang áng àng ãng ảng ạng anh ánh ...
• ắc ặc ăm ắm ằm ẳm ẵm ặm ăn ắn ằn ẳn ặn ăng ắng ằng ẳng ẵng ặng ắp ặp…
• ấc ậc ất ật âm ấm ầm ẩm ẫm ậm ân ấn ần ẩn ận uấng ầng ẩng ấp ập ây ấy ầy ẩy ẫy ậy âu ấu ầu ẩu ẫu ậu ...
• eo èo éo ẻo ẽo ẹo éc ét ẹt em ...
• êm ếm ềm ểm ễm ệm ên ến ền ển ện ệnh ...
• ia ía ìa ỉa ĩa ịa in ín ìn ỉn ĩn ịn im ím ìm ỉm ĩm ịm íc ịc ích ịch iên iến iền iển iễn iện iêng iếng iềng iểng iệng iêm iếm iềm iểm iễm iệm ...
• oa óa òa ỏa õa ọa oác oạc oách oạch oát oạt oắt oặt oắc oặc oam oạm oan oán oàn oản oãn oạn oang oáng oàng oảng oạng oắm oăn oắn oằn óc ọc óch oi ói òi ỏi õi ọi om óm ...
• ốc ộc ôi ối ồi ổi ỗi ội ôm ốm ồm ổm ỗm ộm ôn ốn ồn ổn ỗn ộn ông ống ồng ...
• ơi ới ời ởi ỡi ợi ơm ớm ờm ởm ợm ơn ớn ờn ởn ỡn ợn ớp ợp ớt ợt ...
• ua úa ùa ủa ụa úc ục uê uế uề uệ ui úi ùi ủi ũi ụi um úm ùm ủm ũm ụm un ún ùn ủn ũn ụn ung úng ùng ủng ũng ụng úp ụp út ụt uy úy ùy ủy ũy ụy uyên ...
• ưa ứa ừa ửa ữa ựa ức ực ưi ửi ừm ưng ứng ừng ửng ững ựng ướu ượu ươi ưới ười ưởi ưỡi ượi ươn ướn ườn ưởn ượn ...
• yêu yếu yểu yên yến yết yểm yếm ...

1.2. Một từ đơn tiếng Việt được kết hợp trong 02 trường hợp sau:
- Nguyên âm: các từ có các chữ sau đứng trước: a,i,e,u,o
Ví dụ: ang, anh, ình, em, ùng, ủa, ôm, ồn

- Kết hợp: phụ âm đầu + phụ âm cuối
Ví dụ: Tr + các từ có chữ A đứng đầu

§ trác trạc trách trạch trai trái trài trải trãi trại tram trám tràm trảm trãm trạm tran trán tràn trản trãn trạn trang tráng tràng trãng trảng trạng tranh tránh trành trảnh trãnh trạnh trát trạt trau tráu tràu trạu tray tráy trày trảy trãy trạy tráp trạp trao trào tráo trảo trão trạo

Ví dụ: Th + các từ có chữ U đứng đầu

§ thua thúa thùa thủa thụa thúc thục thuê thuế thuề thuệ thui thúi thùi thủi thũi thụi thum thúm thùm thủm thũm thụm thun thún thùn thủn thũn thụn thung thúng thùng thủng thũng thụng thúp thụp thút thụt thuy thúy thùy thủy thũy thụy thuyên thuyến thuyền thuyển thuyện thuyết thuyệt thuốc thuộc thuốt thuột thuếch thuệch thuông thuống thuồng thuộng thuếnh thuôi thuối thuồi thuỗi thuội thuốm thuộm

1.3. Sự tổ hợp này tạo nên một số lượng đồ sộ các từ tiếng Việt.
Có thể tham khảo thêm các tài liệu về cấu trúc tiếng Việt và các phương pháp ứng dụng tại thư viện các trường đại học ở Việt Nam.

2. Phương pháp tách lọc domain tiếng Việt

Ta sẽ tập trung vào cấu trúc "từ" của tiếng Việt để giải quyết bài toán đặt ra phía trên. Nếu 1 domain có chứa một vài từ tiếng Việt, có thể suy diễn domain này là domain "chứa tiếng Việt" và tách ra (dĩ nhiên sẽ có các biện pháp hạn chế suy diễn sai, hoặc nâng cao quá trình tự học thông qua cơ chế suy diễn heuristic).

Ví dụ: nhìn vào danh sách dưới đây, với cách diễn đạt trên, hệ thống có thể tự nhận ra các domain "có chứa tiếng Việt":

- Nguyenhoanginformatics.com
- Thanhspa.net
- Trungleon.net
- tinhoc-giaitri.biz
- phongcach9x
- vuoncanh.com
- khangthinhhotel.com
- linhkienvitinh.net
- sieuthicanho.com
- thitruongvang.com


Trước tiên, ta xét 1 trường hợp cụ thể: domain dongau.com

Nếu phân tích tự động, có thể ra: Do Ngau, Dong Au, Don Gau, Do Nga U

Tiêu chí tách domain: tính điểm dựa theo chiều dài, từ càng dài điểm càng cao:

* Từ có 1 chữ: 0 điểm
* Từ có 2 chữ: 0,5 điểm
* Từ có 3 chữ: 1 điểm
* Từ có 4 chữ: 2 điểm
* Từ có 5 chữ: 3 điểm
* Từ có 6 chữ: 4 điểm

Ví dụ: Dongau.com có thể tách ra thành nhiều từ

• do ngau: 0,5+2=2,5
• dong au: 2 + 0,5 =2,5
• don gau: 1+1=2
• do nga u: 0,5+1+0=1,5

Khangthinhhotel.com
• Khang + thinh + ho + te = 3 + 3 + 0,5 + 0,5 = 9 điểm

Như vậy các domain càng có nhiều từ tiếng Việt, có nhiều từ dài trong tiếng Việt sẽ được ưu tiên đưa lên trên cùng.

* vuotlenchinhminh.com (có > 4 từ tiếng Việt)
* chauphong.com (có > 2 từ tiếng Việt)
* vietnamdatnuocconnguoi.com (có > 6 từ tiếng Việt)

3. Cấu trúc dữ liệu
Do đã xác định mục tiêu, nên cách tiếp cận và giải quyết vấn đề được phân tích ra thành 2 công việc chính như sau:

1. Tách domain thành nhiều từ, ưu tiên phân tích từ càng dài càng tốt
2. Đánh giá và tính điểm về độ dài của domain

Tài liệu tham khảo:
a. Lê Xuân Thại. Câu chủ vị tiếng Việt. NXB KHXH, Hà Nội, 1994
b. Diệp Quang Ban. Cấu tạo câu đơn tiếng Việt. Trường ĐHSP Hà Nội, 1984.
c. Nguyễn Minh Thuyết, Nguyễn Văn Hiệp. Lý thuyết thành phần câu và thành phần câu tiếng Việt. Nxb ĐHQG Hà Nội, 1998
d. Đỗ Xuân Lôi . "Cấu trúc dữ liệu và giải thuật". NXB Khoa học và kỹ thuật. Hà nội, 1995.
tcaviet@gmail.com

0 nhận xét:

Đăng nhận xét

domain, domain name, premium domain name for sales

BÀI ĐƯỢC XEM NHIỀU NHẤT: