dân non tay bị ảnh hưởng bởi độc giả trả tiền nữa. kiểu viết một thằng cẩu siêu mạnh thì phải kiếm việc để nó thể hiện trình.
tam sinh quan của 1 thằng loser giẻ rách thì nhân vật nó cũng giẻ rách trang bức kiểu con mực nhất thế chí tôn này nọ bao vui trang bức kiểu óc chó giả heo ăn hổ, chủ tích giả ngheo, ra đường là gặp kinh bỉ xem thường , vợ con ban gái bị chọc ghẹo, npc phụ thấy gái là cu cứng lên não
Uhm, mấy tay tác loser toàn xây dựng nhân vật phong lưu, khí khái. Đảo vài chương là lòi ra ngay cái tư tưởng tiểu nhân
Coi mấy đoạn Mạnh Kỳ nó cosplay kiếm khách trong tiểu thuyết Cổ Long cười muốn xỉu. Anh ta thích làm kiếm khách tiêu sái mà hệ thống bắt làm đao khách, đéo phải đao dạng thường mà lại là cuồng đao. Con mực chắc fan Cổ Long nên viết mấy đoạn đó hay vãi.
lúc đầu thì nó cũng khá tự do, sau đó thì kết quả dịch tự dưng có một đống ký tự sao hoả, do một vài người thích dùng "~!@*" để đánh dấu mấy từ đích liễu. từ đó nó không còn được tự do nữa. có bạn nào nói chất lượng dịch của chivi tệ, thì đúng rồi, từ cuối tháng 4 tôi định viết lại máy dịch mới ngon, trong quá trình này có lúc phải sửa code cũ phải merge code, mà lúc đó mắt nhắm mắt mở merge lệch vài cái commit, kết quả là cái cũ đang ngon thì bị dính vài cái viết dở nên nát. mà tôi thì cũng đếch đọc truyện nữa (từ hồi bị kiểm duyệt tới giờ truyện đọc nhạt như nước ốc) cũng đếch có hứng code chùa cho các bạn nữa (dm tiền donate đíu đủ maintain cái server, lâu cũng chán) cho nên cứ để đấy cũng chả thèm sửa. trên có bạn nào bảo là giá như có tay to nào đầu tư tiền vào máy dịch thì kết quả sẽ ngon, cái đó đúng, phần POS-tagging với NER của nó giờ gần như hoàn thiện rồi (vì bước này chỉ cần ngôn ngữ đầu vào), còn phần ngữ pháp + từ vựng nữa thôi. .... cái chính là sẽ đếch có thằng nào làm cái gì tử tế cho người việt đâu, vì không hồi được vốn, trừ khi là nó làm dạng service phụ cho ứng dụng chính ăn tiền.
Cái Chivi ngon nhưng cần đầu tư nhiều lớm, chưa kể chỉ lấy donate không lấy quảng cáo nữa. Trừ khi có lượng fan đông đảo.
Bây h độc giả đọc convert đã vừa đủ hiểu rồi nên cũng ko quá cần máy dịch cao cấp hoàn thiện hơn đâu.
cái bạn đọc là bản đã sửa nát rồi, chứ kết quả thuần convert nó không dễ đọc đâu. với lại cái từ điển nó phải dày nữa. ví dụ đơn giản như có từ là `SS级`, dịch sang nghĩa là `cấp ss`, nhưng về sau tự dưng lại có từ `SSS级`, kết quả dịch nó biến thành `S cấp SS`, lại phải thêm nghĩa cho cả cụm`SSS级`. Rồi thì `BOSS级` sẽ bị dịch thành `BO cấp SS`, lại phải thêm cụm to vào -- ừ mấy engine kiểu QT thường nó dịch từ trái sang phải thì trường hợp này không đúng lắm, ở đây chỉ lấy tạm ví dụ thôi. nói ngắn lại thì để kết quả dịch nó nhìn thuận mắt thì cái từ điển vietphrase nó phải có cả triệu từ, mà triệu từ này là công sức của mấy bạn converter tự thêm hết, chứ không tự dưng sinh ra. một máy dịch tử tế thì nó sẽ có một bước gọi là named entity recognition (NER), nó sẽ có một bước phụ là bóc tách những cụm từ "lạ" (ở đây là SS, SSS, BOSS) ra để xử lý riêng, rồi mới trộn lại với kết quả gốc. Có rất nhiều cấu trúc mà nếu thêm hết nghĩa vietphrase thì có mà cả tháng, ví dụ phần trăm, số lượng, miêu tả thời gian... chỉ có áp dụng NER vào mới cover được hết. thêm nữa cái khoai nữa là từ tiếng tàu thường đảm nhận nhiều từ loại, mỗi từ loại nó lại có nghĩa riêng, ví dụ từ `还` khi làm động từ thì nó nghĩa là "trả lại", nhưng khi làm phó từ (trạng ngữ) cho động từ thì nó lại có nghĩa là "còn". Trừ khi bạn thêm hết các cụm từ `还 + động từ` vào từ điển vietphrase, còn không nếu muốn đúng ngữ pháp thì bắt buộc phải sửa tay hết. ở trên tôi có nói cái gọi là POS-tagging, viết đầy đủ là part-of-speech tagging, bước này thì nó một là dùng AI hai là tự viết tay để phân tích một câu văn ra thành các cụm từ riêng biệt đi kèm với phân loại từ của từ đó, nếu phân loại chính xác thì có thể biết luôn từ `还` ở trên trong câu văn nó là phó từ hay là động từ, từ đó mà biết chọn nghĩa cho phù hợp. tl;dr: cái bạn thấy ngon là bản convert đã được sửa chán chê (mỗi chương mất 15/30 phút), chứ bản dịch máy thuần tuý hiếm khi được ngon như thế. cho nên nếu dư dả có thể ủng hộ converter để các bạn đó có thêm động lực :)
Convert giờ hiểu ý thì đúng nhưng văn phong hay thì không hẳn. Chưa kể khi đọc mình cũng phải bỏ qua kha khá từ thừa hoặc tự dịch lại trong đầu nữa. Trừ khi convert cực kĩ thì không tính rồi.
Ta có 1 người quen làm viết báo, lão cũng đam mê viết kiếm hiệp, tiên hiệp đồ mà nghe bảo viết ra mình chưa nổi thì thằng ăn cắp đã nổi trước rồi thành ra lười viết luôn.
Ý tôi là data bây h đã đủ xài rồi đó phên, ko cần cái máy dịch gì cao cấp đâu. Chứ ai chả biết Vietphrase raw ban đầu nó dở tệ. Convert phải vậy thôi phên. Hoàn hảo làm gì có. Convert kĩ thì thành nửa dịch cmr.
trước tôi cũng nghĩ 1 triệu từ là nhiều lắm rồi nhưng sau rồi mới biết là hoá ra chả là bao. cụ thể hơn thì hồi trước tôi có làm một việc, là chạy công cụ phân tích từ (AI) ra các cụm từ đơn lẻ (bước POS-tagging nói ở trên), phân tích khoảng 25k bộ truyện rồi lấy ra những từ mà xuất hiện ít nhất trong 50 bộ. Xong bước này rồi tôi hí hửng thử ghép lại với mấy cái từ điển vietphrase sưu tầm trên mạng (gộp lại cũng khoảng 100MB), kết quả là... chỉ cover chưa đầy 1/10. nguyên nhân là file 100MB nhiều từ thật, nhưng bên trong chủ yếu là rác :( nếu chỉ đọc mấy thể loại truyện dùng từ vựng hạn chế, kiểu huyền ảo lịch sử, thì 1 triệu từ này may ra đủ, chứ đọc truyện hiện đại, bối cảnh nhật bản hoặc là ACG, hoặc là truyện kỳ ảo phương tây thì không đủ được đâu. mà đây là chỉ tính các cụm từ đơn, chứ các cụm từ ghép với tiền tố, hậu tố, trung tố thì số lượng từ nó còn nhiều nữa. các biệt một số bạn còn muốn thêm cả cụm "a đích b" nữa thì nó càng nhiều. mà vấn đề hóc búa nhất là tuỳ thuộc vào văn cảnh mà một từ nó sẽ có nhiều nghĩa khác nhau. ví dụ từ "对(đối)", bình thường thì nó là giới từ nghĩa là "với/đối với", nhưng đôi khi nó lại là tính từ mang nghĩa là "đúng", hoặc là lượng từ mang nghĩa là "đôi", trường hợp cá biệt nó còn có nghĩa là "đối (đối kháng)" kiểu "1 đối 2"... chỉ thay thế cụm từ như QT thì không bao giờ xử lý dc. Hay từ "把(bả)", nếu là giới từ thì nó nghĩa là "đem", là lượng từ thì nó là "thanh (kiếm)/vốc (gạo)", nhưng làm bổ ngữ số lượng cho động từ thì nó lại có nghĩa là "phát/lần". Bảo là máy dịch cao cấp nhưng thực ra cũng chỉ là ghép các từ đơn thành các cụm từ có phân loại từ cụ thể, rồi dùng từ loại đó để trợ giúp dịch nghĩa của mấy từ đa nghĩa nói ở trên thôi, chứ cấu trúc ngữ pháp tiếng trung dạng SVO nó cũng khá giống tiếng việt, dịch thẳng word-by-word cũng chả sai bao nhiêu. p/s: giới từ là những từ mà gộp với danh từ đằng sau thành cụm từ đóng vai trò là trạng ngữ cho động từ chính làm vị ngữ. lượng từ là những từ chỉ số lượng ví dụ "thanh (kiếm)", "con (kiến)", "cái (bàn)"... bổ ngữ là từ/cụm từ đứng sau (đôi khi đứng trước) động từ bổ sung ý nghĩa cho động từ chính. trạng ngữ thì đứng trước động từ/tính từ (đôi khi đứng trước chủ ngữ).
Không hiểu gì cả chỉ thấy rất là kinh. Thôi về lại cái máng lợn dev app mobile ngu si và đọc truyện convert của mình
Đọc qua có não. Nhưng thằng main siêu phản xã hội. Đến nỗi bị thiên triều xóa rồi nhưng tôi hết truyện đọc nên cũng nhảy. Đồng chí cân nhắc.
Ai hiểu cái joke kiểu : Ta năm ngoái mua cái đồng hồ nghĩa là gì ko mấy thầy ? Ai chơi down truyện gì hay vừa tự đọc convert vừa tự sửa lỗi thì hiểu muốn ra 1 file convert trơn tru đọc ngon cũng bỏ công lắm . Còn đọc riết bắt bản thân tự thích nghi ngó cái hiểu là được éo cần chi tiết là ok
mấy câu slang kiểu như ta năm ngoái mua cái đồng hồ hoặc đồ rậm đồ sâm phá (too young too simple) là lý do tại sao tôi không chuộng vụ mỗi người tự xây dựng một cái từ điển, không phải ai cũng rảnh đi tra từng cụm từ xem nó là meme hay không. mà cụm từ dài như thế này còn dễ phát hiện, chứ mấy từ dạng "bạch học" xem không để ý xong bỏ lỡ cả đoạn thú vị. Ừ bạch học ở đây không phải là "phí công học" (bạch là phó từ) mà là chỉ bộ WhiteAlbum2. cả một loạt meme về bộ này chúng nó chơi nát, nhiều khi đọc xong mấy chương mới ngớ người ra "đệt hoá ra lại là meme WA2) mà ngạch aka meme thì tàu nó ra mới liên tục, nhiều khi phải đọc 3 4 bộ mới biết "à hoá ra đây là meme".