Cho hỏi chatgpt mình đưa một trang giới thiệu sản phẩm bằng tiếng anh . Xong mình nói nó viết ra một đoạn liệt kê mấy cái đó theo định nghĩ rùi tính năng thì chat gpt làm được ko nhỉ?
Con chatgpt đang thông dụng mình nghĩ là không được, tại vì nó sử dụng dữ liệu tĩnh được nạp sẵn. Bác thử tìm trên google mấy con mà họ bảo là có "internet access", mấy con này nó có thể truy cập vào trang web để lấy dữ liệu, may ra đáp ứng được yêu cầu của bác. Ví dụ mấy con này, mình chưa dùng thử nên không biết khả năng tới đâu. https://github.com/Significant-Gravitas/Auto-GPT https://github.com/interstellard/chatgpt-advanced
Copy text vào là nó làm thôi :v còn tùy theo vấn đề mà dùng cách copy text nào: code, plugin hay gì gì đó. Mà bọn openai nó chặn gpt plus từ Việt Nam r thì phải
Trong này có thầy nào đang làm dev về mảng này. Rành về langchain và dùng các chain hay agent của nó không nhỉ? Đang có ít vấn đề khi có nhiều hơn 1 file và khác chủ đề nhau, chưa biết phải giải quyết làm sao để nó hiểu được cần dùng file nào, hay kết hợp file nào và split file ra ntn cho hợp lý
Not available. OpenAI's services are not available in your country. Giờ còn dùng proxy với VPN để đăng ký được ko các thầy. Chatgpt4 nó còn cho dùng bản free ko nhỉ?
Có những vấn đề embedding và semantic search em thấy nó vẫn chưa đủ bác à. Ví dụ như bác có nhiều file word với pdf. Một số file có thể có nội dung hơi trùng nhau nhưng chủ đề nó vẫn khác. Một file về chế độ nghỉ việc của công ty (bao nhiêu ngày nghỉ bệnh, nghỉ thai sản là tối đa). Một file ghi cụ thể hơn về quyền lợi bảo hiểm sức khỏe, nghỉ bệnh trả lương nao nhiêu phần trăm, bảo hiểm thế nào. User nó hỏi "Lương tao tháng 5tr, nếu tao nghỉ bệnh 6 tháng thì được hưởng lương bao nhiêu? " Khả năng cao nó nhìn vào file thứ 2 rồi cứ nhân lên, nhưng làm sao để nó biết phải xem cả file 1 để biết là có giới hạn ngày nghỉ bệnh là 30 ngày/năm? Hoặc khi tạo embedding, bác phải split file ra. Sau khi cho vào model thì sự thật là nó cho nhiều cái Document nhỏ chứ không phải một cái lớn. Phần lớn trường hợp sẽ ok, nhưng khi user hỏi "Tựa đề của chương 1 là gì? " Semantic search trả cho bác phần đầu của file và dùng nó làm input cho model. Tiếp theo user hỏi "câu cuối cùng của văn bản này là gì?". Từ phía user, họ chỉ upload 1 file duy nhất. Từ phía model, bối cảnh nó hiểu /contextual awareness của nó chỉ ở đoạn đầu đó. Nên nó sẽ trả lời câu cuối của cái chunk/embedding/Document đó. Nhưng mà user muốn phải thật sự là câu cuối của văn bản trước khi split để tao embedding. Em có nghĩ vài giải pháp nhưng mà chưa hài lòng lắm. Có thể đang suy nghĩ hơi xa, phức tạp hóa vấn đề. Bác cho xin link cái delphic gì bác nói với. Google không thấy gì liên quan lắm.
Hôm trước cũng gặp trường hợp gần như này. Cần extract data từ list of documents ra JSON, mà cái document nội dung tựa tựa nhau, nên khi hỏi = vector index thì nó trả về mấy cái document chunk tào lao ko đủ nội dung. Cuối cùng phải split ra lấy cái doc chunk đầu tiên (thường data cần ở của cái job này ở chỗ đấy), xong dùng Kor (https://eyurtsev.github.io/kor/) extract ra. Còn thường ngta embed vector thì để xài Summarization với QA chứ ko phải Extraction, nên lúc được lúc ko, cái này mình cũng vẫn đang mò. Thực ra mò cũng chả được mấy vì cách tính khoảng cách vector bọn DS với DE nó làm rồi, mình nhìn vào như vịt nghe sấm chả hiểu gì, nên coi nó như blackbox để xài thôi. Lúc dùng vector để insert context vào LLMs có mấy cái "stuff", "map reduce", "map refine" các kiểu nhưng cũng ko có tác dụng gì mấy. Mấy cái vector database có metadata nhưng cũng ko biết có dùng được ko. Langchain cũng có cái router chain: https://python.langchain.com/en/latest/modules/chains/examples/multi_retrieval_qa_router.html Nó cho phép hard code dùng retriever nào cho prompt description nào. Xem thử xem có dùng đc ko. Cái bold: Mấy kiểu hỏi nhiều step thì phải dùng Agent với Tool chứ hỏi LLMs nó trả lời ko được đâu.
Thế thì là vấn đề khó đấy. Nghiêm túc thì mình thấy bọn nó bây giờ làm toàn kiểu toy project thôi. Hướng giải quyết thì mình nghĩ phải làm custom agent riêng cho bài toán của bạn. Nhưng mà bạn sẽ cần làm những thứ này, nó cũng ko quá khó nhưng để hiệu quả thì không dễ, và cũng mất thời gian: - memory - các chunking strategy - custom agent
Trường hợp này cứ search và extract bình thường thì sao bác? Sao phải dùng đến vector Còn một hướng nữa là train một cái model nhỏ cho task dạng này luôn, em nghĩ sẽ ok á
Thì cuối cùng mình extract bt chứ có dùng vector đâu . Tại muốn search toàn bộ doc, mà extract toàn bộ thì tốn token quá nên thử vector xem có được ko
Thật ra mình thấy bản của Bing hơi ngu nên nó bảo gpt4 chứ mình không tin ) với con gpt4 tốn tiền lắm, ms nó mà chạy thì tiền hàng tháng chắc phải lỗ cả tỷ, mà vấn đề là nếu 1 sản phẩm đang tốt -> tệ thì sẽ rất mất khách, nên mình không nghĩ là nó dùng gpt4 đâu
VectorDB để chạy nhanh hơn cho mấy cáse extreme thôi, kiểu hàng triệu hàng chục triệu embedding, chứ vài ngàn cái thì không bao giờ tốn thời gian -> không cần dùng.
cho hỏi tài khoản chatgpt mua ở đâu ổn các bạn? mua về muốn nạp hay nâng cấp dùng như bình thường dc k? tại sợ bị block.