假設我有一個字符串,如這樣的:如何拆分這種連接字符串:「howdoIsplitthis?」
"IgotthistextfromapdfIscraped.HowdoIsplitthis?"
我想生產:
"I got this text from a pdf I scraped. How do I split this?"
我該怎麼辦呢?
假設我有一個字符串,如這樣的:如何拆分這種連接字符串:「howdoIsplitthis?」
"IgotthistextfromapdfIscraped.HowdoIsplitthis?"
我想生產:
"I got this text from a pdf I scraped. How do I split this?"
我該怎麼辦呢?
事實證明,這個任務被稱爲word segmentation,並有一個python library,可以這樣做:
>>> from wordsegment import load, segment
>>> load()
>>> segment("IgotthistextfromapdfIscraped.HowdoIsplitthis?")
['i', 'got', 'this', 'text', 'from', 'a', 'pdf', 'i', 'scraped', 'how',
'do', 'i', 'split', 'this']
簡答:沒有現實的可能性。
龍答:
唯一的線索哪裏拆分字符串在字符串中找到有效的話。所以你需要一個預期語言的詞典,不僅包含詞根,還包括所有的詞語(這是否是正確的語言術語?)。然後,您可以嘗試查找與您的字符串的字符匹配的這些單詞的序列。
...也許通過與「自動修復」的語法檢查器 – theGleep
[python-wordsegment](https://github.com/grantjenks/python-wordsegment/)庫可以做我需要的案件。 –
「wheeloffortune」 - >「車輪」,「關閉」「或」「調」? –
@RobertLozyniak ['python-wordsegment'](https://github.com/grantjenks/python-wordsegment)的'segment'函數將它分割成'['wheel','of','fortune']' 。尼斯不是? –